月旦知識庫
月旦知識庫 會員登入元照網路書店月旦品評家
 
 
  1. 熱門:
首頁 臺灣期刊   法律   公行政治   醫事相關   財經   社會學   教育   其他 大陸期刊   核心   重要期刊 DOI文章
台灣日本語文學報 本站僅提供期刊文獻檢索。
  【月旦知識庫】是否收錄該篇全文,敬請【登入】查詢為準。
最新【購點活動】


篇名
運用大型語言模型自動評估日語學習者作文之潛力研究--提示詞設計對於模型內部評估一貫性及人機評分一致性之影響|The Potential of Automated Assessment of Japanese Language Learners' Compositions Using Large Language Models: The Impact of Prompt Design on Evaluation Consistency and Agreement with Human Raters
並列篇名
大規模言語モデルを用いた日本語学習者作文の自動評価の可能性--プロンプト設計が評価の一貫性と人間評価者との一致度に及ぼす影響
作者 陳相州
中文摘要
本研究旨在探討提示詞具體程度對大型語言模型(Large Language Models)在評估日語學習者作文時的模型內部評估一貫性,以及其與人類評分者評分一致程度的影響。研究採用兩類提示詞進行對比:(A)簡潔指示和(B)詳細指示,並選用GPT o1 pro mode、Gemini 2.0 experimental advanced及Claude 3.5 sonnet三種模型,每個模型對各篇作文進行三次評估。研究結果顯示,GPT o1 pro mode和Claude 3.5 sonnet在兩類提示詞條件下均呈現高度內部評估一貫性,而Gemini 2.0 experimental advanced在使用提示詞(B)時一貫性顯著提升。就人機評分一致性而言,三種模型在採用提示詞(B)時皆呈現較高的一致性。依學習者作文能力程度進行更進一步分析時發現,作文能力程度較高者的作文獲得較高的評估一致性,而隨著能力程度降低,一致性亦顯著下降。然而,提示詞(B)的運用有助於提升各程度的作文評價的一致程度。儘管如此,由於Kappa係數普遍低於0.4,顯示人機評分尚未達到「中度一致」水準。
英文摘要
本研究では、日本語学習者が作成した作文を、大規模言語モデルを用いて自動評価する際、プロンプトの詳細度がモデル内の評価一貫性や人間評価者との一致度に与える影響を検証した。具体的には、(1)プロンプトA(簡潔な指示)と(2)プロンプトB(詳細な指示)の2種類を設定し、GPT o1 pro mode、Gemini 2.0 experimental advanced、Claude 3.5 sonnetの3モデルを用い、日本語学習者の作文をそれぞれ3回評価した。その結果、GPT o1 pro modeとClaude 3.5 sonnetはプロンプトAとBのどちらにおいても高い一貫性を示したが、Gemini 2.0 experimental advancedはプロンプトBを用いることで著しく一貫性が向上することが確認された。人間評価者との一致度の比較では、いずれのモデルもプロンプトB(詳細な指示)を用いた場合に一致度が上昇する傾向が見られた。また、学習者の作文能力別に分析すると、上位群学習者の作文評価において一致度が高く、学習者のレベルが低下するほど評価の一致率が顕著に低下することが示されたが、プロンプトB(詳細な指示)を使用することで一致率の改善が見られた。ただし、Kappa係数は0.4未満のケースが多く、依然として「中程度の一致」には達していないことが示唆された。
This study investigates how prompt specificity affects evaluation consistency within large language models and their agreement with human raters when automatically assessing Japanese language learners' compositions. The research compared two types of prompts: (A) concise instructions and (B) detailed instructions, using three models - GPT o1 pro mode, Gemini 2.0 experimental advanced, and Claude 3.5 sonnet - each performing three evaluations per composition. Results showed that GPT o1 pro mode and Claude 3.5 sonnet maintained high consistency across both prompt types, while Gemini 2.0 experimental advanced demonstrated markedly improved consistency when using the detailed prompt (B). Regarding agreement with human raters, all models showed increased alignment when using the detailed prompt (B). Analysis by learner proficiency revealed higher agreement rates for advanced learners' compositions, with agreement rates declining significantly for lower proficiency levels. However, the use of detailed prompt (B) showed improvement in agreement rates across all levels. Nevertheless, Kappa coefficients frequently remained below 0.4, suggesting that“moderate agreement”levels have not yet been achieved.
起訖頁 155-176
關鍵詞 大型語言模型自動作文評估提示詞設計模型內部評估一貫性人機評分一致性Large Language ModelsAutomated Composition AssessmentPrompt DesignEvaluation ConsistencyAgreement with Human Raters大規模言語モデル自動作文評価プロンプト設計評価の一貫性人間評価との一致度
刊名 台灣日本語文學報  
期數 202506 (57期)
出版單位 台灣日本語文學會
該期刊-上一篇 留學生職涯輔導之實務性探討--符合日本職場需求的ICT技能分析
 

新書閱讀



最新影音


優惠活動




讀者服務專線:+886-2-23756688 傳真:+886-2-23318496
地址:臺北市館前路28 號 7 樓 客服信箱
Copyright © 元照出版 All rights reserved. 版權所有,禁止轉貼節錄