| 英文摘要 |
本研究では、日本語学習者が作成した作文を、大規模言語モデルを用いて自動評価する際、プロンプトの詳細度がモデル内の評価一貫性や人間評価者との一致度に与える影響を検証した。具体的には、(1)プロンプトA(簡潔な指示)と(2)プロンプトB(詳細な指示)の2種類を設定し、GPT o1 pro mode、Gemini 2.0 experimental advanced、Claude 3.5 sonnetの3モデルを用い、日本語学習者の作文をそれぞれ3回評価した。その結果、GPT o1 pro modeとClaude 3.5 sonnetはプロンプトAとBのどちらにおいても高い一貫性を示したが、Gemini 2.0 experimental advancedはプロンプトBを用いることで著しく一貫性が向上することが確認された。人間評価者との一致度の比較では、いずれのモデルもプロンプトB(詳細な指示)を用いた場合に一致度が上昇する傾向が見られた。また、学習者の作文能力別に分析すると、上位群学習者の作文評価において一致度が高く、学習者のレベルが低下するほど評価の一致率が顕著に低下することが示されたが、プロンプトB(詳細な指示)を使用することで一致率の改善が見られた。ただし、Kappa係数は0.4未満のケースが多く、依然として「中程度の一致」には達していないことが示唆された。 This study investigates how prompt specificity affects evaluation consistency within large language models and their agreement with human raters when automatically assessing Japanese language learners' compositions. The research compared two types of prompts: (A) concise instructions and (B) detailed instructions, using three models - GPT o1 pro mode, Gemini 2.0 experimental advanced, and Claude 3.5 sonnet - each performing three evaluations per composition. Results showed that GPT o1 pro mode and Claude 3.5 sonnet maintained high consistency across both prompt types, while Gemini 2.0 experimental advanced demonstrated markedly improved consistency when using the detailed prompt (B). Regarding agreement with human raters, all models showed increased alignment when using the detailed prompt (B). Analysis by learner proficiency revealed higher agreement rates for advanced learners' compositions, with agreement rates declining significantly for lower proficiency levels. However, the use of detailed prompt (B) showed improvement in agreement rates across all levels. Nevertheless, Kappa coefficients frequently remained below 0.4, suggesting that“moderate agreement”levels have not yet been achieved. |