| 英文摘要 |
本研究は、生成AIと人間評価者による作文評価の評価傾向の相違を分析し、プロンプトエンジニアリングによる精度向上を検証した。分析の結果、人間評価者が持つ文脈理解などの「暗黙的な評価基準」を、生成AIがプロンプトから解釈できないことが評価が乖離する主因だと判明した。そこで、この「暗黙の基準」を言語化してプロンプトに具体的に反映させたところ、生成AIと人間との評価一致度は著しく向上した。結論として、両者の評価差異を分析し、プロンプトを継続的に改善するプロンプトエンジニアリングが、生成AIによる評価の精度向上に極めて有効であることを実証した。 This study explores the differences in evaluation tendencies between generative AI and human raters, and assesses the effectiveness of prompt engineering in enhancing evaluation accuracy. The analysis revealed that the primary source of discrepancies lies in generative AI’s inability to recognize and apply the“implicit evaluation standards”that human raters naturally employ. When these implicit standards were explicitly articulated and embedded in the prompts, the consistency between AI and human-generated evaluations improved substantially. These findings demonstrate that identifying and addressing discrepancies between AI and human ratings, coupled with the continuous refinement of prompts, is essential for advancing the accuracy of AI-based evaluation. |