| 英文摘要 |
本研究では、日本語作文評価における生成AIの効果を検証し、プロンプト設計、AIプロバイダー、料金プランという三つの要因が評価結果にどのように影響するかを明らかにした。「YNU書き言葉コーパス」の57名の学習者による作文を対象とし、二種類のプロンプト(簡潔な指示と詳細な指示)を用い、ChatGPT、Gemini、Claudeの有償版と無償版をテストした。その結果、(1)詳細な指示を含むプロンプトBが簡潔な指示のプロンプトAよりも人間評価者との一致率が高いこと、(2)有償版のGPT o1 pro modeが最も高い一致率(61.40%)を示し、次いで有償版のGemini 2.0 experimental advancedとClaude 3.5 sonnet、および無償版のClaude 3 haiku(49.12%)が続くこと、(3)各AIプロバイダーによって評価傾向に特性があり、例えばGPT o1 pro modeは上位群学習者の評価に強く、Claude 3 haikuは全体的に甘い評価に偏る傾向があること、(4)上位群学習者の作文評価における一致率が高く、中位群学習者と下位群学習者になるにつれて一致率が低下する傾向があることが明らかになった。 This study evaluates generative AI in Japanese composition, analyzing prompt design, AI providers, and payment plans. Using 57 learner compositions from the ''YNU Written Corpus,'' both paid and free versions of ChatGPT, Gemini, and Claude were tested with concise and detailed prompts. Key findings include: (1) detailed prompts improved agreement with human evaluators; (2) GPT o1 pro mode (paid) had the highest agreement (61.40%), followed by Gemini 2.0 experimental advanced and Claude 3.5 sonnet, with Claude 3 haiku (free) at 49.12%; (3) AI providers had distinct evaluation tendencies. For instance, GPT o1 pro mode performed better in evaluating high-level learners, whereas Claude 3 haiku tended to give more lenient evaluations overall; (4) agreement was higher for advanced learners and declined with lower proficiency. |