探討生成式AI應用在日語作文評價的效果：以提示詞設計、AI供應商和付費方案為中心｜Verification of Generative AI Effectiveness in Japanese Composition Evaluation: Focusing on the Impact of Prompts, AI Providers, and Pricing Plans

陳相州

月旦知識庫會員登入｜元照網路書店｜月旦品評家

熱門：

首頁

臺灣期刊 法律公行政治醫事相關財經社會學教育其他

大陸期刊 核心重要期刊

DOI文章

	本站僅提供期刊文獻檢索。　　【月旦知識庫】是否收錄該篇全文，敬請【登入】查詢為準。最新【購點活動】
篇名	探討生成式AI應用在日語作文評價的效果：以提示詞設計、AI供應商和付費方案為中心｜Verification of Generative AI Effectiveness in Japanese Composition Evaluation: Focusing on the Impact of Prompts, AI Providers, and Pricing Plans
並列篇名	日本語作文評価における生成AIの効果検証―プロンプト、AIプロバイダー、料金の影響を中心に―
作者	陳相州
中文摘要	本研究探討了生成式AI在日語作文評價中的應用效果，重點考察了提示詞設計、AI供應商和付費方案三個因素對評價結果的影響。研究使用了「YNU書面語料庫」中57名學習者完成的作文任務，並透過兩種不同的提示詞（簡潔指示和詳細指示）對ChatGPT、Gemini和Claude的付費版和免費版進行測試。研究發現：(1)相較於簡潔指示的提示詞，詳細指示的提示詞與人類教師的一致率更高；(2)付費版GPT o1 pro mode的一致率最高(61.40%)，其次是付費版Gemini 2.0 experimental advanced、Claude 3.5 sonnet以及免費版Claude 3 haiku(49.12%)；(3)各AI供應商在評價傾向上存在差異，如GPT o1 pro mode在評價上位群學習者時表現較好，而Claude 3 haiku則整體評價偏寬鬆；(4)在上位群學習者作文的評價上，AI與人類教師的一致率較高，而隨著學習者作文能力降低，AI與人類教師的一致率也下降。
英文摘要	本研究では、日本語作文評価における生成AIの効果を検証し、プロンプト設計、AIプロバイダー、料金プランという三つの要因が評価結果にどのように影響するかを明らかにした。「YNU書き言葉コーパス」の57名の学習者による作文を対象とし、二種類のプロンプト（簡潔な指示と詳細な指示）を用い、ChatGPT、Gemini、Claudeの有償版と無償版をテストした。その結果、(1)詳細な指示を含むプロンプトBが簡潔な指示のプロンプトAよりも人間評価者との一致率が高いこと、(2)有償版のGPT o1 pro modeが最も高い一致率(61.40%)を示し、次いで有償版のGemini 2.0 experimental advancedとClaude 3.5 sonnet、および無償版のClaude 3 haiku(49.12%)が続くこと、(3)各AIプロバイダーによって評価傾向に特性があり、例えばGPT o1 pro modeは上位群学習者の評価に強く、Claude 3 haikuは全体的に甘い評価に偏る傾向があること、(4)上位群学習者の作文評価における一致率が高く、中位群学習者と下位群学習者になるにつれて一致率が低下する傾向があることが明らかになった。 This study evaluates generative AI in Japanese composition, analyzing prompt design, AI providers, and payment plans. Using 57 learner compositions from the ''YNU Written Corpus,'' both paid and free versions of ChatGPT, Gemini, and Claude were tested with concise and detailed prompts. Key findings include: (1) detailed prompts improved agreement with human evaluators; (2) GPT o1 pro mode (paid) had the highest agreement (61.40%), followed by Gemini 2.0 experimental advanced and Claude 3.5 sonnet, with Claude 3 haiku (free) at 49.12%; (3) AI providers had distinct evaluation tendencies. For instance, GPT o1 pro mode performed better in evaluating high-level learners, whereas Claude 3 haiku tended to give more lenient evaluations overall; (4) agreement was higher for advanced learners and declined with lower proficiency.
起訖頁	30-53
關鍵詞	生成式AI、日語作文評價、提示詞設計、AI供應商、付費方案、Generative AI、Japanese composition evaluation、prompt design、AI provider、payment plan、生成AI、日本語作文評価、プロンプト設計、AIプロバイダー、料金プラン
刊名	台灣日語教育學報
期數	202506 (44期)
出版單位	台灣日本語文學會
該期刊-上一篇	在CEFR的Can-do指標下應用生成AI來編寫日語教材之研究：以B1等級為主事前轉換手法之驗證｜Generative AI-Based Design of Japanese Language Teaching Materials Using CEFR Can-Do Statements: An Empirical Evaluation at the B1 Level
該期刊-下一篇	JFL入門班級導入單元內自由進度學習的實踐研究：以大學暑期先修課程為例｜The Practice of Self-Paced Learning Within Units in Introductory JFL Classes: A Case Study of University Summer Pre-Enrollment Programs