本研究探索人工智慧於在地性知識──「法律考試」任務上的表現與潛力。研究團隊操控微調訓練數據的數量,證明了訓練數據的數量與模型效能之間的相關性。研究使用了微風(Breeze)模型作為基礎模型,經過不同數據量微調產生新模型,並與GPT-3.5、GPT-4做比較。使用三個數據集評估其做題能力:大規模多任務理解數據集、臺灣大規模多任務理解數據集以及2023臺灣律師第一試選擇題。我們發現增加微調數據量能有效提升模型效能,甚至能與商用大模型(規模數十倍於本文使用之基礎模型)比肩。本文實踐了了使用小型模型增強專業領域的效能,能適應特定的在地知識或獨特法律規範──也可能應用其他特化知識,如醫療、商業、人文學科等領域的應用需求。 |