大模型訓練數據的主要來源是網絡上的公開數據,開發者一般通過爬取公開網頁和收集開源數據來大規模獲取訓練數據。隨著數據財產權益保護的強化,獲取海量訓練數據的主要方式面臨著合法性挑戰。數據財產權益人眾多、數據使用行為難追溯導致交易成本升高,大模型開發者無法通過市場機制獲得數據財產權益人的許可來確保訓練數據的合法性。在市場失靈的情形下,允許開發者合理使用數據進行大模型訓練,可以增進社會福利,且一般不會損害數據財產權益人的市場利益。採取集體管理或法定許可等替代方案給數據財產權益人帶來的收益非常有限,卻會產生更高的制度成本,並給我國大模型的發展造成不利影響。因此,我國應當建立大模型訓練數據的合理使用制度,為技術發展提供合法性預期。在規則設計上,大模型訓練數據合理使用的對象應限於公開數據;目的應限於預訓練;方式應包括訓練涉及的數據處理行為;應允許數據財產權益人以技術措施選擇退出合理使用。 |