中國政法大學張濤在《比較法研究》2024年第4期上發(fā)表題為《生成式人工智能訓練數(shù)據集的法律風險與包容審慎規(guī)制》的文章中指出:
生成式人工智能是一種可以生成內容(如文本、圖像、音頻、視頻等)的人工智能技術,若要開發(fā)能夠執(zhí)行此種操作的應用程序,就必須使用大量數(shù)據訓練底層模型,使之能夠識別數(shù)據集中的模式和結構。訓練數(shù)據集是直接作為模型訓練輸入的數(shù)據,包括預訓練、優(yōu)化訓練過程中的輸入數(shù)據;訓練數(shù)據集的類型、規(guī)模和使用方式直接決定生成式人工智能模型的成敗。
從理論與實踐來看,生成式人工智能的訓練數(shù)據集具有雙重法律地位:一是從功能定位的角度看,在人工智能時代,訓練數(shù)據集已經成為數(shù)字基礎設施的重要組成部分;二是從法律屬性的角度看,訓練數(shù)據集是一種聚合型權益客體,涉及多個主體的多種權益。
為了檢視訓練數(shù)據集可能存在的法律風險,有必要采取一種多維或多部門法融合交叉的視角,根據不同的法律規(guī)則進行風險識別與評估。從理論與實踐來看,生成式人工智能訓練數(shù)據集的突出法律風險主要包括著作權法風險(即未經許可使用作品)和個人信息保護法風險(即違法處理個人信息)。然而,現(xiàn)有規(guī)制框架卻呈現(xiàn)風險防范形式化的現(xiàn)象,許可使用、合理使用等著作權法律規(guī)則難以因應規(guī)?;挠柧殧?shù)據集,而個人同意、目的限制與數(shù)據最小化等個人信息保護機制及原則亦存在效能不彰的問題。為此,有必要重構生成式人工智能訓練數(shù)據集的規(guī)制框架,首先需要明確訓練數(shù)據集的規(guī)制目標,應當從以權利保護為中心進階為以公平使用為目的,即從單純地保護相關主體的權利和利益,進階為促進訓練數(shù)據集的公平、合理、有效使用,以實現(xiàn)生成式人工智能的社會價值和公共利益的最大化。其次需要明確訓練數(shù)據集的規(guī)制路徑,應當從命令控制型規(guī)制轉向包容審慎規(guī)制,即從單純地依靠法律和行政的強制性規(guī)制,到兼顧法律、倫理、技術標準等多元規(guī)范以及政府、企業(yè)、社會組織等多元主體的協(xié)同性規(guī)制,以適應生成式人工智能的技術特性和規(guī)制需求。
為了實現(xiàn)生成式人工智能訓練數(shù)據集的包容審慎規(guī)制,一是要構建包容審慎的著作權法規(guī)制,包括重構合理使用的標準與范圍、構建著作權臨時許可裁定制度、發(fā)布著作權合規(guī)最佳實踐指南;二是要邁向包容審慎的個人信息保護法規(guī)制,包括拓展個人信息處理的合法性基礎、改造告知同意機制、實施個人信息保護影響評估。
編輯:武卓立