21世紀經濟報道 記者鄭雪、馮戀閣 北京、廣州報道?生成式人工智能商業化落地探索走深,保障安全也成為其進程中的一個重要議題。
(資料圖)
近日,全國信息安全標準化技術委員會組織(以下簡稱信安標委)組織制定的《生成式人工智能服務安全基本要求》(征求意見稿)(以下簡稱“征求意見稿”)公開征求意見,從語料安全、模型安全、 安全措施、安全評估等多方面對生成式人工智能服務在安全方面的基本要求。
建立語料來源黑名單,明確語料可溯源
數據是生成式人工智能發展的燃料,此次征求意見稿亦對輸入數據做了相關要求。征求意見稿對于訓練語料(Training Data)進行明確,即所有直接作為模型訓練輸入的數據,包括預訓練、優化訓練過程中的輸入數據。
值得關注的是,歐盟的《人工智能法》也明確了Training Data的范圍。北京航空航天大學法學院副教授趙精武在接受21世紀經濟報道記者采訪時表示,相較于歐盟模式而言,征求意見稿側重于對人工智能系統背后算法模型的影響,將預訓練、優化訓練等環節的輸入端數據均納入“訓練語料”的范疇。
訓練數據良莠不齊一直是大模型成長難以忽視的重難點。征求意見稿對語料來源安全進行了規制,要對各來源語料進行安全評估,單一來源語料內容中含違法不良信息超過5%的,應將該來源加入黑名單,而進入黑名單的語料將不會用以訓練。
中國政法大學數據法治研究院教授張凌寒指出,目前國家對人工智能生成內容的治理高度重視,對投放市場的AI產品推行黑名單機制是必然的?!坝绕溽槍惩庹Z料源,意見稿已經給出了相對細化的評判標準,黑名單機制具有較高可操作性?!?/p>
不過,北京師范大學法學院博士生導師、中國互聯網協會研究中心副主任吳沈括指出,實踐中建立語料來源黑名單,還需關注如何建立具有廣泛覆蓋性的語料參照標準,對語料做出準確的識別和認定。
環球律師事務所合伙人孟潔介紹道,目前語料內容篩選的方式主要包括:關鍵詞過濾、分類模型、人工篩選等。關鍵詞篩選需要企業提前預置詞庫,成本較高,無法做到窮盡列舉;人工篩選則存在人力成本高、效率低等問題;分類模型是機器學習任務中的常見手段,但處理復雜數據有限或需要大量訓練數據等問題還需要解決。
征求意見稿還對語料來源的可追溯進行明確,指出開源語料應具有該語料來源的開源授權協議或相關授權文件。自采語料,包括自行生產的語料以及從互聯網采集的語料,應具有采集記錄,不應采集他人已明確聲明不可采集的語料。
“對語料可追溯性提出要求的主要目的是增強可解釋性,是作為暫行辦法中對模型透明度要求的補充和細化,也是避免、解決權益爭議和實現產業監督的重要支持?!睆埩韬诮邮?1世紀經濟報道記者采訪時表示。
趙精武提示,自采語料、商業語料均能夠對語料采集行為進行記錄和存檔較好地進行約束,而開源語料則需要規范化開源方式,尤其是開源授權協議等文件應當載明數據來源,由于開源自身的開放性,這可能對現有的開源方式產生一定影響,相較于前者,難度略高。
保護知識產權、個人信息
書籍、音樂、影像等版權內容有時也會被用于大模型訓練,相關知識產權風險令人擔憂。
征求意見稿中提出應設置語料以及生成內容的知識產權負責人。在訓練前,相關負責人需要對預料中的知識產權侵權情況進行識別,不應使用有侵權問題的語料進行訓練。
“征求意見稿在現有知識產權法體系下重申和細化了相關知識產權合規要求?!壁w精武說道。保護知識產權并不必然阻礙技術創新,細化訓練語料階段的知識產權保護要求,是為了避免人工智能系統生成具有著作權侵權問題的圖像、文字等。
對于提供者而言,語料的內容安全還需尤其關注個人信息。今年6月,Open AI被匿名人士發起集體訴訟,訴訟的焦點在于OpenAI是否按照其隱私政策合法合理地收集并利用用戶個人信息,以及是否有效識別并剔除其訓練數據來源中“偶然”包含的個人信息。
征求意見稿指出,應使用包含個人信息的語料時,獲得對應個人信息主體的授權同意,或滿足其他合法使用該個人信息的條件;應使用包含敏感個人信息的語料時,獲得對應個人信息主體的單獨授權同意,或滿足其他合法使用該敏感個人信息的條件;應使用包含人臉等生物特征信息的語料時,獲得對應個人信息主體的書面授權同意,或滿足其他合法使用該生物特征信息的條件。
趙精武指出,征求意見稿對個人信息保護所提出的相關要求實質上還是在《個人信息保護法》等法律法規的要求范圍內,并沒有發生實質意義上的義務增加?!皩I研發企業最直接影響是,既有的個人信息業務合規范圍既包括了算法模型研發、設計階段,也包括人工智能系統應用階段,實現全業務流程的個人信息安全保護?!?/p>
“征求意見稿重申個人信息保護的內容,并且針對生成式人工智能工作原理和產業現狀適當擴展。這些可操作的規則能夠幫助企業在不侵害個人信息權益的前提下開展業務,降低合規成本,有利于個人信息保護制度在生成式人工智能領域的落地。”張凌寒進一步說道。
延續立法邏輯,企業實踐可參考注意
“《征求意見稿》繼承了《互聯網信息服務算法推薦管理規定》《生成式人工智能服務管理暫行辦法》等規定中的立法邏輯,進一步明晰了AI大模型開發企業提供了內部合規的具體落地建議,具有很強的實操性?!泵蠞嵲诮邮?1世紀經濟報道記者采訪時指出。
征求意見稿中還針對模型安全提出了諸多要求,涵蓋生成內容、服務透明度等多方面。以交互界面提供大模型服務的,應在顯著或便于查看的位置公開用戶、服務局限性、機制機理等信息、第三方基礎模型使用情況。生成內容則需要保證安全、準確和可靠,包括內容積極正向、有效內容含量高以及所包含的數據及表述應符合科學常識或主流認知、不含錯誤內容等。
在孟潔看來,實踐中的模型安全應包括技術安全、內容安全、使用安全。大模型提供者應該依照此次征求意見稿以及此前多部規章制度的要求,從這三方面做好保障。
值得注意的是,征求意見稿總則部分明確,本文件支撐《生成式人工智能服務管理暫行辦法》,提出了提供者需遵循的安全基本要求。提供者在向相關主管部門提出生成式人工智能服務上線的備案申請前,應按照本文件中 各項要求逐條進行安全性評估,并將評估結果以及證明材料在備案時提交。
她提醒道,此處的“上線備案”,不同于既有的“算法備案”“輿論屬性安全評估”,也與以往“雙新評估”在名稱上存在差異,需要相關企業特別注意并積極與監管部門進行確認和跟進,確保在產品上線前完成相關備案手續,履行自身的合規義務。
吳沈括指出,目前,征求意見稿還并未成為強制性國家標準?!安贿^如果未來監管機關在監管活動中將其選定為執法標準,它將產生相應的約束力?!彼硎尽?/p>