21世紀(jì)經(jīng)濟(jì)報道 記者鄭雪、馮戀閣 北京、廣州報道?生成式人工智能商業(yè)化落地探索走深,保障安全也成為其進(jìn)程中的一個重要議題。
(資料圖)
近日,全國信息安全標(biāo)準(zhǔn)化技術(shù)委員會組織(以下簡稱信安標(biāo)委)組織制定的《生成式人工智能服務(wù)安全基本要求》(征求意見稿)(以下簡稱“征求意見稿”)公開征求意見,從語料安全、模型安全、 安全措施、安全評估等多方面對生成式人工智能服務(wù)在安全方面的基本要求。
建立語料來源黑名單,明確語料可溯源
數(shù)據(jù)是生成式人工智能發(fā)展的燃料,此次征求意見稿亦對輸入數(shù)據(jù)做了相關(guān)要求。征求意見稿對于訓(xùn)練語料(Training Data)進(jìn)行明確,即所有直接作為模型訓(xùn)練輸入的數(shù)據(jù),包括預(yù)訓(xùn)練、優(yōu)化訓(xùn)練過程中的輸入數(shù)據(jù)。
值得關(guān)注的是,歐盟的《人工智能法》也明確了Training Data的范圍。北京航空航天大學(xué)法學(xué)院副教授趙精武在接受21世紀(jì)經(jīng)濟(jì)報道記者采訪時表示,相較于歐盟模式而言,征求意見稿側(cè)重于對人工智能系統(tǒng)背后算法模型的影響,將預(yù)訓(xùn)練、優(yōu)化訓(xùn)練等環(huán)節(jié)的輸入端數(shù)據(jù)均納入“訓(xùn)練語料”的范疇。
訓(xùn)練數(shù)據(jù)良莠不齊一直是大模型成長難以忽視的重難點。征求意見稿對語料來源安全進(jìn)行了規(guī)制,要對各來源語料進(jìn)行安全評估,單一來源語料內(nèi)容中含違法不良信息超過5%的,應(yīng)將該來源加入黑名單,而進(jìn)入黑名單的語料將不會用以訓(xùn)練。
中國政法大學(xué)數(shù)據(jù)法治研究院教授張凌寒指出,目前國家對人工智能生成內(nèi)容的治理高度重視,對投放市場的AI產(chǎn)品推行黑名單機(jī)制是必然的?!坝绕溽槍惩庹Z料源,意見稿已經(jīng)給出了相對細(xì)化的評判標(biāo)準(zhǔn),黑名單機(jī)制具有較高可操作性?!?/p>
不過,北京師范大學(xué)法學(xué)院博士生導(dǎo)師、中國互聯(lián)網(wǎng)協(xié)會研究中心副主任吳沈括指出,實踐中建立語料來源黑名單,還需關(guān)注如何建立具有廣泛覆蓋性的語料參照標(biāo)準(zhǔn),對語料做出準(zhǔn)確的識別和認(rèn)定。
環(huán)球律師事務(wù)所合伙人孟潔介紹道,目前語料內(nèi)容篩選的方式主要包括:關(guān)鍵詞過濾、分類模型、人工篩選等。關(guān)鍵詞篩選需要企業(yè)提前預(yù)置詞庫,成本較高,無法做到窮盡列舉;人工篩選則存在人力成本高、效率低等問題;分類模型是機(jī)器學(xué)習(xí)任務(wù)中的常見手段,但處理復(fù)雜數(shù)據(jù)有限或需要大量訓(xùn)練數(shù)據(jù)等問題還需要解決。
征求意見稿還對語料來源的可追溯進(jìn)行明確,指出開源語料應(yīng)具有該語料來源的開源授權(quán)協(xié)議或相關(guān)授權(quán)文件。自采語料,包括自行生產(chǎn)的語料以及從互聯(lián)網(wǎng)采集的語料,應(yīng)具有采集記錄,不應(yīng)采集他人已明確聲明不可采集的語料。
“對語料可追溯性提出要求的主要目的是增強(qiáng)可解釋性,是作為暫行辦法中對模型透明度要求的補(bǔ)充和細(xì)化,也是避免、解決權(quán)益爭議和實現(xiàn)產(chǎn)業(yè)監(jiān)督的重要支持?!睆埩韬诮邮?1世紀(jì)經(jīng)濟(jì)報道記者采訪時表示。
趙精武提示,自采語料、商業(yè)語料均能夠?qū)φZ料采集行為進(jìn)行記錄和存檔較好地進(jìn)行約束,而開源語料則需要規(guī)范化開源方式,尤其是開源授權(quán)協(xié)議等文件應(yīng)當(dāng)載明數(shù)據(jù)來源,由于開源自身的開放性,這可能對現(xiàn)有的開源方式產(chǎn)生一定影響,相較于前者,難度略高。
保護(hù)知識產(chǎn)權(quán)、個人信息
書籍、音樂、影像等版權(quán)內(nèi)容有時也會被用于大模型訓(xùn)練,相關(guān)知識產(chǎn)權(quán)風(fēng)險令人擔(dān)憂。
征求意見稿中提出應(yīng)設(shè)置語料以及生成內(nèi)容的知識產(chǎn)權(quán)負(fù)責(zé)人。在訓(xùn)練前,相關(guān)負(fù)責(zé)人需要對預(yù)料中的知識產(chǎn)權(quán)侵權(quán)情況進(jìn)行識別,不應(yīng)使用有侵權(quán)問題的語料進(jìn)行訓(xùn)練。
“征求意見稿在現(xiàn)有知識產(chǎn)權(quán)法體系下重申和細(xì)化了相關(guān)知識產(chǎn)權(quán)合規(guī)要求?!壁w精武說道。保護(hù)知識產(chǎn)權(quán)并不必然阻礙技術(shù)創(chuàng)新,細(xì)化訓(xùn)練語料階段的知識產(chǎn)權(quán)保護(hù)要求,是為了避免人工智能系統(tǒng)生成具有著作權(quán)侵權(quán)問題的圖像、文字等。
對于提供者而言,語料的內(nèi)容安全還需尤其關(guān)注個人信息。今年6月,Open AI被匿名人士發(fā)起集體訴訟,訴訟的焦點在于OpenAI是否按照其隱私政策合法合理地收集并利用用戶個人信息,以及是否有效識別并剔除其訓(xùn)練數(shù)據(jù)來源中“偶然”包含的個人信息。
征求意見稿指出,應(yīng)使用包含個人信息的語料時,獲得對應(yīng)個人信息主體的授權(quán)同意,或滿足其他合法使用該個人信息的條件;應(yīng)使用包含敏感個人信息的語料時,獲得對應(yīng)個人信息主體的單獨授權(quán)同意,或滿足其他合法使用該敏感個人信息的條件;應(yīng)使用包含人臉等生物特征信息的語料時,獲得對應(yīng)個人信息主體的書面授權(quán)同意,或滿足其他合法使用該生物特征信息的條件。
趙精武指出,征求意見稿對個人信息保護(hù)所提出的相關(guān)要求實質(zhì)上還是在《個人信息保護(hù)法》等法律法規(guī)的要求范圍內(nèi),并沒有發(fā)生實質(zhì)意義上的義務(wù)增加?!皩I研發(fā)企業(yè)最直接影響是,既有的個人信息業(yè)務(wù)合規(guī)范圍既包括了算法模型研發(fā)、設(shè)計階段,也包括人工智能系統(tǒng)應(yīng)用階段,實現(xiàn)全業(yè)務(wù)流程的個人信息安全保護(hù)?!?/p>
“征求意見稿重申個人信息保護(hù)的內(nèi)容,并且針對生成式人工智能工作原理和產(chǎn)業(yè)現(xiàn)狀適當(dāng)擴(kuò)展。這些可操作的規(guī)則能夠幫助企業(yè)在不侵害個人信息權(quán)益的前提下開展業(yè)務(wù),降低合規(guī)成本,有利于個人信息保護(hù)制度在生成式人工智能領(lǐng)域的落地。”張凌寒進(jìn)一步說道。
延續(xù)立法邏輯,企業(yè)實踐可參考注意
“《征求意見稿》繼承了《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》《生成式人工智能服務(wù)管理暫行辦法》等規(guī)定中的立法邏輯,進(jìn)一步明晰了AI大模型開發(fā)企業(yè)提供了內(nèi)部合規(guī)的具體落地建議,具有很強(qiáng)的實操性。”孟潔在接受21世紀(jì)經(jīng)濟(jì)報道記者采訪時指出。
征求意見稿中還針對模型安全提出了諸多要求,涵蓋生成內(nèi)容、服務(wù)透明度等多方面。以交互界面提供大模型服務(wù)的,應(yīng)在顯著或便于查看的位置公開用戶、服務(wù)局限性、機(jī)制機(jī)理等信息、第三方基礎(chǔ)模型使用情況。生成內(nèi)容則需要保證安全、準(zhǔn)確和可靠,包括內(nèi)容積極正向、有效內(nèi)容含量高以及所包含的數(shù)據(jù)及表述應(yīng)符合科學(xué)常識或主流認(rèn)知、不含錯誤內(nèi)容等。
在孟潔看來,實踐中的模型安全應(yīng)包括技術(shù)安全、內(nèi)容安全、使用安全。大模型提供者應(yīng)該依照此次征求意見稿以及此前多部規(guī)章制度的要求,從這三方面做好保障。
值得注意的是,征求意見稿總則部分明確,本文件支撐《生成式人工智能服務(wù)管理暫行辦法》,提出了提供者需遵循的安全基本要求。提供者在向相關(guān)主管部門提出生成式人工智能服務(wù)上線的備案申請前,應(yīng)按照本文件中 各項要求逐條進(jìn)行安全性評估,并將評估結(jié)果以及證明材料在備案時提交。
她提醒道,此處的“上線備案”,不同于既有的“算法備案”“輿論屬性安全評估”,也與以往“雙新評估”在名稱上存在差異,需要相關(guān)企業(yè)特別注意并積極與監(jiān)管部門進(jìn)行確認(rèn)和跟進(jìn),確保在產(chǎn)品上線前完成相關(guān)備案手續(xù),履行自身的合規(guī)義務(wù)。
吳沈括指出,目前,征求意見稿還并未成為強(qiáng)制性國家標(biāo)準(zhǔn)?!安贿^如果未來監(jiān)管機(jī)關(guān)在監(jiān)管活動中將其選定為執(zhí)法標(biāo)準(zhǔn),它將產(chǎn)生相應(yīng)的約束力?!彼硎?。