AI契約論⑥:一方水土養(yǎng)一方AI?數(shù)據(jù)合規(guī)對人工智能訓(xùn)練意味著什么-每日消息
南方財經(jīng)全媒體 吳立洋 鄭雪 實(shí)習(xí)生陽飄飄 上海、北京報道
編者按:
在2023年過去的幾個月里,各大公司搶灘大模型、GPT商用化探索、算力基礎(chǔ)設(shè)施看漲……如同15世紀(jì)開啟的大航海時代,人類交往、貿(mào)易、財富有了爆炸性增長,空間革命席卷全球。變革同時,也帶來了秩序的挑戰(zhàn),數(shù)據(jù)泄露、個人隱私風(fēng)險、著作權(quán)侵權(quán)、虛假信息......此外,AI帶來的后人類主義危機(jī)已然擺在桌面,人們該以何種姿態(tài)迎接人機(jī)混雜帶來的迷思?
(資料圖片)
此刻,尋求AI治理的共識、重塑新秩序成了各國共同面對的課題。南財合規(guī)科技研究院將推出AI契約論系列報道,從中外監(jiān)管模式、主體責(zé)任分配、語料庫數(shù)據(jù)合規(guī)、AI倫理、產(chǎn)業(yè)發(fā)展等維度,進(jìn)行剖析,以期為AI治理方案提供一些思路,保障負(fù)責(zé)任的創(chuàng)新。
隨著AI產(chǎn)業(yè)的快速發(fā)展,被用于訓(xùn)練的數(shù)據(jù)集規(guī)模亦呈指數(shù)級上升趨勢,人類在漫長歷史中積累的經(jīng)驗(yàn)與文化正快速被人工智能這一新興智能形態(tài)所汲取,歲月的積累成為培養(yǎng)未來科技的基底,知識的璀璨星光同時照亮了文明的過去、現(xiàn)在與未來。
隨著越來越多的數(shù)據(jù)被AI所學(xué)習(xí)乃至理解,人們欣喜地看到,人工智能的智慧與能力正發(fā)生翻天覆地的變化,這種進(jìn)化速度遠(yuǎn)超已知的任何一種自然或人類造物,但同樣也帶來了社會對未知的隱憂。
難以完全確認(rèn)的是,在人工標(biāo)識和清洗那些被AI所汲取的數(shù)據(jù)和文本時,那些同樣根植于歷史的系統(tǒng)性惡意與偏見能夠被抹去。人們不可避免地發(fā)問,當(dāng)似乎有著無限潛能的AI在仰望亙古以來的知識星空時,是否應(yīng)同時對其教化以人類社會的精神和道德法則。
善意、德行與律法,當(dāng)從AI生成與成長的源頭追溯是什么塑造了人工智能的形態(tài),似乎仍需回到由人類所生產(chǎn)與處理的數(shù)據(jù)本身,而如何在數(shù)據(jù)的構(gòu)建和使用中建立規(guī)則,同樣蘊(yùn)含著我們與AI這一內(nèi)容、工具抑或是伙伴真正的相處模式,以及互相影響的未來。
在數(shù)據(jù)的合規(guī)標(biāo)準(zhǔn)中,個人隱私與版權(quán)是當(dāng)前已具備一定實(shí)踐標(biāo)準(zhǔn)的監(jiān)管領(lǐng)域,但面對AIGC龐大的數(shù)據(jù)需求量和生產(chǎn)的“黑箱化”,隱私與版權(quán)合規(guī)在人工智能爆發(fā)期仍面臨很多難以完全依據(jù)過往經(jīng)驗(yàn)解決的新問題。
數(shù)據(jù)的源頭
根據(jù)自第一代發(fā)布的GPT訓(xùn)練數(shù)據(jù)庫至GPT-3的數(shù)據(jù)庫總量,有觀點(diǎn)推測,ChatGPT的基礎(chǔ)GPT-4模型使用的訓(xùn)練數(shù)據(jù)量已超過10TB,1.8萬億參數(shù)。
(表1:歷代CPT數(shù)據(jù)庫構(gòu)成及大小
數(shù)據(jù)來源:CPT論文、Alan D. Thompson)
如表1所示,在對第一代GPT模型進(jìn)行訓(xùn)練時,OpenAI僅使用了4.6GB的書籍?dāng)?shù)據(jù),隨著版本的更新迭代,維基百科、期刊、Reddit鏈接、Common Crawl等其他數(shù)據(jù)被逐漸加入到訓(xùn)練數(shù)據(jù)中。
選擇書籍作為數(shù)據(jù)庫基礎(chǔ)的原因也并不難理解——作為一種精煉且結(jié)構(gòu)化的內(nèi)容,書籍文本所具備的信息量和邏輯性高,非常適合人工智能進(jìn)行學(xué)習(xí)。
“除數(shù)據(jù)規(guī)模外,決定數(shù)據(jù)集對模型訓(xùn)練效果的因素還包括數(shù)據(jù)的準(zhǔn)確度和數(shù)據(jù)分布。”綠盟科技(300369)天樞實(shí)驗(yàn)室主任顧杜鵑在接受南方財經(jīng)全媒體記者采訪時表示,數(shù)據(jù)集在收集階段會集合大量冗余數(shù)據(jù)、缺失數(shù)據(jù)和有毒數(shù)據(jù),需要貼合目標(biāo)任務(wù)對數(shù)據(jù)進(jìn)行選擇和預(yù)處理;而數(shù)據(jù)集合中不同類型的數(shù)據(jù)分布(例如正常/不正常數(shù)據(jù)的黑樣本與白樣本比例)同樣會影響模型訓(xùn)練的效果。
除數(shù)據(jù)質(zhì)量外,從當(dāng)前各公司大模型研發(fā)實(shí)踐來看,可得性亦是其構(gòu)建訓(xùn)練數(shù)據(jù)集時需要重點(diǎn)考慮的因素。今年4月,作為GPT模型訓(xùn)練數(shù)據(jù)的重要來源之一,擁有5000多萬DAU、3.66億帖子數(shù)量的社交新聞?wù)军c(diǎn)Reddit宣布將針對AI大模型訓(xùn)練,對其企業(yè)級API收費(fèi),這無疑將抬高數(shù)據(jù)的獲得門檻。
多位業(yè)內(nèi)人士在與記者交流時指出,以數(shù)據(jù)質(zhì)量和可得性為主要衡量維度,當(dāng)前AIGC廠商的數(shù)據(jù)來源大致可分為三個面向:
其一是各個廠商歷史積累的數(shù)據(jù),數(shù)據(jù)的具體類型和質(zhì)量取決于廠商的主營業(yè)務(wù)情況;其二是公開渠道爬取的數(shù)據(jù),受限于當(dāng)前各類反爬取技術(shù)和規(guī)則,此類數(shù)據(jù)獲取將愈加困難;其三則是各類免費(fèi)或付費(fèi)的第三方數(shù)據(jù)庫與數(shù)據(jù)集,例如GPT數(shù)據(jù)來源中全球最大的免費(fèi)網(wǎng)頁數(shù)據(jù)庫Common Crawl,各類高校,以及企業(yè)科研機(jī)構(gòu)所搜集和處理的開源數(shù)據(jù)集如WikiQA(微軟研究院發(fā)布)、EXEQ-300K(北京大學(xué)、賓夕法尼亞大學(xué)、中山大學(xué)發(fā)布)、ArxivPapers(Facebook、倫敦大學(xué)學(xué)院、DeepMind發(fā)布)等。
不同數(shù)據(jù)來源的特征與實(shí)際應(yīng)用需求間的耦合性,則形成了開發(fā)者不同的數(shù)據(jù)集構(gòu)建策略,而合規(guī),則是其中重要的原則之一。
顧杜鵑指出,開發(fā)者在制定數(shù)據(jù)收集策略時,需綜合衡量在數(shù)據(jù)收集上的預(yù)算限制、數(shù)據(jù)質(zhì)量、數(shù)據(jù)合規(guī)性以及數(shù)據(jù)源可靠性,對比各收費(fèi)和免費(fèi)數(shù)據(jù)源是否具備多樣性、準(zhǔn)確性、合法合規(guī)性等,結(jié)合開發(fā)目標(biāo),最終決定AI開發(fā)項(xiàng)目的數(shù)據(jù)源構(gòu)成。
隱私保護(hù)與版權(quán)
在數(shù)據(jù)成為企業(yè)重要競爭力的今天,擺在企業(yè)面前的,除了回答如何獲取數(shù)據(jù)的問題之外,最為直接的問題是,如何確保來源繁雜且格式不一的AI訓(xùn)練數(shù)據(jù)在個人隱私與版權(quán)層面的合規(guī)。
國內(nèi)大模型方面,百度、阿里、科大訊飛(002230)等積累了豐富數(shù)據(jù)資源的企業(yè)紛紛加入大模型之戰(zhàn)。其中,隱私數(shù)據(jù)成為數(shù)據(jù)治理和使用中不可逾越的紅線。
一位不愿具名的算法工程師對記者介紹稱,近些年來,企業(yè)對于隱私數(shù)據(jù)進(jìn)行專門治理,公司內(nèi)部所積累的相關(guān)數(shù)據(jù)很難接觸,相關(guān)數(shù)據(jù)需要經(jīng)過脫敏等措施才可使用。“從技術(shù)上來說,不會故意使用相關(guān)數(shù)據(jù);如果發(fā)現(xiàn)相關(guān)漏洞,第一選擇一定是堵上漏洞,現(xiàn)在誰都不敢去踩紅線?!?/p>
大模型自身“大力出奇跡”的暴力美學(xué),擁有的數(shù)據(jù)越多、質(zhì)量越高,大模型的能力也就愈加強(qiáng)大。如上文所言,除企業(yè)本身所積累的數(shù)據(jù)之外,公開數(shù)據(jù)、開源數(shù)據(jù)集等也構(gòu)成大模型數(shù)據(jù)來源的一部分。
某互聯(lián)網(wǎng)大廠人工智能架構(gòu)師對記者表示,“對于大模型來說,數(shù)據(jù)集的范圍肯定是越多越好,覆蓋的領(lǐng)域越廣越好。開源的數(shù)據(jù)集的使用則會根據(jù)哪部分?jǐn)?shù)據(jù)的適用途徑進(jìn)行匹配。”
但其中,隨著數(shù)據(jù)來源的擴(kuò)大,如何解決人工智能模型訓(xùn)練數(shù)據(jù)中的可版權(quán)性問題,成為關(guān)注的焦點(diǎn)。即便是號稱“開源”的各類數(shù)據(jù)庫,也并非意味著完全不存在版權(quán)層面的合規(guī)問題,當(dāng)前各類開源平臺往往以開放數(shù)據(jù)共享、社區(qū)數(shù)據(jù)許可協(xié)議等協(xié)議方式規(guī)范相關(guān)內(nèi)容的署名權(quán)、繼承權(quán)、盈利權(quán)、演繹權(quán)等權(quán)益。
具體到開發(fā)層面,我國的AIGC領(lǐng)域的版權(quán)規(guī)制亦存在爭議。上海大邦律師事務(wù)所高級合伙人游云庭在接受記者采訪時表示,根據(jù)相關(guān)法律,利用數(shù)據(jù)訓(xùn)練人工智能實(shí)際上存在“先上車再買票”的問題:“我國著作權(quán)法并沒有規(guī)定合理使用的相關(guān)情況。線上線下(300959)的聲音文字圖片,如果有獨(dú)創(chuàng)性,是個人創(chuàng)作的,就構(gòu)成受著作權(quán)法保護(hù)的作品,未經(jīng)著作權(quán)人許可進(jìn)行使用,涉嫌侵權(quán)?!?/p>
值得關(guān)注的是,傳統(tǒng)的“授權(quán)許可模式”對于大模型的數(shù)據(jù)訓(xùn)練存在天然困境,不僅在于實(shí)操層面難以落地,更在于對產(chǎn)業(yè)研發(fā)的長期影響。業(yè)界有觀點(diǎn)認(rèn)為,需將數(shù)據(jù)納入合理使用的范疇進(jìn)行規(guī)制。
可以看到,日本、英國、歐盟等已對將數(shù)據(jù)挖掘作為合理使用的情形進(jìn)行了立法確認(rèn):日本以“計算機(jī)信息分析”的名義規(guī)定了文本數(shù)據(jù)挖掘的著作權(quán)例外,英國同樣引入文本和數(shù)據(jù)挖掘的版權(quán)許可或例外情況,歐盟則選擇“非科研目的”例外的謹(jǐn)慎方案……這些監(jiān)管舉措的背后,則是各國對AIGC規(guī)制路徑的探索。
規(guī)則實(shí)踐
梳理近期不同國家和地區(qū)對AIGC的立法不難發(fā)現(xiàn),基于不同的法律體系和產(chǎn)業(yè)發(fā)展愿景,不同國家選取的實(shí)踐路徑亦各有側(cè)重。
以近期剛剛在歐洲議會通過《人工智能法案》談判授權(quán)草案的歐盟為例,這部于2021年正式成為歐盟委員會提案的法案中規(guī)定,人工智能大模型的創(chuàng)建者需要在人工智能使用之前進(jìn)行評估并減輕各種風(fēng)險。相關(guān)公司必須公開訓(xùn)練人工智能使用的數(shù)據(jù),以確保其使用受版權(quán)法保護(hù)的數(shù)據(jù)訓(xùn)練。
而隨著立法期間ChatGPT的橫空出世,歐洲立法者很快對法案增添了修正案,擴(kuò)大了AI開發(fā)者的禁止行為清單,其中包括“禁止從社交媒體或監(jiān)控攝像頭中抓取生物特征數(shù)據(jù)以創(chuàng)建面部識別數(shù)據(jù)庫(侵犯人權(quán)和隱私權(quán))”。
在立法層面的法律法規(guī)不斷推進(jìn)的同時,司法層面的案例亦開始涌現(xiàn),今年1月,三名藝術(shù)家聯(lián)合對Stability Al、DeviantArt和Midjourney發(fā)起集體訴訟,指控其訓(xùn)練數(shù)據(jù)侵害了藝術(shù)家版權(quán)。
作為全球首例知名的AIGC商業(yè)化應(yīng)用領(lǐng)域,算法模型及訓(xùn)練數(shù)據(jù)版權(quán)侵權(quán)案,原告認(rèn)為Stable Diffusion等AI模型“將無數(shù)受版權(quán)保護(hù)的圖像存儲和合并為訓(xùn)練圖像后……生成完全基于訓(xùn)練圖像的‘新’圖像”,從而獲得商業(yè)利潤,擠占了原作品的交易市場。
雖然Stable Diffusion案距塵埃落定無疑還將面臨長久的訴訟過程,但在部分國家,為AI產(chǎn)業(yè)大開綠燈已成為重要的政策指引方向。
近日,日本最高教育行政長官、文部科學(xué)大臣在會議上重申,日本政府不會對人工智能訓(xùn)練過程中使用的數(shù)據(jù)實(shí)施版權(quán)保護(hù)。上海大邦律游云庭告訴南方財經(jīng)全媒體記者,根據(jù)日本著作權(quán)法第30條第4款規(guī)定,如果不以欣賞作品中表達(dá)的思想或情感為目的,且沒有不合理地?fù)p害著作人權(quán)益的,可以合理使用他人享有著作權(quán)的作品。
“考慮到立法已經(jīng)先行,雖然會有動漫,影視制作的利益群體的游說,個人認(rèn)為這個事情法律上的爭議還是會比較小?!庇卧仆ケ硎?。
“整體來看,各國都在基于自身人工智能產(chǎn)業(yè)發(fā)展的不同定位和戰(zhàn)略訴求,設(shè)計和實(shí)現(xiàn)自身的治理框架和治理主張,并引入與之匹配的治理機(jī)制。”
北京師范大學(xué)法學(xué)院博士生導(dǎo)師、中國互聯(lián)網(wǎng)協(xié)會研究中心副主任吳沈括指出,以歐盟為例,基于其強(qiáng)調(diào)數(shù)字主權(quán)的立場,其更傾向于從數(shù)據(jù)治理角度強(qiáng)化與AI相關(guān)的數(shù)據(jù)流轉(zhuǎn)利用規(guī)則,日本則表現(xiàn)出以產(chǎn)業(yè)數(shù)據(jù)促進(jìn)流轉(zhuǎn)利用的治理思路?!拔覈鴱?qiáng)調(diào)的是一種以風(fēng)險為導(dǎo)向的綜合治理思路。”他進(jìn)一步表示。
某種程度上,隱私與版權(quán)仍是沿用人類已有的法律體系對AI利用生產(chǎn)資料的方式加以監(jiān)督,而如何保證AI這一新興事物的“思考”與“輸出”符合人類的倫理和道德,卻是一項(xiàng)幾無先例可循的監(jiān)管實(shí)踐。在本專題的下一篇,我們將進(jìn)一步探討如何由從數(shù)據(jù)角度對AI生成與訓(xùn)練加以梳理和監(jiān)管,以打造真正“向善”的下一代人工智能。
標(biāo)簽:
- AI契約論⑥:一方水土養(yǎng)一方AI?數(shù)
- 從一艙難求到降速航行 全球集運(yùn)市
- 3款家常菜這樣煮更好吃,有媽媽的味
- 冷凍的粽子能放多久?粽子煮熟了常
- 遵義市(珠海)招商引資推介會舉行|
- 蘋果冬季儲存方法?蘋果在什么溫度
- 新鮮黃桃怎么保存?黃桃要去皮嗎?
- 正宗的泰國香米是什么樣的?泰國香
- 農(nóng)村什么養(yǎng)殖業(yè)利潤最大?養(yǎng)殖業(yè)什
- 帶魚炸多久能熟?炸熟的帶魚能冷凍
- 銀耳泡水后可以放多久?銀耳泡水可
- 海藻泡多久最好?干海藻用熱水泡還
- 北斗“神器”助力智慧農(nóng)業(yè) 科技為
- 環(huán)球今熱點(diǎn):千年非遺“打鐵花”絢
- 環(huán)球視訊!美以銷售設(shè)備涉芬太尼為
- 特里斯坦湯普森老婆_特里斯坦湯普森
- 即時焦點(diǎn):長安期貨6月6日原油日報
- 6月6日國內(nèi)鋅合金市場價格匯總
- 世界微頭條丨長沙300臺特警鐵騎護(hù)航
- 日本政府計劃投資15萬億日元普及氫
- 零食批發(fā)市場進(jìn)貨貨源網(wǎng)站有哪些
- 中國石化發(fā)布“美麗石化-企業(yè)生產(chǎn)與
- 618特惠!蘋果 14 (A2884) 512GB
- 銀行信用卡催收客服怎么催收?逾期
- @家長 保護(hù)孩子視力 要做到這3點(diǎn)
- 視點(diǎn)!肯尼迪侄子呼吁和中國、俄羅
- 6月6日連豆粕早盤上漲
- 芒種至,暑氣盛 核力益君康為您種
- 全力確保高考安全順利進(jìn)行 天天短訊
- 天天簡訊:全省商標(biāo)地理標(biāo)志品牌建設(shè)