發表時間:2024-11-07 10:37:02
文章作者:小編
瀏覽次數:
當前,識別AI生成內容的技術手段均未成熟。如何在潛在風險,治理成本、目標成效之間取得合理平衡成為關鍵所在。建議小步試錯,探尋科學的風險管理方案。
內容治理邏輯的擴展:人類原創還是AI生成?
對于AI生成內容在未來全部信息內容中所占比例,不同機構的預測口徑有所不同,從20%-90%不等[2]。但不容否認的是:隨著生成式AI技術應用的普及,AI生成內容比例正在逐步攀升。有研究顯示,僅僅從2023到2024的一年間,包含AI生成內容的網頁數量就激增了2848%[3]。與此同時,內容生產模式的變革也在推動著內容治理邏輯的悄然變化,從過去針對內容性質——是否違法有害,擴展至針對內容來源——是否為AI生成。
在AI生成內容早期階段,大模型廠商從提升模型透明度,支持權利保護等目標出發,嘗試開展標識工作。特別在版權方面,盡管對AI生成內容的可版權性仍存在較大爭議,但明確其內容性質來源,仍然有助于可能的權利人主張其權益,激勵社會公眾利用新工具進行內容創作;同時,也有利于明確模型廠商與使用主體之間的權責分界,前者在生成階段有更多管控能力,而后者需對生成內容的后續傳播利用承擔更多責任。
政府、社會公眾對標識的推動,主要源于AI生成內容對信息傳播秩序的潛在風險。AI生成偽造虛假信息的案例時有發生。如合成虛假災情、新聞擾亂公共秩序[4],利用AI換臉合成虛假色情圖片視頻侵犯個人名譽等等[5]。有害信息,不論是人類生成,還是AI生成,均可以被傳統的內容治理所覆蓋,同樣可以采取刪除、屏蔽等措施最大程度消除其影響。然而,推動內容治理擴展更重要的考慮是:生成式AI大幅提升了內容生產的效率,多模態內容更豐富、交互更逼真,如果一旦被大規模應用于謠言等虛假內容的制造,將可能造成公眾對于真實信息的混淆,引發公眾對媒體的普遍不信任[6]。盡管到今天,AI生成技術在新聞媒體等內容產業的應用程度并沒有此前預想的那么高,也并未看到AI生成內容對媒體傳播秩序的實際沖擊,但隨著AI的持續推進,這種擔憂仍然是真實存在的。
如何把AI生成內容區分出來?
區分AI生成內容首先是一個技術問題[7]。目前,識別的技術路徑主要包括生成內容檢測和來源數據追蹤兩個方向。前者主要通過尋找數字內容所包含的生成特征來確定內容是否由AI生成或篡改。后者則是通過對數字內容全生命周期的相關信息(是否由AI生成、修改)的獨立記錄來間接反映數字內容的性質。然而對于AI內容識別,目前尚缺乏成熟可靠的技術方案。
1.內容檢測路徑
內容檢測是最為直觀的解決方案。雖然目前在人類的感官層面,AI生成內容與人工創作內容已相差無幾,但是在細節層面,仍然存在著可被機器或者技術專家所覺察的特征。
在圖像內容中,涉及圖像邊緣、紋理等細節的處理時,AI生成內容會出現像素級的不一致;涉及比例與對稱性、光照與陰影等現實物理特征時,AI生成內容會出現細微的錯誤;在視頻內容中,涉及物體運動軌跡、光照與陰影的變化時,AI生成內容會表現出輕微的不自然、缺乏連貫性或物理規律的異常;同理,在音頻、文本等AI生成信息中也都存在類似微小的區別。
然而,即使AI生成內容在眾多方面與人工內容存在差異,成熟的、高效且可靠的合成內容檢測技術尚不可得。評估AI生成內容檢測的技術主要需要考慮以下要素:通用性、可解釋性、效率、魯棒性、計算成本等。在圖像領域,已經出現了利用深度學習模型、機器學習模型和統計模型等多種模型進行檢測的技術,但是通用性、魯棒性普遍表現不佳。據報道,使用不同方法在不同的訓練和測試子集中獲得的準確率僅為從61%到70%。當合成圖像經過后處理(如壓縮和調整大小),檢測準確率將會進一步降低,難以在實踐中可靠運作。
2.數據跟蹤路徑
來源數據跟蹤是對“內容性質識別”的間接解決方案。來源數據跟蹤并不依賴內容本身,而是通過對于內容的變動(生成、修改等)進行記錄,從側面反映內容的真實性、完整性。當前的來源數據跟蹤方法主要包括顯式標識和隱式標識。
(1)顯式標識
顯式標識最大特點是可以直接被人感知,提示告知效果顯著,但其實踐效果還有待評估。顯式標識包括內容標簽和可見水印等。內容標簽與數字內容分離存在(如在特定場景中的周邊提示),無法在生成合成內容的全生命周期都起到區分效果;而可見水印僅限于內容的一部分,容易被裁剪或移除;當可見水印被應用在整個內容的大部分區域,會降低數字內容的質量。
(2)隱式標識
隱式標識是指在生成合成內容或數據中添加的,不能被用戶直接感知、但能通過技術手段處理的標識。目前主要有數字水印和元數據記錄兩種技術路徑。
數字水印是機器可讀的水印,可通過對內容進行肉眼不可見的擾動來嵌入附加來源信息。基于被擾動方式的不同,可以分為基于LSB的水印、離散余弦變換(DCT)水印、LLM水印等。但數字水印的效果同樣存在疑問。復雜算法生成的水印需要大量的計算資源來讀取,成本高效率低;簡單算法生成的水印容易被去除和篡改,安全性不足。
元數據記錄則是另一種方法,通過將內容變動生成的元數據獨立儲存在與數字內容相同的文件中,用以提供于其內容屬性、來源等信息。基于獨立儲存的特征,這種方法雖然相較之下效率更高,但也存在明顯缺陷。首先,元數據需要長時間存儲,還需要投入資源進行管理和查詢優化,增加了成本;其次,元數據原則上可以被任意的添加、修改、抹除,很難保證完整性與真實性。雖可以通過數字指紋或簽名技術來提升安全性,但這也會帶來額外成本;再次,規避元數據記錄的門檻較低。用戶可以通過截圖或外部設備拍攝等非下載方式繞過元數據記錄。
不論是數字水印還是元數據,隱私標識面臨的最大挑戰是其技術目標的實現對治理生態提出了很高要求。考慮到網絡傳播鏈路的復雜性,寫入隱式標識,并進行讀取、驗證,最終對用戶進行提示,完成這一閉環需要生態主體的高度協作,兼顧算法的保密性與跨平臺的互通識別。若缺乏成熟的技術和治理規范,不僅不能實現來源辨別的目的,且可能會加劇欺騙或混淆的風險。
產業界對于AI生成內容標識的自發探索
在全球范圍內,人工智能企業、大型網絡平臺基于透明度、可信賴等原則,圍繞AI生成內容的標識,已自發展開探索。大模型方面,ChatGPT生成的圖像內容使用元數據記錄進行標識[8];Meta AI創建或編輯的圖像包含可見水印[9]。國內企業開發的人工智能系統如元寶、豆包、文小言等都均已其生成的圖像添加顯式標識。互聯網平臺方面, Meta規定用戶需要對所分享的包含經數字手段(如使用AI)生成或修改的逼真視頻或擬真音頻的內容進行標識[10],同時,Meta也正在進行相關嘗試,如檢測到的圖像是由平臺旗下AI生成,將為其添加標識。[11]X對于利用AI虛構或者模擬真實人物的媒體內容,或者通過AI改變媒體內容從而扭曲其含義的媒體內容會添加顯式標識以提供額外的背景信息或者直接刪除該內容[12]。國內平臺如小紅書、微博等也已上線用戶自主聲明功能[13]。
國內外的探索實踐,體現了以下共同點:其一、首先選擇在圖像、視頻等最可能產生混淆誤認的領域進行嘗試,大模型企業在生成階段對內容進行顯性標識;其二、傳播平臺對用戶進行提示,在用戶分享利用AI生成的逼真內容時主動聲明,同時基于元數據等技術探索標識路徑。此外,國外更多體現為企業自發形成產業聯盟,推進開放的技術標準的形成[14]。
AI生成內容標識:基于動態風險的治理探索
AI生成內容帶來了與以往完全不同的風險,推動著各方嘗試明確AI生成與人類創造的邊界。然而,針對AI生成內容的標識,目前尚未形成成熟的技術解決方案。總體上,出于“防患于未然”的風險預防思路,標識工作處于一種自發探索的狀態。與之對應的,在全球治理規則層面,目前大多是一些籠統的原則性要求,對于標識的實現方式尚無細致規定,從而為實踐探索留有了較大空間。
1.在不斷試錯驗證的過程中,探尋合理的風險管理方案
建議采取開放推薦的方式,鼓勵相關主體積極探索包括內容檢測、數字水印等在內的多種技術方式。對于元數據的跨主體讀取與驗證方式,通過AB實驗等方式不斷完善,在得到普遍實踐認可的技術框架之后,再逐步進行擴展。對于標識的反刪除反篡改的攻防,更是一個“魔高一尺,道高一丈”的過程,需要行業各主體進行協同應對。此外,公眾對標識的了解與應用痛點,也決定了標識工作將會在動態中尋求最佳實踐。
2.基于場景區分不同主體的治理角色
對于AI生成內容,AI生成技術的提供者與部署者具有明確的主體角色差異,需適配不同規則。例如:歐盟《人工智能法》依據主體角色的不同,相應建立了不同的標識規范。其第50條2款規定AI系統的提供者應當實現其輸出內容可以以機器可讀的格式標記;第4款規定生成或操縱構成深度偽造的圖像、音頻或視頻內容的AI系統的部署者應當披露該內容是人為生成或操縱的。可見,前者更強調技術的“開發者”重在提供“機器可讀”的技術方案,“部署者”重在對深度偽造的內容“披露”其性質。
3.避免大而全,將治理資源聚焦在“真正的風險領域”
全面標識聽起來“大而美好”,但實質上卻可能有礙于標識目的的實現,讓真正具有風險的內容融入普遍被標識的信息海洋,易使公眾信息過載,控制風險的作用大打折扣,在此背景下,可考慮限定標識的范圍。
一是在領域上的限定。鑒于AI生成技術的通用性,在信息傳播領域之外有大量的生成應用(如滿足模型訓練的數據合成、服務于加工潤色目的的AI生成,如地圖、游戲渲染;B端的AI辦公場景等等),在這些內容傳播風險較小的領域,標識工作并不具有優先緊迫性,或可以通過負擔較小的方式探索;
二是對標識內容上的限定。將有限資源集中于風險較高的領域。正如我國《互聯網信息服務算法推薦管理規定》所采取的思路——“對于導致公眾混淆或者誤認的,應當在生成或者編輯的信息內容的合理位置、區域進行顯著標識,向公眾提示深度合成情況。這也反映了當前國內外標識實踐的共識。正如Meta的內容政策:“當我們確信部分AI內容不會違反我們的政策時,我們會在審核隊列中刪除這些內容。這使得我們的審核資源可以更多的關注于那些可能違反我們規則的內容。”
過度標識的負外部性已有所浮現。據報道,僅通過圖像編輯軟件的AI功能對照片進行除塵、去斑等微小的操作就會導致照片上傳到社交平臺時被標記為“AI生成”[15]。此類標識可能會引發“反向混淆”,讓公眾將人工創作內容誤認為“生成合成內容”,對于知識產權、人格權益保護乃至公共信任產生不利的影響。為避免過度標識,還需重點探索“標識的例外規則”。
4.培養公眾在AI時代的“信息素養”
多么完美的識別規則,最終也只能起到輔助判斷的作用,無法替代公眾對信息內容作最后的真偽判斷,個人永遠是自己“選擇相信內容”的最終把關人。信息爆炸的時代,越需提升對信息真實與否的敏感度。正如網絡原住民比他們的上一輩,會更加謹慎地審視網絡信息一樣,在AI時代,人們更要告別“無圖無真相”的判斷準則。以標識規則為契機,培養公眾面對網絡內容的理性判斷,形成AI時代個人“信息素養”,是內容治理中更為關鍵的一環。
關注多享有數,持續為您分享行業熱點要聞!
四川多享信息技術有限公司是一家專注于數字化服務、系統開發、新媒體營銷、農村電商的專業互聯網公司,公司位于成都高新區天府二街,成立16年,擁有豐富開發經驗,至今已助力5000+中小企業實現數字化轉型升級。
研發了B2C商城系統、私域電商系統、分銷商城系統、S2B2b2C供應鏈電商系統、小程序商城系統等,支持中臺云倉、供應商、自營商城、直播、短視頻、分銷、零售商管理、運營商管理、營銷工具、數據分析、會員儲值、積分商城等功能,幫助企業實現數字化轉型,助力降本增效,獲取更多收益!
- 01-132025的生意增長,必須看到的機遇
- 01-09淘寶推出「送禮物」功能:領取時限24小時,春節「送禮大戰」愈演愈烈
- 01-07抖音電商投入數億元成立“小商家幫扶基金”
- 01-06如何構建數據產品:2025年數據行業開啟的新技能
- 01-02工信部:推動“5G+工業互聯網”創新發展
- 12-31豆包定價一元的野心:字節跳動打響AI突圍戰
- 12-27直播內容卷出新高度,行業還有紅利嗎?
- 12-26十年一輪回,微信“送禮物”能否復制紅包奇跡?
- 12-26《2025全球消費者趨勢》,消費者更深思熟慮了
- 12-252024 AI大模型年度十大關鍵詞發布
- 12-25政企辦公應用「鴻蒙化」勢頭正勁
- 12-242025年7個令人關注的數據治理趨勢
- 12-24從 OpenAI 12 天發布會里,我們看到了行業的四個關鍵問題
- 12-23互聯網入口不再屬于瀏覽器,未來是對話式AI的
- 12-23人工智能時代的數據戰略
- 12-20第三季度我國上市互聯網企業市值大漲 環比上升25.4%
- 12-20政策春風助力零售業,AI+SaaS引領數字化轉型與增長新機遇
- 12-19微信小店灰測“送禮物”功能
- 12-192024年十大科技進步,除了AI還有這九個
- 12-18私域運營深度解析:6大策略提升客戶生命周期價值