36氪 - 科技频道 前天 17:07
当谣言搭上“AI”的东风
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章探讨了AI标识制度在应对AI生成内容带来的虚假信息挑战中的作用。文章指出,AI标识作为内容治理链条的前端支点,具有技术潜力,但同时也存在技术短板。文章分析了AI生成内容的“更易”、“更多”、“更真”的特性,以及AI标识制度的价值与局限性,强调了AI标识应与现有内容治理体系协同,聚焦高风险领域,实现治理效能的提升,并提升公众的信息素养。

🚨 AI生成内容带来了新的挑战:由于AI技术的进步,虚假信息更易于生成、批量生产,且更具迷惑性,对内容治理提出了新要求。例如,AI被用于生成谣言、虚假宣传,甚至冒充明星带货,对公众造成负面影响。

💡 AI标识制度的价值与局限:AI标识通过显式和隐式标识,在技术层面为内容治理赋能,有助于降低AI生成内容的可信度。然而,AI标识也面临“易规避”、“易伪造”、“易误判”等技术局限,且实施成本较高,因此,AI标识的有效性存在不确定性。

✅ AI标识应与现有治理体系协同:AI标识应作为现有内容治理体系的补充,聚焦高风险领域,如谣言、虚假宣传等,而非试图覆盖所有AI生成内容。对于低风险领域,可探索多元治理路径,并明确生成平台与传播平台的责任。

📢 提升公众信息素养至关重要:在AI创作无处不在的未来,加强信息素养教育,引导公众建立对信息媒介的客观认知,是更为基础性的工作。

AI标识制度在应对虚假信息“更多更真”的治理挑战中,展现出积极的技术潜力,可作为内容治理链条的重要前端支点。但同时也需正视,作为仍在探索中的治理手段,AI标识具有明显的技术短板,需要与现有的内容生态治理体系相互协同,聚焦高风险领域,实现治理效能的提升。

正如半年前我们在公众号文章:《AI生成的内容可以被区分出来么?》所担忧的那样,随着AI在内容领域的快速应用,利用AI生成谣言、进行虚假宣传正在对公众带来负面影响。据南都大数据研究院不完全统计,2024年搜索热度较高的50个国内AI风险相关舆情案例中,超过1/5与AI造谣有关。 [1] 进入2025年,“西藏定日县地震一小孩被压废墟”等涉AI谣言频繁登上舆论焦点。 [2] 此外,AI合成换脸用于虚假宣传等违法案件频发,如不法商家冒充孙俪等明星带货 [3] 、杜撰“苗古金贴非遗传承人” [4] ,以此牟取流量与收益。

一、AI新技术与治理老难题

与以往相比,AI生成的违法有害内容,在性质上并没有发生根本变化。AI只是将原本存在的内容治理“老问题”进一步放大加速,主要集中在三个方面:

一是“更易”,即更低的门槛。生成高度“真实感”内容已不再依赖专业知识或写作技能。中国互联网联合辟谣平台报道,在中部某省村落,村民们通过将网络热点关键词粘贴进AI模型生成文章,发布后获取流量收益。 [5] 技术赋能下,大量非专业的“草根”也能制造出接近真实的虚假内容。

二是“更多”,即技术可令虚假信息“批量化生产”。例如“医疗泰斗客死他乡”这一谣言,嫌疑人通过算法指令控制AI生成煽情谣言,借500个账号矩阵实现日均1万条产出,几乎成为“工业化造谣”。“垃圾进、垃圾出”的“AI污染”现象,也是虚假信息批量生产所导致的次生负面表现。

三是“更真”,即多模态、多细节的信息更具迷惑性。AI生成的谣言往往掺杂伪装性的“新闻语言”和视觉要素,极具欺骗性。“西安市鄠邑区地下出热水”这一谣言包含多种细节,令普通人难以分辨真假。 [6]

这三类风险并非简单叠加,而是在现实传播场景中形成了“乘法”的放大效应,加剧了内容治理的挑战。同步,也促使当前AI内容治理的新路径——AI标识制度在实践中检验其有效性与局限性。

二、AI标识的治理价值与自身局限

针对AI生成内容带来的“低门槛”“大批量”“更逼真”的治理挑战,我国逐步引入了技术标识新路径。以“部门规章+规范性文件+国家强制性技术标准”的全面规范体系 [7] ,建立了显式标识 (用户可感知的提示形式) 和隐式标识 (文件元数据中可被机器识别的技术标记) 的双重标识机制。标识的责任主体覆盖生成合成服务提供者、内容传播平台、用户等全链条主体。

对于内容生成平台,要求对AI生成内容,添加元数据隐式标识;对可能造成混淆误认的内容,按内容类型 (文本、图片、音频、视频等) 在指定位置添加显式标识;对于传播平台,要求提醒用户主动声明AI生成内容,并进行标注,同时对生成平台添加的元数据等隐式标识进行核验,并根据核验结果进行相应标识等。

(一)理论上,AI标识能够为内容治理提效赋能

标识路径的本质是“以技治技”,面对内容生成的提效,让技术同样为治理赋能。一方面,通过“隐式标识”,将治理关口前移至内容生成阶段,通过自动生成标识,更早期、更精准地将AI生成内容识别出来。若上游模型服务提供者能够在生成内容中嵌入稳定有效的标识,在不考虑标识被规避、破坏的情形下,下游传播平台可通过技术检测,对相关内容进行快速识别和重点判断。使其在面对“低门槛”“大批量”的AI生成合成内容时,能够在更早期介入内容治理,从而提升识别效率、强化风险管理。

另一方面,显式标识有助于降低相关内容的可信度。一项发表在《PNAS Nexus》期刊的研究显示,“AI生成”的显式标签往往会削弱受众对内容的信任。研究项目让4976名受试者对不同类型的新闻标题进行评估,发现无论新闻内容真假与否,被标注为“AI生成”的标题均被认为更不准确,且受试者的分享意愿也更低。 [8] 因此,作为一种“中间态”的提醒机制,“显示标识”能够在无法立即确认真伪的情况下,起到最低限度的警示作用,减少潜在风险升级扩散的可能。

值得注意的是,也正因为“显示标识”具有降低内容可信度的特点,其适用范围会有所限定。以避免过度标识后对用户带来的信息过载,甚至无法建立基本的信息信任等弊端。当前,AI广泛应用于内容生产行业,带来提质增效、激发创意等积极效用,推动广告素材生产、教育培训方案等内容产业从“千人千面”走向“一人千面”。为进一步促进AI技术在内容生产领域带来的积极价值,我国目前对显示标识的适用范围有所限定,将其聚焦于易引起“混淆误认”等负面影响的领域,而非一刀切适用。

(二)实践中,标识效用的发挥仍面临较大的不确定性

作为主要依赖技术手段的治理方式,AI标识不可避免地具有技术局限性。一是“易规避”,哈佛大学的一项研究指出,“在一些明确假设下,如攻击者具有简单常见的能力,可对内容做轻微修改,实现强水印 (标识) 管理是不可能的”。 [9] 此外,非法使用者往往不会通过官方API进行操作,而是直接下载开源模型并在本地或匿名环境中部署训练,这种使用模式在设计之初就绕开了水印嵌入、身份认证等合规机制。 [10] 如Stable Diffusion等域外开源模型,其水印组件可被攻击者轻易移除,从而生成不受约束、无水印的内容。 [11]二是“易伪造”,即通过模仿水印 (标识) 嵌入方式,在非原始模型或非授权用户下制造假的水印 (标识) ,误导溯源与归属判断,或是将人类内容标为AI生成 [12] 。三是“易误判”。以文本检测为例,研究发现,传统方法 (如KGW算法) 以词汇比例来判断是否AI生成,易引发误判。 [12] 如媒体报道,《滕王阁序》等知名文学作品也被误判为“AI率100%”。 [13] 对此,专业人士表示:“由于AI生成内容的性质在不断变化,AI检测会存在误判情况。尽管通过技术改进可以降低AI检测的误判率,但不可能完全消除”。 [14]

除此之外,AI标识制度还面临成本挑战。引入如嵌套水印等技术确实可以提升检测的可靠性,但在验证过程中逐层解码所需的计算资源甚至可能超过生成本身。 [15] 哈佛大学相关研究指出:在工具尚不完善的背景下,判断一段内容是否由AI生成可能是“代价高昂、效率低下且随意的过程”。 [16]

综上,在当前阶段,标识的可行性、有效性仍然充满不确定性,更谈不上实现“一劳永逸式”的AI内容治理,应避免对其赋予过高期待。发挥标识的技术效用,需将其纳入治理体系做通盘考虑。

三、明确AI标识的长短板,回归内容治理的根本逻辑

当前,AI所带来的内容问题仍主要集中在谣言、虚假宣传等领域,此类信息的“更多”“更真”对内容治理带来切实挑战。AI技术标识作为一种“长短板分明”的治理工具,应充分发挥其“长板”优势,同时依靠已有的内容治理体系补齐“短板”,从而实现整体治理效能的最大化。具体而言:

一是将标识工具嵌入现有内容治理体系,合理界定标识方案的定位与功能。与欧美囿于监管受限、缺乏抓手,从而妥协折中选择AI标识作为内容治理手段不同的是,AI标识只是我国成熟健全的内容治理体系中的工具之一。以营造清朗网络空间为目标,我国内容生态建立了从用户到平台,从监管制度到社区规则的健全体系。作为体系中的一环,AI标识方案仍然服务于内容治理的根本目标。为此,在制度设计中,我国目前也将标识的重点落于防止“混淆误认”的领域,即尽可能降低高度拟真的AI生成内容被误认为真实,进而引发谣言传播、欺诈、冒名侵权等次生风险的领域,相应的一系列技术与责任机制也都围绕这一目标展开。

AI标识制度的“长板”是在治理前端提升识别效率、增强用户警觉、提供信息核实缓冲,而非对内容真伪做实质性判断。当前,仍有大量非法应用AI技术的行为逃逸于“标识”体系之外,如使用域外模型、选择隐蔽性较高的传播渠道等,在标识机制“力有不逮”之处,仍有赖于投诉举报、违法认定、账号处置等原有内容治理措施,《民法典》《广告法》《消费者权益保护法》等法律法规同样可为此类违法行为提供明确的执法依据。

二是AI标识的“长板”功能,可聚焦高风险领域,回应突出问题。与谣言治理面临的情形类似:“倘若以信息内容失真作为判断标准,数量庞大的网络谣言信息显然超出了现有社会治理能力”,因此“需要按照网络谣言的危害程度阶梯式地设置不同的治理机制”,治理的根本目的不是彻底消灭谣言,而是“最大限度降低其社会危害”。 [17] 同样的,AI标识的重点不在于覆盖全部AI生成内容,而在于识别和干预高风险领域:如对于谣言、虚假宣传等,可聚焦现有技术与监管资源予以重点回应,与现有内容治理措施(如用户举报、通知删除 机制、黑名单账号管 理)做更好协同。

相较而言,对于低风险领域,如满足模型训练需求的数据合成、服务于加工润色目的图形渲染,垂直行业的B端应用等风险较小的非公共传播领域,或可探索更多元的治理路径。欧盟《人工智能法案》对标识亦采取了多种豁免与例外,包括:自然人可明显识别交互对象、用于艺术表达的内容合成、或已通过人工审核等场景,即可不强制标识。这体现出的共识原则是:标识机制的实施应与内容风险程度、受众识别能力及实际传播范围等相匹配,避免因过度适用标识而导致适得其反的效果。

三是在现有条件下,合理界定生成平台与传播平台责任。相较于生成平台在内容生成环节同步生成标识,传播平台对于标识的检测识别,在投入成本与技术难度上均有明显的上升。应对多源内容流入,易出现错判、漏判或无法识别的情况。因此,对于传播平台,治理需有一定的包容性与激励性,更多考虑平台是否整体实现了内容治理的目标,而非追求形式上对于标识的“无一遗漏”。正因如此,无论是美国加州AB 730和加州SB 942相关法案,亦或是欧盟《人工智能法案》均未将标识责任直接施加于传播平台。归根结底,传播平台对于标识方案在内容治理中的有效性,总体还处于探索阶段。

结语:随着AI技术的快速普及渗透、AI生成内容将不可避免地成为信息生产的常态,“人工”与“智能”的边界也将日趋模糊,内容治理的目标仍将回归至内容性质本身。除了在谣言、虚假宣传等高风险领域,应用标识技术手段为治理赋能外,在AI创作无处不在的未来,加强信息素养教育,引导公众建立对信息媒介的客观认知或是更为基础性的工作。

参考文献来源:

[1] 南都大数据研究院. “一键生成谣言!50个国内AI舆情风险案例,AI造谣占两成.” 南方都市报, 19 Feb. 2025,

m.mp.oeeee.com/a/BAAFRD0000202502191052861.html. 访问日期:2025年5月21日.

[2] 任静. “AI谣言舆情特征及风险研判.” 法治网舆情中心, 12 May 2025,

mp.weixin.qq.com/s/-1JtEBLOfYWYsWZs0Kcyog. 访问日期:2025年5月21日.

[3] 广州日报. “邓超、孙俪工作室,发布严正声明.” 18 May 2025.

https://mp.weixin.qq.com/s/ckJmhMYKqWBaKFX_LzAJnQ.

[4] “这款百万人下单的网红热敷贴,连代言人都是假的!” 人民日报, 28 Apr. 2025,

https://mp.weixin.qq.com/s/m2BatFp6uXz-miaQFWpT0w.

[5] “场景一键生成、图文真假难辨,AI批量造谣背后竟是……” 中国互联网联合辟谣平台, 11 July 2024,

www.piyao.org.cn/20240711/0ad6f46ed21e480f8147c8b5bd4263e9/c.html. 访问日期:2025年5月21日.

[6] 公安部网安局. “利用AI洗稿造谣,西安警方依法处罚多人.” 公安部网安局, 27 Mar. 2024,

mp.weixin.qq.com/s/lZjp_8HT_5eNJHNUFDCseQ. 访问日期:2025年5月21日.

[7] 部门规章:《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》《互联网信息服务算法推荐管理规定》;规范性文件:《人工智能生成合成内容标识办法》;国家标准:《网络安全技术 人工智能生成合成内容标识方法》

[8] Sacha Altay, Fabrizio Gilardi, People are skeptical of headlines labeled as AI-generated, even if true or human-made, because they assume full AI automation, PNAS Nexus, Volume 3, Issue 10, October 2024, pgae403,

https://doi.org/10.1093/pnasnexus/pgae403

[9] Zhang, Hanlin, et al. Watermarks in the Sand: Impossibility of Strong Watermarking for Generative Models. Harvard University, 23 July 2024. arXiv,

arxiv.org/abs/2311.04378.

[10] Burgess, Matt. "Criminals Have Created Their Own ChatGPT Clones." WIRED, 7 Aug. 2023, https://www.wired.com/story/chatgpt-scams-fraudgpt-wormgpt-crime/. 早在2023年,科技媒体《WIRED》就曾报道过此类黑产语言模型的可得性,并指出它们从一开始就走上了与合法LLM服务截然不同的道路:“自七月初以来,有犯罪分子在暗网论坛和市场上兜售他们声称开发的两个大型语言模型。这些系统……模仿了ChatGPT和谷歌Bard的功能……但与合法公司开发的LLM不同,这些聊天机器人是面向非法活动进行营销的。……这些“黑产LLM”去除了任何形式的安全保护或伦理限制。”

[11] Hu, Yuepeng, et al. Stable Signature is Unstable: Removing Image Watermark from Diffusion Models. Duke University, 12 May 2024. arXiv:2405.07145.

https://arxiv.org/abs/2405.07145.

[12] Dong, Ziping, et al. Imperceptible but Forgeable: Practical Invisible Watermark Forgery via Diffusion Models. The State Key Laboratory of Blockchain and Data Security, Zhejiang University, 28 Mar. 2025. arXiv:2503.22330.

[13] https://mp.weixin.qq.com/s/TeU3tNYPYSIp_FqCIvNQ3g

[14] “AI检测翻车现场:《滕王阁序》100% AI生成?实测结果来了.” 扬子晚报, 10 May 2025,

https://mp.weixin.qq.com/s/3sMO9U7lyGntot0qbQxBqA.

[15] Sowmya S., Sahana Karanth, and Sharath Kumar. “Protection of Data Using Image Watermarking Technique.” Global Transitions Proceedings, vol. 2, 2021, pp. 386–391. Elsevier, doi:10.1016/j.gltp.2021.08.035.

[16] Srinivasan, Siddarth. “Detecting AI Fingerprints: A Guide to Watermarking and Beyond.” Brookings Institution, 8 May 2024,

https://www.brookings.edu/articles/detecting-ai-fingerprints-a-guide-to-watermarking-and-beyond/.

[17] 赵精武、陈翊瑄. “思享|‘网络谣言’的老题新治.” 法理杂志, 18 May 2025,

https://mp.weixin.qq.com/s/SXl8YoM6JQIFI8663hnAfQ.

本文来自微信公众号“腾讯研究院”(ID:cyberlawrc),作者:大模型研究小分队,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI标识 虚假信息 内容治理 AI生成内容
相关文章