安全客 05月08日 15:25
整治AI技术滥用,中央网信办出手!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

为规范AI服务,保障公民权益,中央网信办部署为期3个月的“清朗·整治AI技术滥用”专项行动。行动分两个阶段,第一阶段侧重源头治理,清理违规AI应用,加强内容标识管理;第二阶段关注AI内容治理,重点清理谣言、不实信息等。360公司推出“360智盾”解决方案,通过原生安全模型、内容防护盔甲和红蓝对抗靶场等技术,构建多层次内容安全体系,并已在多个行业落地,为AI应用提供安全保障。

🛡️ 专项行动分为两个阶段:第一阶段重点整治违规AI产品、违规教程、训练语料管理不严等问题;第二阶段聚焦利用AI技术制作发布谣言、不实信息、色情低俗内容等。

✅ 360公司推出“360智盾”解决方案:通过原生安全模型、内容防护盔甲和红蓝对抗靶场等技术,构建多层次内容安全体系。

🛡️ “360智盾”的技术细节:在输入端,风险识别分类器对输入内容进行分级处理;在输出端,模型生成内容再次检测,确保无违规风险。风险内容分类器基于语义大模型构建,训练数据严格对标相关安全要求。

💡 360构建红蓝对抗靶场体系:红蓝对抗攻击大模型模拟攻击,安全回复大模型构建防御机制,安全评测大模型评估攻防成效,提高评测效率与覆盖率。

🚀 360智盾的应用落地:已全面部署于360内部,为C端用户提供内容安全保障;同时,已在政务、金融、交通、能源等重点行业完成落地,助力行业实现AI应用的安全可控。

为规范AI服务和应用,促进行业健康有序发展,保障公民合法权益,近日,中央网信办印发通知,在全国范围内部署开展为期3个月的“清朗·整治AI技术滥用”专项行动。

 

中央网信办有关负责人表示,本次专项行动分两个阶段开展。

第一阶段强化AI技术源头治理,清理整治违规AI应用程序,加强AI生成合成技术和内容标识管理,推动网站平台提升检测鉴伪能力。将重点整治违规AI产品、违规教程和商品、训练语料管理不严、安全管理漏洞、未落实内容标识、重点领域安全风险等6类突出问题。
第二阶段关注AI内容治理,聚焦利用AI技术制作发布谣言、不实信息、色情低俗内容,假冒他人、从事网络水军活动等突出问题,集中清理相关违法不良信息,处置处罚违规账号、MCN机构和网站平台。将重点整治利用AI制作发布谣言、不实信息、色情低俗内容、假冒侵权违法行为、网络水军活动、违规应用程序、未成年人侵害等7类突出问题。

《通知》强调,网站平台对照专项行动有关要求,健全AI生成合成内容审核机制,提升技术检测能力,做好整改落实。面对不断演化的AI生成内容安全挑战,360率先提出“以模制模”防护思路,并将相关能力产品化,推出业界领先的大模型内容安全解决方案“360智盾”,构建原生安全的底层模型,打造多层次、多种类、多场景的内容安全体系,实现对大模型内容安全的全面保护。

通过持续预训练、安全监督微调、安全对齐等方式,360结合插值/外插训练技术和真实场景数据,不断提升模型本身的原生安全性能,最终构建出一个能够应对越狱攻击、处理高风险问题时依然保持“向善”响应的“安全回复大模型”。

在应用层,360智盾为业务大模型外部加装“内容防护盔甲”。在输入端,用户输入内容首先经过风险识别分类器,根据风险等级进行分级处理;在输出端,模型生成内容将再次经过检测,确保无违规风险。

360自研的风险内容分类器基于语义大模型构建,在识别精度和训练效率上全面优于传统关键词匹配和BERT类分类模型。其训练数据严格对标《生成式人工智能服务安全基本要求(TC260-003)》中5大类31小类的违法不良信息类型,并结合实际业务场景细化出100余类风险标签。仅需少量示例样本,即可训练出行业领先水平的检测能力。

面对大模型服务面临的复杂多变的风险,360创新构建基于大模型的红蓝对抗靶场体系:由360红蓝对抗攻击大模型模拟真实攻击者,主动发起越狱、诱导等攻击;由安全回复大模型等防护模型接收攻击并构建防御机制;由360安全评测大模型对每轮输入输出进行定量分析,自动评估攻防成效。通过标准化指标与自动化评估流程,大大提高评测效率与覆盖率,实现产品能力的快速闭环迭代。

目前,360智盾已全面部署于360内部各大模型业务中,为C端用户提供可靠的内容安全保障。同时,360智盾已在政务、金融、交通、能源等重点行业完成落地,持续为行业客户打造更稳固的大模型安全底座,助力其户在AI大模型应用落地过程中实现安全可控。

除智盾外,360还推出智鉴、智搜等大模型安全产品:

覆盖了从模型训练到推理的全链路安全检测,支持对模型服务的相关组件识别、生态链漏洞扫描和多语言代码审计,确保大模型系统安全。
融合多模态检索与语义理解技术,能够提供精准的搜索结果,并支持基于企业私域数据的知识提炼与总结。通过整合多领域精品知识库,实现全网与私域知识的无缝对接,提升信息获取效率,并可帮助大模型缓解幻觉问题,减少虚假或不准确信息,提升大模型的可信度与可靠性,从而为企业提供更安全、更高效的业务支持。

 

未来,360将继续在AI安全方向深耕,为构建一个安全、向善、可信、可控的AI发展环境持续贡献力量。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI安全 中央网信办 360智盾 内容治理
相关文章