分论坛简介

大模型的迅猛发展加速了智能时代的到来,也引发前所未有的安全挑战。本分论坛将汇聚产学研前沿专家,聚焦大模型安全风险、攻防技术与数据治理等热点议题,分享跨学科研究成果与实践经验,共同探讨如何在可信、合规与高效之间取得平衡,筑牢下一代大模型安全基石。

分论坛主席

徐恪,清华大学计算机科学与技术系教授、博士生导师,副系主任,国家杰出青年科学基金获得者。主要研究领域包括计算机网络体系结构、网络空间安全和区块链系统。获得国家科学技术进步奖一等奖和二等奖、国家技术发明奖二等奖、中国电子学会一等奖等,是中国电子学会会士,IEEE Fellow,代表性论文发表在ACM SIGCOMM、ACM CCS、IEEE/ACM TON、IEEE Communication Magazine等知名国际会议和国际期刊,获得首届国际基础科学大会前沿科学奖,USENIX Security 2023和2024杰出论文奖,USENIX Security 2024互联网防御奖,NDSS 2025 杰出论文奖等。

徐葳清华大学交叉信息科学研究院教授、副院长。研究兴趣广泛,涵盖分布式系统设计、大数据处理、金融科技、数据中心网络、隐私保护计算、大规模机器学习和数据挖掘系统,以及面向实际的大数据应用场景。于2010年在加州大学伯克利分校获得电子工程与计算机科学博士学位,其博士研究聚焦于通过分析自由文本控制台日志实现问题检测,师从著名计算机科学家David Patterson教授与Armando Fox教授。在加入清华大学之前,他曾在谷歌担任软件工程师两年半,积累了丰富的工业界经验。徐葳教授的研究融合理论与实践,致力于推动高性能、可扩展且安全的智能计算系统的发展。

董胤蓬清华大学人工智能学院助理教授。本科和博士毕业于清华大学计算机系,主要研究方向为机器学习、人工智能基础理论与安全。发表国际顶级学术会议和期刊论文六十余篇,谷歌学术引用12000余次,担任国际学术会议ICML、NeurIPS、ICLR领域主席。曾获得CCF优秀博士学位论文激励计划、清华大学优秀博士后等。

分论坛讲者&报告简介

报告题目

应用密码学驱动的AI Agent安全体系

报告摘要

应用密码学是解决大模型安全可信问题的重要技术原语。在大语言模型(LLMs)推动下,基于AI的多智能体协作虽能通过自动化提升企业生产与供应链效率,却因跨域身份互信缺失、通信信道脆弱性及恶意(拜占庭)智能体与对抗性提示攻击等威胁,面临严重安全瓶颈。针对此,本报告提出面向Agent互联的统一信任框架BlockA2A。该框架通过DID实现跨域智能体身份持久化认证,打破中心化信任壁垒;以区块链锚定交互数据与计算过程,确保全链路可追溯性;依托智能合约自动执行细粒度访问策略,同步监控任务流状态与智能体生命周期;结合威胁防御编排引擎(DOE)主动拦截提示注入攻击并定位恶意智能体,构建多层防护体系。其链下-链上混合架构在最小化链上开销的同时,实现系统性风险防御。最后本报告还讲讨论MCP于隐私机器学习的结合。

讲者简介

刘卓涛,清华大学网络研究院副教授、博士生导师。入选国家级青年人才。2017-2021年担任美国Google公司技术负责人,从美国伊利诺大学香槟分校(UIUC)取得计算机博士学位。研究领域包括数据安全与隐私保护、区块链与应用密码学、安全可信互联网体系结构等。主持承担了国家级科研专项课题、国家自然科学基金、企业联合研发基金等10余项科研项目。代表性研究成果获得美国高等计算系统协会USENIX安全研讨会互联网防御奖,连续两年获得USENIX安全研讨会的杰出论文奖、中国电子学会科技进步一等奖(5/15)、华为数据通信产品线优秀技术合作项目奖、两项Google杰出工程奖(排名前10%)、美国NSF创新团体奖等荣誉,并完成多项科技成果转化,产生重大社会和经济效益。现担任IEEE S&P、ACM CCS、USENIX Security等多个重要学术会议的TPC Member。

报告题目

大模型智能体安全可信应用技术探究

报告摘要

这次分享聚焦DeepSeek为代表的大模型技术发展现状及其在智能体应用中的关键挑战。分析了大模型在复杂现实场景应用中存在的根本性局限,针对智能体面临的安全性和可信度风险,报告提出了基于PTS协同范式的大模型智能体一体机解决方案,以DeepSeek大模型为核心,集成专业引擎、可信解释和安全护栏三个协同单元,通过工作空间、对话生成、智能体应用和系统安全四个技术层面的深度融合,为企业和政府用户提供了安全可信的智能化转型基础设施,推动大模型智能体技术从理论探索向产业化应用的跨越发展。

讲者简介

褚志轩,浙江大学计算机科学与技术学院百人计划研究员,博导。博士毕业于美国佐治亚大学,曾任职于阿里巴巴、蚂蚁集团。研究方向聚焦于安全可信大模型,以及大语言模型、多模态大模型在垂域场景中的安全可信应用。研究领域涵盖大模型的安全性、可解释性、公平性和因果性等关键问题,并致力于探索AI系统的伦理和价值观对齐,推动AI负责任发展。在人工智能、数据挖掘和数据库领域的顶级期刊和会议上发表50余篇论文,包括NeurIPS、ICLR、IJCAI、AAAI、ACL、KDD、ICDE、CCS、TNNLS等。多次担任国际顶级会议程序委员会委员和领域主席,并组织主持学术tutorials和workshops。

报告题目  

大语言模型训练数据污染治理技术

报告摘要

大语言模型在预训练阶段往往依靠海量的互联网文本,由于缺乏对海量的、不同类型的文本过滤和筛选的手段,大量互联网非法内容会混入大语言模型的预训练数据集,进而导致其词表中出现污染token。本次报告聚焦现有大语言模型词表的中文污染token,提出自动化筛选模型词表中污染token的技术、基于词表污染token估算训练数据集污染的方法、与针对预训练数据集中互联网中文污染数据的治理方法。

讲者简介

邱寒,现任清华大学网络研究院副教授、博士生导师。博士毕业于法国巴黎高等电信大学,主要研究方向为机器学习安全、大语言模型内容安全等。主持国家重点研发计划课题、自然科学基金青年项目、CCF-蚂蚁金服科研基金等科研项目。在人工智能和安全领域顶会顶刊共发表50余篇论文,获ACL 2024杰出论文奖、2022年IEEE智能计算专委会数据安全青年研究奖、2023年IEEE可扩展计算专委会早期职业成就奖、入选2023、2024年斯坦福大学全球Top2%科学家榜单,担任USENIX Security、NDSS等安全领域顶会的TPC Member和ACL、NeurIPS、ICLR等人工智能领域顶会的领域主席。

报告题目

蚂蚁AI应用安全实践&思考

报告摘要

这次分享将聚焦大模型安全的核心挑战与解决方案,分享蚂蚁集团在内生安全、服务安全和AIGC滥用风险方面的实践经验。内生安全旨在从根源上保护模型的安全性,防止数据泄漏与滥用;服务安全是AI安全和网络安全的一个交叉学科,我们通过多层防护措施保障模型服务的稳定与合规;AIGC滥用风险则讨论如何应对生成内容的识别,防范AI内容的滥用。通过本次分享,探讨如何在大模型技术的快速发展中确保安全可控。

讲者简介

崔世文,蚂蚁集团大模型安全算法负责人。Kaggle Grand Master,曾获得国内外包括dc、天池、kaggle、kdd等数据竞赛平台10项冠军。此前从事支付宝反欺诈、智能攻防、对抗鲁棒性等相关工作。现在负责大模型安全攻击和防御算法。其产品“蚁鉴”曾获得WAIC镇馆之宝。

报告题目

大模型安全与隐私风险评估

报告摘要

AI大模型尽管在众多领域展现出惊人的智能性,其潜在的安全风险也日益凸显,越狱攻击是其中一种备受关注的攻击方式。尽管研究人员和开发者不断加固模型的安全防护,但现有研究和实践表明,这些安全机制仍存在被巧妙规避的可能,暴露出大模型在安全对齐方面的脆弱性。本报告将对AI大模型的安全问题进行综述,重点聚焦于越狱攻击现象,介绍主流攻击技术演变,同时介绍针对大模型的后门攻击、版权保护等前沿方向。

讲者简介

丛天硕,清华大学高等研究院助理研究员,水木学者。研究领域包括人工智能安全与应用密码学。分别于2023年/2017年获清华大学博士/学士学位,曾在德国CISPA交流访学。研究成果发表在CCS、S&P、NDSS、USENIX Security等信息安全顶会。获中国密码学会优秀博士论文、NDSS’25杰出海报奖、CCS-LAMPS’24最佳论文奖、全国密码算法设计竞赛二等奖等荣誉。主持国家自然科学基金1项。担任EuroS&P、ACSAC、RAID、PETS、SaTML等信息安全会议TPC Member及TIFS、TDSC、TOPS等信息安全顶刊审稿人。

报告题目

大模型时代的安全重构

报告摘要

推动社会发展的同时,大模型也带来层出不穷的安全事件。本次分享列举了近期一些热点大模型安全事件,分析了其背后的技术原理进行了一定分析,并展望了未来大模型安全的发展趋势。同时介绍了中国电信天翼安全公司在大模型安全评测、大模型安全运营、大模型安全防护方面的一些实践与思考。

讲者简介

曹辉,天翼安全科技有限公司人工智能安全专家。博士毕业于武汉大学,曾在美国特拉华大学交流访问。主要研究方向为人工智能安全对抗,包括智能体安全、无人驾驶安全、具身智能等实际场景下的安全攻防等,在物理对抗样本、海绵样本、成员隐私等领域做出突破,曾发现相关领域CVSS 9.8高危漏洞。曾在相关领域发表论文多篇、申请专利多项、在IEEE Transactions on Intelligent Transportation Systems等期刊任审稿人、曾主持多项人工智能安全产品设计、组织过大型人工智能安全对抗赛。

后续我们将继续更新本次学术年会相关信息,敬请持续关注!

点击下方 关注我们

关次本次年会已发布的其他分论坛预告请查看下方合集:

点赞

分享

收藏

内容中包含的图片若涉及版权问题,请及时与我们联系删除