AI的安全性,是对AI自身发展道路产生重大影响的问题。
为此,OpenAI的领导团队在一个月前再一次分裂。OpenAI联合创始人之一的John Schulman宣布离职,跳槽至Anthropic,他此前在OpenAI领导安全和对齐工作。“巧合”的是,在John Schulman之前负责安全和对齐团队的Jan Leike也离开了OpenAI,转投了Anthropic。
而Anthropic之所以建立,正是因为其创始人不满OpenAI对于AI安全的重视不够。
更早之前离开OpenAI的Ilya Sutskever创立了新公司SSI,其宗旨就是要建立安全的超级智能,安全和智能对于他们哪一个都不能少。
在AI安全中,防止AI“越狱”是一个逐渐被重视,但是目前的解决方案并不好的方向。例如OpenAI的Moderation API ,谷歌的Perspective API和Meta的Llama Guard在实际的使用中都表现较差。
一家创立还不到一年的创业公司Haize Labs从防止AI“越狱”这个方向切入,试图帮助AI大模型的输出更安全,更可控,更符合人类社会的标准。目前它已经获得了Anthropic、Hugging Face、英国人工智能安全研究院(UK AISI)和Scale AI等头部客户。
近日,它也得到General Catalyst领投的一轮新融资,投后估值已达1亿美元。此前,他们获得了包括Okta、Hugging Face、Weights and Biases、Netflix的创始人和高级管理人员投资的105万美元天使轮融资。
01 从人类审核到自动化红队测试
这家在安全领域的“新锐”创业公司由Leonard Tang、Steve Li和Richard Liu三位哈佛毕业生创立,他们不是在安全领域积累多年的“老兵”,而是20出头的年轻人,之前的职业经历就是在NVIDIA、Snap、亚马逊等大厂实习。但是他们在校期间共发表了15篇机器学习相关论文,对于技术有自己的理解。
事实上,Haize Labs创业的点子正来自于Leonard Tang在本科时期的项目。在2020年,Leonard Tang用对抗性攻击破解图像分类器,试图绕过Twitter的NSFW过滤器。之后,他和团队成员们用优秀的搜索/优化算法来进行“红队测试”,寻找AI系统中的漏洞。
Leonard Tang
在积累了经验之后,他们开始了正式的创业,目前他们能够破解(和保护)的AI模型种类包括文本、音频、代码、视频、图像等各种模态。
Haize Labs所在的领域是防止AI被“越狱”,当AI被越狱后,会被用来生成大量的色情文字、血腥图片等,甚至可以自动攻击其他网络。这无论对于商业化AI还是社交媒体运营商来说,都是“噩梦”。
在互联网领域,面对这些有害的内容,都采用的是人工审核的模式,无论是抖音还是B站,都有规模庞大的外包审核团队,这带来了巨量的成本。
在AI领域,大多数公司都会对自己的AI系统进行红队测试,也就是用“对抗性”测试找到系统中的漏洞,并进行修复。目前大多数公司(例如Scale AI)使用的是人工红队测试,这些测试由人类“白帽子”来进行。
Anthropic则使用的是模型红队测试,具体方法是让红队“评估模型”攻击目标模型,以触发不安全响应的方式。其主要挑战在于仍需人类来判断“评估模型”的评价是否正确。有人类参与的红队测试难以规模化,并且需要大量训练。
而Haize Labs的核心技术Haizing则是将红队测试和压力测试自动化了,这样不仅降低了成本,还会让AI公司们有意愿对自己的AI系统做更加完善的检查和改进。
Haize Labs的核心目的是帮助大模型系统更加安全和稳定。基于Haizing技术,它推出了Haizing Suite和Sphynx两个方向的产品。
Haizing Suite
Haizing Suite集成了通过严格研究精炼出的多种算法,采用了梯度引导搜索、进化编程和强化学习等策略。它能够自动化、自适应地主动识别所有潜在的大模型风险,暴露AI的不良行为,可以覆盖所有AI的输入场景。
Haize Labs提供了Haizing Suite的免费版本,需要开发者和用户申请后获得使用权,它还有功能更强的企业版Haizing Suite,客户包括Anthropic、AI21、Hugging Face在内的顶尖AI公司,这是它们目前的主要收入来源。
Sphynx
除了防止AI越狱,Haize Labs近期发布了解决AI模型幻觉问题的新工具Sphynx。它采用了与Haizing Suite类似的核心技术,但是针对的不是大模型本身,而是AI厂商们用来检测幻觉的幻觉检测模型(HDM)。它通过对抗性训练,提升幻觉检测的稳健性,进而提升整个AI系统的鲁棒性。
在这两个产品之外,Haize Labs其实还有更远期的目标,它与Huggingface合作发布了红队测试抗性排行榜,想做AI领域的穆迪(Moody’s),为热门模型建立公共安全评级,成为标准的制定者。
02 中国的AI安全需要创业者和整个技术生态的努力
AI的安全为什么重要?
从长远来说,如果AI达到了AGI水平,但是它却仍然保持“黑箱”状态,不被人类控制的话,那这个AI是危险的,这也是Hinton等学者的担心,也许这也是Ilya Sutskever要创立超级安全智能的初心之一。
从现实层面说,一个具有高智能的AI模型,不安全,会影响它的使用率,比如因为政策原因不能在某些国家和地区使用,或者不能被大企业使用。
最后是AI的滥用问题,比如最近韩国的Deepfake犯罪事件。
事实上已经有很多创业公司都试图从各个方面解决AI安全和可解释性的问题。
例如HiddenLayer从模型层面保护AI,让它免除模型窃取,数据"投毒",模型窃取等问题。
Protect AI则致力于MLSecOps(机器学习+安全+运营)领域,从模型的数据和训练开始,就保护模型,并增加模型的透明性。
中国的商业市场是一个对安全很重视的市场,要大规模的在中国市场使用AI,并增加国产AI模型的可控性,就需要从各个维度去保证AI的安全。需要中国的HiddenLayer、Protect AI和Haize Labs,需要整个AI和安全生态系统的配合。
在这个发展进程中,一定会有不少安全领域的先进公司崛起,我们期待能帮助参与到这个浪潮之中的创业者。
本文来自微信公众号“阿尔法公社”(ID:alphastartups),作者:阿尔法公社,36氪经授权发布。