Clio上线!Anthropic的首个隐私优先AI使用分析工具
©作者| Zhongmei
来源| 神州问学
前言
人们使用人工智能模型做什么?LLM迅速走红,像Claude这样的AI系统已经迅速融入人类生活的各个方面,但直到现在,我们对于它们究竟是如何被使用的,还知之甚少。了解人们实际如何使用语言模型十分重要,这不仅仅关乎好奇心,甚至也不只是社会学研究方面的问题,而是出于安全方面的考虑。供应商在部署前测试方面投入了大量精力,并运用信任与安全系统来防止滥用情况发生。然而,语言模型功能的庞大规模和多样性,使得了解它们的使用情况变得非常困难,更遑论进行任何全面的安全监测了。
还有一个对清晰了解人工智能模型使用情况构成阻碍的至关重要的因素:隐私。Anthropic公司声称Claude模型默认情况下不会基于用户对话进行训练,公司也非常重视对用户数据的保护。那么,如何在严格保护用户隐私的同时,研究并观察Anthropic的AI系统是如何被使用的呢?
“Claude见解与观察”(Claude insights and observations,简称“Clio”)就是Anthropic为解答这个问题所做的尝试。Clio是一款自动化分析工具,它能够在保护隐私的前提下,对现实世界中语言模型的使用情况进行分析。它让我们得以洞悉Claude.ai在日常生活中的使用情况,其作用方式与谷歌趋势等工具类似。它也已经在帮助Anthropic改进安全措施了。
论文地址:《Clio: Privacy-Preserving Insights into Real-World AI Use》arxiv.org/abs/2412.13…
理解人工智能交互的新范式
与依赖预先识别风险的传统方法(比如评估[evaluation]和红蓝对抗[red teaming])不同,Clio 采用自下而上的分析方法来发现人工智能使用中隐藏的模式和趋势。该工具代表了公司评估人工智能系统影响方式的转变,从手动分析转向可扩展的隐私保护框架。
Clio的工作原理
Clio采用一种自下而上的发现模式。利用 Claude 3.5 Sonnet,自动提取用户与该模型对话的摘要,然后对相关主题进行聚类。为保护隐私,它同时会对数据进行匿名化和汇总处理,对人类分析员仅展示有关聚类的信息。
以下是Clio多阶段流程的简要概述:
图1. Clio分析步骤概述
1.提取多方面信息:对于每一次对话,Clio会提取多个方面的信息(特定的属性或元数据),比如对话主题、对话轮次数量,使用的语言以及对话内容摘要等信息。
2.语义聚类:随后Clio会嵌入这些摘要,并根据相似性对其进行聚类,相似的对话会依据主题自动归为一组。这一过程会生成数千个聚类。
3.聚类描述:每个聚类都会获得一个描述性标题及摘要,Clio会排除隐私信息的同时,从原始数据生成对该聚类中信息类型的简短描述。
4.构建层级结构:它会重复这一过程以构建层级结构,对聚类的描述再进行聚类,生成新的描述,依此类推。例如,带有 “打结” 和 “浇花” 描述的聚类本身会被归类到 “日常生活技能” 当中。随后,它们可以在一个交互界面中呈现出来,Anthropic的分析人员能够利用该界面从不同维度(话题、语言等)探究其中的模式。
Anthropic 强调隐私是 Clio 设计中不可或缺的一部分。这四个步骤完全由Claude独立执行,而非人工操作。这是秉持隐私优先理念设计Clio的一部分,通过多层设置来打造“纵深防御”。Clio 的保护措施包括省略个人详细信息的摘要提示、丢弃小型或稀有集群的阈值以及验证输出的广泛审核。这些措施符合 Anthropic 用户信任和数据责任的精神。
“隐私保护融入到 Clio 设计的每一层, ” Clio 研究论文的主要作者 Alex Tamkin 说道,“该系统使我们能够在不损害个人或组织机密性的情况下公开见解。 ”这种严格的方法在测试过程中得到了验证,Clio 在重建模式方面实现了 94% 的准确率,同时保持了隐私合规性。该工具能够在不暴露敏感信息的情况下获得可行的见解,这展示了如何对人工智能系统进行道德治理。
来自Clio的见解:人们如何使用Claude
“事实证明,如果你构建了一种通用技术并发布它,人们会发现它有很多用途。”
—— Anthropic 社会影响团队的负责人,Deep Ganguli
借助Clio,Anthropic得以深入了解人们在实际中是如何使用claude.ai的。尽管像WildChat和LMSYS-Chat-1M这样的公开数据集提供了有关人们如何使用语言模型的有用信息,但它们只涵盖了特定的语境和用例。Clio使我们能够了解claude.ai在现实世界中的全方位使用情况(注意:由于用户群体和模型类型的差异,其使用情况可能与其他人工智能系统有所不同)。
Claude.ai上的主要用例
Anthropic 分析了在claude.ai上(包括免费版和专业版)与Claude进行的100万次(经匿名处理的)对话,以确定人们使用Claude执行的主要任务。研究发现,大多数人使用该模型进行软件开发,同时也揭示了其故障及越狱(突破限制)情况。
对话主题中,最大的单一类别是软件开发。编码在与 Claude 的对话中占比 15% 到 25%。软件开发人员使用Claude完成从调试代码到解释Git操作及概念等各类任务。其中,网页和移动应用开发在总对话中占比超过 10%,人工智能和机器学习应用占 6%,开发运维和云基础设施约占 4%,数据分析占 3.5%。
教育用途构成了另一个重要类别,超过7%的对话聚焦于教学相关内容。文本生成和交流在总对话中大约占 9%,而学术研究和写作占比超过 7%。与商业相关的用途紧随其后,商业战略与运营(包括起草专业通讯稿件以及分析商业数据等任务)占近 6%。
图2. 所有语言环境下,用户与Claude最常见的对话类型:圆圈面积对应对话所占百分比;标题是Clio在分析100万条随机抽取的对话后生成的摘要。
Clio还识别出了数千个规模更小的对话聚类,展现出Claude丰富多样的用途。小众用途包括在《龙与地下城》游戏中担任地下城主、解梦、解crossword纵横字谜、分析足球比赛以及为应对灾害做准备,甚至还有数“strawberry”(草莓)一词里“r”的个数【手动狗头】。
Claude的使用情况因语言而异
图3. 由Clio揭示的在三种选定语言中出现频率更高的对话话题(相较于该语言的基本频率)
Claude的使用情况在不同语言中差异显著,这反映了不同的文化背景和需求。Clio计算了每种语言在所有对话中出现的基本频率,由此我们能够确定在哪些话题中,某一给定语言出现的频率比通常情况要高得多。以下是图3中展示的西班牙语、汉语和日语的一些话题示例。
西班牙语
●解释和分析经济理论及其在现实世界中的应用:是基准频率的3.5倍
●为儿童健康和发展问题提供专业指导:是基准频率的2.9倍
●制定农村和环境保护策略:是基准频率的2.4倍
汉语
●创作带有复杂情节和人物的犯罪、惊悚和悬疑小说:是基准频率的4.4倍
●研究和制定针对老龄化人口及老年人护理的解决方案:是基准频率的1.9倍
●提供有关太空探索主题的信息和帮助:是基准频率的1.6倍
日语
●创作和分析动漫及漫画内容及相关项目:是基准频率的6.8倍
●分析全球经济趋势并提供投资建议:是基准频率的3.9倍
●研究和制定针对老龄化人口及老年人护理的解决方案:是基准频率的3.3倍
如何通过Clio加强安全和信任
“Clio表明可以以自下而上的方式监控和了解正在发生的事情,同时保证保护用户隐私。它可以未雨绸缪,让你在事情成为公众面临的问题之前看到它们。”
——Clio论文的主要作者&Anthropic 技术人员, Miles McCain
除了训练语言模型使其拒绝有害请求外,模型提供商们还会运用专门的信任与安全执行系统来检测、拦截并对可能违反我们使用政策的行为采取行动。Clio则对Anthropic的这项工作起到了补充作用,有助于了解在哪些方面可能有机会改进和强化这些系统。
鉴于可能需要审查个人账户,为进一步落实有关的隐私政策,在谁能使用Clio这件事上,Anthropic实行了严格的隐私访问控制。Anthropic的信任与安全团队能够审查聚类主题,查找可能违反使用政策的领域。例如,名为 “为竞选筹款邮件生成误导性内容” 或 “煽动仇恨行为” 的群组,就描述了被禁止的活动。信任与安全团队,就会进一步确定需要审查的个人账户,并在适当情况下,依据我们的条款和政策采取行动。
识别并阻止协同式滥用行为
协同、复杂的滥用模式,指的是那种仅查看单个对话难以察觉的滥用,往往它们也可能会避开较为简单的检测方法。但Clio在这类滥用的识别方面成效显著,在9月下旬,Clio发现了一个由自动账户组成的滥用网络,它们使用相似的提示结构来生成用于SEO的垃圾邮件。尽管单个查询看起来是良性的,但 Clio 的跨账户聚类揭示了它们的集体滥用,从而允许 Anthropic 的信任和安全团队进行干预。另外,Clio还识别了其他违反我们使用政策的活动,比如试图转售未经授权的Claude访问权限。
针对高风险事件的强化监测
Clio还帮助Anthropic在不确定时期或高风险事件期间监测新颖的使用方式和风险。例如,在推出一项新的计算机使用功能前,Anthropic进行了广泛的安全测试,同时利用Clio筛查可能遗漏的新兴能力和危害。Clio提供了额外保障,其见解也助力Anthropic在整个推广过程以及系统未来版本中不断完善安全措施。
为了迎接2024 年美国大选,在大选前的几个月里,Clio 监控了 AI 交互中与美国政治、投票及政治相关问题有关的活动群组,以防范任何潜在风险或滥用行为。借助Clio检测 “未知的未知因素” 的能力,补充了Anthropic的主动安全措施,帮助我们快速应对新挑战。
减少分类器中的错误(假阴性和假阳性)
假阴性,指的是系统未将某个特定对话标记为可能有害,但实际上它是有害的。假阳性则是系统标记为有害,但实则无害。比如,此前,一些查询(例如求职者上传简历或角色扮演游戏互动)由于对其内容的误解而被标记为有害。Clio 通过解决这些误报和漏报等常见问题来完善 Anthropic 的安全分类器。Clio 的分析有助于重新校准这些分类器,减少对用户不必要的干扰,同时保持稳健的安全标准。
图4. 对话聚类散点图:一个点 = 一个群组,x 轴表示根据信任与安全分类器标记为有问题的程度,y 轴则是Clio认为有问题的程度。左上角的聚类可能被我们的信任与安全分类器标记不足:即假阴性,其中包含有问题但不一定被标记的内容。右下角的聚类可能被过度标记:即假阳性,可能不包含有问题的内容。信任与安全分类器和Clio分类之间的总体相关性为 r = 0.71,表明两个系统总体上大致一致。
伦理考量及应对措施
Clio为改进已部署的语言模型的安全性提供了宝贵见解。然而,在开发该系统的过程中,也确实引发了一些重要的伦理考量:
●Clio的误用:像Clio这样的系统可能会被误用,用于不当监测。除了严格的访问控制和隐私保护技术外,还需要通过实施严格的数据最小化和留存政策来降低这种风险(只收集并留存Clio所需的最少量数据)。
●用户隐私:尽管Clio在隐私评估中表现出色,但与现实世界中的所有隐私系统一样,Clio有可能无法捕捉到某些类型的隐私信息。为降低这一潜在风险,Anthropic会定期对Clio的隐私保护及评估情况进行审计,以确保保障措施能按预期发挥作用。随着时间推移,还计划在Clio中使用最新的Claude模型,以便持续提升这些保障措施的性能。
●用户信任:尽管Anthropic采取了广泛的隐私保护措施,一些用户可能仍会觉得像Clio这样的系统具有侵犯性,或认为它干扰了自己对Claude的使用。所以Anthropic选择对Clio的目的、功能、局限性以及从中获得的见解保持透明。而且,如前面提到的,在标准安全分类器中存在Clio能识别出的假阳性情况(看似存在违反使用政策的活动,但实际上并没有),这证明Clio能减少对模型合法使用的干扰。
尾语
Anthropic 推出用于 Claude 使用跟踪和威胁检测的 Clio 框架。Anthropic 认为 Clio 不仅仅是一种安全工具,更是道德人工智能治理的蓝图。他们在论文中尽可能详细地阐述了 Clio 的工作原理,希望其他人工智能实验室也能尝试类似做法。论文甚至提及了运行 Clio 的成本 —— 每 10 万次对话 48.81 美元。
Clio的重要意义在于:
1.公司可以利用 Claude 来了解未来的工作形态:比如,了解Claude 在帮助人们完成哪些类型的工作,而这些对于经济转型又意味着什么。
2.Clio 可能会改变人工智能实验室对其模型进行的安全评估方式:了解人们如何使用AI的传统方法,比如问卷调查,可能会得出不准确的结果,因为人们往往无法准确报告自己的行为;而Clio提供了一种分析现实世界使用情况的方法,而且不会侵犯隐私。于是,企业无需依据过往和理论上的危害来评估,而是可以基于当前所观察到的现实世界中的使用情况来开展评估。
3.AI供应商肩负双重责任:在保护用户隐私的同时维护系统安全。Clio表明这两个目标并非相互排斥:通过精心设计和实施,我们可以二者兼顾。通过类Clio工具的公开讨论,能为围绕此类工具负责任的开发和使用营造积极的规范贡献力量。
4.揭示潜在风险:Clio 的这些用途看似并无危害。但它们也凸显了人们在 Claude 这类聊天机器人中所提问题的高度敏感性。Anthropic 使用这项技术是识别危害,但不难想象,另一家公司可能会利用类似技术来分析消费者行为,以用于广告、劝服或其他监控目的。同样不难想象,另一家公司可能不会采取太多措施来保护用户隐私,而是以可能给用户带来风险的方式使用他们的提问。
Clio 的成功凸显了AI监控工具在尊重用户隐私的同时提供可行见解的潜力。随着人工智能系统不断融入日常生活,Clio 等工具将在确保其安全和合乎道德的使用方面发挥关键作用。通过解决现实世界应用的复杂性和新出现的风险,Anthropic 的 Clio 代表着人工智能在如何被理解、治理和信任方面向前迈出了一步。