少点错误 01月22日
Training Data Attribution (TDA): Examining Its Adoption & Use Cases
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本报告深入探讨了训练数据归因(TDA)技术,及其在降低人工智能极端风险中的潜在作用和可行性。TDA旨在识别对特定模型输出具有显著影响的训练数据点。报告评估了将现有TDA研究转化为可应用于前沿大型语言模型的有效工具所需的工作量,讨论了TDA工具对AI实验室的潜在研究益处,并分析了AI实验室公开训练数据意愿的限制因素。报告还探讨了TDA的社会效益,包括版权保护、事实核查和公众信任,并评估了TDA在缓解大规模AI风险方面的潜在影响。结论认为,TDA在提高AI技术安全性和可解释性方面具有巨大潜力。

📊 现代TDA技术主要分为三类:基于重训练、基于表示(或输入相似性)和基于梯度的方法。其中,基于梯度的方法(使用影响函数)被认为是实现实用TDA的最有希望的途径。

💰 目前使用影响函数进行TDA的最有效方法,其训练成本与预训练大型语言模型相当。尽管存储成本显著较高,但仍是可行的。然而,这些技术尚未在大型模型上进行测试,其准确性尚不明确。

💡 高效的TDA技术将对AI研究和大型语言模型开发产生重大积极影响,包括减少幻觉和错误信息、识别导致不良结果的训练数据、提高数据过滤和选择、缩小模型尺寸、提高可解释性和对齐性,以及改进模型定制和编辑。

🔒 AI实验室目前有很强的动机保持训练数据私有,因为公开这些数据可能会导致竞争优势减少、法律责任风险增加以及违反隐私或专有数据要求。但通过选择性允许TDA推断或返回来源而非精确数据,可以规避这些问题。

🛡️ TDA最有望的AI风险缓解益处是通过提高可解释性来增强大型语言模型的技术安全性。此外,TDA可能对技术AI安全和对齐工作产生重大影响。

Published on January 22, 2025 3:40 PM GMT

Note: This report was conducted in June 2024 and is based on research originally commissioned by the Future of Life Foundation (FLF). The views and opinions expressed in this document are those of the authors and do not represent the positions of FLF.

This report investigates Training Data Attribution (TDA) and its potential importance to and tractability for reducing extreme risks from AI. TDA techniques aim to identify training data points that are especially influential on the behavior of specific model outputs. They are motivated by the question: how would the model's behavior change if one or more data points were removed from or added to the training dataset? 

Report structure:

Key takeaways from our report:



Discuss

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

训练数据归因 人工智能风险 大型语言模型 技术安全 模型可解释性
相关文章