少点错误 2024年08月01日
AI labs can boost external safety research
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

前沿 AI 实验室通过多种方式助力外部安全研究,如提供更好的模型访问、发布研究成果等

🌐Anthropic 为部分研究人员提供有帮助的访问权限及免费 API 访问,还为一些研究者提供 API 信用额度,并为 Ryan Greenblatt 提供深度模型访问,但除 Ryan 外无其他精细调整或深度访问,且提供外部指导

💻Google DeepMind 分享部分模型评估用于危险能力研究,发布 Gemma SAE 和权重、Embeddings API,提供外部指导,但对前沿模型无精细调整或深度访问

🤖OpenAI 为一些 OP 受助人提供更好的 API 访问,对 GPT - 3.5 进行精细调整,实验性地为学术研究者提供 GPT - 4 精细调整访问,提供早期访问及 API 相关功能

Published on July 31, 2024 7:30 PM GMT

Frontier AI labs can boost external safety researchers by


Here's what the labs have done. Let me know if anything is missing/wrong.

Anthropic:

Google DeepMind:

OpenAI:

Meta AI:

Microsoft:


Somewhat-related papers:

  1. ^

    "Helpful-only" refers to the version of the model RLHFed/RLAIFed/finetuned/whatever for helpfulness but not harmlessness.

  2. ^

    Releasing model weights will likely be dangerous once models are more powerful, but all past releases seem fine, but e.g. Meta's poor risk assessment and lack of a plan to make release decisions conditional on risk assessment is concerning.



Discuss

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

前沿 AI 实验室 外部安全研究 模型访问 研究成果
相关文章