当所有人都在关注大模型公司之间的较量以及 Scale AI 时,还有一家公司已经悄然崛起,成为了 AI 训练数据领域的隐形冠军。
它在没有任何外部投资、只有 100 人左右团队的情况下,已经成长为 10 亿美金 ARR 的数据标注公司,而且从一开始公司就是盈利状态,其同时期的收入甚至超过了估值 290 亿美金的 Scale AI。
其创始人与 Scale AI 创始人 Alexandre Wang 一样,也是一位华人。公司官网更是简单的只有一个简介,并且他个人在社交媒体上也很低调,以至于外界没有多少人知道。
这就是 Surge AI,创始人 Edwin Chen 曾在 MIT 读数学和语言学专业。这个看似奇特的学科组合,为他日后在 AI 领域的成功奠定了独特的基础。数学赋予了他对算法的深度理解,语言学让他洞察了人类语言的复杂性——这正是现代大语言模型最核心的挑战所在。 从 MIT 毕业后,Edwin 在硅谷各大互联网公司工作过一段时间。他先后在 Google、Facebook、Twitter、Dropbox 担任重要职务,负责机器学习、内容审核和人工计算团队。在这些公司,他不仅积累了宝贵的技术经验,更重要的是,他发现了一个被整个行业忽视的巨大问题:高质量的人工标注数据极其稀缺。
在 Facebook 和 Google 的工作经历中,Edwin 发现:即使是这些拥有无限资源的科技巨头,也在数据标注上面临着巨大的挑战。
他曾在接受采访时提到:"获得可信的人工标注数据一直是我最大的障碍。在 Google 或 Facebook,要获得用于训练ML 模型的真实数据,以及测量模型相关性和精确度的数据,通常需要几个月的时间等待内部标注团队。"
更糟糕的是,现有的数据标注质量令人担忧。Edwin 的团队曾经调查了 Google 的 GoEmotions 数据集,发现其中30% 的标注都是错误的。这些错误标注不仅影响了模型的性能,更重要的是,它们让整个 AI 训练过程失去了意义。
于是 Surge 诞生了
2020 年,当疫情席卷全球时,Edwin 看到了一个前所未有的机会。大量受过教育的人群失业或居家办公,这为建立一个高质量的标注工作队伍提供了很好的时机。
基于他在各大公司建立的内部标注平台经验,Edwin 创立了 Surge AI。公司的核心理念是:"为了构建日益复杂的现实世界 AI——解决仇恨言论和错误信息等复杂问题——我们需要技能娴熟、积极主动的人工队伍来测量和训练它们。"
Surge AI 从一开始就定位为"人工智能时代的 AWS"——为 AI 训练提供人工智能基础设施。2021 年他在 Medium 上的一篇文章里说了他创立 Surge 的原因:
我创立 Surge AI 是为了解决我一直遇到的获取大规模高质量人工标注数据的问题。它类似于 MTurk 2.0,但更加注重质量和速度,并拥有一支值得信赖的精英团队。
他们为 Surge AI 构建了四个核心技术优势:
1. 专有的质量控制技术大语言模型对低质量数据极其敏感,这往往会让训练工作倒退数年。Surge AI 开发了先进的人工/AI 算法和技术,由曾在这个问题上工作数十年的科学家和研究人员团队构建。
2. 领域专家标注团队随着语言模型变得越来越先进,它们需要越来越复杂的人工反馈来教授它们。Surge AI 的领域专家标注团队涵盖了法律、医学、商业和 STEM 学科等各个领域,为训练 LLM 提供了人类语言的广度和深度。
3. 快速实验界面作为快速发展领域的研究人员,客户需要能够快速设计和启动新任务,而不是花费数月编写冗长的指导方针。Surge AI 的 API 和 RLHF 界面允许客户集成自己的工具和平台。
4. 红队工具为了保持 LLM 的安全性,Surge AI 的团队会对客户当前的安全防御进行红队测试,以发现需要修补的新漏洞。
与 Anthropic 合作成为其崛起的一个关键
Surge AI 真正的突破来自与 Anthropic 的深度合作。Anthropic 的联合创始人 Jared Kaplan 对 Surge AI 给出了高度评价:"Surge AI 团队理解训练大语言模型和 AI 系统的独特挑战。他们的人工数据标注平台专门为前沿 AI 工作提供独特的高质量反馈。Surge AI 是我们在支持技术 AI 对齐研究方面的优秀合作伙伴。"
通过与 Anthropic 的合作,Surge AI 参与了 Claude 3 模型的训练过程,这个模型甚至在某些方面超越了GPT-4。这种合作不仅验证了 Surge AI 的技术实力,更重要的是建立了其在 AI 安全和对齐领域的权威地位。
与 Scale AI 等竞争对手不同,Surge AI 从一开始就定位为"高端"数据标注服务。Edwin 将公司定位为"其他数据标注初创公司的高端替代品",专注于最复杂、最有挑战性的 AI 训练任务。 这让 Surge AI 在创立后 6 个月时间实现了 10 倍级增长,据 The Information 的报道,Surge AI 去年的 ARR 做到了 10 亿美金,超过了同时期 Scale AI 的 8.7 亿美金收入。
与此同时,一个只有 16 岁的少年,已经完成了 100 万美金的融资,他自学编程做的产品,号称要通过 AI 重新定义人机交互方式,与 ChatGPT 等现有产品不同的是,其原理是通过……