36kr 17小时前
80后华人零融资创业:1/10人力营收规模超Scale AI,谷歌OpenAI大模型的“秘密武器”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章聚焦于数据标注公司Surge AI,该公司由80后华人埃德温·陈创立,以高端数据标注服务著称,客户包括谷歌、OpenAI等。尽管未进行融资,但Surge AI在2024年实现了10亿美元的营收,超过了Scale AI的8.7亿美元。文章探讨了Surge AI的商业模式、竞争优势、面临的挑战以及数据标注行业的未来发展。Surge AI的高定价、高质量服务以及对AI模型训练的贡献是其成功的关键。然而,该公司也面临员工诉讼、产能饱和、客户议价压力和技术替代等多重挑战。

💰 Surge AI是一家零融资的数据标注公司,成立于2020年,专注于高端数据标注服务,其客户包括谷歌、OpenAI和Anthropic等科技巨头。

📈 Surge AI的营收在2024年达到了10亿美元,超过了Scale AI的8.7亿美元,但其员工数量仅为Scale AI的约1/10,展现了其高效的运营模式和盈利能力。

💼 Surge AI的核心业务是雇佣外包工作人员对AI模型的响应进行评分,并编写各类问题和答案,以帮助AI模型学习和改进。公司采取高定价策略,收费是Scale AI的2-5倍,以确保高质量的数据标注服务。

⚠️ Surge AI面临多重挑战,包括员工诉讼、产能饱和、客户议价压力以及AI技术自身演进带来的替代风险,这些都可能影响其未来的发展。

零融资的“隐形数据标注之王”,年收10亿超Scale AI。

智东西6月20日报道,多年来,数据标注在AI产业都处于较边缘地带。近期随着Meta斥资143亿美元收购Scale AI 49%股份,该领域成为人们关注的焦点。但此类公司中营收规模最大的一家并非Scale AI,而是由一位80后华人埃德温·陈(Edwin Chen)创立的Surge AI。

Surge AI创立于2020年,定位高端数据标注服务,是谷歌、OpenAI、Anthropic等科技巨头的合作伙伴。 Surge AI的商业模式以高定价和高质量著称,收费是Scale AI的2-5倍;2024年营收已达到10亿美元,高于Scale AI的8.7亿美元。但Surge AI至今仍未融资,且员工数仅为Surge AI的约1/10。 

01.约1/10员工

实现超Scale AI的营收规模

37岁的埃德温·陈没有投资者,完全靠自己白手起家创办了这家至今已成立五年的公司。Surge AI拥有110名员工,在纽约和旧金山设有办事处。 

▲Surge AI创始人埃德温·陈(Edwin Chen)

据员工最新透露,该公司去年的营收超过10亿美元,超过了Scale AI公司同期8.7亿美元的营收。该员工称,埃德温·陈表示Surge AI与Scale AI公司不同,从一开始就盈利。 

Surge AI的其他关键财务指标目前尚不清楚,比如Surge AI在支付其主要由外包工人组成的员工工资后还能剩下多少钱。如果Surge AI能从投资者那里获得与Scale A相近的估值,那么陈将成为一位亿万富翁,至少在账面上是这样。 

Surge AI主营数据标注业务。其会雇佣大批外包工作人员对AI模型的响应进行评分,并编写数千个编程、数学和法律等领域的问题和答案,将其输入到这些AI模型中,本质上是在教会它们什么是好的答案。Surge AI的子公司Data Annotation Tech在其网站上提到,员工可以“按照自己的时间表训练AI并获得报酬”,起薪为每小时20美元。 

陈将Surge AI打造成一家高端公司,收取高额费用,通常是Scale AI的2-5倍。Surge AI以其行业领先的声誉证明了定价的合理性。一位Scale AI前员工称,在客户对标签质量的审核中,Surge AI的表现通常优于Scale AI。而其竞争对手凯鹏华盈投资的Handshake公司的老板加勒特·洛德 (Garrett Lord) 也欣然承认,陈是“头号玩家”。 

相比于Scale AI超1000多名员工的组织规模,Surge AI在没有外部资本的情况下虽然营业规模超Scale AI,但员工人数只是Scale AI的约1/10。 

02.对数据行业失望后

80后硅谷华人亲自下场创业

埃德温·陈曾在麻省理工学院(MIT)学习语言学和数学,大学毕业后亲眼目睹了大公司在数据方面的困境,于是萌生了创业的想法。在创办Surge AI之前,陈曾在Facebook、Dropbox、Google和Twitter(现X平台)担任机器学习工程师,开发推荐和搜索算法并帮助收集训练这些算法所需的数据。 

尽管这些公司资源雄厚,陈还是遇到了不少难题。例如,在Facebook,陈受命帮助打造一款Yelp的竞品。他的团队需要训练一个能够正确分类商家的模型,例如区分餐馆和杂货店。为此,他们需要一个包含5万家准确标注商家的数据集,而他发现,如果找一家外部公司来搭建这个数据集,需要六个月的时间。 

“除了等待,我们别无选择。”陈说,“所以我们只能等。” 数据回来后,陈却发现不对劲。比如系统会把餐馆标注为咖啡店,又把咖啡店标注为医院。“这些数据完全是垃圾。”陈说。 

2020年,陈离开Twitter转而创立了Surge AI。为了让Surge AI顺利启动,陈招募了之前工作中认识的数据标注承包商,并用自己的积蓄资助了这家初创公司。巧合的是,陈专注的正是语言建模,相比之下,Scale AI最初是评估自动驾驶汽车的视觉数据。 

不到一年后,OpenAI聘请了Surge AI来对其模型进行微调,方法是根据两家公司共同发表的一篇研究论文,教这些模型如何避免产生有害回应,比如带有种族偏见的语言。 

到2022年,Anthropic也成为了Surge AI的客户,依靠Surge AI来评估大型语言模型是否能够帮助人类监控其他AI,试图建立类人AI背景下的安全检查机制。 

数据标注还可以确保模型的响应在风格上保持一致。例如,据一位参与该流程的人士透露,一家企业科技公司曾聘请Surge AI编写代码及其附带的解释。 

有客户称,Surge AI能如此快速地生成高质量数据,但其对内部流程讳莫如深。“我和云提供商合作的时候也是一样。”这位企业技术客户说,“我不知道他们的服务为什么这么好用,内部原因是什么。我按下按钮,就很高兴看到内部工作实现了这一点。” 

数据标注公司通常会使用各种技术来确保标注员在回答问题时不会盲目跟风。例如,这些公司会随机插入没有正确答案的问题,或者确保多个标注人员对某个问题的正确答案达成一致。 

审核人员也很重要,模型开发人员日益需要更具专业素养的人,在计算生物学、理论物理学等前沿领域撰写问答示例。 

陈不愿透露公司如何管理标注员回复的质量,但他称,Surge AI在初步审核流程之外,还会持续评估其员工;公司可以利用多种指标来判断回复是否高质量,例如员工使用的词语或光标的移动方式。 

Meta在投资Surge AI之前也曾将业务交给Scale AI,但Meta也在Surge AI身上投入了巨额资金。据一位知情人士透露,去年,Meta的生成式AI团队向Surge AI花费了超过1.5亿美元,用于数据标注工作,Surge AI将负责从头到尾的整个流程。这位知情人士透露,这与Meta在Scale AI花费的2亿美元左右相差无几。 

03.四大隐忧:员工诉讼、产能饱和

客户压价、技术替代

虽然Surge AI最近确实取得了长足的发展,但它还面临着许多障碍。 

首先是潜在的法律纠纷问题,比如员工诉讼。曾起诉过Surge AI和Scale AI的律师达纳斯,把目前的情况比作过去十年里员工与网约车公司之间持续多年的法律纠纷。 

上个月,Surge AI在加州遭遇了一场来自外包员工的集体诉讼 ,被指控之所以收入庞大是因为违法经营。诉讼称,该公司将员工归为外包的做法不合理,应该支付他们培训课程、资格考试等投入的费用,以确保高质量工作。Scale AI和其他数据标签公司也面临类似的诉讼。 

但陈认为,许多外包员工,特别是拥有博士和硕士学位的人员,经常选择Surge AI而不是其他竞争对手,因为它可以提供他们想要的东西:与他们花费多年时间研究的领域相关的源源不断的项目。 

然后是产能饱和限制问题。一些客户反映,Surge AI经常处于满负荷预订状态,承接项目需要客户承诺投入数百万美元。与此同时,包括OpenAI在内的模型开发者,正越来越多地通过Mercor等招聘公司,寻找外包人员来完成标注工作。 

此外还有价格下行压力。例如,据一位前谷歌AI技术主管称,谷歌是Surge AI的长期客户,但为了避免被锁定,谷歌一直在与更多供应商合作,最终能够以更低的价格与Surge AI达成交易。 

还有技术替代问题。AI开发人员还找到了更便宜的方法来改进他们的模型,这些方法不需要人工劳动,例如蒸馏,即使用更高级模型的答案来改进较小模型的过程。 

但陈对Surge AI的继续快速增长并未表示担忧。“人们往往低估了这个领域。”他说,“他们认为人类很聪明,普通的博士也很聪明,所以你可以招募10万人,让他们自由发展。但我们发现事实并非如此。” 

04.结语:Scale AI被并购之际

数据标准赛道迎来新机遇

随着Scale AI被Meta投资,OpenAI等许多公司取消与其交易,其他数据标注公司有望迎来新机遇。在资本驱动、规模优先的AI行业中,Surge AI凭借精准的高端定位、零融资高收入的模式,超越行业领头羊Scale AI的营收规模,有望接住新的机遇。 

然而Surge AI面临的并非坦途,它正面对来自员工诉讼、产能饱和、客户议价压力以及AI技术自身演进带来的替代风险等多重挑战。Surge AI能否在保持其核心竞争力的同时有效应对这些挑战,值得关注。 

来源:The Information 

本文来自微信公众号 “智东西”(ID:zhidxcom),作者:李水青,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Surge AI 数据标注 人工智能 Scale AI 埃德温·陈
相关文章