智源社区 01月03日
4o-mini只有8B,o1也才300B!微软论文意外曝光GPT核心机密
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

微软在医学论文中意外泄露了OpenAI及其他大模型的参数信息,引发行业热议。论文本意是介绍一个医学错误识别和纠正的benchmark,但在实验环节公开了包括GPT-4o、Claude 3.5 Sonnet等模型的参数估计。其中,GPT-4o约为200B,GPT-4o-mini约为8B,Claude 3.5 Sonnet约为175B。此举引发了关于模型大小、技术优势以及参数估计准确性的讨论。尽管微软声明数据为估计,但因其此前也有类似泄露事件,外界对其动机表示怀疑。此次事件再次引发了人们对大模型参数保密性的关注。

🔬 微软论文意外曝光多款大模型参数,包括OpenAI的o1-preview(约300B)、GPT-4o(约200B)和GPT-4o-mini(约8B),以及Anthropic的Claude 3.5 Sonnet(约175B)。其中,GPT-4o-mini的8B参数引发广泛讨论,许多人对此表示怀疑。

📊 论文实际是介绍医学benchmark MEDEC,旨在识别和纠正临床笔记中的错误。该数据集包含3848份临床文本,涵盖五种类型的错误,由医疗人员标注。研究发现,Claude 3.5 Sonnet在错误标志检测方面表现优异,得分70.16。

🧐 参数泄露事件并非首次,微软曾在23年10月“意外”曝出GPT-3.5-Turbo模型的20B参数。此次事件再次引发了对大模型参数保密性的关注,以及对模型大小与性能关系的讨论。有人认为,微软此举可能并非无意,而是有其战略考量。

💰 基于泄露的参数,网友分析认为,如果Claude 3.5 Sonnet真的比GPT-4o还小,Anthropic可能在技术上具有优势。同时,有人根据推理成本推算GPT-4o-mini的参数可能在8B左右,与微软泄露的数据相符。

微软又把OpenAI的机密泄露了??在论文中明晃晃写着:

o1-preview约300B参数,GPT-4o约200B,GPT-4o-mini约8B……

英伟达2024年初发布B200时,就摊牌了GPT-4是1.8T MoE也就是1800B,这里微软的数字更精确,为1.76T

除此之外,论文中给OpenAI的mini系列,Claude3.5 Sonnet也都附上了参数,总结如下:

    o1-preview约300B;o1-mini约100B

    GPT-4o约200B;GPT-4o-mini约8B

    Claude 3.5 Sonnet 2024-10-22版本约175B

    微软自己的Phi-3-7B,这个不用约了就是7B

虽然论文中后面也有免责声明:

确切数据尚未公开,这里大部分数字是估计的。

但还是有不少人觉得事情没这么简单。

比如为什么唯独没有放谷歌Gemini模型的参数估计?或许他们对放出来的数字还是有信心的。

也有人认为,大多数模型都是在英伟达GPU上运行的,所以可以通过token生成速度来估计。

只有谷歌模型是在TPU上运行的,所以不好估计。

而且微软也不是第一次干这事了。

23年10月,微软就在一篇论文里“意外”曝出GPT-3.5-Turbo模型的20B参数,在后续论文版本中又删除了这一信息。

就说你是故意的还是不小心的?

微软这篇论文说了什么

实际上,原论文介绍了一项与医学相关的benchmark——MEDEC。

12月26日就已经发布,不过是比较垂直领域的论文,可能非相关方向的人都不会看,年后才被列文虎克网友们发现。

研究起因是,据美国医疗机构调查显示,有1/5的患者在阅读临床笔记时报告发现了错误,而40%的患者认为这些错误可能影响他们的治疗。

而且另一方面,LLMs(大语言模型)被越来越多的用于医学文档任务(如生成诊疗方法)

因此,MEDEC此番有两个任务。一是识别并发现临床笔记中的错误;二是还能予以改正。

为了进行研究,MEDEC数据集包含3848份临床文本,其中包括来自三个美国医院系统的488份临床笔记,这些笔记之前未被任何LLM见过。

它涵盖五种类型的错误(诊断、管理、治疗、药物治疗和致病因子),这些错误类型是通过分析医学委员会考试中最常见的问题类型选择的,并由8位医疗人员参与错误标注。

而参数泄露即发生在实验环节

按照实验设计,研究者将选取近期主流的大模型和小模型来参与笔记识别和纠错。

而就在介绍最终选定的模型时,模型参数、发布时间一下子都被公开了。

对了,省去中间过程,这项研究得出的结论是:Claude 3.5 Sonnet在错误标志检测方面优于其他LLM方法,得分为70.16,第二名是o1-mini。

网友:按价格算合理

每一次,ChatGPT相关模型架构和参数泄露,都会引起轩然大波,这次也不例外。

23年10月,微软论文声称GPT-3.5-Turbo只有20B参数的时候,就有人感叹:难怪OpenAI对开源模型这么紧张。

24年3月,英伟达确认GPT-4是1.8T MoE,而2000张B200可以在90天内完成训练的时候,大家觉得MoE已经且仍将是大模型架构趋势。

这一次,基于微软估计的数据,网友们主要有几个关注点:

如果Claude 3.5 Sonnet真的比GPT-4o还小, 那Anthropic团队就拥有技术优势。

以及不相信GPT-4o-mini只有8B这么小。

不过此前也有人根据推理成本来算,4o-mini的价格是3.5-turbo的40%,如果3.5-turbo的20B数字准确,那么4o-mini刚好是8B左右。

不过这里的8B也是指MoE模型的激活参数。

总之,OpenAI大概是不会公布确切数字了。

此前奥特曼征集2024年新年愿望,最后公布的清单中还有“开源”。2025年的最新版本里,开源已经被去掉了。

论文地址:
https://arxiv.org/pdf/2412.19260

参考链接:
[1]
https://x.com/Yuchenj_UW/status/1874507299303379428
[2]https://www.reddit.com/r/LocalLLaMA/comments/1f1vpyt/why_gpt_4o_mini_is_probably_around_8b_active/

量子位年度AI主题策划正在征集中!

欢迎投稿专题 一千零一个AI应365行AI落地方案

或与我们分享你在寻找的AI产品,或发现的AI新动向

点这里?关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型参数 微软泄密 OpenAI Claude 3.5 Sonnet MEDEC
相关文章