index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
两位大模型从业者对小米MiMo大模型展开讨论。群友A认为,MiMo可能为了刷数学和代码榜单牺牲了其他能力,导致与真实用户需求的匹配度不高,尤其在中文问答方面表现不如Qwen。尽管其在AIME(美国高中数学竞赛)中取得高分,但小学数学题的成绩却不如Qwen-7B,这并不寻常。群友B则认为,这可能是小米为了练兵和宣传,并表示小参数模型使用蒸馏技术是常见做法,MiMo通过合成数据进行训练。他们还讨论了MiMo与MindGPT的差异,以及理想汽车在AI领域的策略和实力。
📈**榜单优化与用户需求**: 小米MiMo大模型可能过度优化数学和代码能力,导致牺牲了其他方面的性能,与真实用户需求的匹配度降低,尤其是在中文问答方面表现不佳。
🤔**AIME高分与GSM8K低分**: MiMo在美国高中数学竞赛(AIME)中取得高分,但在小学数学题(GSM8K)中的表现却不如Qwen-7B,这表明其可能存在为了特定指标而牺牲整体性能的情况。
🧪**蒸馏训练与数据合成**: 小米MiMo采用了蒸馏训练技术,并使用“先进推理模型”合成了数据。这种做法在小尺寸模型中较为常见,但可能导致模型在某些方面的表现出现偏差。
📢**宣传策略与实际能力**: 小米可能将MiMo在AIME中的高分作为宣传点,以吸引人才和提升品牌形象。然而,实际使用体验可能并不理想,尤其是在小爱同学等应用中。
原创 群友 2025-04-30 21:04 四川
群友AB均为大模型从业者,其中群友B为重度米粉+小米股票持有者。

群友AB均为大模型从业者,其中群友B为重度米粉+小米股票持有者。群友A: 小米这个大模型看起来是专门刷数学和代码的榜,其他能力会退化,和真实用户需求匹配度不高。预训练的结果,除了图上展示的几项数学和代码能力,其他基本都不如Qwen,特别是最下面的中文问答,本来应该最重视。强化学习提高的分数属于今年的一般水平,没看到创新点,提升也不显著(可以对比字节的VAPO),主要是靠预训练偏重数学和代码。MiMo的rl(强化学习)还是强化数学代码,其他能力会继续下降,没晒出来。7B的模型预训练完了AIME就有20多分,通过过于牺牲其他方面,技巧性高分,不是通过结构创新的硬实力高分。AIME是美国高中数学竞赛,题目很难,但是一年只有30题,而且每道题的正确答案都规定是整数,有蒙答案的可能性,评测不看解题过程。其他的也刷了,但成绩不行,GSM8K是小学数学题,不如Qwen-7B,这是不寻常的,一个人高中数学竞赛成绩很好,小学数学题考不过别人。群友B:看了小米原文论文,可能是刚启动为了练兵玩一下和更好的招人宣传下,评了其他Benchmark(基准测试)差不多是7B模型的正常水平。 但是把AIME刷的异常的高是用来PR宣传,Reasoning RL(推理驱动的强化学习)对数据生产能力要求相对低。
Q1:如何分辨MiMo和MindGPT 3.0哪个更强?群友A:MindGPT是千亿参数的,模型大很多,不适合一起比较。TOP2备注:MindGPT参数大很多,能力强很多是正常的。Q2:小参数模型,训练起来也更快吧。所以小米的策略是搞个小参数模型,专供部分指标,依次来展示所谓的实力?群友A:可以这么理解,找补一下的话,这个是锻炼一下团队能力,把模型生产线流程走通,这个版本要是用到小爱同学预期体验会不好。Q3:MindGPT除了咱们理想粉在嗨 一般用户有知道么?TOP2:群不是理想粉定位,据我观察,不论群友还是理想粉几乎没人嗨,理想谋求的是硬实力真本事,真到某个地步后,会逐渐越来越多人用与认可的。群友B:不用可能, 根据R1论文,对于小尺寸模型蒸馏效果比自己训练要好(前天Qwen3也是,小尺寸的也是通过蒸馏训练的) 如果小米是用7B模型直接训练那更显得不专业 或者就是单纯练兵 也不是追求同尺寸下最优效果。Q5:好像没看到说小米这个7B模型使用了蒸馏技术?群友B:这个是一定会用的就看他文章里写不写了 ,你问起来我特地去原文看了下,还比较诚实,直接说了用『先进推理模型』合成了数据。Q5:是不是这个方法造成MiMo GSM8K(小学数学题)不如Qwen-7B,而AIME(美国高中数学竞赛)分数很高?群友A:不是,这个策略现在所有团队都用,MindGPT也提到了。李想将在25年5月7日 20:00播出 AI Talk第二季,推荐读者预约一下。AI Talk 第一季很有含金量,详见《理想 AI TALK》。
阅读原文
跳转微信打开