橘子汽水铺 2024年11月26日
Kimi 数学版全面测评,测完有点小惊喜
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Kimi推出了一款名为Kimi数学版的模型,旨在提升大模型的数学能力,并已超过o1-preview在多项考试类测试集中的表现。该模型能够解决复杂的数学问题,例如购物配比、减肥所需时间计算、用户增长预测等,并提供详细的计算过程。不过,目前Kimi数学版还存在一些问题,例如不支持文件和图片输入、仅支持一轮对话以及存在过度思考的情况。未来,Kimi数学版预计还将进行代码方面的优化,并推出更多功能。

🍊Kimi数学模型在多项数学考试类测试集中表现超过了o1-preview,例如解决购物配比、减肥所需时间计算、用户增长预测等问题。

🧮Kimi数学模型能够提供详细的计算过程,方便用户定位错误并理解解题思路,提升用户体验。

🤔Kimi数学模型目前尚不支持文件和图片输入,限制了其在几何题等领域的应用。

🔄Kimi数学模型目前仅支持一轮对话,多轮对话效果可能会有所下降,需在初始提示中明确所有限定条件。

⚠️Kimi数学模型有时会陷入过度思考,导致结果偏离正确答案,需要进一步优化。

原创 orangesai 2024-11-25 20:11 北京

昨天 Kimi 的小伙伴终于邀请我参与了模型的内测,在这里跟大家分享一下对这个模型的体验。

o1 出来之后,强化学习的范式已经成为业界共识。最近有三家公司都推出了自己的对标 o1 的模型,分别是月之暗面的 k0-math,Deepseek 的 R1 Lite,阿里巴巴的 Macro o1.

其中 k0-math 是最早发布的,重点优化了数学方面,在多项考试类测试集中都超过了 o1-preview。

这个模型发布之后,Orange 立刻去找 Kimi 的小伙伴问:什么时候能在线上体验这个模型?

昨天 Kimi 的小伙伴终于邀请我参与了模型的内测,在这里跟大家分享一下对这个模型的体验。


很多人听到数学模型的第一反应是做高考题之类的,

其实生活中很多地方都需要用到数学,购物算价格、健身算卡路里、产品经理算增长数据,等等。

接下来为大家分享几个我测试的例子。这部分问题之前大模型的数学能力难以解决,但是在今天学会数学后能去做更多的事情

第一道题,首先我们还是从最经典的题目开始

9.8和9.11谁更大?

大模型终于懂了!分数的十分位大小决定了一切,回答正确。

第二道题,我们来算一个强迫症购物的问题

有个人想买几套餐具,到了店里发现,自己的钱可以买21把叉子和21个勺子,也够买28个小刀,但是,他想三样东西都买,而且要配成一套,并且把钱刚好花完,如果你是这个人,你会怎么买呢?

可以看到这个计算过程是相当的详细,计算过程的每一步都清晰地写了出来,这样非常方便定位错误,当然最终计算结果也没问题。


第三道题,我们来算一下减肥5kg大概需要几天

请根据下列情况计算减肥的话,需要摄入的每日卡路里量,并推算减肥需要几天。男性,少量运动,当前体重 80kg 身高 180cm 年龄30 减肥目标5kg

wc!竟然要饿这么久才能减5kg,哭了。。。

第四道题,我们来算一下获得100万用户的节奏

一个产品一年的目标是100万用户,假设每个月新用户的增长是上个月的150%,请分别计算每个月应该获取的用户数

不仅计算出了每个月需要获取的用户数,还积极主动地做了一个验算的公式,这就有点贴心了。


在测试的过程中,我发现 Kimi 数学版目前还存在一些问题,比如:

问题一,Kimi 数学版暂时还不支持文件和图片的输入。所以几何题还没法很好的测试,几何题目又占了一半的内容。

问题二,Kimi 数学版目前只支持一轮,对于多轮应该还没优化,所以如果是追问的话效果可能会打折,要在第一次的prompt里把限定条件都说清楚。

问题三,有时候模型会陷入过度思考,中间我测试了一个简单的问题,它一次就做对了,接下来反思了三遍,结果眼看着他离正确答案越来越远。。。

希望官方尽快解决这些问题吧。


在国内的大模型产品里,Kimi 走的一直是高智商生产力工具路线,从 Kimi 的一些规划来预测,数学版应该只是对标 o1 的第一个版本,是一个相对比较容易验证技术的封闭集,后续应该也会有代码方面的优化。


好了,以上就是今天的全部内容。

如果觉得有用,记得关注橘子汽水铺

感谢阅读,我们,下次再见。


跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Kimi 数学模型 大模型 强化学习 o1
相关文章