智源社区 01月23日
最壕DeepSeek玩家8台Mac跑R1,10万+元凑496GB显存才能跑4bit量化版
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek-R1接受全球检验,有人为其投入高额配置。它在各榜单有不同表现,成本优势明显,且带来新创业机会。

🎬花30秒用manim代码制作解释勾股定理动画

💻有人组高额配置跑4bit量化版,也有小模型浏览器可跑

📈R1在各榜单有不同表现,成本优势受关注

🎉R1带来新创业机会,可进行OpenAI风格强化微调

DeepSeek-R1,正在接受全球网友真金白银的检验。

花30秒用manim代码制作解释勾股定理的动画,一次完成无错误。

为了玩上这样的模型,有人花上10多万元,组7台M4 Pro Mac mini+1台M4 Max Macbook Pro的家用超算。

总计496G显存(64*7+48),才能跑起个4bit量化版,但属实算得上“家用AGI”配置了。

另一个极端是选择R1数据蒸馏版Qwen 1.5B小模型,小到浏览器就能跑,每秒能输出60个tokens。

与此同时,各种榜单也在抓紧测试,纷纷跑出了结果。

R1横扫各大榜单

首先是LiveBench,与LiveCodeBench一样,题目是随时间更新的,所以相对受认可。

R1的表现在o1-preview到o1之间,其中只有数据一项超过o1。

不过再带上成本成本约1/30这个条件看,又是不一样的感觉,给老哥整无语了。

唯一的抱怨是上下文窗口太短。

o1系列一战成名的ARC-AGI,测试结果分为公开数据和私有数据两部分。

DeepSeek R1在私有数据上解决了15.8%的问题,与DeepSeek-V3相比翻倍还多。

公开数据上更是解决了20.5%的问题,与DeepSeek-V3相比上涨约46%。

总的来看,DeepSeek-R1表现与o1-preview相近,但稍低。

但同样,带上几毛钱就能解决一道题,o1系列至少要10块钱这个背景来看,又是不一样的感觉。

考验任务规划能力的PlanBench,同样的剧本再次上演。

在开发者Xeophon自己的个人测试上,甚至超过了o1-preview。

同一个测试上,R1数据蒸馏的Qwen 32B,与DeepSeek-V3,GPT-4o和Gemini Flash处于同一水平。

最后,还有人从中看到新的创业机会。

谁来构建一个平台,能轻松地在DeepSeek R1上进行OpenAI风格的强化微调。

至少在短期内,是一个巨大的机会。

R1在正确数据和微调方法下,可能在特定任务上大幅提升。

参考链接:
[1]
https://x.com/alexocheema/status/1881561143736664180
[2]https://x.com/reach_vb/status/1881809400995934640
[3]https://livebench.ai/#/
[2]https://x.com/arcprize/status/1881761987090325517
[3]https://x.com/TheXeophon/status/1881443117787984265

量子位智库年终发布三大年度报告

带你一起回顾2024年人工智能智能驾驶Robotaxi新趋势,预见2025年科技行业新机遇

2024年度AI十大趋势报告

Robotaxi2024年度格局报告

智能驾驶2024年度报告

一键关注 ? 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!


内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek-R1 成本优势 榜单表现 创业机会
相关文章