原创 SiliconCloud 2024-11-29 09:53 北京
“中国在开源AI方面的进步确实值得称赞。”
国产o1版推理大模型相继面世。昨天,阿里千问团队开源了QwQ-32B-Preview,尤其在数学及各种复杂推理任务上取得突破性进展,且会在回答时给出详细的思考过程。根据官方公布的数据,QwQ-32B-Preview在数学能力(AIME、Math-500)上的表现超过OpenAI o1-preview。
一如既往,硅基流动SiliconCloud第一时间上线了推理加速版QwQ-32B-Preview(价格为¥1.26 / M tokens),免去开发者的部署门槛,只需在开发应用时轻松调用API,即可带来更高效的用户体验。平台还支持开发者自由对比体验各类大模型,为你的生成式AI应用选择最佳实践。
在线体验
https://cloud.siliconflow.cn/playground/chat/17885302652API文档
https://docs.siliconflow.cn/api-reference/chat-completions/chat-completions
感受一下SiliconCloud上QwQ-32B-Preview在推理加速后的效果。
模型表现及亮点
尤其是在数学和编程这些需要深度推理的领域,QwQ-32B-Preview解决了一些最具挑战性的问题,体现了它在分析和问题解决能力方面的显著进步,主要包括:
GPQA:一个通过研究生级别问题评估高阶科学解题能力的评测集,旨在考察科学问题解决能力;
AIME:涵盖算术、代数、计数、几何、数论、概率等中学数学主题的综合评测,测试数学问题解决能力;
MATH-500:包含500个测试样本的MATH评测集,全面考察数学解题能力;
LiveCodeBench:评估真实编程场景中代码生成和问题解决能力的高难度评测集。
作为预览版本,QwQ-32B-Preview展现了不错的分析能力,但同时千问团队也坦率指出,这一模型是实验性研究模型,在语言切换问题、推理循环、安全管控、以及在其他领域推理能力的局限性,不过,他们正通过持续优化,努力提升模型的各项能力。
开发者使用评价
QwQ-32B-Preview发布后,有国外开发者已经体验了这一模型。一位日本开发者表示,该模型可与OpenAI o1-preview相媲美,且解答了o1都无法解答的日本数学奥林匹克难题。
Reddit上的开发者问了关于两个日期之间共有多少天的问题,这对大部分开源LLM模型都很有挑战,但QwQ-32B-Preview还是回答正确。
还有人指出,QwQ-32B-Preview令人印象深刻,中国在开源AI方面的进步确实值得称赞。
现在,你也可以在SiliconCloud上体验QwQ-32B-Preview了,看看它有哪些惊喜,又有哪些进步的空间。
Token工厂SiliconCloud
Qwen2.5(7B)等20+模型免费用
作为集合顶尖大模型的一站式云服务平台,SiliconCloud致力于为开发者提供极速响应、价格亲民、品类齐全、体验丝滑的模型API。
除了QwQ-32B-Preview,SiliconCloud已上架包括LTX-Video、Qwen2.5-Coder-32B-Instruct、Hunyuan-A52B-Instruct、fish-speech-1.4、Llama-3.1-Nemotron-70B-Instruct、Qwen2-VL、InternVL2、Qwen2.5-Math-72B、Qwen2.5-7B/14B/32B/72B、FLUX.1、DeepSeek-V2.5、InternLM2.5-20B-Chat、BCE、BGE、SenseVoice-Small、GLM-4-9B-Chat在内的多种开源大语言模型、图片/视频生成模型、代码/数学模型、向量与重排序模型以及多模态大模型。
其中,Qwen2.5(7B)、Llama3.1(8B)等20+大模型API免费使用,让开发者与产品经理无需担心研发阶段和大规模推广所带来的算力成本,实现“Token 自由”。
近期更新
• SiliconCloud上线Fish Audio
• 手把手带你玩转ComfyUI Bizyair
• SiliconCloud上线Qwen2.5-Coder-32B
• 让3000万用户享受大模型语言学习服务
• SiliconCloud上线视频生成模型LTX-Video
• SD3.5上线ControlNet三件套,BizyAir同步支持
让超级产品开发者实现“Token自由”
邀请好友体验SiliconCloud,狂送2000万Token/人
邀请越多,Token奖励越多
siliconflow.cn/zh-cn/siliconcloud
扫码加入用户交流群