三花AI 01月14日
2.5 天低成本训练 11.6 亿参数扩散模型;Mistral 发布性能领先的编程模型 Codestral 25.01
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了AI领域的两项重要进展。一是开源项目micro_diffusion,它通过优化训练方法,仅用8个H100 GPU和2.5天,以1890美元的低成本训练出一个11.6亿参数的扩散模型。虽然生成图像质量略优于SD1.5,但训练成本大幅降低。二是Mistral发布的编程模型Codestral 25.01,该模型在同参数量模型中表现卓越,目前在LMsys Copilot竞技场中位居榜首,开发者可通过VSCode和JetBrains插件试用。

🚀micro_diffusion开源项目,使用8个H100 GPU,仅需2.5天,花费1890美元,即可训练一个11.6亿参数的扩散模型,训练成本远低于Stable Diffusion。

🖼️该模型使用3700万张公开图像进行训练,虽然生成图像质量略优于SD1.5,但其低成本训练的特性具有重大意义。

💻Mistral推出的编程模型Codestral 25.01,在同参数量模型中表现出色,目前在LMsys Copilot竞技场中位居榜首,开发者可通过Continue.dev平台及其插件试用。

原创 小茸茸 2025-01-14 09:23 重庆

micro_diffusion:2.5 天低成本训练 11.6 亿参数扩散模型;Mistral 发布性能领先的编程模型 Codestral 25.01

micro_diffusion:2.5 天低成本训练 11.6 亿参数扩散模型

micro_diffusion[1] 是一个开源方法,旨在通过充分利用每一刀从零开始训练大规模扩散模型。

任何人只需使用 8 个 H100 GPU,在短短 2.5 天内,就能以 1890 美元的超低成本,用 3700 万张公开可用的真实和合成图像,训练出一个 11.6 亿参数的稀疏 Transformer。

这比 Stable Diffusion 的训练成本低 118 倍!不过,从论文的基准测试来看,模型生成的图片质量仅略优于 SD1.5,放到现在可能有点不够看。

Mistral 发布性能领先的编程模型 Codestral 25.01

Mistral 最新推出的编程模型Codestral 25.01[2] 现已登陆 Continue.dev 平台。开发者可以通过 VSCode 和 JetBrains 插件试用该模型。

Codestral 25.01 在同参数量模型中表现突出,目前在 LMsys Copilot 竞技场中稳居榜首。


如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注点赞在看收藏分享 五连警告,这对我真的很重要

现在加入 AI 日报群,不会漏掉消息嗷

Reference

[1]

micro_diffusion 开源项目: https://github.com/SonyResearch/micro_diffusion

[2]

Codestral 25.01 官方公告: https://mistral.ai/news/codestral-2501/


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

micro_diffusion Codestral 25.01 扩散模型 编程模型 低成本训练
相关文章