原创 小茸茸 2025-01-14 09:23 重庆
micro_diffusion:2.5 天低成本训练 11.6 亿参数扩散模型;Mistral 发布性能领先的编程模型 Codestral 25.01
micro_diffusion:2.5 天低成本训练 11.6 亿参数扩散模型
micro_diffusion[1] 是一个开源方法,旨在通过充分利用每一刀从零开始训练大规模扩散模型。
任何人只需使用 8 个 H100 GPU,在短短 2.5 天内,就能以 1890 美元的超低成本,用 3700 万张公开可用的真实和合成图像,训练出一个 11.6 亿参数的稀疏 Transformer。
这比 Stable Diffusion 的训练成本低 118 倍!不过,从论文的基准测试来看,模型生成的图片质量仅略优于 SD1.5,放到现在可能有点不够看。
Mistral 发布性能领先的编程模型 Codestral 25.01
Mistral 最新推出的编程模型Codestral 25.01[2] 现已登陆 Continue.dev 平台。开发者可以通过 VSCode 和 JetBrains 插件试用该模型。
Codestral 25.01 在同参数量模型中表现突出,目前在 LMsys Copilot 竞技场中稳居榜首。
❝如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注、点赞、在看、收藏、分享 五连警告,这对我真的很重要!
Reference
[1]
micro_diffusion 开源项目: https://github.com/SonyResearch/micro_diffusion
[2]Codestral 25.01 官方公告: https://mistral.ai/news/codestral-2501/