AMD在Huggingface平台公布首款小语言模型AMD-Llama-135m,具有推测解码功能,拥有6700亿个token,采用Apache 2.0开源许可。该模型通过小型草稿模型生成候选token,由大目标模型验证,可减少RAM占用提升效率。此模型在四个AMD Instinct MI250节点训练六天,其编程专用版本变体还额外微调了四天。
🦘AMD-Llama-135m是AMD在Huggingface平台公布的首款小语言模型,它具有推测解码功能,这一功能使得模型能够更高效地生成文本内容。在实际应用中,该模型使用小型草稿模型生成一组候选token,然后由更大的目标模型进行验证,这种独特的工作方式显著减少了RAM占用,实现了效率的提升。
💻这款模型拥有6700亿个token,并采用了Apache 2.0开源许可,这为开发者和研究人员提供了更多的便利和可能性。通过开源许可,更多的人可以参与到模型的研究和应用中,推动技术的不断发展和创新。
🏋️AMD-Llama-135m的训练过程也颇为复杂。它在四个AMD Instinct MI250节点上训练了六天,而其编程专用版本变体AMD-Llama-135m-code则额外耗费了四天时间进行微调。这种长时间的训练和微调,使得模型在特定领域的表现更加出色,能够更好地满足用户的需求。
IT之家 9 月 29 日消息,AMD 在 Huggingface 平台公布了自家首款“小语言模型”AMD-Llama-135m,该模型具有推测解码功能,拥有 6700 亿个 token,采用 Apache 2.0 开源许可,IT之家附模型地址如下(点此访问)。

据介绍,这款模型主打“推测解码”能力,其基本原理是使用小型草稿模型生成一组候选 token,然后由更大的目标模型进行验证。这种方法允许每次前向传递生成多个 token,而不会影响性能,从而显著减少 RAM 占用,实现效率提升。
AMD 表示,这款模型在四个 AMD Instinct MI250 节点训练了六天,其“编程专用版本”变体 AMD-Llama-135m-code 则额外耗费了四天时间进行微调。