Mistral发布了专门用于编程开发的大型语言模型Codestral Mamba,该模型基于Mamba2架构,具有线性时间推理的优势,能够处理无限长度的序列。与传统的Transformer模型相比,Codestral Mamba能够更快速地响应用户指令,不受输入长度限制,并能够根据更多代码内容生成更合适的代码。此外,Codestral Mamba还支持上下文检索功能,可以帮助开发者构建更完整的项目。
💻 Codestral Mamba 是一种基于 Mamba2 架构的大型语言模型,与传统的 Transformer 模型不同,它具有线性时间推理的优势,能够在理论上处理无限长度的序列。这意味着 Codestral Mamba 可以快速响应用户指令,不受输入长度限制,并且能够根据更多代码内容生成更合适的代码,为开发者提供更强大的代码生成能力。
📕 Codestral Mamba 支持上下文检索功能,最高可支持 256K 的上下文长度。这意味着开发者可以将更多代码内容提供给模型,帮助模型更好地理解代码上下文,生成更准确、更完整的代码,从而提高代码质量和开发效率。
📈 Codestral Mamba 是一个指导模型,开发者可以根据自己的需求使用 mistral-inference 进行微调训练,打造适合自己或特定领域的版本。这使得 Codestral Mamba 能够更好地适应不同的开发场景和需求,为开发者提供更个性化的代码辅助工具。
📡 Mistral 提供了两个版本的 Codestral Mamba:codestral-mamba-2407 和 Codestral-22B。前者基于 Apache 2.0 许可证发布,具有 72B 参数,所有人都可以免费下载和使用;后者并非开源,商业性使用必须购买商业许可,免费的社区许可只能用于测试目的。
人工智能开发商 Mistral 今天发布了专门用于编程开发的大型语言模型 Codestral Mamba,这是一种 Mamba2 语言模型,基于 Apache 2.0 许可证发布,所有人都可以免费下载和使用。
Mistral 表示,即 Mixtral 系列模型发布后,Codestral Mamba 模型是研究和提供新架构的新步伐,该公司希望这个新模型能够为架构研究开辟新的视角。

与 Transformer 模型不同,Mamba 模型具有线性时间推理的优势,并且理论上能够对无限长度的序列进行建模,这种优势可以让用户广泛地与模型进行互动、提供快速响应、不受输入长度的限制。
这种高效的模型对编程开发尤其重要,不受输入长度的限制意味着模型可以读取更多代码内容并根据上下文编写更适合的代码、帮助开发者构建更完整的项目。

Mistral 已经对 Codestral Mamba 上下文检索功能进行了测试,最高可以支持 256K,Mistral 希望该模型能够成为一款出色的本地代码助手。
Codestral Mamba 同样是一个指导模型,开发者可以根据自己的需要使用 mistral-inference 进行微调训练,打造适合自己或特定领域的版本。
需要提醒的是 Mistral 同时提供了 codestral-mamba-2407 版和 Codestral-22B 版,其中前者基于 Apache 2.0 许可证发布,具有 72B 参数;后者并非开源,商业性使用必须购买商业许可,免费的社区许可只能用于测试目的。