AI & Big Data 前天 15:33
JetBrains開源Mellum語言模型,專精程式碼理解與補全任務
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

JetBrains 开源了其首个专注于代码补全任务的语言模型 Mellum,该模型已在 Hugging Face 平台上发布。Mellum 是一款专精模型,针对代码理解与补全进行了优化,而非通用模型。Mellum-4b-base 模型拥有 40 亿个参数,支持 8,192 个 token 的上下文长度,并使用大量代码数据进行训练,涵盖 Java、Python 等多种编程语言。Mellum 强调深度而非广度,在有限参数规模下追求最佳任务适应性和部署效率,可在本地或云端环境运行。虽然在性能上略逊于大型模型,但 Mellum 适合研究训练策略,JetBrains 计划推出更多语言模型变体。

💻 JetBrains 推出了专为代码补全设计的语言模型 Mellum,它并非通用模型,而是专注于代码理解与补全,旨在有限参数规模下实现最佳性能。

📚 Mellum-4b-base 模型拥有 40 亿个参数,采用了类似 LLaMA 的架构,支持 8,192 个 token 的上下文长度,并使用 4.2 万亿 token 的训练数据,涵盖多种编程语言。

💡 Mellum 强调专精,回溯到机器学习早期专精模型的理念,注重深度而非广度,这使得模型在训练资源和部署灵活性方面具有优势,可在本地和云端运行。

🚀 在效能方面,Mellum 在代码完成测试中表现出色,虽然不及更大规模的模型,但 JetBrains 强调其适用于研究训练策略和模型专精化。

✨ JetBrains 计划推出更多 Mellum 模型变体,包括针对 Python 语言的 SFT 版本,以及针对不同编程语言和开发场景的模型,以满足多样化的需求。

JetBrains開源其第一個針對程式碼完成任務設計的語言模型Mellum,並已發布於Hugging Face平臺,供研究與開發人員取用。JetBrains稱Mellum為專精模型(Focal Model),其並非試圖涵蓋所有自然語言任務的通用模型,而是聚焦程式碼理解與補全的單一應用場景,藉此在有限參數規模追求最佳的任務適應性與部署效率。

Mellum-4b-base模型具有40億個參數,採用類似LLaMA的架構,支援8,192個token的上下文長度,並經由JetBrains團隊從零開始訓練,而非基於現有開源模型進行微調。其訓練資料總量達4.2兆token,涵蓋如The Stack、StarCoder訓練集、CommitPack與英文維基百科等公開語料,針對Java、Python、C/C++、JavaScript、TypeScript、Go、Kotlin、PHP、Rust等語言進行學習,目的在於提供準確且上下文一致的程式碼完成能力。

JetBrains表示,Mellum設計概念回歸機器學習早期專精模型的想法,強調深度大於廣度,與當前大型語言模型普遍追求多任務通用能力的趨勢有別。在Mellum架構下,模型不僅在訓練資源上更節省,其可部署的彈性也大幅提升,能在如llama.cpp、Ollama等環境本地執行,也可透過vLLM於雲端部署。

在效能表現方面,Mellum-4b-base在JetBrains內部的HumanEval Infilling測試中,單行程式碼完成通過率為66.21%,多行完成為38.5%。此外,在RepoBench與SAFIM等程式碼評測中,Mellum於自身支援的上下文長度範圍,整體效能達到一定的水準。

雖然Mellum在效能上仍不及CodeLlama-13B或DeepSeek-Coder-6.7B等規模較大的模型,但JetBrains強調,Mellum的設計目標並非取代通用語言模型,而是適合研究訓練策略、推論效率與模型專精化之用。

目前公開的Mellum版本為未經下游任務微調的基本模型,但已可支援進一步的監督式微調(SFT)與強化學習(RLHF)流程。JetBrains同時釋出針對Python語言的SFT版本模型,並預告將陸續推出針對其他語言任務的模型變體,對應不同程式語言與開發場景。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

JetBrains Mellum 代码补全 语言模型
相关文章