Hugging Face、英伟达和约翰霍普金斯大学的研究人员联合推出了ModernBERT,这是对热门编码器模型BERT的全新升级版本。ModernBERT在保持效率的同时,显著提升了处理长上下文的能力,可处理高达8192个Token。尽管BERT模型自2018年发布以来仍被广泛使用,但其已显落后。ModernBERT借鉴了近年来大型语言模型(LLM)的进展,对BERT的架构和训练过程进行了改进。新模型使用了2万亿个Token进行训练,并在多种测试中达到了业界领先水平。目前已发布1.39亿和3.95亿参数两个版本。
🚀 ModernBERT是对BERT模型的重大升级,由Hugging Face、英伟达和约翰霍普金斯大学的研究人员联合开发,旨在提升模型性能。
⏱️ ModernBERT在效率不变的情况下,显著增强了处理长上下文的能力,支持处理长达8192个Token,弥补了原版BERT模型的不足。
📊 该模型使用了2万亿个Token进行训练,并在多种分类和向量检索测试中达到了目前业界领先水平,性能优异。
💡 ModernBERT借鉴了近年来大型语言模型(LLM)的进展,对BERT模型架构和训练过程进行了改进,使其更具竞争力。
📦 目前已发布两个版本的ModernBERT模型,分别是1.39亿参数和3.95亿参数版本,以满足不同需求。
IT之家 12 月 29 日消息,Hugging Face、英伟达和约翰霍普金斯大学研究人员联手为 Hugging Face 上的热门编码器模型 BERT 推出了全新版本 ModernBERT,号称在满足效率的同时新增支持处理长达 8192 个 Token 的上下文。

开发团队表示,尽管 BERT 模型自 2018 年发布以来仍被业界广泛使用,并且是 Hugging Face 上下载量第二大的模型(仅次于 RoBERTa),每月下载量超 6800 万次,但这款模型如今已有些落后。
在 BERT 模型首次发布 6 年后的今天,Hugging Face 和其他团队借鉴了近年来业界 LLM 的进展,对 BERT 模型架构和训练过程进行改进,最终公布了 ModernBERT 模型以接替原版 BERT 模型。


▲ ModernBERT 模型的基准测试结果据悉,相关开发团队使用了 2 万亿个 Token 来训练 ModernBERT,使得该模型在多种分类测试和向量检索测试中都达到了目前业界领先水平,目前开发团队共计公布了两个版本的模型,分别是 1.39 亿参数和 3.95 亿参数版本,IT之家附项目地址如下(点此访问)。