AI & Big Data 2024年12月24日
Meta BLT語言模型架構突破Tokenization技術極限,推理更快更準
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Meta推出的BLT架构,革新了大型语言模型的运算方式,超越传统分词模型。BLT直接在字节层级运算,通过动态分组合并低复杂数据字节,分割高复杂数据补丁,实现了更高效的资源分配和推理性能。这种架构不仅提升了运算效率,还增强了模型对噪声的鲁棒性和对语言细节的理解,尤其在处理非主流语言和多语言环境时更具优势。BLT由轻量本地编码器、大型Latent Transformer和解码器组成,根据数据需求灵活调整,大幅降低不必要的运算成本,实验显示推理效率提升高达50%。

💡BLT架构打破了传统分词模型的限制,不再依赖固定词汇单元,直接从原始字节数据中学习,提高了模型处理非主流语言和多语言环境的能力。

🧩BLT采用动态分补丁机制,根据数据复杂度将字节分组为大小不一的补丁,低复杂度数据字节合并成较长补丁,高复杂度数据分割更细,从而更高效地分配运算资源。

🚀BLT模型在推理效率上显著提升,比Llama 3等分词模型更高,且在相同运算资源下可扩大模型规模与补丁大小。实验结果显示,BLT的推理效率较传统分词模型提升达50%。

🧠BLT在处理输入噪声时表现更强健,对语言学上的细微特征(如字形结构和拼音规则)的理解更佳,也克服了低资源语言翻译任务上的劣势。

Meta新推出的BLT(Byte Latent Transformer)架構,重新定義了大型語言模型的運算方式,使得性能以及效率都超越目前主流的分詞(Tokenization)模型。該項新技術打破長期以來分詞模型在大型語言模型訓練中的限制,直接在位元組層級上進行運算,並展現出了在推理效能和模型強健性上的優勢。分詞是大型語言模型的技術重點之一,分詞模型會將原始字串分解並壓縮成固定的字彙單元,以減少處理長序列的運算成本。但是這種方法的限制,隨著語言模型的發展日益明顯,首先,分詞過程中使用的壓縮演算法通常帶有語言和資料偏差,對非主流語言和多語言環境支援不足。其次是分詞模型對輸入雜訊的容忍度較低,特別是處理非正規語料時更容易出錯。此外,由於分詞具靜態性,無法根據資料密度靈活分配運算資源,導致資源的分配效率通常與資料的複雜度不一致。為解決傳統分詞模型的限制,BLT架構直接從原始位元組資料中學習。這種架構不再仰賴固定的分詞單元,而是直接從原始位元組資料中學習,並透過動態分組機制,將位元組根據下一步預測的資料複雜度,分組為大小不一的補釘(Patch),低複雜度資料位元組可被合併成較長的補釘,減少需要處理的補釘數量,高複雜度資料補釘則被分割得更細,讓模型能專注於處理資訊密集的部分。而這些補釘在保持資料完整性的同時,能有效提高模型對資訊密集區域的運算資源分配效率。在實際測試中,BLT展現出比Llama 3等分詞模型更高的推理效率,並能在相同的運算資源下同時擴大模型規模與補釘大小。這種新的設計不僅提高模型的運算效率,也帶來了性能上的突破,Meta研究團隊表示,BLT模型在處理輸入雜訊時,比分詞模型更強健,並且在語言學上的細微特徵理解,像是字形結構和拼音規則等方面表現得更好。BLT也能克服低資源語言翻譯任務上的劣勢,進一步擴展應用場景。BLT架構由三個核心模組構成,一個是輕量本地編碼器,負責將位元組轉換為補釘的表示形式,另一個是處理補釘的大型Latent Transformer,第三個模組則是將補釘轉回位元組的解碼器。這種設計讓BLT模型能夠根據資料需求靈活調整,大幅降低不必要的運算成本。實驗結果顯示,BLT的推理效率較傳統分詞模型提升達50%。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

BLT架构 大型语言模型 字节级运算 推理效率 Meta
相关文章