PaperAgent 21小时前
Tokenization谢幕?H-Net登场:Mamba作者新作正面硬刚Transformer
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

H-Net是一种创新的端到端分层序列建模方法,它通过动态分块机制,自动学习内容相关的切分策略,替代了传统的“分词→语言模型→反分词”流程。该模型在英文和中文测试中均表现出色,超越了基于BPE分词的Transformer模型,尤其在数据效率和代码压缩方面有显著优势。H-Net在DNA序列数据处理中也展现出优越性,为端到端建模提供了新的思路和可能性。

🧠 H-Net的核心在于其动态分块机制。该机制能自动学习内容相关的切分策略,并与模型的其余部分联合训练,从而实现端到端的建模。

⚙️ H-Net采用显式的层级网络结构,通过多级抽象提升效率。单级H-Net已能超越基于BPE分词的Transformer模型,多级结构则通过抽象层级的叠加进一步提升性能。

📈 H-Net在多项实验中表现优异。例如,在英文数据集上,仅用30B bytes的训练数据,两阶段H-Net就超越了1.3B参数的BPE Transformer。在中文数据集上,准确率显著提升,代码压缩率和数据效率也更胜一筹。

🧬 H-Net在处理DNA序列数据时,效率提升了3.6倍,优于传统模型。这表明H-Net在不同类型序列数据处理方面具有广泛的适用性。

2025-07-13 11:35 湖北

尽管近年来语言模型取得了惊人进展,这一进步主要源于从面向特定任务的专用模型转向基于强大架构(如 Transformer)的通用模型——这些模型能从原始数据中直接学习一切。然而,诸如分词(tokenization)之类的预处理步骤仍是构建真正端到端基础模型的障碍。

「Mamba」作者之一的Albert Gu最新Paper又提出一系列新技术,实现了一种动态分块机制(dynamic chunking):它能自动学习内容与上下文相关的切分策略,并与模型的其余部分联合训练。将该机制嵌入显式的层级网络(hierarchical network:H-Net),即可用一个完全端到端训练的模型替代“分词→语言模型→反分词”的传统流水线。

(a) 路由模块——动态决定分块边界;

(b) 下采样器——依据边界指示符保留关键向量,缩短序列长度并保留语义重要位置。

(c) 平滑模块——将离散块插值为连续表示;(d) 上采样器——依据边界指示符将压缩向量恢复至原始分辨率。

H-Net 所划边界的可视化。(a) 单阶段 H-Net 主要在“类空格”字节处划边界,与 SpaceByte 非常相似。(b) 两阶段 H-Net 的第一阶段同样聚焦于类空格字节和每个单词的首字符;第二阶段则将文本划分为更有意义的单元,如单词或编号(例如 ‘(ii)’)。还观察到,它常将多个语义相关的单词合并为一个块,例如 ‘the backbone’ 和 ‘such as’。

在算力与数据规模相匹配的条件下,仅在byte level运行的单级 H-Net 就能超越基于 BPE token 的强 Transformer 语言模型;将层级扩展为多级后,模型通过抽象层级的叠加进一步提效,数据扩展性显著优于传统模型,性能可与两倍参数量的 token 级 Transformer 相媲美。

具体实验结果:

英文(FineWeb-Edu)

两阶段 H-Net 仅用 30B bytes 训练即超越 BPE Transformer(1.3B 参数)。

中文

在 XWinograd-zh 上准确率从 59.9 → 66.3,显著优于 BPE Transformer。

代码

压缩率更高,BPB 更低,表现优于 BPE Transformer。

DNA 序列

数据效率提升 3.6×,优于传统 isotropic 模型。

Dynamic Chunking for End-to-End Hierarchical Sequence Modeling

https://arxiv.org/pdf/2507.07955

https://goombalab.github.io/blog/2025/hnet-past/

推荐阅读


    欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

    阅读原文

    跳转微信打开

    Fish AI Reader

    Fish AI Reader

    AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

    FishAI

    FishAI

    鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

    联系邮箱 441953276@qq.com

    相关标签

    H-Net 端到端 动态分块 Transformer 序列建模
    相关文章