语言模型正迎来划时代的技术跃迁!传统Transformer架构依赖分词器(tokenizer)的范式即将被颠覆,一种全新的端到端建模方式正在崛起。

近期,Mamba 的作者之一 Albert Gu 在发表最新研究《 Dynamic Chunking for End-to-End Hierarchical Sequence Modeling 》中提出了一个分层网络 H-Net,其用模型内部的动态分块过程取代 tokenization,从而自动发现和操作有意义的数据单元。通过创新的动态分块技术和分层网络架构(H-Net),AI模型首次实现了从原始字节到语义理解的完整闭环。

这项突破性技术展现出三大革命性特征:

  1. 架构革新:H-Net通过动态学习数据分块策略,摒弃了传统分词流程,构建了首个真正意义上的端到端语言模型;

  2. 性能飞跃:在同等计算资源下,字节级H-Net不仅超越传统分词模型,其多层抽象架构更展现出指数级的数据效率提升;

  3. 跨域优势:对中文等非空格语言的处理能力实现质的突破,数据效率最高提升4倍。

特别值得关注的是,这项技术在处理复杂语言场景时展现出惊人潜力:

  • 中文理解:原生支持汉字字节流处理,避免传统分词导致的语义割裂

  • 代码生成:直接学习编程语言的底层结构模式

  • 生物序列:对DNA等非自然语言实现高效建模

这不仅是技术架构的升级,更代表着AI对人类语言的认知方式发生了根本性转变。随着无分词架构的成熟,我们正见证大模型技术从"模拟理解"迈向"本质理解"的关键转折。下一代语言模型的竞赛,已经在新赛道上悄然展开!

01.OpenCSG中文数据集

在最新一代HNet无分词器大模型的训练过程中,研究团队采用了OpenCSG最新发布的FineWeb-Edu Chinese V2.1高质量中文教育数据集。这一专为教育领域定制的中文预训练语料库包含188M条经过严格筛选的文本(约420B tokens),通过新一代csg-wukong-enterprise V2评分模型进行质量把控,确保了数据的高质量和教育相关性。

FineWeb-Edu Chinese V2.1数据集:

https://modelscope.cn/datasets/opencsg/chinese-fineweb-edu-v2

Chinese Fineweb Edu v2 在数据来源方面进行了显著扩展,整合了多个领域的高质量数据集。相较于初代版本,新增了Industry2、CCI3、MiChao、WanJuan1.0、WuDao和ChineseWebText等优质数据源。

这种多元化的数据整合策略使Chinese Fineweb Edu v2具备了更全面的知识覆盖和更强的领域适应性,能够更好地支持教育领域各类NLP任务的训练需求。通过精心设计的融合方案,确保了不同来源数据在风格和质量上的一致性,为构建高性能教育大模型奠定了坚实基础。

作为教育NLP任务的新标杆,该数据集具有以下显著优势:

  1. 规模与质量的双重突破

数据总量达188M条精选文本(约420B tokens)

采用csg-wukong-enterprise V2评分模型进行严格筛选

包含25%中英对照数据,增强跨语言理解能力

设置3分以上的质量阈值,保证教育内容的专业性

  1. 多源数据的深度整合

融合Industry2、CCI3等六大优质数据源

涵盖工业、科技、文化等多个专业领域

包含专业文献、技术文档等多样化内容形式

通过创新融合方案确保数据一致性

  1. 教育场景的专项优化

重构Prompt设计框架以强化教育语义理解

建立多维评估体系(相关性、完整性等指标)

特别适配试题解析、知识点归纳等教育任务

在C-Eval评测中表现优异

该数据集已在全球范围内确立行业标杆地位,作为下载量TOP3的中文预训练数据集,其影响力体现在多个维度:在学术领域,获得Stanford、Tsinghua、中国人民大学高瓴人工智能学院、上海人工智能实验室(Shanghai AI Lab)、北京智源研究院(BAAI)等20余家顶尖机构的论文引用和实际应用;在产业界,支撑了Llama3-Chinese、DeepSeek等知名模型的训练,并被面壁智能(ModelBest)、中国移动、中国联通、英伟达(NVIDIA)等领军企业采用。

数据集已形成规模化的生态影响力:月下载量突破万次,日均处理数千次请求;数据体量达2.42TB,覆盖9.57亿条高质量文本;通过集成13项细分数据集,构建了完整的中文训练套件。其衍生价值尤为突出:已孵化出10余个垂直领域微调模型(涵盖医疗/法律/金融等方向),并催生30多个GitHub开源项目(包括数据清洗工具、评估框架等)。

这一高质量中文训练数据集不仅被收录进权威数据库,更通过其严格的质量标准、专业的教育优化和广泛的应用适配性,持续推动着教育NLP开源生态的发展,为AI技术在教育领域的深度应用提供了坚实基础。随着OpenCSG计划开源评分模型和标注数据,其影响力将进一步扩大,为中文大模型的发展注入新的动力。

02.大模型分词器的不足

传统分词方法(如BPE等)存在以下主要不足:

1.语义理解局限

  • 固定词汇表导致语义单元被强制拆分(如将"product"拆分为"pro-"和"-duct")

  • 无法动态适应不同语境下的语义边界

H-Net能动态适应不同语境下的语义边界,完全摒弃预定义词表限制,支持任意长度的语义组合。有效避免传统方法强制拆分语义单元的问题同时能保持词语、短语等语言结构的自然完整性,克服了BPE等传统分词方法的不足,下图为效果示意图:

2.跨语言适应性差

  • 对中文等无空格语言效果不佳

  • 非拉丁语系语言需要特殊处理规则

  • DNA序列等非自然语言场景表现更差

在XWinograd-zh评测中传统分词方法59.9分 vs H-Net 66.3分:

DNA序列数据上效率比H-Net低3.6倍:

3.鲁棒性缺陷

对字符级扰动敏感(如大小写变化、空格删除)

下图为H-Net(第一阶段)动态绘制的边界位置可视化。给定的文本经过扰动处理,部分空白字符被删除。即使单词边界未被明确空格分隔,H-Net仍能准确检测到词边界,而BPE传统分词方法必须依赖明确边界字符进行有效分词。

 

 

在HellaSwag噪声测试中,传统分词模型准确率比字节级模型低15-20%

03.无分词器模型结构H-net 突破传统大模型架构

动态分块机制(Dynamic Chunking, DC)

DC是H-Net的核心组件,通过可学习的路由模块(Routing Module)和平滑模块(Smoothing Module)实现数据依赖的分块策略。路由模块基于相邻向量的余弦相似度预测边界概率,而平滑模块通过指数移动平均(EMA)将离散分块操作转化为可微分计算,解决了梯度传播难题。两者结合使模型能动态压缩输入序列,同时保留语义关键位置。

H-Net通过动态分块机制实现了语义边界的智能自适应,其核心优势体现在:

1.上下文感知的动态分块

  • 采用路由模块实时计算边界概率,根据相邻向量的相似度动态划分语义单元

  • 语义单元长度随内容复杂度灵活变化,避免固定切分

2.无词汇表约束的架构设计

  • 完全摒弃预定义词表限制,支持任意长度的语义组合

  • 通过端到端训练自动学习最优分块策略

3.语义完整性保护避免

  • 传统方法强制拆分语义单元的问题

  • 保持词语、短语等语言结构的自然完整性

DC完全取代了传统BPE分词器等预处理步骤,使模型能够直接从原始数据(如字节)中学习最优的分块策略。这不仅避免了分词器带来的词汇表偏差和语言限制,还能适应多种模态(如中文、代码、DNA序列)。

分层递归架构(Hierarchical H-Net)

H-Net采用类似U-Net的分层设计,包含编码器(E)、主网络(M)和解码器(D)。其独特之处在于主网络可递归嵌套为另一H-Net,形成多级抽象层次。例如,2阶段H-Net先压缩字节为“词级”块,再进一步压缩为“句级”块,显著提升计算效率和语义建模能力。

信号传播优化技术

论文提出多项稳定训练的改进:

  • Norm Balance:在网络末端添加RMSNorm,平衡残差连接与主路径的梯度贡献。

  • 双流分离:编码器输出分别用于残差连接和主网络输入,通过独立投影保留梯度完整性。

  • 比率损失(Ratio Loss):类似MoE的负载均衡机制,通过调节边界概率均值(G)与实际压缩率(F)的差异,控制目标压缩比(如N=6)。

动态分块机制通过可学习的分块策略、多级抽象和自适应计算分配,不仅解决了传统分词的局限性,还显著提升了模型的效率、性能和泛化能力。

04.从社区到产业:OpenCSG打造AI模型新基础设施

在这场无分词架构技术革命的背后,国产开源生态的推动力不可忽视。以 OpenCSG 社区为代表的国产 AI 社区,正成为大模型时代关键的基础设施提供者与技术创新策源地。

OpenCSG(https://opencsg.com)是一个全球领先的开源大模型生态社区,致力于构建开放、协同、可持续的 AI 开发者生态系统。其背后的核心平台 CSGHub提供强大的大模型资产管理能力,为模型训练和部署提供从模型、数据集、代码到 AI 应用的 一站式托管、协作与共享服务。

截至目前,OpenCSG 社区已汇聚超过 10 万个高质量开源 AI 模型,覆盖 NLP、CV、语音、多模态等多个核心方向,为研究机构、企业用户和开发者提供了坚实的数据与算力支持。

在本次 H-Net 训练过程中,研究团队正是依托 OpenCSG 最新发布的 Chinese FineWeb Edu V2.1 数据集完成关键预训练阶段,并借助 CSGHub 实现了高效的数据管理与模型迭代。这一协同体系不仅加速了模型开发流程,也凸显了国产开源平台在大模型训练范式变革中的基础设施价值。

OpenCSG正在推动形成具有中国特色的 开源大模型生态闭环,不仅赋能科研机构与企业创新,也让中国 AI 开发者在全球模型生态中拥有更多自主性与话语权。

05.参考

FineWeb-Edu Chinese V2.1数据集获取途径

1.魔搭社区开源:

https://modelscope.cn/datasets/opencsg/chinese-fineweb-edu-v2

2.OpenCSG社区开源:

https://opencsg.com/datasets/OpenCSG/chinese-fineweb-edu-v2

H-Net论文链接

Github:https://goombalab.github.io/blog/2025/hnet-past/

arxiv:https://arxiv.org/abs/2507.07955v1

 

点击链接,即可跳转数据集链接~

https://modelscope.cn/datasets/opencsg/chinese-fineweb-edu-v2

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐