币安交易所官网

全球著名的数字资产交易平台,200W人的选择

注册币安账号

上币安,10元买比特币，立即注册并获得高达100 USDT的奖励

研究显示大模型或可摆脱分词器架构依赖

2026-05-22 币安交易所

一项来自Nous Research的最新论文正在重新引发行业对大语言模型底层架构的讨论。研究指出，长期以来被视为语言模型核心组成部分的“分词器（Tokenizer）”，在未来可能并非不可替代的基础模块。通过一组基于1.7B参数规模模型的受控实验，研究团队尝试从底层重新审视文本处理方式，并发现即使完全绕开传统分词机制，也可以通过工程化方法在性能上接近甚至部分追平现有架构。这一结论对于当前依赖子词切分体系的大模型设计路线，具有一定冲击意义。

在具体实验设计中，研究人员构建了一个纯字节级别的模型，并与传统采用分词器的模型进行对照分析。结果显示，通过提升数据吞吐效率，并在字节序列中引入类似“形态学边界”的结构信息，可以显著缩小两种模型之间的性能差距。进一步实验表明，在相同算力预算下，字节级模型通过“模拟压缩”机制扩大了单次梯度更新所包含的信息量，从而在验证损失下降方面表现更优。这种方式本质上改变了模型对输入信息的处理颗粒度，使其在不依赖词表的情况下仍然具备较强表达能力。此外，研究还尝试将子词边界信息以二进制形式叠加到输入字节序列中，用以构建一种不会泄露未来信息的归纳偏置机制，使模型在学习长程依赖时保持稳定性。

值得注意的是，研究团队在对比分析中发现，在1.7B这一相对中等规模下，词表扩展、子词预测等传统优化手段带来的收益已经明显下降。换句话说，随着模型架构进入一定规模区间后，单纯依赖词汇层面的设计优化，其边际收益正在快速递减。一个明显变化是，性能提升的主导因素正在从“语言单位设计”逐步转向“数据吞吐能力与结构信息注入方式”。这一结论也使得原本被视为基础设施的分词器，其核心地位首次受到系统性挑战。

从行业角度来看，这项研究之所以引发关注，核心原因在于它触及了大模型训练管线中最基础的一环。当前主流模型，无论是闭源还是开源体系，几乎都依赖分词器来完成文本离散化处理。这一机制的优势在于压缩效率高、训练稳定性好，但同时也带来了语言边界依赖问题，例如跨语言泛化能力受限、罕见词表达能力不足等。而如果字节级建模能够在工程优化后实现相近甚至更优的效果，那么未来模型架构设计可能出现一次结构性调整，即从“词级建模”逐步过渡到“字节或连续编码建模”。

事实上，围绕“是否需要分词器”的讨论并非首次出现。早在早期神经语言模型阶段，就有研究尝试直接以字符级或字节级方式进行训练，但由于计算效率较低以及训练不稳定，这一路线长期未成为主流。然而随着算力规模提升以及优化技术演进，尤其是在高吞吐训练框架和并行计算能力大幅增强的背景下，原本的瓶颈正在逐步被削弱。一些新兴模型也开始尝试混合输入方式，例如在字符、子词和字节之间进行动态切换，以提升模型对不同语言结构的适应能力。

这项研究的意义不仅在于提出了一种替代路径，更重要的是重新定义了“语言表示方式”的优化方向。如果未来大模型不再依赖固定词表，那么模型训练流程可能进一步简化，同时在多语言处理、代码理解以及非结构化数据建模方面获得更强灵活性。不过目前需要注意的是，该研究仍主要基于1.7B规模模型进行验证，更大参数规模下是否仍能保持同样的收益结构，还存在不确定性。

总体来看，这项工作为大模型架构提供了一种新的思路：与其持续扩展词表或优化分词策略，不如直接在字节层面提升信息密度与结构表达能力。未来如果相关方法在更大规模模型中得到验证，那么语言模型的发展路径可能会出现一次基础层面的重新洗牌，而分词器的“不可替代性”也将第一次真正受到挑战。