德国知名公司开源超强版DeepSeek-TNG-R1T2-Chimera？推理效率竟快200%

德国一家著名的技术咨询企业TNG推出了DeepSeek R1的升级版本，名为DeepSeek-TNG-R1T2-Chimera，并已将其开源。

Chimera模型是由DeepSeek的R1-0528、R1以及V3-0324这三大模型融合而成，并且引入了一种全新的AoE架构。这一架构不仅增强了性能表现，而且显著提高了模型推理的速度，同时降低了token输出的消耗。

测试结果显示，Chimera版本的推理速度相较于R1-0528版本提升了两倍，同时推理的成本得到了显著降低。在MTBench、AIME-2024等主流的测试基准上，Chimera的表现优于常规的R1版本。

该项目的代码库可从以下链接获取：https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera。

在深入探讨AoE架构之前，我们首先对混合专家（MoE）架构进行简要阐述。该架构的核心理念是将Transformer的前馈层分割成众多“专家”，而每个输入标记只被引导至这些专家中的部分子集。这种设计在提升效率和性能方面取得了显著成效。

Mistral于2023年推出的Mixtral-8x7B模型，尽管在推理阶段所激活的参数数量仅有13亿，但其性能却与参数量达到700亿的LLaMA-2-70B模型不相上下，并且推理效率实现了六倍的增长。

AoE架构的核心在于运用MoE的精细结构，能够以线性时间复杂度为基准，从现有的混合专家父模型中提炼并构建出具备特定功能的子模型。

通过实施权重张量的插值操作和有选择地合并父模型的权重，我们能够创造出新的模型变体。这些变体不仅保留了父模型的优秀特质，而且能够根据实际需求灵活调整其行为表现。

AoE方法的实施首先涉及挑选出一组结构一致的模型，这些模型一般是通过在预训练模型的基础上进行精细调整而来。在此过程中，研究人员选定了DeepSeek-V3-0324和DeepSeek-R1作为基础模型。两者均源自DeepSeek-V3架构，尽管经过各自独特的调整，它们在推理性能和指令执行能力方面均表现出显著优势。

开源推理框架_开源算法百度百科_

为了打造新的子模型，研究人员必须先行搜集这些父模型的权重数据。这些数据被保存在模型的权重档案里，通过对这些档案的解读，研究者能够直接对相关数据进行读取与操控。

在完成父模型权重的张量准备之后，接下来的步骤是执行权重张量的插值与整合操作。这一环节构成了AoE方法的关键环节，借助这一环节，研究人员能够创造出具有不同特征的子模型。

研究者们设立了一个权重系数λi，该系数的作用在于调节每个父模型在融合阶段所发挥的作用。通常情况下，这些权重系数呈现出凸组合的特性，即它们均非负（λi≥0），并且所有权重系数的总和恰好等于1。这样的配置使得研究者能够在不同的父模型之间进行连续的调整，进而创造出一系列介于它们之间的中间模型。

为了提升合并流程的效率，研究人员采纳了阈值设定以及差异辨别策略。该策略的核心在于，仅当某个张量在多个父模型间展现出明显的不同时，才会被考虑纳入合并流程。他们设定了一个阈值δ，只有当某个张量与基础模型间的差异超出此阈值时，它才会被纳入合并的范畴。该策略成功阻隔了琐碎差异的融合，进而显著降低了模型的复杂性及运算的开销。

在MoE架构里，路由专家张量扮演着核心角色。这些张量负责确定每个输入标记在推理阶段被导向哪些专家模块。在AoE方法中，研究者们对路由专家张量的处理给予了特别关注。他们发现，通过整合来自不同父模型的路由专家张量，可以有效地增强子模型的推理效能。

在构建子模型的过程中，研究者们不仅对父模型的权重张量进行了整合，而且对路由专家张量的整合给予了特别的重视。这种独特的处理方式，使得子模型不仅能够继承父模型的推理功能，还能确保计算的高效性。

在确认了需要合并的量与权重系数之后，研究者们借助PyTorch框架完成了模型的整合工作。他们逐一访问了父模型权重文件中的各个张量单元，依据既定的权重比例与预设的阈值，对合并后的张量数值进行了计算。

合并后的张量值被存入了一个新的权重文件，进而形成了新的子模型。这一操作不仅效率颇高，而且能够对合并的策略进行灵活调整，使得生成的子模型展现出多样化的特性。