德国一家著名的技术咨询企业TNG推出了DeepSeek R1的升级版本,名为DeepSeek-TNG-R1T2-Chimera,并已将其开源。
Chimera模型是由DeepSeek的R1-0528、R1以及V3-0324这三大模型融合而成,并且引入了一种全新的AoE架构。这一架构不仅增强了性能表现,而且显著提高了模型推理的速度,同时降低了token输出的消耗。
测试结果显示,Chimera版本的推理速度相较于R1-0528版本提升了两倍,同时推理的成本得到了显著降低。在MTBench、AIME-2024等主流的测试基准上,Chimera的表现优于常规的R1版本。
该项目的代码库可从以下链接获取:https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera。
在深入探讨AoE架构之前,我们首先对混合专家(MoE)架构进行简要阐述。该架构的核心理念是将Transformer的前馈层分割成众多“专家”,而每个输入标记只被引导至这些专家中的部分子集。这种设计在提升效率和性能方面取得了显著成效。
Mistral于2023年推出的Mixtral-8x7B模型,尽管在推理阶段所激活的参数数量仅有13亿,但其性能却与参数量达到700亿的LLaMA-2-70B模型不相上下,并且推理效率实现了六倍的增长。
AoE架构的核心在于运用MoE的精细结构,能够以线性时间复杂度为基准,从现有的混合专家父模型中提炼并构建出具备特定功能的子模型。
通过实施权重张量的插值操作和有选择地合并父模型的权重,我们能够创造出新的模型变体。这些变体不仅保留了父模型的优秀特质,而且能够根据实际需求灵活调整其行为表现。
AoE方法的实施首先涉及挑选出一组结构一致的模型,这些模型一般是通过在预训练模型的基础上进行精细调整而来。在此过程中,研究人员选定了DeepSeek-V3-0324和DeepSeek-R1作为基础模型。两者均源自DeepSeek-V3架构,尽管经过各自独特的调整,它们在推理性能和指令执行能力方面均表现出显著优势。
为了打造新的子模型,研究人员必须先行搜集这些父模型的权重数据。这些数据被保存在模型的权重档案里,通过对这些档案的解读,研究者能够直接对相关数据进行读取与操控。
在完成父模型权重的张量准备之后,接下来的步骤是执行权重张量的插值与整合操作。这一环节构成了AoE方法的关键环节,借助这一环节,研究人员能够创造出具有不同特征的子模型。
研究者们设立了一个权重系数λi,该系数的作用在于调节每个父模型在融合阶段所发挥的作用。通常情况下,这些权重系数呈现出凸组合的特性,即它们均非负(λi≥0),并且所有权重系数的总和恰好等于1。这样的配置使得研究者能够在不同的父模型之间进行连续的调整,进而创造出一系列介于它们之间的中间模型。
为了提升合并流程的效率,研究人员采纳了阈值设定以及差异辨别策略。该策略的核心在于,仅当某个张量在多个父模型间展现出明显的不同时,才会被考虑纳入合并流程。他们设定了一个阈值δ,只有当某个张量与基础模型间的差异超出此阈值时,它才会被纳入合并的范畴。该策略成功阻隔了琐碎差异的融合,进而显著降低了模型的复杂性及运算的开销。
在MoE架构里,路由专家张量扮演着核心角色。这些张量负责确定每个输入标记在推理阶段被导向哪些专家模块。在AoE方法中,研究者们对路由专家张量的处理给予了特别关注。他们发现,通过整合来自不同父模型的路由专家张量,可以有效地增强子模型的推理效能。
在构建子模型的过程中,研究者们不仅对父模型的权重张量进行了整合,而且对路由专家张量的整合给予了特别的重视。这种独特的处理方式,使得子模型不仅能够继承父模型的推理功能,还能确保计算的高效性。
在确认了需要合并的量与权重系数之后,研究者们借助PyTorch框架完成了模型的整合工作。他们逐一访问了父模型权重文件中的各个张量单元,依据既定的权重比例与预设的阈值,对合并后的张量数值进行了计算。
合并后的张量值被存入了一个新的权重文件,进而形成了新的子模型。这一操作不仅效率颇高,而且能够对合并的策略进行灵活调整,使得生成的子模型展现出多样化的特性。