德国知名公司开源超强版DeepSeek-TNG-R1T2-Chimera?推理效率竟快200%

德国一家著名的技术咨询企业TNG推出了DeepSeek R1的升级版本,名为DeepSeek-TNG-R1T2-Chimera,并已将其开源。

Chimera模型是由DeepSeek的R1-0528、R1以及V3-0324这三大模型融合而成,并且引入了一种全新的AoE架构。这一架构不仅增强了性能表现,而且显著提高了模型推理的速度,同时降低了token输出的消耗。

测试结果显示,Chimera版本的推理速度相较于R1-0528版本提升了两倍,同时推理的成本得到了显著降低。在MTBench、AIME-2024等主流的测试基准上,Chimera的表现优于常规的R1版本。

该项目的代码库可从以下链接获取:https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera。

在深入探讨AoE架构之前,我们首先对混合专家(MoE)架构进行简要阐述。该架构的核心理念是将Transformer的前馈层分割成众多“专家”,而每个输入标记只被引导至这些专家中的部分子集。这种设计在提升效率和性能方面取得了显著成效。

Mistral于2023年推出的Mixtral-8x7B模型,尽管在推理阶段所激活的参数数量仅有13亿,但其性能却与参数量达到700亿的LLaMA-2-70B模型不相上下,并且推理效率实现了六倍的增长。

AoE架构的核心在于运用MoE的精细结构,能够以线性时间复杂度为基准,从现有的混合专家父模型中提炼并构建出具备特定功能的子模型。

通过实施权重张量的插值操作和有选择地合并父模型的权重,我们能够创造出新的模型变体。这些变体不仅保留了父模型的优秀特质,而且能够根据实际需求灵活调整其行为表现。

AoE方法的实施首先涉及挑选出一组结构一致的模型,这些模型一般是通过在预训练模型的基础上进行精细调整而来。在此过程中,研究人员选定了DeepSeek-V3-0324和DeepSeek-R1作为基础模型。两者均源自DeepSeek-V3架构,尽管经过各自独特的调整,它们在推理性能和指令执行能力方面均表现出显著优势。

开源推理框架_开源算法百度百科_

为了打造新的子模型,研究人员必须先行搜集这些父模型的权重数据。这些数据被保存在模型的权重档案里,通过对这些档案的解读,研究者能够直接对相关数据进行读取与操控。

在完成父模型权重的张量准备之后,接下来的步骤是执行权重张量的插值与整合操作。这一环节构成了AoE方法的关键环节,借助这一环节,研究人员能够创造出具有不同特征的子模型。

研究者们设立了一个权重系数λi,该系数的作用在于调节每个父模型在融合阶段所发挥的作用。通常情况下,这些权重系数呈现出凸组合的特性,即它们均非负(λi≥0),并且所有权重系数的总和恰好等于1。这样的配置使得研究者能够在不同的父模型之间进行连续的调整,进而创造出一系列介于它们之间的中间模型。

为了提升合并流程的效率,研究人员采纳了阈值设定以及差异辨别策略。该策略的核心在于,仅当某个张量在多个父模型间展现出明显的不同时,才会被考虑纳入合并流程。他们设定了一个阈值δ,只有当某个张量与基础模型间的差异超出此阈值时,它才会被纳入合并的范畴。该策略成功阻隔了琐碎差异的融合,进而显著降低了模型的复杂性及运算的开销。

在MoE架构里,路由专家张量扮演着核心角色。这些张量负责确定每个输入标记在推理阶段被导向哪些专家模块。在AoE方法中,研究者们对路由专家张量的处理给予了特别关注。他们发现,通过整合来自不同父模型的路由专家张量,可以有效地增强子模型的推理效能。

在构建子模型的过程中,研究者们不仅对父模型的权重张量进行了整合,而且对路由专家张量的整合给予了特别的重视。这种独特的处理方式,使得子模型不仅能够继承父模型的推理功能,还能确保计算的高效性。

在确认了需要合并的量与权重系数之后,研究者们借助PyTorch框架完成了模型的整合工作。他们逐一访问了父模型权重文件中的各个张量单元,依据既定的权重比例与预设的阈值,对合并后的张量数值进行了计算。

合并后的张量值被存入了一个新的权重文件,进而形成了新的子模型。这一操作不仅效率颇高,而且能够对合并的策略进行灵活调整,使得生成的子模型展现出多样化的特性。

免责声明:本站发布的所有文章图片内容,由AI一键生成,根据关键词和其他参数进行文章自动采集、加工、发布。不对文章内容的真实性、合法性、时效性负责。

版权所有 copyright 2019 长子县融媒体中心 www.zzc-media.com XML地图
《互联网新闻信息服务许可证》 证号:14120200024 《信息网络传播视听节目许可证》 证号:104420004 备案号:晋ICP备19004532号-1
友情链接 互助县树人高级中学 永川行政服务中心 济南市市中区人民政府舜耕街道办事处 邢台市应急管理宣传教育培训中心

关于站点

‌长子县融媒体中心‌是长子县的一个重要媒体机构,主要负责新闻宣传和媒体融合工作。由原‌长子县广播电视台和‌长子县新闻中心合并组建,成立于2018年12月,标志着长子县新闻宣传工作进入了融合发展的新时代‌。长子县融媒体中心位于山西省长子县会堂四楼,是长子县新闻发布和宣传活动的主要枢纽‌。

搜索Search

搜索一下,你就知道。

温馨提示

百亿补贴福利攻略.jpg