华为 2025 年 4 月发布的 CloudMatrix384,有何特别之处?

针对传统数据中心架构在扩展性和效能方面的挑战,CloudMatrix384的问世仿佛为业界注入了一剂强心针。该产品所采用的创新架构设计以及卓越的性能表现,或许将推动下一代大语言模型服务迈向全新的发展水平。

黄仁勋夸爆的华为AI超节点,技术秘籍披露,昇腾910C跑DeepSeek,效率超英伟达__黄仁勋夸爆的华为AI超节点,技术秘籍披露,昇腾910C跑DeepSeek,效率超英伟达

集成强大硬件

黄仁勋夸爆的华为AI超节点,技术秘籍披露,昇腾910C跑DeepSeek,效率超英伟达_黄仁勋夸爆的华为AI超节点,技术秘籍披露,昇腾910C跑DeepSeek,效率超英伟达_

CloudMatrix384搭载了384颗昇腾910C NPU芯片,并且配备了192个鲲鹏CPU。昇腾910C是昇腾910B的更新型号,采用了双die封装技术,将两个计算die整合在一起,并且这些die共同使用了8个封装内存堆栈。这些硬件设备通过运用具备极高速度和快速响应特性的统一总线(UB)网络进行互联,从而共同构成了一个完整的超级节点。

黄仁勋夸爆的华为AI超节点,技术秘籍披露,昇腾910C跑DeepSeek,效率超英伟达_黄仁勋夸爆的华为AI超节点,技术秘籍披露,昇腾910C跑DeepSeek,效率超英伟达_

UB网络优势

该架构的核心在于采用了统一总线(UB)网络技术,该技术具有极高的带宽和极低的延迟。此技术显著提升了异构系统内各组件间的交流效率,实现了直接的数据交流,无需借助CPU进行数据的中转。此外,该网络技术还能高效地完成系统内部数据的迁移与协调工作,并且支持多对多的直接通信。这实现了计算、内存和网络资源的动态资源池化、统一访问,并支持独立扩展。

节点通信性能

CloudMatrix38N系统整合了多样化的硬件配置,显著提升了节点间通信的效率,其表现几乎与节点内部通信相当。系统由12个处理器组成,其中包含8个神经网络处理器(NPU)和4个中央处理器(CPU)。这些处理器通过UB链路与板载交换机相连。在节点内部,它们共同协作,构建了一个统一的UB平面。此外,该设备所配备的独立UB交换机芯片,为超级节点结构的下一级交换层,贡献了上行的数据传输带宽;该带宽的数值高达448GB/s。

黄仁勋夸爆的华为AI超节点,技术秘籍披露,昇腾910C跑DeepSeek,效率超英伟达__黄仁勋夸爆的华为AI超节点,技术秘籍披露,昇腾910C跑DeepSeek,效率超英伟达

适用通信场景

其架构布局适合于执行通信密集型任务,包括大规模MoE专家的并行处理以及分布式键值(KV)缓存的访问操作。这一设计特点使得CloudMatrix384成为推动下一代大语言模型服务在扩展性和性能方面提升的关键要素,并且与DeepSeek等大语言模型服务的具体需求有着极高的匹配度。

黄仁勋夸爆的华为AI超节点,技术秘籍披露,昇腾910C跑DeepSeek,效率超英伟达__黄仁勋夸爆的华为AI超节点,技术秘籍披露,昇腾910C跑DeepSeek,效率超英伟达

软件生态系统

_黄仁勋夸爆的华为AI超节点,技术秘籍披露,昇腾910C跑DeepSeek,效率超英伟达_黄仁勋夸爆的华为AI超节点,技术秘籍披露,昇腾910C跑DeepSeek,效率超英伟达

华为针对昇腾NPU定制了一套完整的软件系统,该系统名为神经网络计算架构(CANN)。这套系统为昇腾NPU提供了坚实的软件保障,与硬件设计相辅相成,从而显著增强了整体性能。

未来工作规划

_黄仁勋夸爆的华为AI超节点,技术秘籍披露,昇腾910C跑DeepSeek,效率超英伟达_黄仁勋夸爆的华为AI超节点,技术秘籍披露,昇腾910C跑DeepSeek,效率超英伟达

华为拟对虚拟专用网络(VPC)和远程直接内存访问(RDMA)的网络层级实施整合与统一,此举旨在简化网络连接过程。同时,公司正规划向更大规模的超级节点配置拓展。此外大连市同乐中小企业商会,华为致力于对CPU资源进行深入剖析和资源池化处理。另外,公司还推出了点对点服务架构,并实施了大规模的专家并行(LEP)策略,目的在于提高资源调度与组合的效率。

CloudMatrix384是否能够满足大规模语言模型的服务需求,您有何看法?期待您在评论区发表您的见解。同时,也请您对这篇文章给予点赞,并分享给更多的人。

黄仁勋夸爆的华为AI超节点,技术秘籍披露,昇腾910C跑DeepSeek,效率超英伟达_黄仁勋夸爆的华为AI超节点,技术秘籍披露,昇腾910C跑DeepSeek,效率超英伟达_