这几天在大模型领域里面最大的瓜,是华为的盘古大模型。
具体而言,华为的盘古大模型遭到了外界对其是否模仿或剽窃了阿里推出的通义千问开源大模型的质疑。
事情最初起源于2025年7月4日。GitHub上的一项研究揭示,华为的盘古Pro MoE模型(参数量达720亿)引入了LLM-Fingerprint技术,其注意力参数分布与阿里推出的通义千问Qwen-2.5 14B模型高度吻合,平均相关系数高达0.927,几乎与完全一致的相关系数1.0相差无几,这一数据远超模型间的常规差异,暗示了“非独立开发”的嫌疑。
作者声称自己是来自哥斯达黎加大学的韩国籍学生。他提到,在盘古开源代码文件中,有标注显示“版权所有2024,Qwen团队,阿里巴巴集团”,这引起了对其在涉嫌复制阿里代码时未移除版权声明行为的质疑。
这位来自哥斯达黎加大学的韩国学生所撰写的文章,内容确实颇具趣味。
接下来,一位自称为华为盘古大模型内部人员的人物在知乎上发布了一篇帖子,该帖子的链接如下:
该文章明确指出,严禁对专有名词进行修改,同时要求在改写过程中不得插入任何英文词汇,确保改写后的内容与原文在风格上保持一致,并去除原文开头的序号。
概括来说,简而言之,那些脚踏实地努力工作的人,在运用910系统时倍感艰辛,他们兢兢业业地投入工作。然而,总有一部分人企图走捷径,他们甚至蒙蔽了上级,使得那些勤勤恳恳做事的人前途堪忧,徒劳无功。
至于这个帖子里面说的是真是假,我也不知道。
最终,华为的诺亚方舟研究机构于7月5日公布了一则公告,其内容详述如下:
盘古团队所使用的模型构建中的基础组件代码,借鉴了业界的开源成果。至于涉及到的其他大型模型的代码部分,均严格依照开源许可协议的规定执行,并在相应的开源代码文件中明确标明了许可信息。
总的来说,确实存在参考,并且确实对所参考的内容进行了标注。然而,并未明确指出所参考的是否为通义千问,亦未具体说明标注的内容是否为通义千问的源代码。
关于盘古大模型是否模仿了通义千问,官方声明并未明确表态,既未肯定也未否认。
因此你要问我的话,负责一点回答,我也只能说,我也不知道。
若涉及大数据,我或许还能作出独立的判断;然而,面对大模型,我确实感到一筹莫展。不同领域间的差异仿佛鸿沟,难以逾越。在众多情况下,无法理解才是更为常见的情形。
这篇知乎的文章颇为引人入胜,不论其内容是否真实,都颇具趣味性。
我觉得这部分内容颇为有趣,尤其是其中对华为领导层工作风格的描绘,它们充分体现了华为的独特气质。
若非曾在华为工作过,想要准确捕捉并描绘出那种特有的氛围,确实是一项颇具挑战性的任务。这样的感受并非人人都能捕捉到位。
尽管我难以确定信息的真伪,然而,不管内容是真是假,似乎可以推断,撰写此文的作者对华为的内部情况颇为熟悉。
所以这篇文章的内容就很有意思了。
这篇文章中对昇腾910的阐述同样颇具趣味。在诸多时刻,我们理应信赖华为在硬件研发领域的实力,昇腾910作为国产芯片,其竞争力不容小觑。
至于是否是仿制,是否存在剽窃,这类问题有时不仅难以划清界限,而且亦难以确定是否已经实施。
在这个情况下,我觉得不下结论,也是一种态度。
然而,我心中一直存有一个疑问,那就是每当DeepSeek项目公开,其团队的研究论文一经发布,就连Meta公司都迅速组织多个团队投入研读和解析工作,然而,当盘古大模型公开后,我却并未观察到类似的积极行动。
或许,一旦古盘大模型公开源代码,全球各方的反响,本质上,便如同一场集体投票的表现。
强烈建议关注飞总的知识星球,在那儿您可以尽情发表观点,讨论职业成长相关话题,向飞总提问并与其互动。这样的价格并非长久之计,如此良机实属难得,务必要抓住这次机会。