若一项技术历经三年时间,从无人问津演变至重塑全球格局,那么我们便将其定义为第N次工业变革。
若该技术从论文阶段到实际应用过程中,主要参与者频繁更换,投入的巨额流量仅换来短暂的喧嚣后便归于寂静,那么我们便将其比喻为资本的绞肉机。
若该技术具备上述所有特点,并且其发展速度能超越常规技术十倍,进而使互联网时代的生态壁垒、资金障碍以及规模优势不复存在,使得创业企业得以跻身全球舞台的中央,那么,我们就可以称其为大型模型。
自今年年初DeepSeek公司发起的变革行动后,这一趋势愈发显著。截至目前,在大模型领域,那些依然稳坐在桌边的企业,其生存之道唯有——坚持创新为核。
那么,我们该如何诠释大模型行业将创新置于首位的理念?为何在进入大模型时代后,传统互联网的运营模式将完全失去效用?又为何大模型的淘汰速度能够以季度为周期进行?
刚刚落幕的MiniMax周,或许正是我们深入探讨这些问题的绝佳时机。
以此为切入点,你将目睹一家创业公司如何在巨头企业的势力范围之外寻求生存;同时,你还能观察到大型模型如何从技术创新过渡到对世界的深刻影响,构建起连接两者的桥梁;此外,你还将看到一群充满“执着”精神的人们,如何在高速发展的行业中勇往直前,乘风破浪。
一只跳水猫咪,如何让世界Aha
起初,MiniMax Week的焦点主要集中在模型行业的内部讨论之中,大家都在探讨:MiniMax这次能够取得多少SOTA(即最先进技术)的成果呢?
全球社交平台上,各式猫咪跳水视频如潮水般扩散,其中包括橘猫、奶牛、三花猫等;紧随其后,羊驼、熊猫、长颈鹿等动物也纷纷加入,它们在视频中以空中旋转、后空翻等高难度动作从十米高台跃下。更有趣的是,视频中不同体重的动物起跳时,跳板的震动幅度和水花的大小也随之产生差异。
如同年初DeepSeek R1的发布所见证的那样,MiniMax也迎来了它属于自己的“顿悟时刻”。
“啊哈时刻”起源于心理学和产品设计两大领域,它描述的是用户在使用某个产品或工具时,忽然领悟到其价值和潜力的那一刻。这一时刻常常伴随着顿悟、惊喜或是认知上的飞跃之感。
在其背后,往往蕴藏着技术进步从数量积累到质量飞跃的临界突破;紧接着,通常伴随着产品市场占有率的大幅提升,以及行业迎来大规模爆发的转折点。
猫咪在水中跃入的瞬间,被称作视频AI领域的顿悟时刻,这一称号不仅因其在社会媒体上引发的广泛关注,更在于它代表了长久以来,跳水、体操以及多人间的复杂互动等动作,长久以来一直被视为检验视频AI智能水平的“图灵挑战”。
这些操作不仅对AI在每一帧画面上的精确操控提出了要求,而且,由连续帧构成的动态时空路径,包括姿势的变换、跳跃的旋转角度、速度等众多细节,都必须严格遵循现实中的重力、惯性等物理法则;更进一步,不同动物跳跃时跳板的振动幅度,以及不同入水姿态所产生的水花角度等复杂环境因素,也需精确地再现于现实之中。
这一切的发生,根本原因在于MiniMax公司最新推出的视频建模技术——海浪02。
纵向对比来看,Hailuo 02的模型参数是Hailuo 01的三倍,视频分辨率也提升到了1080P原生水平,能够一次性生成长达10秒的高清内容。这些内容不仅包含了精细的肢体动作,还有流体动力学模拟、镜面效果以及真实的物理交互,甚至能够还原出杂技表演级别的复杂动态,并提供专业级的原生运镜。
视频为海螺AI超级创作者:胡生AIGC生成的demo。
在横向比较中,Hailuo 02在Artificial Analysis Video Arena的Image-to-Video排行榜上位居全球第二。并且,即便其性能超越了Google Veo3,Hailuo 02的API成本却仅为Google Veo3的九分之一。
排名数据始于上榜日,截至目前
为何Hailuo 02能够在维持高仿真度的前提下,依旧能够保持较低的成本?
一方面得益于scaling law的推动作用:Hailuo 02模型的总参数量相比Hailuo 01增长了三倍,同时数据规模也增加了四倍,这样的提升使得模型具备了处理更复杂指令和物理场景的能力。
同时,Hailuo 02引入了革命性的NCR(噪声感知计算资源重新分配)技术。该技术借助噪声感知机制,根据实际需求将计算资源合理分配至各个区域。在噪声水平较高的区域,信息含量相对较少,因此实施压缩操作;而在噪声较低的区域,则需分配更多的计算资源,着重于捕捉重要细节,从而显著降低HBM内存的读写次数超过70%,并使训练和推理的效率提高2.5倍。
当然,这种专注于正确之事并持续进行革新的思维模式,不仅体现了NCR在技术层面的根本理念,也深刻揭示了MiniMax的企业精神,以及其当前地位是如何逐步形成的。
M1创新背后:大模型如何挣脱巨头的资本万有引力
在去年的这个时候,众多大型模型创业者的心头大患之一,必然涉及:
巨头企业的任何一次战略调整,都成了对中小企业的生存与发展的严峻考验。那么,你将如何摆脱巨头企业那强大的资本吸引力呢?
不仅合作伙伴对此表示关注,而且在任何公开场合,媒体和投资人们都会不断提出疑问。
局势显得相当严峻,国内外众多互联网和科技领域的领军企业纷纷投身于大模型领域,这场百模之间的竞争异常激烈,甚至一度让人联想到当年共享单车和外卖行业的火爆景象。
质疑的缘由似乎合情合理:因为大型模型的参数已经逼近万亿级别,无论是训练还是推理阶段,都亟需雄厚的资金作为后盾;大型模型的演进离不开庞大的数据支持,而行业巨头恰好掌握了充足的数据资源;此外,大型模型的研发还需汇聚高密度的人才,以及大厂所提供的丰厚资源,这似乎也足以让他们吸引到任何所需的人才。
然而,实际情况却是:仅仅经过一年的发展,百模大战已经逐渐平息;众多榜单上的SOTA成果,已经被Open AI、Anthropic、MiniMax、DeepSeek等创业公司所主导,占据了相当大的比例。
逻辑并不复杂,巨额资本投入仅仅是模型训练所需条件之一。然而,对于打造大型模型而言,技术路线若普遍达成共识,则往往意味着这一因素已变得相对落后。企业必须持续探索并发现新的、有效的Alpha,这样才能实现超额收益。在此过程中,相较于传统的大型企业,更具灵活性的创业公司往往能展现出更为敏锐的洞察力和更为高效的决策流程。
在MiniMax的领域,特别是在海外市场,其产品Talkie在去年前八个月内的全球下载量迅速攀升,已超过千万次,超越了Character AI,成功跻身美国市场下载量排名第四的人工智能应用。据英国《金融时报》的报道,MiniMax在2024年的营收预计将达到约7000万美元。
在技术领域,近期在专业大型模型基准测试Artificial Analysis排行榜上取得全球第二佳绩的MiniMax M1模型,便是一个显著的例子。该模型参数量高达4560亿,不仅在业内主流的17个评测集中名列前茅,更是全球上下文最长的推理模型。它原生支持长达100万的token输入,是DeepSeek R1的8倍之多;同时,它还能输出多达8万个token,超越了Gemini 2.5 Pro的6.4万个token上限,成为输出长度世界之最。
对于大型模型来说,较长的上下文通常能够带来更为出色的智能体验。特别是在进行深度搜索、科学研究等高度复杂的任务时,长上下文显得尤为重要,它是实现深度推理(如解决数学问题、编写代码)、深度内容整合(如撰写论文、进行行业研究)的关键能力基础。在agent领域,尤其是随着多个agent的融合成为行业发展的新动向,各个子agent生成的输出结果将作为主agent的输入。若上下文信息不足,整个系统将失去其存在的价值。
在TAU-bench工具使用场景中,MiniMax-M1-40k模型在开源权重模型中独占鳌头,其表现甚至超越了闭源的Gemini-2.5 Pro模型。据数据显示,即便是在经历超过30轮的长链路思考与工具调用任务,MiniMax-M1-40k依然展现出非凡的稳定性。
那么,问题随之而来,既然创新被视为迈向大模型时代终点的关键途径,那么,究竟是什么核心创新支撑了M1所取得的卓越成就?
答案一是M1在架构上的创新。
与行业惯例相仿,M1是在经过预训练的基座模型(MiniMax-Text-01)强化学习的基础上构建的,并且也引入了混合专家结构(MoE)。然而,鲜为人知的是,在2023年前后,即MoE尚未成为行业普遍认知之时,MiniMax就已经发布了国内首个采用MoE技术的超大模型。
在同一时期,尽管业界同仁大多仍在使用传统的Transformer自注意力计算方法,MiniMax却率先展开了混合注意力机制的探索,随后又将这一创新技术应用于M1模型中。混合注意力机制,实际上是将自注意力机制应用于其中的1/8,而剩余的7/8则采用了独创的Lightning Attention(线性注意力)技术。它首先通过“分块计算”(tiling)来处理信息,在各个块内部采用传统的注意力计算方法,而在块与块之间则运用线性注意力来实现信息的有效传递。这样的设计旨在实现全局语义的捕捉,并且有效避免了累积求和操作(cumsum)对计算速度的潜在影响。这也是更长上下文窗口的底层技术支撑。
除了在架构设计方面进行了创新,MiniMax M1在训练策略上也有所突破,它采纳了CISPO(剪枝IS权重策略优化)技术,取代了传统的PPO(近端策略优化)和GRPO(由deepseek开发的近端策略优化),从而显著降低了成本,并提高了训练的效率。
在处理混合架构时,传统的PPO/GRPO算法往往对诸如However、Wait、Aha等重要性显著但出现频率不高的token予以忽视,或者仅赋予它们极低的权重。这一做法使得模型在复杂推理过程中容易出现逻辑上的混乱和问题。MiniMax的CISPO算法会依据token的重要性进行抽样和截断,同时赋予相应的权重,这样使得长响应在保持长度优势的同时,也具备了更高的质量。
技术报告揭示,依托于CISPO技术,MiniMax团队在训练阶段仅耗时3周,便利用512块H800 GPU完成了强化学习任务,其算力租赁费用仅为53万美元。即便与最新的DAPO相比,该团队也能以一半的训练步数实现同等水平的表现。
在推理环节,当生成10万个token时,M1的推理能力仅需DeepSeek R1的25%即可,此外,M1模型在处理数学和编程等任务时,其效率甚至超越了DeepSeek-R1模型。
MiniMax的实践表明,投入巨资打造大型模型是一项成本高昂的工程,然而一旦成功跨过这一门槛,产业竞争的核心便转变为如何通过技术创新降低成本,使技术更加普及,并实现更高的性能上限。
Agent,技术到商业的桥梁如何打造?
实际上,若将视角扩展至近十年的历史,我们便能察觉,这已是AI领域的第二次高潮。在上一轮由AlexNet和AlphaGo引发的AI大爆发中,AI的应用始终局限于视觉识别和自然语言处理领域,最终陷入了短暂的低谷期。
然而,大型模型在通用性方面具有显著优势,这为商业化提供了广阔的空间,同时也极大地延长了技术的使用寿命。
在过去的两年里,行业中的突破性时刻主要可归纳为两大类。一类是底层大模型在技术创新方面的突破:例如,最初的GPT模型,以及年初推出的DeepSeek。
在大模型创新的基础上,还衍生出了一种新型的横向Agent应用创新,其中cursor、lovart、manus等均是其典型的例子。
Agent的一大优势在于其能够通过多阶段操作实现结果的直观化与实用性。一个令人惊叹的成果展示,通常标志着某项技术从实验室走向产业化的关键转折。此次广受关注的Hailuo Video Agent便是如此。
Hailuo Agent的使用相较于普通视频制作更为简便,且能够更好地控制效果,实现一键式全片生成。无论是猫咪的跳水表演,还是羊驼的跳水,甚至是复杂的体操动作,Hailuo Video Agent均能轻松应对。现阶段,Hailuo Video Agent已提供超过一百种视频模板,这些模板包括艺术影片、广告影片、音乐视频以及社交媒体热门内容等多种类型。这也预示着人工智能已经全面实现了从创意策划、分镜头绘制、图像素材制作到完整视频剪辑的全流程生产。
用户仅需输入一句普通语言,系统便会自动协调运用各类工具,并呈现与DeepSeek R1相仿的直观思维流程,使创作过程在保证高质量的同时,也变得更加易于掌控。
依据AI产品排行榜的数据,自其上线至今,海螺AI产品在全球范围内已连续六个月稳居视频生成类AI产品的榜首位置,成功超越了Sora、Runway等国内外知名的视频AI产品。
自然,Agent的另一大长处在于它能够整合多样化的工具与技能,根据用户提出的需求自行设计并执行行动路线,进而独立地为人类处理繁复的专项难题,而具备这种特性的MiniMax Agent堪称典范。
相较于Hailuo Video Agent在视频生成效果上所展现的惊艳表现,MiniMax Agent的角色定位更接近于一位擅长长期任务规划和闭环任务执行的AI专家。这位专家能够助力AI实现从“Chatbot”向“专业生产力引擎”的质变与升级。MiniMax Agent是一种通用的智能体,它能够胜任涉及长程规划、复杂性的任务。它具备多步规划的能力,能够提供专家级的解决方案;同时,它能够灵活地分解任务需求,并执行多个子任务,以确保最终结果的交付。
根据官方提供的信息,MiniMax Agent在MiniMax系统中已投入使用将近两个月,并且已经成为了超过半数员工在制作日常PPT、构建网页以及辅助编写代码时不可或缺的工具。
相较于功能较为单一的普通Agent,MiniMax Agent在编程上能够构建出具备复杂跳跃逻辑的网页,这些网页经过全面测试且无任何bug;在多模态处理上,它不仅能够处理长文本文件,还能理解和处理视频、音频、图片等多种形式的内容,并且能够制作出图文声并茂的作品;此外,它还通过MCP扩展功能,能够胜任制作动画、广告片、PPT等多样化任务……
视频为MiniMax Agent生成的卢浮宫博物馆网页。
MiniMax的通用Agent,实质上是基于MiniMax大模型所具备的基础智能,并且与跨模态技术相融合,实现了工程化能力的极致落地。此外,MiniMax在业界几乎是唯一一家能够提供全面全模态解决方案的厂商。
自然,或许有人会提出疑问,那些专注于大型模型的公司为何要研发Agent?
具备基座模型研发实力的大型模型企业在打造通用Agent方面拥有天然的优势,这得益于其对底层架构的精准掌控;其Agent在性能提升、成本管理、生态构建等方面能够形成闭环优势,进而能够引领开发出更为强大且适应性更强的通用Agent。
一句话总结,大模型的革新拓展了智能体的潜能上限;智能体的迅猛发展,为大模型的进化路径提供了更为清晰的指引。二者如同下山途中越滚越大的雪球,相互助力,能够实现事半功倍的效果,共同推动生态系统的持续壮大。
大模型行业如同一片被时间、资本、创新和知识密度极度压缩的全新领域,而在这片领域中,MiniMax依旧能被视为一个“独树一帜”的个体。
MiniMax在2022年年初便已成立——这一时间点比GPT在2022年底引发全球热潮还要早整整一年。因此,在GPT突然走红之后,众人纷纷四处询问,试图揭开MiniMax的神秘面纱。
在技术路径上,MiniMax也同样敢为人先。
2023年,国内市场主要由Dense模型主导,然而MiniMax却将超过80%的算力和资源集中用于MoE模型的研发,并在2024年初推出了我国首个MoE大型模型,从而成为了行业内的共识引领者。
今年一月,MiniMax正式发布了他们精心策划的Lightning Attention闪电注意力技术,对Transformer架构进行了深度革新,实现了对大模型性能极限的突破,并找到了新的Alpha关键因素。
进入六月,MiniMax推出的M1芯片凭借其100万上下文窗口、算力成本大幅降低70%,以及架构和算法上的多项创新,迅速攀升至开源模型领域的全球第二高位(据Artificial Analysis Intelligence Index榜单数据,该排名截止至目前)。
与M1同步推出的MiniMax通用代理,亦已成功攻克了众多代理应用所面临的跨模态交互、长距离决策(涉及多个决策步骤)、任务分解以及工具调用等难题,实现了从单一工具向全能型助手的转变。
这家公司似乎永无止境,它不断地挑战自我,不断追求更高的界限,以及更高级别的智能水平。
这种对创新的执着追求,本质上是对人工智能大型模型竞赛结果的提前洞察,出色的商业模式通常直接明了——全力投入技术创新,并坚持不懈地予以实施。