7月2日,一场名为“智谱开放平台产业生态大会”的活动在上海浦东张江科学会堂隆重举行。智谱公司首席执行官张鹏在主题演讲中宣布了智谱与生态合作伙伴共同取得的AGI领域两项最新突破:首先,公开发布了新一代通用视觉语言模型GLM-4.1V-Thinking,该模型以推理能力为突破点,显著提升了10B级别多模态模型的表现极限;其次,全新推出的MaaS平台「应用空间」已上线,旨在全面激发行业场景中的AI潜能,并与Z基金联合启动了数亿元的专项扶持计划,以支持Agent技术的开拓与发展。
值得注意的是,本次智谱推出的新型模型具备卓越功能,它不仅能接收PPT文件并自动生成汇报材料和演讲稿,甚至还能对“苏超”视频进行解读,生成足球解说内容。如今,这些大语言模型不仅具备解读文字的能力,还能识别图片和视频信息。
张鹏提到,通用人工智能(AGI)可划分为五个级别:其中L1属于预训练的大型模型,L2涉及对齐与推理,L3着重于自我学习,L4是关于自我认知,而L5则达到了意识智能的层次。在这些层级中,视觉推理能力在L3阶段显得尤为关键。
大脑负责整合人类的语言、视觉、语音、行动、思考以及推理等多重能力,而人工智能正逐步揭示这些能力的奥秘。
在大会的主题演讲部分,智谱公司的高级副总裁吴玮杰、蒙牛集团的副总裁兼首席数智官李琤洁,以及中国银联金融科技研究院的副院长吕旭峰,分别就大模型的实际应用进行了深入的交流与分享。在panel环节,捏TA的创始人胡修涵、AiPPT的联合创始人王振同、flowith的CMO拐子以及张江智荟的总经理沈玲,针对bigmodel原生创业这一话题展开了热烈的讨论和观点交流。
智谱再获10亿融资,助力上海打造万卡集群
今年三月,智谱公司选择在上海张江设立分支机构,并正式成为“模力社区”产业生态圈的一员。截至目前,“模力社区”已吸引了近七十家专注于垂类大模型的企业入驻,其中已有二十五家企业完成了安全备案和登记手续。
7月2日,在智谱开放平台产业生态大会上,浦东创投集团与张江集团携手对智谱进行了战略投资,投资总额高达10亿元。此举标志着智谱自成立以来,成功完成了第十六轮融资。
智谱和上海国资战略合作签约现场
今年之内,智谱公司成功完成了五轮融资,投资方涵盖了杭州、珠海、成都、北京以及上海等地,并且这些投资方都拥有国有资本背景。
上海仪电作为主导,联合浦发集团与智谱共同发起了“算电模”人工智能新型基础设施的合作项目,旨在推动构建一个涵盖“能源、算力、模型与应用”的完整产业链闭环。
浦发集团新产业发展部总经理孙颖在接受观察者网采访时指出,这一基础设施是“电算模”三者融合的算力基础平台,其中浦发集团承担电力供应,上海仪电负责提供算力支持,而智谱公司则负责模型技术的应用。该设施计划构建一个大规模的万卡集群,位于浦发集团自有的绿电工厂内,将直接利用绿电为运算过程供电。
孙颖在阐述万卡集群的构建时提到,“万卡集群”是指由众多类似英伟达H100的高性能AI计算加速卡构成的超级计算资源库,其用途是专门用于大模型的训练与运行。“面对未来产业对人工智能算力的庞大需求,万卡集群所具备的算力却相对稀缺,这一设施将有力地支撑起区域产业的发展和招商引资工作。”她进一步补充道。
上海市经济信息化委员会的副主任张宏韬强调,推进人工智能的发展是上海的一项关键战略。目前,上海正紧密围绕国家战略,紧紧抓住通用人工智能的宝贵发展时机,致力于强化计算力和数据资源的基础性建设,促进基础模型的创新进步,并致力于打造一系列如具身智能、智能终端、AI智能体等热门产品,以此为契机,致力于构建人工智能领域的上海高峰。
开源模型进军视频推理领域
同一天,智谱公司推出了名为GLM-4.1V-Thinking的视觉语言大模型,并对外开源,这一举措标志着智谱的GLM系列视觉模型在从感知阶段迈向认知阶段的过程中取得了重要的突破。
GLM-4.1V-Thinking模型具备处理图像、视频以及文档等多种模态数据的能力,它是一款针对复杂认知需求而量身打造的通用推理大型模型。该模型在GLM-4V架构之上融入了“思维链推理机制”,并运用了“课程采样强化学习策略”,从而系统地增强了模型在跨模态因果推理方面的能力以及稳定性。
该轻量级GLM-4.1V-9B-Thinking模型的参数规模保持在10B量级,既确保了部署的高效性,又实现了性能的显著提升。该模型在MMStar、MMMU-Pro、ChartQAPro、OSWorld等28项备受认可的评测中,取得了23项10B级模型最优成绩,其中18项成绩更是与参数量达72B的Qwen-2.5-VL持平或超越,充分揭示了小型模型的极致性能潜力。
智谱轻量版GLM-4.1V-9B-Thinking模型的性能测试结果非常亮眼,其跑分成绩斐然。
除了传统的文本分析、逻辑推理和编程练习,该模型在图像与文本的理解、数学问题的解决以及食品领域的认知等方面,均显现出极强的适应性和稳定的性能。
以AI在解答高考题目为案例,鉴于众多AI系统尚不能准确辨识高考数学试题中的图形元素,故在实施高考评价时,AI处理数学试题的领域通常局限于仅含文字的题目。观察者网编辑亲身体验后指出,智谱公司推出的最新模型即便面对包含几何图形的题目,也能流畅完成解答。
智谱的最新模型不仅能识别静态图片,而且还能对动态视频的内容进行深入理解和推理分析。
苏超足球解说:识别复杂动态图像,理解事件逻辑
GUI Agent定日程:理解手机/电脑界面,交互操作
看图买菜:精确识别图像内容,支持复杂推理
目前,该模型GLM-4.1V-9B-Thinking已经同时在Hugging Face和魔搭社区进行了开源发布。该套模型包含两个版本,一个是GLM-4.1V-9B-Base基座模型,旨在助力研究者们深入挖掘视觉语言模型的功能极限;另一个是GLM-4.1V-9B-Thinking,它拥有深度思考与推理的能力,其常规使用与体验都基于这一模型设计。
王铁震,Huggling Face在中国区的负责人,向观察者网透露:“相较于去年11月底推出的GPT-4o,智谱模型在性能上实现了超越。这款拥有90亿参数的模型,特别适合在笔记本电脑等便携式设备上运行。”
值得关注的是,本次智谱推出的最新开源模型,其参数量高达90亿,这一成绩不仅超越了GPT-4o,而且与近期发布的参数量达到720亿的阿里千问2.5在性能上难分高下。
王铁震对此回应道,这意味着我国在开源大模型领域追求与现有水平相当的性能(包括智商和情商),所需的模型规模和能源消耗等成本将逐步降低。
同一天,智谱公司宣布,其GLM-4.1V-Thinking-Flash API已正式免费开放,并在智谱开放平台上正式上线。
智谱公司向观察者网透露,在针对科学研究、教育领域、自主智能体以及多模态助手等更为复杂的现实世界应用场景中,GLM-4.1V-Thinking模型在推理能力上的补充,能够切实解决众多行业领域中开放性、信息量庞大的场景问题。这包括对长视频内容的理解、图像问答技术、学科知识的解题、文字信息的识别、文档的深入解读、Grounding技术、图形用户界面智能体以及代码自动生成等功能。
加速商业化落地
大模型的商业化议题,始终是外界持续关注大模型企业的焦点所在。
智谱公司的首席执行官张鹏在接受观察者网的采访时透露,截至2025年,智谱GLM大模型的日均Token调用次数实现了显著增长,增幅高达近30倍,与此同时,其日均消耗的金额也实现了显著提升,同比增长了52%。
值得关注的是,智谱自2023年起便开始了商业化探索,并且透露了2024年的Token调用次数增长了150倍。在此基础上,其增长幅度又接近30倍,这充分表明了AI在商业化领域的广泛应用需求十分旺盛。
智谱的API在2024年进行了多次价格下调,下调幅度常常高达80%至90%。尤其是在今年的4月份,智谱对其旗下的模型API进行了新一轮降价,其中GLM-4-Plus的降价幅度最为显著,高达90%。即便在API价格已经非常低廉的情况下,智谱依然实现了日均消耗金额的稳步增长。
视觉推理标志着大模型技术迈向通用多模态推理的关键阶段,众多大模型企业正致力于将这一技术优势转化为实际的生产力,并积极探索其商业化的应用途径。
针对B端客户,大型模型企业一方面供应智能代理,助力实现服务的无缝对接。例如,智谱公司针对企业用户和开发者,推出了智能代理应用平台,使得企业无需自行组建专业的大模型团队,便能以较低门槛接入成熟、安全且可控的智能代理功能。
若将大模型比作引擎,那么Agent便是依托于这一引擎所驱动的各式交通工具,诸如汽车、飞机以及战舰等,涵盖了执行任务型、交互沟通型、自我驱动型以及协同作业型等多种类型。
智能体究竟更适合从事白领的创意性工作,还是蓝领的体力劳动,亦或是顶尖研究人员的创新与科研探索任务?这些问题,行业内部仍在持续寻求答案。张鹏指出,然而,唯有当AI工人能够替代人类完成部分基础性和重复性的工作,我们才能实现真正的成本降低和效率提升,而这正是智能体能力的关键所在。
长江证券的研究表明,在视觉推理与工具调用的紧密结合之下,教育、医疗、企业服务等多个领域的智能代理应用周期有望得到缩短,对其商业化元年及投资前景持乐观态度。
高人伯,毕马威中国技术和新经济管理咨询服务的主管合伙人,指出,随着生成式人工智能向“自主智能体”的发展,人工智能的角色将不再局限于执行指令的工具,它将转变为能够主动策划、协作并完成复杂任务的智能伙伴,这一转变或许将引领商业模式的革新。
另一方面,大模型企业也在探索将AI能力落地于智能硬件。
这也见证了技术的不断进步:起初的模型体积庞大,仅能在云端进行推理,而手机和PC则作为客户端来调用云端提供的智能服务。然而,随着端侧计算能力和能源问题的逐步克服,端侧设备也开始具备部署一定智能功能的能力,例如在汽车、AI眼镜和AI玩具等设备上,实现了端云结合的智能应用。
张鹏表示,不论未来是机器人、汽车、眼镜还是胸针,这些设备都将具备人工智能的功能。