强化学习重大发现!仅玩简单游戏就能大幅提升AI数学推理?

在强化学习的研究领域,创新进展不断涌现,其中一项近期的重要突破犹如一颗重磅炸弹,迅速吸引了业界的广泛关注。研究人员意外发现,即便缺乏大量的数学训练数据,人工智能仅通过参与简单的游戏,其数学推理能力也能得到显著提升。那么,这一现象背后的深层原因究竟是什么

全新发现颠覆传统

先前的研究表明中国电子科技集团公司第二十一研究所微电机网,即便未给出标准答案,强化学习在处理数学问题方面仍能显著提高模型的表现。这一发现促使学术界对强化学习的训练方法进行了重新思考。莱斯大学、约翰斯・霍普金斯大学的研究团队与英伟达携手,在该领域取得了新的突破。他们成功将多模态大型语言模型(MLLM)应用于贪吃蛇等基础游戏,并且在不依赖数学或跨学科训练数据的情况下,显著增强了模型的多模态推理能力。

ViGaL 方法脱颖而出

研究团队研发了一种名为ViGaL的新型视觉游戏学习策略。该方法在多个主流视觉数学测试中均取得了优异表现。同时,在MMMU系列测试中也展现出了卓越的成效。其性能显著超越了以往基于数据训练的强化学习模型。在数学等学科领域,ViGaL取得了显著的成就。ViGaL的设计独具匠心,充分借鉴了游戏领域的智慧结晶。它成功地将游戏行业的元素转化为数学、空间以及跨学科的思维方式。同时,ViGaL展现出广泛的适用性,并得到了广泛的推广与应用。

跨域泛化成果显著

研究团队采用了参数量高达70亿的Qwen2.5-VL模型进行训练。该模型主要运用强化学习技术,对贪吃蛇和旋转游戏进行了训练。在多个基准测试中,该模型展现出卓越的表现,效果十分显著。具体分析,在数学推理基准测试中,平均提升了2.9个百分点;而在多学科推理基准测试中,平均提升了2.0个百分点。这一成果已超越了仅针对数学或多学科数据进行强化训练的方法。

游戏助力模型提升

样本训练是什么_样本增强方法_

游戏进行时,模型以图像和文字组合的游戏环境为输入,依照游戏指令执行推理任务,并在该环境中实施对应动作。经过游戏训练,模型推理能力得到提升,并且这种能力得以延伸至数学及其他跨学科领域的后续任务,宛如为其开辟了一条全新的学习途径。

游戏对应推理问题

在参与“玩耍”等活动中,孩子们逐渐构筑起抽象思维的根基;同时,研究人员在游戏过程中发现了提高模型效率的策略。例如,“四子连珠”游戏有助于评估规划技能,“虚拟工具”游戏则揭示了问题解决的认知过程。此外,还有一些游戏专注于深化空间几何的理解,这与解决涉及角度、长度等数学推理问题密切相关。

通用推理能力的启示

该研究揭示,除了针对特定目标的学习,增强基础的通用推理能力可能有助于提高模型的表现力。ViGaL 通过对游戏领域的深入研究,为强化学习领域提供了新的视角,同时也拓展了新的研究方向。

您对人工智能在游戏领域中助力技能提升的潜在发展有何看法?欢迎在评论区发表您的见解。同时,恳请您对本文给予点赞,并积极分享。