当前位置：

普林斯顿大学:强化学习实现视觉语言模型超百步游戏决策能力提升

发布时间：2026-05-08 20:25:07 来源：科技行者责任编辑：caobo

这项由普林斯顿大学语言与智能实验室（Princeton Language and Intelligence）主导、联合复旦大学与清华大学研究人员共同完成的研究，于2026年5月以预印本形式发布，论文编号为arXiv:2605.00347。感兴趣的读者可以通过该编号在arXiv平台查阅完整论文。

【资料图】

一、一个看似简单的游戏，藏着一个深刻的AI难题

有没有想过，让一台电脑"看着"游戏画面，自己决定按哪个键，这件事到底有多难？

对于人类玩家来说，玩《超级马里奥》几乎是本能反应——看到前面有坑就跳，看到蘑菇怪就躲或踩。但对于一台AI来说，这件事远比我们以为的复杂。它必须先"看懂"画面（马里奥在哪？障碍物在哪？）、然后"想清楚"下一步该怎么办（跳？走？还是等？），最后还得"准确执行"。更难的是，这些决策不是做一次就结束的——一关游戏往往需要连续做出超过100个正确决策，任何一步出错都可能导致前功尽弃。

普林斯顿大学的研究团队正是以这个"小小游戏"作为切入口，研究了一个对AI领域来说意义深远的问题：能不能用一种叫做"强化学习"的训练方式，让具备视觉和语言能力的大模型（也就是视觉语言模型，简称VLM）学会完成这种长达100步以上的复杂决策任务？

他们最终给出的答案，不仅仅是"可以"，还附带了一套完整的方法论，以及一个名为Odysseus的开放训练框架。

二、什么是视觉语言模型，它为什么适合玩游戏？

在正式讲研究内容之前，有必要先解释一下"视觉语言模型"是什么。

你可以把它理解成一个既能"看图"又能"说话"（或者说"思考"）的AI。给它一张图片，它能描述里面有什么；告诉它一段文字，它能理解并回应。近年来，这类模型发展迅猛，已经能处理相当复杂的视觉推理任务。

这类模型用于玩游戏，有一个天然的优势：它在被训练成大模型之前，已经"见过"海量的图片和文字，积累了丰富的世界知识——比如"跳过水坑"是什么意思、"障碍物"通常长什么样。这种"先天知识"让它在面对游戏画面时，不需要从零开始摸索，而是能调用已有的认知快速建立判断。

然而，现有的研究存在两个明显局限：一是很多方法依赖大量人类示范数据（也就是让AI模仿人类玩家的每一个操作），这既昂贵又难以大规模扩展；二是用强化学习训练这类模型时，现有方法基本只能处理20到30步左右的短期任务，一旦任务变长，训练就会变得不稳定、效果也大打折扣。

普林斯顿团队的核心贡献，就是在这两个局限上都取得了突破。

三、为什么选择《超级马里奥》作为训练场？

研究团队选择的测试平台是1989年发布的经典Game Boy游戏《超级马里奥乐园》（Super Mario Land）。这个选择背后有清晰的考量。

《超级马里奥乐园》游戏难度适中，但对AI来说并不简单。它一共有12关，每一关的地图布局、障碍物类型、敌人行为都各有不同。完成一关通常需要连续做出100步以上的决策——这比之前AI研究中常用的"迷宫寻路"（通常只需要5到30步）要复杂得多。

更重要的是，游戏中有很多需要精准时机判断的操作，比如"刚好跳过那根高管道"或"在蘑菇怪冲过来的瞬间跳开"。这些操作即便对于顶尖的AI大模型也是难题——研究团队测试了当前最先进的几款商用模型，发现它们在零训练的情况下，在这款游戏里的表现相当糟糕，往往在第一关就卡住。

与此同时，这款游戏体量小、运行轻便，非常适合做大规模的科学实验和对照比较，而不像那些大型开放世界游戏需要消耗巨量算力。

四、AI是怎么"玩"游戏的？

在讲训练方法之前，先要理解AI是如何与游戏交互的。

研究团队为AI设计了一套"看、想、做"的交互流程。每一步，游戏把当前画面截图发给AI，AI先把画面放大8倍（因为原始分辨率太低，只有160×144像素，放大后效果更好），然后结合一段文字提示（告诉它游戏规则和可用的按键），开始工作。

AI的思考过程被分成三个明确的环节，分别用三个标签包裹起来。第一个叫"感知"，AI要先描述它看到的画面：马里奥在哪里，附近有没有敌人，有没有坑或者障碍物。第二个叫"推理"，AI根据感知到的情况，一步步分析下一步该怎么做：是跳过障碍、往右走，还是等一下。第三个叫"动作"，AI输出最终决定，比如同时按下"向右"和"跳跃"键。

按键的执行也有讲究。因为游戏每秒运行60帧，如果AI每帧都重新思考一次，画面根本来不及有明显变化。所以研究团队设计了一个"帧跳过"机制：如果AI决定跳跃，就让这个动作持续执行15帧；如果是普通走路，就执行5帧。这样一来，AI每次决策都能在画面上产生可观察的效果。

整个游戏流程中，AI可以使用七种基本按键：跳跃、跑步、向上、向下、向左、向右以及什么都不做。每次最多同时按两个键，因此组合起来能产生跑跳、跑步等复合动作。

五、训练的核心难题：怎么让AI从"乱按"变成"会玩"？

强化学习的基本逻辑并不复杂：AI做出一个决定，游戏给它一个反馈（做得好就加分，做得不好就扣分），AI根据这个反馈调整自己的策略，慢慢学会做出更好的决定。

在这个研究里，奖励信号非常简单：每一步，马里奥在游戏地图上向右移动了多少距离，AI就获得多少奖励。往右走得越多越好，原地不动或往左走则没有奖励甚至可能失去奖励。这个设计简洁而实用，直接反映了"通关进度"这个核心目标。

然而，把这套逻辑用到超过100步的长序列决策上，会遇到一个严峻的问题：**功劳归因难题**。

以烤蛋糕打比方。如果你烤出了一个美味的蛋糕，但你在整个烘焙过程中做了上百个操作——加了多少糖、烤箱温度设了多少、烤了多久——最终蛋糕好不好吃，到底是哪几步的功劳？同样地，马里奥顺利通过了某段关卡，到底是哪几个按键操作的贡献最大？

在只有20到30步的短任务里，这个问题还算好解决。但在100步以上的长任务里，前面某一步的决策对后面的影响可能要很久才能体现出来，AI很难搞清楚到底哪步做得好、哪步做得不好。

六、关键突破：一个小小的"评分助手"

研究团队在对比了多种主流训练方法后发现，当前最流行的几种"不需要评分助手"的方法（技术上叫做"无评论家方法"，包括GRPO和Reinforce++）在长序列任务上表现很差，训练过程极不稳定，模型性能几乎原地踏步。

这个现象的根本原因，正是上面提到的功劳归因难题。没有一个专门负责"评估当前局面好坏"的模块，模型就很难有效地从长序列经验中学到东西。

于是研究团队回到了经典的PPO算法（一种广泛使用的强化学习方法，全称是"近端策略优化"），并在此基础上做了两个关键改造。

第一个改造是引入了一个"轻量级的回合评分员"（技术上叫做"轻量级回合级评论家"）。它的工作非常专一：在每一步决策结束后，根据当前游戏画面来评估"现在的局面值多少分"，也就是预测从当前位置出发，未来大概还能前进多远。这个评分员不是另一个庞大的语言模型，而是一个小巧的卷积神经网络（CNN）——类似于早期深度学习里用来识别图像的那种网络。它结构简单、运算快速，却足以胜任这个工作。

为什么不用另一个大模型来做评分员？因为那样会让整个训练系统的计算量几乎翻倍，代价太高。而这个小巧的CNN评分员既能有效发挥作用，又不会带来沉重的计算负担。这是这项研究在工程设计上的一个精妙之处。

第二个改造叫做"正优势过滤"。简单来说，在训练时，如果某个决策被评估为"比预期更差"（技术上叫做"负优势"），就直接跳过不学习。只从"做得比预期好"的经验中更新模型。

这个设计的理由在于：研究团队发现，从"失败经验"中学习有时候反而会让模型变得更不稳定，就好像一个人反复回想自己的错误反而会越来越焦虑、表现越来越差。通过只聚焦于"做得好"的经验，训练过程变得更稳定，模型进步也更快。

实验结果非常清晰：搭配了轻量CNN评分员和正优势过滤的PPO算法，其训练稳定性和最终性能，远远超过了所有无评分员的方法。

七、AI大模型 vs 从零开始的传统AI：谁更省力？

确定了训练方法之后，研究团队还做了一个很有意思的对比实验：直接用视觉语言大模型（已经预训练过）做强化学习，和从零开始训练一个传统深度强化学习模型，哪个更高效？

这个问题背后有一个直觉上合理的假设：预训练的大模型已经"见过世界"，它知道"跳跃"这个概念、知道"障碍物要绕开"，这些先验知识应该能帮助它在游戏中更快找到正确策略。

实验结果证实了这个假设。对于从零开始训练的传统模型，研究团队提供了两种版本：一种使用原始动作空间（包含22种按键组合），另一种使用经过人工精心设计的简化动作空间（只保留8种最常用的按键组合，更贴近人类玩法）。

结果是，原始动作空间版本的传统AI学得极慢，因为22种组合太多了，像是在一本厚厚的菜单里随机点菜，大多数尝试都是无效的。精简动作空间之后，传统AI的学习速度大幅提升，但即便如此，它仍然比预训练大模型的版本需要大约多消耗一倍的训练样本才能达到相近的性能。

更值得注意的是，大模型版本根本不需要人工设计动作空间——它凭借自身的语言理解能力，自然就知道"向右跳跃"是有意义的组合，而"同时按左和右"没有意义。这种"免费的先验知识"，正是预训练大模型的核心优势所在。

八、Odysseus框架：把零散发现变成一套完整的训练流水线

有了上述关键发现，研究团队进一步把它们整合成一个完整的训练框架，命名为Odysseus（奥德修斯——希腊神话中以智慧和旅途艰险著称的英雄，呼应了这项研究在漫长序列中探索决策的主题）。

Odysseus的训练流程分为两个阶段，就像一个厨师先打好基本功、再在实战中精进厨艺。

第一阶段叫做"监督学习初始化"。研究团队发现，即使是8B参数级别的开源大模型（他们使用的是Qwen3-VL-8B-Instruct），在面对《超级马里奥乐园》时也有认知盲区——比如，有时候分不清马里奥和敌人，或者无法准确判断角色在屏幕上的位置。这是因为游戏画面在模型的预训练数据中出现得很少。

为了解决这个问题，研究团队从两段游戏通关视频中随机抽取了约5000帧画面，然后用更强大的GPT-o3模型为每帧画面生成高质量的"看、想、做"三段式注释（描述画面、分析情况、给出操作建议）。用这些数据对模型做了一轮轻量级的监督学习，让模型先对游戏场景建立基本的感知和理解能力。

这个阶段的目标不是让模型学会"怎么赢"，而是让它学会"看懂游戏"。就像一个新手厨师，在上灶之前先要认识食材——哪个是盐哪个是糖。至于如何炒出一盘好菜，则留给第二阶段。

第二阶段是强化学习。用第一阶段训练好的模型作为起点，在游戏的前五关同时进行训练，采用前面提到的PPO加轻量CNN评分员加正优势过滤的组合。

同时训练多关的时候，有一个微妙的问题：不同关卡难度不同，简单关卡的游戏局通常更长（因为马里奥能活得更久），如果不加处理，简单关卡的数据就会在训练批次里占据更多比例，导致模型把大部分学习资源花在容易的关卡上，却忽视了困难关卡。

为此，研究团队设计了一套"自动课程"机制：在每次收集完训练数据后，统计各关卡的平均游戏局长度，然后在下一批训练中，对平均局长更短（说明更难、AI在这关表现更差）的关卡分配更多的训练资源，对平均局长更长（说明更容易）的关卡减少资源投入。这样，整个训练过程会动态地向更难的关卡倾斜，避免模型在容易的关卡上原地踏步。

九、最终成绩：碾压顶级商用模型

训练完成后，研究团队进行了全面的性能测试，结果相当亮眼。

他们把Odysseus与多款顶级商用模型在游戏前五关上进行了对比，衡量指标是"马里奥从关卡起点向右走了多远的距离"（称为游戏进度）。GPT-5.4（OpenAI的顶级模型）的平均成绩约为310，GLM-4.6V（智谱AI的旗舰多模态模型）的成绩约为513，Qwen3-VL-8B-Instruct基础模型（Odysseus的起点）的成绩约为270，而Odysseus训练后的成绩达到了约1512。

换句话说，Odysseus的表现比GPT-5.4高出约5倍，比GLM-4.6V高出约3倍，比自己的训练起点高出约6倍。从每关的详细数据来看，Odysseus在所有五个训练关卡上都取得了大幅领先，有些关卡的进度甚至接近该关卡的理论最大值。

研究团队还对比了两个简化版本：只做了监督学习初始化、没有强化学习的"Odysseus-SFT"，以及只做了强化学习、跳过初始化步骤的"Odysseus-Zero"。结果显示，单独的监督学习初始化并不能明显提升游戏成绩（约261分，和基础模型的270分差不多）；而跳过初始化直接做强化学习的版本成绩约为1355分，已经相当不错，但仍比完整版的Odysseus（1512分）低一些。这证明了两个阶段的组合是必要的——监督学习打好基础，强化学习实现质的飞跃，两者缺一不可。

十、学会了马里奥，还能玩其他游戏吗？

一个成功的AI系统不应该只会死记硬背，还要有举一反三的能力。研究团队对Odysseus的泛化能力进行了三个层次的测试。

第一个层次是"同款游戏、不同起点"。研究团队手动收集了训练关卡（前五关）中的50个非训练起点状态，测试Odysseus从这些状态出发能走多远。结果显示，相比基础模型，Odysseus平均提升了32.2%。

第二个层次是"同款游戏、从未见过的关卡"。他们在剩余五个训练中从未出现过的关卡里，同样手动收集了50个状态进行测试。Odysseus的平均提升幅度达到41.5%，甚至比在训练关卡上的提升幅度还要大——这说明模型学到的不只是某些特定关卡的"套路"，而是更通用的游戏感知和决策能力。

第三个层次是"完全不同的游戏"。研究团队把Odysseus放到了另一款马里奥游戏《超级马里奥兄弟》（Super Mario Bros.）的全部32关中进行测试。这款游戏的视觉风格、关卡设计和《超级马里奥乐园》都有明显不同。结果是，Odysseus在这32关上平均比基础模型提升了23.1%。

这意味着，Odysseus不仅仅在背《超级马里奥乐园》的"剧本"，而是真的在某种程度上学到了更普遍的"玩横版动作游戏"的思维方式。

十一、学了游戏，会不会忘记其他本领？

这是一个非常合理的担忧：一个模型花了几千万次游戏交互来学玩马里奥，会不会变成一个"只会玩游戏"的偏科生，在其他任务上变差？

为了验证这一点，研究团队在三个通用多模态基准测试上评估了Odysseus系列模型。这三个测试分别考察多学科视觉推理能力（MMMU）、数学视觉推理（MathVision）和现实世界空间理解（RealWorldQA）。

结果非常让人放心：Odysseus及其各个变体在这三个测试上的成绩，和训练前的基础模型几乎完全相同。MMMU上基础模型得69.00分，Odysseus得70.77分；MathVision上基础模型54.64分，Odysseus得53.52分（略有下降但在误差范围内）；RealWorldQA上两者都是71.11分。总体而言，大量的游戏训练既没有让模型变聪明，也没有让它在其他领域变笨——它保住了自己的"老本行"。

这个结论对于将来把强化学习应用到更多实际场景中非常重要：你可以针对某个特定任务对大模型进行深度强化学习训练，而不必担心这会损害模型在其他任务上的能力。

十二、这一切对AI的未来意味着什么？

归根结底，这项研究的意义不仅仅在于"让AI学会了玩马里奥"。它回答了一个更基础、更重要的问题：强化学习能不能被可靠地用于训练视觉语言大模型去完成复杂的长序列决策任务？

在这项研究之前，答案是模糊的。现有方法要么依赖大量人工示范数据，要么只能处理几十步以内的短任务，用在100步以上的长任务上就会出现训练不稳定、效果不好的问题。

这项研究给出的答案是：可以，但需要正确的配方。正确的配方包括三个关键成分：一个专为长序列任务设计的轻量评分员（CNN回合级评论家）、一个只从好经验中学习的机制（正优势过滤），以及一个能在多任务之间自动平衡学习资源的动态课程（基于逆轨迹长度加权的自动课程）。

更深层的启示在于：预训练大模型身上积累的海量世界知识，是一笔巨大的财富。当你把这笔财富和强化学习结合起来，就能以远比"从零开始"少得多的训练成本，实现复杂的决策能力——大约只需要一半的训练数据，而且不需要人工精心设计动作空间。

这项研究为将来开发能在复杂动态环境中自主行动的AI代理，提供了一套经过验证的、可复现的技术路线图。Odysseus作为一个开放框架，也意味着其他研究者可以在此基础上继续推进，无论是更复杂的游戏、更长的任务，还是真实世界的操控场景。

当然，这项研究也有其局限性。目前的训练只在游戏的前五关进行，测试到全部12关的全面泛化效果还需要进一步验证。此外，AI的游戏进度虽然大幅超越了商用顶级模型，但距离熟练人类玩家的水平仍有差距——毕竟人类玩家哪怕从没玩过这款游戏，通常也能比较轻松地通关。这说明在感知精度、时机判断等方面，AI还有相当大的提升空间。

Q&A

Q1：Odysseus用的是什么基础模型，训练量有多大？

A：Odysseus以Qwen3-VL-8B-Instruct作为基础模型，这是一款开源的80亿参数视觉语言模型。整个强化学习训练阶段总共进行了约数千万次游戏交互，训练步数约为190步（每步包含1024条游戏轨迹）。监督学习初始化阶段则使用了约5058条数据，只训练了1个完整轮次，非常轻量。

Q2：正优势过滤是怎么工作的，为什么有效？

A：正优势过滤的意思是：在训练时，如果某一步决策被评为"比预期更差"（即优势值为负），就直接跳过，不用这条经验来更新模型。只有当某步决策比预期做得更好时，模型才从中学习。研究发现，负优势样本容易引起训练不稳定——模型试图"避免做坏事"有时反而会让整体表现下滑。过滤掉这些样本后，训练曲线更平滑，最终性能也更好。

Q3：超级马里奥乐园里的奖励信号是怎么设计的？

A：奖励信号设计得非常简单直接：每一步，马里奥在游戏地图横轴方向（即向右）前进了多少距离，AI就获得多少奖励分数。具体来说，用游戏内存中马里奥当前的X坐标减去上一步的X坐标。向右前进就有正奖励，原地不动或后退则没有正奖励。这种设计不需要人工标注"哪一步做得好"，完全由游戏状态自动生成，是一种稀疏而密集的混合信号，适合长序列训练。

标签：游戏关卡强化学习语言模型普林斯顿