谷歌AI如何攻克星际争霸？

99ANYc3cd6 人工智能 2025-12-13 35

这三者的结合，是人工智能发展史上的一个里程碑事件，尤其是在深度强化学习领域。谷歌利用其强大的人工智能技术，开发出了能够击败人类顶尖《星际争霸》玩家的AI程序，这标志着AI在复杂、信息不完全的实时战略游戏领域取得了历史性突破。

（图片来源网络，侵删）

下面我们从几个层面来详细解析：

为什么是《星际争霸》？

《星际争霸》被AI研究者们视为“终极的AI挑战”，它被称为“AI的围棋”，相比于围棋,它对AI的要求要复杂得多：

巨大的状态空间：围棋的棋盘是19x19，而《星际争霸》的地图是巨大的，单位、建筑、资源的位置组合数是一个天文数字,远超围棋。
不完全信息：在围棋中，棋盘上所有棋子的位置都是双方可见的，但在《星际争霸》中，你只能看到自己单位和视野范围内的敌人，地图的“战争迷雾”（Fog of War）使得决策充满了不确定性。
实时性：游戏是实时进行的，AI没有时间进行像围棋AI那样深度且耗时的蒙特卡洛树搜索，它必须在几毫秒内做出决策，否则就会被对手“速推”。
多目标与长期规划：AI需要同时管理多个目标：采集资源、建造建筑、训练部队、侦察、进攻、防守，这些目标之间需要动态平衡,并且需要制定长达数分钟的长期战略。
微操作：除了宏观战略，AI还需要进行精细的“微操作”（Micro），比如控制多个单位进行走位、集火、使用技能等,这需要极高的手眼协调能力。

一个能玩好《星际争霸》的AI，意味着它具备了长期规划、资源管理、应对不确定性、多任务处理和快速反应等高级智能，这些能力对于解决现实世界中的复杂问题（如物流管理、机器人控制、金融交易）极具参考价值。

谷歌的关键项目：AlphaStar

谷歌母公司 Alphabet 旗下的 DeepMind（深度思考）实验室，是完成这一挑战的核心力量，他们开发的项目叫做 AlphaStar。

（图片来源网络，侵删）

AlphaStar 的发展经历了几个关键阶段,每一次都是对AI能力的巨大飞跃：

第一阶段：AlphaStar vs. 深度学习AI (2025年1月)

对手：DeepMind自己训练的其他AI。
成就：AlphaStar以10:0的比分战胜了其他顶级AI，证明了其架构的有效性，这是AI内部的对决,为挑战人类高手做好了准备。

第二阶段：AlphaStar vs. 人类职业玩家 (2025年4月)

这是真正震撼世界的时刻，AlphaStar在匿名状态下，参加了欧洲《星际争霸II》电竞职业联赛，并取得了10:0的辉煌战绩，战胜了两位世界顶尖的人类职业选手：TLO 和 Mana。

技术突破：
1. 基于注意力机制的策略网络：AlphaStar的核心是使用了类似Transformer（就是后来在NLP领域大放异彩的模型）的注意力机制，这使得AI能够像人一样，在巨大的游戏画面中“关注”到关键信息（如单位血量、资源数量、敌人位置）,而不是处理每一个像素。
2. 强化学习：AlphaStar通过自我对弈进行训练，数百万盘的“人机对战”让它不断学习和进化,寻找最优策略。
3. 模仿学习：初期，它通过学习大量人类职业玩家的 replay（录像）来快速掌握游戏的基本规则和策略。
4. 可解释性：DeepMind首次展示了AI的“注意力图”，让观众直观地看到AI在关注什么,增加了其决策过程的透明度。

第三阶段：AlphaStar: Master (2025年12月)

在击败顶尖人类选手后，DeepMind对AlphaStar进行了新的限制，使其更接近人类玩家的操作上限,并开放给公众在天梯上对战。

新限制：
- APM (每分钟操作数) 限制：将AlphaStar的APM限制在人类顶尖选手的范围内（约300-600 APM）,防止它通过超高的操作频率取胜。
- 视野限制：强制AI只能看到其单位实际能看到的视野，不能“上帝视角”。
成就：在达到这些限制后，AlphaStar（此时被称为 AlphaStar Master）以超过99.8%的胜率登上了《星际争霸II》的欧洲天梯宗师段位，成为当时世界排名最高的玩家之一，这标志着AI在完全公平的规则下,已经稳稳超越了人类。

意义与影响

AlphaStar的成功,其意义远超游戏本身：

（图片来源网络，侵删）

AI能力的证明：它证明了深度强化学习可以解决极其复杂的、具有长期规划要求的实时决策问题，这是AI从“感知智能”迈向“认知智能”的重要一步。
推动AI研究：AlphaStar催生了许多新的算法和模型，特别是在处理部分可观察信息和多智能体协作方面，这些技术可以被迁移到机器人、自动驾驶、金融分析等领域。
人机协作的新范式：DeepMind后续发布了名为 AlphaStar II 的研究，重点不再是“击败”人类，而是“与人类协作”，他们训练了一个AI，可以与人类玩家组队对战，并帮助人类玩家提升策略，这展示了AI作为“教练”或“伙伴”的巨大潜力。
电竞与娱乐：它为电竞领域带来了新的视角和话题,也让大众更直观地感受到了AI的强大。

后续发展：AlphaTensor

值得一提的是，DeepMind并没有止步于游戏，他们将《星际争霸》中学到的关于高效搜索和规划的能力，应用到了另一个极其复杂的领域——数学。

他们开发的 AlphaTensor 项目，利用类似AlphaStar的强化学习技术，发现了比人类已知的更快的矩阵乘法算法，这是一个震惊数学界的成就,因为它解决了一个困扰数学家近50年的基础效率问题。

这完美地诠释了从游戏中获得灵感,并将其用于解决现实世界核心挑战的AI研究路径。

谷歌（通过DeepMind）开发的人工智能AlphaStar，通过攻克《星际争霸》这一“AI的围棋”，在实时战略、长期规划和不确定性决策方面取得了革命性突破，它不仅以压倒性优势战胜了人类顶尖玩家，更推动了AI基础算法的发展，并成功地将游戏中的智能迁移到了数学等科学领域，是人工智能发展史上浓墨重彩的一笔。

标签：谷歌AI星际争霸算法 DeepMind星际争霸AI训练星际争霸AI决策模型

本文地址： https://www.gzrobot.org.cn/post/3340.html