谷歌AI碾压星际争霸2职业玩家 连续10局击败人类

谷歌旗下DeepMind开发的人工智能AIphaStar在《星际争霸2》(Starcraft II)中击败了两位人类职业玩家,这是AI领域的新里程碑。在YouTube和Twitch上播放的比赛中,AI玩家在连续10局中反复击败人类。而在最后的对决中,职业选手格里戈尔兹·“曼娜”·科明兹(Grzegorz “MaNa” Komincz)为人类赢得了唯一的胜利。

AI碾压星际争霸2:AI玩家在连续10局中反复击败人类

去年12月份的比赛截图显示,AlphaStar与人类玩家TLO的对决

相比人类玩家,AI的优劣势很明显

与兄弟AI AIphago登顶的围棋所不同的是,《星际争霸2》是不完美信息系统,有着阻碍信息顺利获取的战争迷雾,除此之外,操作的单位数量和频率较大,且存在多线作战,需要同时兼顾后方经营,和前方多线战事。显然,在多线决策方面AI的优势要比线性思维的人类要大得多。

DeepMind的研究联席负责人戴维·西尔弗(David Silver)在赛后表示:“AI的历史被打上了许多重大的、标杆性胜利的印记。尽管还有很多工作要做,但我希望未来的人们在回顾(今天)时,认为这是AI系统向前迈进了一步的象征。”

在视频游戏里击败人类玩家似乎是AI开发过程中的一个小插曲,但这也是一个重大的研究挑战。《星际争霸2》这样的游戏比围棋之类棋盘游戏更难玩。在视频游戏中,AI无法通过观察每个棋子的移动来计算下一步棋,它们必须实时做出反应。

这些因素似乎对DeepMind被称为AlphaStar的AI系统并未构成多大障碍。首先,它打败了人类职业玩家达里奥·温什(Dario Wunsch,即TLO),然后将目标对准MaNa。这些比赛最初是于去年12月份在DeepMind的伦敦总部举行的,但该公司今天播放了AlphaStar与MaNa的最后一场比赛,这是人类玩家唯一获胜的比赛。

《星际争霸》的职业评论员形容AlphaStar的表现是“非凡的”、“超人的”。在《星际争霸2》中,玩家在建立基地、训练军队和入侵敌人领土之前,会从相同地图的不同侧面展开行动。AlphaStar尤其擅长所谓的“微操”,即在战场上快速、果断地控制单个或少量部队的能力。

尽管人类玩家有时能够训练出更强大的作战单位,但AlphaZero还是能够在近距离内战胜他们。在一场游戏中,AlphaStar用名为Stalker的快速移动单位骚扰MaNa。评论员凯文·范德库伊(Kevin van der Kooi)将其描述为“非凡的单位控制能力,很不常见”。MaNa在赛后表示:“如果我和任何人类比赛,他们都不会将Stalker运用得如此出神入化。”

这与我们在其他高级游戏AI中看到的行为相呼应。当OpenAI去年在《Dota 2》中与人类职业选手对决时,它们最后以失败告终。但专家们指出,这些AI是以一种“清晰而精确”的方式进行着游戏。对此,我们无需感到奇怪,快速做出没有任何错误的决定是机器的天赋异能。

专家们已经开始仔细分析这些比赛,并就AlphaStar是否拥有任何不公平的优势展开辩论。这些AI在某些方面依然显得笨拙,例如,AlphaStar的每分钟点击依然比人类低。但与人类玩家不同的是,它每次都能够查看整个地图,而不是手动导航。

DeepMind的研究人员表示,这并没有为AlphaStar提供真正的优势,因为它在任何时间只关注地图的某个特定部分。但是,正如比赛所显示的那样,这并没有阻止AlphaStar同时熟练地控制三个不同区域的单位。评论员们表示,这对人类来说是不可能的。值得注意的是,当MaNa在直播比赛中击败AlphaStar时,AI使用的是受限的摄像头视角。

AlphaStar的另一个潜在痛点是,人类玩家虽然是职业玩家,但却不是世界冠军的标准。TLO还必须扮演《星际争霸2》中他不熟悉的三个种族之一。

AI的重大进步?

撇开这些不谈,专家们称这场比赛是AI向前迈出的重要一步。长期参与《星际争霸》AI场景的AI研究人员戴夫·丘吉尔(Dave Churchill)表示:“我认为AI取得了重大成就,至少比我在AI研究人员中听到的最乐观猜测提前了一年。”然而,邱吉尔补充说,由于DeepMind尚未发布任何关于这项工作的研究论文,因此很难说它是否显示出任何技术上的飞跃。他指出:“我还没有读过这篇博客文章,也没有接触过相关的论文或技术细节。”

佐治亚理工学院AI副教授马克·里德尔(Mark Riedl)表示,他对结果并不那么惊讶,AI获得胜利只是“时间问题”。里德尔补充说,他不认为这些比赛表明《星际争霸2》已经被AI彻底掌控。他表示:“在上一场直播比赛中,限制AlphaStar的某些能力确实消除了它的许多人为优势。但我们看到的更大的问题是,当人们可以把AI推出舒适区时,它就会崩溃。”

丹麦哥本哈根信息技术大学的塞巴斯蒂安·里斯(Sebastian Risi)表示:“这看起来是向前迈出的一大步。我们不知道这其间有多少创新,但培训AI的方式似乎是关键。”里斯的同事尼尔斯·贾斯特森(Niels Justesen)说:“我没想到会发生这样的事情,尤其是因为之前的端到端学习《星际争霸》的尝试远远没有达到人类的水平。”

残酷的强化学习AI竞技场

最终,这类工作的最终目标不是利用AI在视频游戏中击败人类,而是改进AI的训练方法,尤其是为了创建能够在《星际争霸》等复杂虚拟环境中运行的系统。

为了训练AlphaStar,DeepMind的研究人员使用了被称为强化学习的方法。AI智能体基本上是通过反复尝试才能达到某些目标,比如赢球或者仅仅是生存下去。它们首先通过模仿人类玩家来学习,然后在类似竞技比赛中相互对决。最强的AI会存活下来,最弱的则被淘汰。DeepMind估计,其每个AlphaStar智能体都以这种方式积累了大约200年的游戏时间,游戏速度也在加快。

DeepMind很清楚自己开展这项工作的目标。AlphaStar项目联合负责人奥里尔·维尼亚斯(Oriol Vinyals)说:“首先,也是最重要的,DeepMind的任务是建立通用AI,它可以执行人类所能完成的任何心理任务。要实现这个目标,最重要的就是对我们的AI智能体在各种任务中的表现进行基准测试。”

科技媒体Engadget评论道,谷歌旗下的AI子公司DeepMind已经转向电脑游戏,其AI系统始终在进行微调,以适应《星际争霸2》。今天的《星际争霸2》比赛,是AlphaStar与职业玩家的第一次正面交锋。在两场五局的系列比赛中,AlphaStar战胜了职业选手TLO和MaNa,赢得了10场胜利。而在连续十次失利后,人类玩家终于赢得了最后一场比赛。

DeepMind的野心

虽然游戏并不能很好地展示这项技术,但它确实描绘了DeepMind在理解人类行为方面取得的长足进步。最终,这项技术可以被用于许多其他领域,如理论物理学,甚至医学。纽约大学的朱利安·加里乌斯(Julian lius)表示:“我认为《星际争霸》就像是在经营一家公司,尤其是后勤部门。关键是要规划研发,在正确的时间把产品送到正确的地方,避免瓶颈。”

AlphaStar也可以帮助专业人士改善他们的策略。马耳他大学的Georgios Yannakakis称:“如果AI能够找到最优的游戏方式,那将是非常令人兴奋的。这毕竟是人们构建AI的原因之一。目前来说,很多人都不想在任何游戏中遇到DeepMind的AI对手,更不用说像《星际争霸2》中与其进行激烈对决了。(选自:The Verge编译:网易智能 参与:小小)

延伸阅读

人工智能是否威胁人类?有人预测:每天在研究你,帮你做婚姻选择

2018年12月第一期《科学》杂志封面,向人们介绍了一位“数字神童”——史上最强棋圣“阿尔法零”。作为两年前惊艳亮相的人工智能“阿尔法围棋”进化版,“阿尔法零”不但征服了围棋,而且仅分别“自学”2小时和4小时后,就击败最强的日本将棋和国际象棋人工智能程序。

AI碾压星际争霸2:AI玩家在连续10局中反复击败人类

“阿尔法零”的飞速成长,代表了2018年人工智能的进步。在移动互联网、大数据、超级计算和脑科学等新理论新技术的驱动下,问世60余年、遭遇多次质疑的人工智能迎来新一轮发展热潮,真正进入了落地实践阶段:各国新政密集出台、科技巨头纷纷布局、最新进展日新月异……一个“新智能时代”正在到来。

无所不在

“阿尔法”系列人工智能不仅在棋牌领域打遍人类无敌手,最新的“阿尔法折叠”还能有效预测蛋白质的三维结构,并在12月初的一个国际竞赛中击败众多对手夺冠。研制“阿尔法”系列程序的英国“深层思维”公司发表声明说,这“证明人工智能可驱动和加速科学新发现”。

从科研成果看,人工智能正在众多领域“开疆辟土”,医疗健康领域首当其冲。过去一年,从确定药物分子结构到提高药物开发效率,从早期癌症诊断到预测肿瘤发展,都可以看到人工智能在发挥作用。比如,美国加州大学洛杉矶分校的一项人工智能成果,能比医生诊断提早6年预测出阿尔茨海默病;美国斯坦福大学的物理学家开发出一种人工智能程序,只用几个小时就“重新发现”了元素周期表;科学家已经开始利用人工智能研究地震、海啸的预防。

在应用上,美国医疗管理机构已批准了首个人工智能医疗器械,用于筛查糖尿病性视网膜病变;阿里云正利用人工智能帮助马来西亚首都吉隆坡“治堵”;日本警方将对预防犯罪的人工智能系统进行测试;人工智能还成为体育界智囊,帮助运动员磨炼技能,提高比赛成绩……

总体看,超强的计算能力、与日俱增的海量数据以及不断涌现的优秀算法三者结合,驱动人工智能加速发展,逐渐“脱虚向实”。知名咨询公司普华永道发布的报告显示,到2030年,人工智能将给全球国内生产总值带来14%的增长,相当于15.7万亿美元。

专家们相信,未来人工智能将会像水、电一样无所不在,颠覆和变革医疗、金融、运输、制造、服务、体育和军事等各个行业。

目前,从美国的GAFA(谷歌、苹果、脸书、亚马逊)到中国的BAT(百度、阿里巴巴、腾讯),都在人工智能上押下重注。百度创始人、董事长兼首席执行官李彦宏说:“未来没有任何一家企业可以宣称跟人工智能没有关系。”

大国争先

“人工智能不仅是俄罗斯的未来,也是全人类的未来……谁成为这一领域的领导者,谁就将是世界的主宰者。”俄罗斯总统普京曾这样说。

不仅普京,德国总理默克尔、法国总统马克龙和英国首相特雷莎·梅等多个大国的领导人都曾表达对人工智能的重视。2018年,各个大国均把加快发展人工智能上升至国家战略高度布局深耕,以抢占新一轮科技革命和产业变革的制高点。

——3月,马克龙公布法国人工智能发展战略,计划在2022年他的首任总统任期结束前投入15亿欧元,将法国打造成人工智能研发世界一流强国。

——5月,美国白宫召开“美国产业人工智能峰会”,希望确保美国的“全球技术绝对优势”。白宫还在2019财年预算申请中首次将人工智能列为政府研发重点。

——英国首相梅今年多次发表讲话,宣布英国将在人工智能方面投入约10亿英镑,争当这一领域的世界领头羊,其中一个重要目标是利用人工智能技术,到2033年减少2万名癌症患者。

——11月,德国政府出台《人工智能战略》,计划在2025年前投资30亿欧元推动德国人工智能发展。默克尔说,德国的目标是让“‘德国制造’也成为人工智能领域的一个品牌”。

——中国也把新一代人工智能视为一个重要前沿,并提出到2030年人工智能理论、技术与应用总体达到世界领先水平,成为世界主要人工智能创新中心。

业界普遍认为,整体来看,中美已成为全球人工智能发展的两强。美国在人工智能研究方面占据领先位置,而中国在人工智能应用方面的成就有目共睹。业内专家认为,未来很长一段时间内两国在这一领域可以优势互补。

人机协作

随着“新智能时代”的到来,许多人问,人工智能将来到底会有多“智能”?也有人担心,人工智能未来会不会威胁到人类?

其实,人工智能有强弱之分,当前乃至未来很长一段时间,人工智能都将处于“弱智能”阶段,还只能局限在特定的封闭领域,就好像“阿尔法围棋”和“阿尔法零”只能下棋,干不了其他工作。

业界一致看法是,人工智能会延展人类的能力,放大并提升人类智能,但并非取代人类。人机协作,大幅提高工作效率,才是人工智能应有的未来。

至于未来人工智能是否会达到所谓技术“奇点”形成独立人格,专家们认为,按照现有技术模式,这种可能性为零,机器人革命甚至毁灭人类完全属于好莱坞式的杞人忧天。

人工智能局限性的一个原因在于,今天的机器尚不具备情景推理能力,必须训练它们涵盖所有可能发生的情况,这不仅代价高昂,而且难以实现。也正因此,2011年诺贝尔经济学奖得主、美国经济学家托马斯·萨金特才表示,人工智能不过是统计学。

虽无远虑,但对人工智能的一个现实“近忧”是,它已经在和人类抢工作。但最新的系列研究认为,人工智能对未来就业的影响并非如想象的那样悲观。根据世界经济论坛发布的《2018未来就业》报告,未来5年,尽管7500万份工作将被机器取代,但1.33亿份新工作将同步产生,这意味着净增的新工作岗位多达5800万。

畅销书《人类简史》作者尤瓦尔·赫拉利预测,随着人工智能和生物技术的飞速发展,人机融合将在本世纪完全实现,人类未来生活将发生难以想象地巨变。

“未来,机器将比你更了解你自己,”赫拉利说,“人工智能程序在你出生后的每一天都在研究你,从每一封邮件到每一秒心跳,最终它完全可以在任何事情上帮你作出更有利的选择,包括婚姻这种‘终身大事’。”