Google傘下の英・人工知能(AI)企業DeepMindは24日(現地時間)、リアルタイムストラテジーゲーム『StarCraft II』のプレイヤーとして開発されたAIプログラム「AlphaStar」を発表した。
ライブ配信の中で、昨年12月19日に実施されたプロプレイヤーとの試合を披露。Team Liquid所属のDario “TLO” Wunsch選手と、同所属で過去にメジャー大会で2度のチャンピオンに輝いたGrzegorz “MaNa” Komincz選手を相手に、5ゲームずつの計10試合が行われた。結果は10対0というAlphaStarの完封勝利。その後、機能に一部制限を設けた新バージョンで挑んだ生中継の試合では、MaNa選手による人間ならではの戦術に見事出し抜かれ、AlphaStarの戦績に初めて黒星が付いた。
Blizzard Entertainmentが運営する『StarCraft』シリーズは、1998年から続く最古のeスポーツのひとつとして、欧州や韓国を筆頭に盛り上がってきた競技。そのゲーム性は、自軍が偵察によって得た視界しか見えないプレイヤー情報の非完全性や、リアルタイムストラテジーという非ターン制による時間の連続性、手駒の総数と種類の多さから生じる組み合わせの圧倒的な複雑さなど、過去にAIが人間を打ち破ったチェスや囲碁とは大きく異なる。こうした側面から、これまで『StarCraft』はAI研究者が容易に乗り越えられない巨大な壁として立ちはだかってきた。
DeepMindが「AlphaStar League」と呼ぶプロセスでは、Blizzardが過去に公開した膨大な量のリプレイデータをニューラルネットワークに学習させることで、これらの課題を克服している。多様な人間のプレイデータをもとに生成された複数のエージェントでリーグを構成し、継続的に互いを対戦させることで段階的に戦略を洗練させていく強化学習だ。
このリーグは14日間続き、毎試合ごとに新たな戦略的情報が生み出される。一連のプロセスが完了するまでに各エージェントが経験する試合数は、現実時間で200年分のプレイ時間に相当するという。
特筆すべきは、AlphaStarのAPM(Action Per Minute、1分あたりのアクション数)が両選手を大きく下回っていた点だ。キーボードやマウスを操作するという物理的な制限がないボットは、一般的に毎分数千から数万という人間には到底不可能な操作量をこなせると言われている。それに対し人間のプレイヤーは、プロレベルでも平均して数百程度が限界である。
今回の試合では、2人の選手が平均で390APM以上の数値を出す一方で、AlphaStarは277APMにとどまっている。また、状況判断からアクション入力までにかかるリアクション時間も、平均で350msと決して人間が及ばない領域とは言えない。これらはAlphaStarが人間のプレイを模倣することで学習した結果だという。
今回の試合では、AlphaStar側に人間には真似できない大きな利点もあった。AlphaStarは、『StarCraft II』のゲームエンジンに直接アクセスすることで、マップ上のカメラを切り替えることなく、可視状態のユニット情報をすべて同時に把握できたのだ。
一方で、人間のプレイヤーはマップ全体をひと目では見渡せないため、常にインターフェイス上のミニマップをクリックして部分的にズームすることで、視野を切り替えなくてはならない。DeepMindによると、カメラインターフェイスによる制限を設けた別バージョンも、学習段階での戦績ではさほど劣ることはなかったという。しかし、ライブイベントでの実戦では、MaNa選手に軍配があがる結果となった。
このように、AlphaStarの勝因が必ずしも人間離れしたクリックレートやリアクション時間ではなかったことから、マクロおよびマイクロレベルでの戦略的判断でAIが人間を凌駕していることがうかがえる。こうした強化学習の恩恵による躍進は、2017年にMOBAタイトルの『Dota 2』で世界のトッププレイヤーを打ち負かしたOpen AIでも顕著だった。
DeepMindによると、今回のAlphaStarプロジェクトで培われた技術は、天気予報や気候モデリング、言語理解といった分野での応用が想定できるという。また、学習メソッドの一部は、人工知能という技術の安全性を追求する上でも役に立つだろうと、AI研究全般における貢献の可能性に期待を寄せた。
ライター/Ritsuko Kawai