出典:quantum
ニューヨーク・タイムズ紙によると、2025年のチューリング賞は、ChatGPTのようなチャットボットに欠かせない強化学習技術を開発した2人のAIパイオニア、アンドリュー・バートーとリチャード・サットンに贈られた。

マサチューセッツ大学アマースト校のアンドリュー・バートー氏。Branchのアンドリュー・バルト(左)とリチャード・サットンの研究は、今日のAIシステムにおいて重要な役割を果たしている。(画像出典:Association for Computing Machineryより)
1977年、アンドリュー・バルトはマサチューセッツ大学アマースト校の研究員として、ニューロンは快楽主義者のように振る舞うという新しい理論の探求を始めた。
1年後、もう一人の若い研究者、リチャード・サットンが彼のチームに加わった。
その1年後、もう一人の若い研究者、リチャード・サットンが彼のチームに加わった。
水曜日、世界最大のコンピュータの専門家集団であるアメリカン・コンピュータ・ソサエティは、バートウ博士とサットン博士が強化学習に関する研究で今年のチューリング賞を受賞したと発表した。1966年に創設されたチューリング賞は、しばしばコンピュータ界のノーベル賞と呼ばれている。2人の科学者は100万ドル(725万9600ルピー)の賞金を分け合うことになる。
強化学習は、GoogleのAlphaGoやOpenAIのChatGPTのような画期的な技術を含め、過去10年間の人工知能の台頭において重要な役割を果たしてきました。これらのシステムの技術は、バートウ博士とサットン博士の研究に由来しています。
「彼らは強化学習の分野における紛れもないパイオニアです」と、ワシントン大学のコンピュータサイエンス名誉教授で、アレン人工知能研究所の創設者兼CEOであるオーレン・エツィオーニ(Oren Etzioni)氏は言う。「彼らは重要なアイデアを考え出し、このテーマに関する本を書いた。
1998年に出版された彼らの著書『強化学習:入門』は、多くの専門家がその潜在能力を発揮し始めたばかりだと考えているこのアイデアの決定的な探求書である。
心理学者は長い間、人間や動物が経験から学習する方法を研究しており、1940年代には、イギリスのコンピューター科学者の先駆者であるアラン・チューリングが、機械も同様の方法で学習できると示唆した。
しかし、バートウ博士とサットン博士は、政府のために働いていたコンピューター科学者、A・ハリー・クロプファーが提唱した理論に基づいて、この学習方法の数学的探究に着手した。その後、バートウ博士はマサチューセッツ大学アマースト校にこのアイデアに特化した研究室を設立し、サットン博士はカナダのアルバータ大学にも同様の研究室を設立した。
「人間と動物の話であれば、当然のアイデアです」と、AIスタートアップのキーン・テクノロジーズとカナダの3つの国立AI研究所の1つであるアルバータ研究所で研究員も務めるサットン博士は言う。の研究科学者でもある。「我々がAIを復活させたとき、それは機械に関するものだった。
2016年にAlphaGoが登場するまで、それは学術的な追求にとどまっていた。ほとんどの専門家は、囲碁で世界のトップ棋士に勝てるAIシステムを開発するには、あと10年はかかるだろうと考えていた。
しかし、韓国のソウルで行われた対局で、アルファ碁は過去10年で最高の囲碁棋士であるイ・セドル氏を破った。その秘密は、このシステムが何百万もの対局をこなし、試行錯誤しながら学習してきたことにある。どの手が成功(喜び)をもたらし、どの手が失敗(痛み)をもたらすかを学習したのだ。
システムを構築したグーグルのチームは、アルバータ大学でサットン博士のもとで強化学習を研究していたデビッド・シルバーが率いた。
多くの専門家は、強化学習がゲーム以外で機能するかどうか、いまだに疑問視している。ゲームの勝敗は得点に左右されるため、機械が成功と失敗を区別するのは簡単だ。
しかし、強化学習はオンラインチャットボットでも重要な役割を果たしています。
2022年秋にChatGPTがリリースされる前に、OpenAIは数百人を雇って初期バージョンを使わせ、チャットボットのスキルを磨くために的確なアドバイスを提供させた。彼らはチャットボットに具体的な質問への答え方を示し、その回答を評価し、間違いを訂正した。アドバイスを分析することで、ChatGPTはより優れたチャットボットになる方法を学んだ。
研究者たちはこれを「人間のフィードバックからの強化学習」(略してRLHF)と呼んでおり、今日のチャットボットが驚くほどリアルな回答を出せるようになった重要な理由の1つです。
(ニューヨーク・タイムズ紙は、OpenAIとそのパートナーであるマイクロソフトを、人工知能システムに関連するニュースコンテンツの著作権侵害で訴えたが、OpenAIとマイクロソフトはこの申し立てを否定している)。
最近、OpenAIやDeepSeekなどの企業は、AlphaGoのようにチャットボットが自ら学習することを可能にする強化学習の形式を開発しました。たとえば、さまざまな数学の問題を解くことで、チャットボットは、どの方法が正しい答えにつながり、どの方法がそうでないかを学ぶことができます。
このプロセスを多数の問題で繰り返せば、チャットボットは人間の推論を模倣することを学習できる--少なくともいくつかの点では。その結果が、OpenAIのo1やDeepSeekのR1のような、いわゆる推論システムである。
バルト博士とサットン博士は、これらのシステムは、将来的に機械が学習する方法を示唆していると述べた。最終的には、AIを搭載したロボットは、人間や動物がそうであるように、現実の世界で試行錯誤を繰り返しながら学習していくことになるだろうと彼らは語った。
「強化学習によって身体をコントロールすることを学ぶのは、非常に自然なことです」とバートー博士は語った。