出典:quantum
AIの科学への貢献といえば、昨年ノーベル賞を受賞したグーグル・ディープマインドのタンパク質折り畳みプログラム「アルファフォールド」を思い浮かべるかもしれない。
そして今、OpenAIは科学にも参入しようとしています。
同社によると、普通の細胞を幹細胞に変えることができるタンパク質を考えることができる言語モデルを開発したとのことで、すでに人間よりも簡単に先行しているそうです。
この研究は、生物学的データに焦点を当てたOpenAI初のモデルであり、同社がそのモデルが予期せぬ科学的結果をもたらすことができると公に主張した最初のものである。そのため、AIが本当の発見をできるかどうかを判断するための一歩であり、「一般的なAI」に向けた大きな試金石と見る向きもある。
先週、OpenAIのCEOであるサム・アルトマンは、自社が汎用AIを構築する方法を知っていると「確信している」と述べ、「超知的なツールは、我々人間が自力でできることをはるかに超えて、科学的発見とイノベーションを劇的に加速させることができる」と付け加えた。その範囲は"
タンパク質工学プロジェクトは1年前、サンフランシスコを拠点とする長年の研究会社Retro BiosciencesがOpenAIに協力の打診をしたことから始まった。
コラボレーションは偶然ではなかった。OpenAIのCEOサム・アルトマンは、レトロ社に1億8000万ドル(約13億1800万円)の個人資金を提供したと伝えられている。

(出典:OpenAI)。
Retroの目標は、通常の人間の寿命を10年延ばすことだ。そのために同社は、いわゆる山中因子、つまり人工多能性幹細胞を研究している。これは、ヒトの皮膚細胞に加えると、若く見える幹細胞、つまり体内の他のあらゆる組織を生み出すことができるタイプの細胞に変えるタンパク質のグループである。
レトロ社の研究者やアルトス・ラボのような資金力のある企業は、この現象を動物の若返り、人間の臓器の作成、代替細胞の提供の出発点になりうると考えている。
しかし、この細胞の「再プログラミング」はあまり効率的ではない。何週間もかかり、研究室の皿で処理された細胞のうち、再生に至るのは1パーセントにも満たない。
GPT-4bマイクロと呼ばれるオープンAIの新しいモデルは、タンパク質因子の機能を強化するために再設計する方法を提案するように訓練されている。オープンAIによると、研究者たちはこのモデルの提案を使って、2つの山中伸弥因子の効率を50倍以上高めたという。
「全体的に、これらのタンパク質は科学者たちが自分で作ったものよりも優れているようです」と、OpenAIの研究者であるジョン・ホルマン氏は語った。
ホルマン氏は、OpenAIのアーロン・ジャック氏、Retroのリコ・メニ氏とともに、このモデルの主な開発者である。
外部の科学者たちは、この結果が本物かどうかは発表されるまでわからない。また、このモデルはまだ広く使用されておらず、正式な製品リリースではなく、特注のデモンストレーションにとどまっている。
「このプロジェクトは、我々が科学に本気で貢献しようとしていることを示すためのものだ」とジャックは言う。「しかし、これらの機能が別のモデルで出てくるのか、それとも我々の主要な推論モデルに統合されるのか、それはまだ決定していません。
このモデルは、タンパク質の形状を予測するGoogleのAlphaFoldとは異なる動作をします。OpenAIは、山中伸弥因子が異常に柔らかく構造化されていないタンパク質であるため、大規模な言語モデルが適している別のアプローチが必要だと述べています。
このモデルは、多くの生物種から得られたタンパク質配列のサンプルと、どのタンパク質が相互作用しやすいかという情報に基づいて学習された。データは大きいですが、OpenAIの主力チャットボットのトレーニングデータのほんの一部でしかないため、GPT-4bは一元化されたデータセットを使用する「小さな言語モデル」の一例です。
レトロの科学者たちはモデルを手に入れると、山中伸弥タンパク質を再設計する可能性へと誘導しようとした。使用されたプロンプト戦略は、「小さなサンプルサイズ」アプローチに似ている。ユーザーがチャットボットに質問する際、一連の回答例を提供し、ボットが回答できるように例を提供する。
遺伝子工学者は研究室で分子進化を導く手段を持っているが、通常は限られた数の可能性しか試すことができない。そして、平均的な長さのタンパク質でさえ、ほぼ無限に近い数で変化させることができる(なぜなら、タンパク質は数百のアミノ酸で構成されており、それぞれが20の可能性のある変異体を持っているからだ)。
しかし、OpenAIのモデルは多くの場合、タンパク質のアミノ酸の3分の1を変更する提案をする。
レトロ社の最高経営責任者(CEO)であるジョー・ベイツ・ラクロワ氏によれば、「我々はすぐにモデルを実験室に投入し、実世界の結果を得ました」。また、このモデルは非常に優れたアイデアであり、かなりのケースでオリジナルの山中伸弥因子よりも改善されていると付け加えた。
ハーバード大学の老化研究の専門家で、レトロ社の顧問でもあるヴァディム・グラディシェフ氏は、幹細胞を作るより良い方法が必要だと述べた。「それは我々にとって非常に有益なことです。[皮膚細胞は簡単に初期化できますが、他の細胞はそうではありません。「そして、新しい種での初期化は、通常、劇的に異なるものであり、何も得られない。
AIモデルが通常そうであるように、GPT-4bがどのようにしてその推測にたどり着いたのかは正確にはわからない。「AlphaGoが囲碁で人間の最強の棋士を打ち負かしたようなものだが、その理由を解明するのには長い時間がかかった」とベイツ=ラクロワ氏は語った。「とベイツ-ラクロワは言った。「我々はまだ、それが何をするのかを解明しようとしている。

オープンAI最高経営責任者Sam Altman (Photo credit: TechCrunch, CC BY 2.0, via Wikimedia Commons)
OpenAIによると、今回の共同研究には金銭的な取引はなかったという。しかし、この研究はレトロ(アルトマンが最大の出資者)に利益をもたらす可能性があるため、このニュースはOpenAIのCEOの副業についてさらなる疑問を投げかける可能性がある。
昨年、ウォール・ストリート・ジャーナル紙は、アルトマンが民間のハイテク新興企業に広範な投資を行っていることは「不透明な投資帝国」に等しく、「潜在的な対立の数が増えている」と指摘しました。
 
OpenAIにとって
レトロ社にとっては、アルトマンやOpenAI、そして一般的なAI競争と結びついているだけで、知名度が上がり、スタッフの採用や資本調達の能力が高まる。Betsy Lacroix氏は、このアーリーステージ企業が現在資金調達段階にあるかどうかの質問には答えなかった。
OpenAIによると、アルトマンはこの取り組みに直接関与しておらず、同社はアルトマンの他の投資に基づいて決定を下したことはないという。