ワールド・ラボ(World Labs)は、著名なAI専門家でありスタンフォード大学教授のフェイフェイ・リー(Fei-Fei Li)が「空間知能」を持つ次世代AIシステムを開発するために設立した2024年の新興企業である。
設立以来、ワールド・ラボは2回の資金調達を完了し、総額約2億3000万ドルを調達した。主な投資家には、a16z、ラディカル・ベンチャーズ、NEA、エヌビディア・エヌベンチャーズ、AMDベンチャーズ、インテル・キャピタルなどがいる。同社の評価額はわずか3カ月で10億ドルを突破し、AI分野における新たなユニコーンとなっている。
最近、フェイフェイ・リーはa16zのパートナーであるマーティン・カサドとエリック・トレンバーグと対談し、ワールド・ラボのコンセプト構築と創設のプロセスについて初めて公に語った。ラボ、a16zのプラットフォーム戦略の背後にあるコンセプト構築、研究の方向性、ビジョン:VCの「ケツを拭く気がない」から「フルスタック・サービス」まで。
李菲菲は、会話の核となる考え方を指摘して話を始めた。"世界モデルが本当に重要な方向性であることを納得させるのに、大きな言語モデルは必要ない"。
彼女は、空間的な知性は、それが私たちが住んでいる3次元の物理的な世界であろうと、想像上のデジタル宇宙であろうと-であることを強調した。-空間的な知性は、私たちが生きている3次元の物理的世界であれ、想像上のデジタル宇宙であれ、すべて知性の不可欠な要素なのです。そして今日、私たちはついにこれらの宇宙を生成し、再構築する能力を手に入れた。
哲学的言語より古い知性:空間的なフェイフェイ・リーは、人間の進化において、空間認識は言語よりもはるかに古く、本能的な能力であると指摘している。彼女は数年前、角膜の損傷により短期間立体視を失った個人的な経験を語っている。その間、一人で運転するのが怖くなり、見慣れた道でも隣の車との距離を判断するのが難しくなった。
この実験的な経験から、彼女は人間の行動における3D知覚の基本的な役割に気づいた。そしてAIにとって、現実世界を3次元でモデル化することなく、真に理解し、操作し、再構築する方法はありません。
マーティン・カサドは、この3Dインテリジェンスの欠如が、ロボットや具現化された知能システムの普及が遅れている主な理由だと付け加える。人を見知らぬ部屋に連れて行き、目隠しをし、言葉だけで空間を説明し、タスクを完了するよう求めるとしたら、それはほとんど不可能だ。その代わり、ひとたび目を開けば、脳は自動的に空間モデルを再構築し、行動を完了させることができる。この再構築能力は、現在主流の言語モデルにはまったくない。技術の転換点
なぜこの時期にワールドラボを立ち上げることにしたのかについて、李飛飛は長期的な学術研究と産業基盤の蓄積の結果だと考えている。
彼女は、4年前、NeRF(神経放射線場)と呼ばれる研究のブレークスルーが、3Dビジュアルモデリングのまったく新しい道を開いたと振り返る。
もう一人の創設者であるクリストファーが、効率的な3D表現を開拓した。
もう一人の創設者クリストファーは、効率的な3D表現の先駆的な研究を行い、産業界にボリュームメトリック3Dモデリングの復活を推進しました。
画像スタイルの移行にGANをいち早く採用したジャスティン・ジョンソンとともに、これらのばらばらの研究活動は現在、ひとつのポラリスレベルの目標のもと、ひとつのチームにまとめられています。"
これらのバラバラの研究努力は今、1つのポラリスレベルの目標:世界をモデル化するAIの能力を構築するという目標のもと、1つのチームにまとめられつつある。
マーティン氏はこの目標を、AIモデル、データ、アーキテクチャそのものと、グラフィックスレンダリングと空間再構成のためのエンジニアリングシステムという、2つのシステムの深い収束によるものだとしています。このような両世界の専門家が単一のプラットフォーム上で効率的に共同作業を行えるようにすること自体が、テクノロジー業界にとって大きな組織的革新なのだ。
哲学言語モデリングは終着点ではなくプロローグ
フェイフェイ・リーは、世界モデルに対する彼女の信念は、LLMに対する失望から来るものではなく、むしろ知性の本質に対するさらなる理解から来るものだと強調している。
彼女は、言語とは認知の「非可逆的圧縮」であり、世界を抽象化するが、同時に物理的・知覚的な豊かさも失うと指摘する。それは世界を抽象化するが、物理的・知覚的情報の豊かさも失う。世界の真の現実には言葉も文法も文章もなく、物理学と運動と三次元構造しかない。
この見解は、AI企業のあるべき姿に対する彼女の認識も変えた。彼女がスタンフォード大学の教授から起業家へと転身したのは、空間知能をモデル化するには学術研究だけでは不十分で、産業演算への投資、システムレベルのアーキテクチャ・スケジューリング、国境を越えた一流の人材とのコラボレーション能力が必要だと気づいたからです。
そして、このすべてが本当に実現できるのは、高度に組織化され、卓越したフルスタックエンジニアリングのシナジーを持つ企業だけなのです。
理念ロボティクスをはるかに超えた空間知能アプリ<
ほとんどの人にとって、「世界のモデリング」はまだ抽象的な科学用語です。しかし、Feifei LiとMartinは、それが自律走行やロボット工学をはるかに超える用途があると指摘している。
創造性は本質的に視覚的なものです。工業デザイン、映画制作、建築構成、そしてゲーム開発でさえも、すべて3Dの構築と操作に依存しています。AIが世界をモデル化する能力を持てば、3D世界を「見る」ことができるだけでなく、仮想空間を「生成」し「操作」することもできるようになる。
マーティンは、テーブルの写真だけで、モデルがその背後にある形状や素材を推測し、完全な空間シーンを構築できることを説明している。これに基づいて、ユーザーは空間を測定、追加、削除、再設計することもできる。これは、テキストベースのコマンドよりもはるかに直感的で自由な人間とコンピュータの対話であり、デザイン、創造、シミュレーション実験のためのまったく新しい次元を切り開くものです。
李飛菲はさらに、デジタル空間がこれまでにない変化の機会をもたらしていることを示唆した。しかし、デジタルの世界では、初めて "多元宇宙 "に入ることができるのです」。
彼女はいくつかの例を挙げている。ロボット専用の宇宙、人間の創造性に奉仕する宇宙、ナレーションやコミュニケーション、体験旅行に使われる宇宙がある。かつては想像の中にしか存在しなかったこれらの空間は、今や実際に生成され、理解され、使用され、機械によって変容される。
写真基本モデリング 次の戦い、3Dパノラマ。モデリング
技術そのものに話を戻すと、李飛飛はワールドラボが単に「見ることができる」AIを作ることではなく、世界の3D構造とダイナミクスをAIに理解させることだと強調した。AIに世界の3次元構造、ダイナミクス、組み合わせ論理を理解させることです。これはより困難な工学的問題であるだけでなく、新しい表現哲学でもある。
DNAの二重らせん構造やバッキーボールのような科学的発見は、空間的知性の結果であると彼女は主張する。このような幾何学的構造を純粋に言語によって導き出すことは不可能である。だからこそ、世界モデルは機械の理解を向上させるだけでなく、人間の科学や芸術に新たな創造の道を開くかもしれないのだ。
マーティン氏は、LLMがもたらした革命は、適切なデータ構造とモデル表現を見つけたとき、AIの能力が指数関数的に爆発するという事実を証明するものだと結論づけている。そして今、世界モデルも同様の転換点にあると信じている。span>「私たちは実際、進化の道を逆に歩いているのです」。マーティンは、対話全体が哲学的になったときにも、この点を指摘した。
言語は人間の脳の進化における最も新しいモジュールの1つであり、空間認識システムは節足動物の5億年前から存在している。今日のAIは、「言語を学習する」だけでは「世界を理解する」とは言えない。人間のような空間モデルを構築することによってのみ、AIは本当に「具現化された知性」の扉に足を踏み入れることができるのです。
李飛飛はいつもの固い口調でこう締めくくった。私が言語モデリングを信じていないからではなく、現実の世界はテキストでできていないことをよく知っているからです」。
そして、世界モデルこそが、AIがその世界を真に理解し、構築することを可能にする鍵なのです。はコンピューティング・パラダイムとハードウェアの定義を書き換えるものであり、ビッグモデルに続く新たな戦場となる。