World Labs là một công ty khởi nghiệp được thành lập vào năm 2024 bởi Fei-Fei Li, một chuyên gia AI nổi tiếng và là giáo sư tại Đại học Stanford, chuyên phát triển thế hệ hệ thống AI tiếp theo với "trí thông minh không gian".
Kể từ khi thành lập, World Labs đã hoàn thành hai vòng gọi vốn, huy động được tổng cộng khoảng 230 triệu đô la Mỹ. Các nhà đầu tư chính bao gồm a16z, Radical Ventures, NEA, NVIDIA NVentures, AMD Ventures và Intel Capital. Định giá của công ty đã vượt quá 1 tỷ đô la Mỹ chỉ sau ba tháng, trở thành kỳ lân mới trong lĩnh vực AI.
Gần đây, Fei-Fei Li đã có cuộc trò chuyện với hai đối tác của a16z là Martin Casado và Eric Torenberg. Lần đầu tiên, cô ấy đã công khai nói về quá trình xây dựng khái niệm, định hướng nghiên cứu và tầm nhìn lớn lao đằng sau việc đồng sáng lập World Labs của họ. Quá khứ và hiện tại của chiến lược nền tảng a16z: từ VC "không muốn dọn dẹp" đến "dịch vụ toàn diện".
Fei-Fei Li đã chỉ ra điểm cốt lõi của cuộc trò chuyện này ngay từ đầu: "Tôi không cần một mô hình ngôn ngữ lớn để thuyết phục mình, mô hình thế giới mới là hướng đi thực sự quan trọng".
Bà nhấn mạnh rằng trí thông minh không gian - cho dù đó là thế giới vật lý ba chiều mà chúng ta đang sống hay vũ trụ kỹ thuật số tưởng tượng - là một phần không thể thiếu của trí thông minh. Và ngày nay, cuối cùng chúng ta cũng có khả năng tạo ra và tái tạo những vũ trụ này.
▍Trí thông minh lâu đời hơn ngôn ngữ: nhận thức không gian và tái tạo 3D
Fei-Fei Li chỉ ra rằng so với ngôn ngữ, nhận thức không gian là một khả năng cổ xưa và bản năng hơn trong quá trình tiến hóa của con người. Cô chia sẻ một kinh nghiệm cá nhân: một vài năm trước, cô tạm thời mất thị lực lập thể do chấn thương giác mạc. Trong thời gian đó, cô không dám lái xe một mình. Ngay cả trên những con phố quen thuộc, thật khó để ước lượng khoảng cách từ chiếc xe bên cạnh.
Trải nghiệm thực nghiệm này khiến cô nhận ra sâu sắc vai trò cơ bản của hệ thống nhận thức 3D trong hành động của con người. Đối với AI, nếu không thể xây dựng mô hình thế giới 3D, nó không thể thực sự hiểu, vận hành hoặc tái tạo thế giới thực.
Martin Casado nói thêm rằng việc thiếu trí thông minh ba chiều này là lý do chính khiến robot và các hệ thống thông minh hiện thân chậm được đưa vào sử dụng. Ông đã dùng một ví dụ phổ biến để giải thích: nếu bạn đưa một người vào một căn phòng xa lạ, bịt mắt họ và chỉ sử dụng ngôn ngữ để mô tả không gian, sau đó yêu cầu họ hoàn thành một nhiệm vụ - điều đó gần như là không thể. Khi mắt mở ra, não có thể tự động tái tạo mô hình không gian và hoàn thành hành động. Khả năng tái tạo này hoàn toàn không có trong mô hình ngôn ngữ chính thống hiện nay.
▍Điểm quan trọng về mặt kỹ thuật từ NeRF đến mô hình thế giới
Nói về lý do tại sao bà chọn thành lập World Labs vào thời điểm này, Fei-Fei Li tin rằng đây là kết quả của quá trình nghiên cứu học thuật lâu dài và tích lũy nền tảng công nghiệp.
Bà nhớ lại rằng ngay từ bốn năm trước, một đột phá nghiên cứu mang tên NeRF (Neural Radiance Field) đã mở ra một con đường mới cho mô hình hóa hình ảnh 3D. Người đề xuất NeRF là Ben Mildenhall, một trong những người đồng sáng lập hiện tại của World Labs.
Một nhà sáng lập khác, Christopher, đã tiến hành nghiên cứu tiên phong về biểu diễn 3D hiệu quả, thúc đẩy sự trở lại của mô hình hóa 3D thể tích trong ngành.
Cùng với Justin Johnson, người đã áp dụng công nghệ GAN vào việc chuyển giao phong cách hình ảnh trong những ngày đầu, những kết quả nghiên cứu rải rác này hiện có thể được tích hợp vào cùng một nhóm, tập trung vào mục tiêu "North Star": xây dựng khả năng mô hình hóa thế giới của AI.
Martin cho rằng mục tiêu này là nhờ sự tích hợp sâu sắc của hai hệ thống: một là mô hình AI, dữ liệu và kiến trúc, và hệ thống còn lại là hệ thống kỹ thuật dựng hình đồ họa và tái tạo không gian. Khả năng cho phép các chuyên gia từ hai thế giới này cộng tác hiệu quả trên một nền tảng duy nhất tự nó là một cải tiến tổ chức quan trọng trong ngành công nghệ.
▍Mô hình ngôn ngữ không phải là kết thúc, mà là phần mở đầu
Li Fei-Fei nhấn mạnh rằng niềm tin của cô vào mô hình thế giới không phải xuất phát từ sự thất vọng với LLM, mà xuất phát từ sự hiểu biết sâu sắc hơn về bản chất của trí thông minh.
Bà chỉ ra rằng ngôn ngữ là một cách nhận thức "nén mất mát", trừu tượng hóa thế giới nhưng cũng mất đi thông tin vật lý và nhận thức phong phú. Thế giới thực không có từ ngữ, ngữ pháp và văn bản, chỉ có vật lý, chuyển động và cấu trúc ba chiều.
Quan điểm này cũng thay đổi nhận thức của bà về hình thức mà các công ty AI nên có. Bà chuyển từ một giáo sư Stanford sang một doanh nhân vì bà nhận ra rằng nghiên cứu học thuật thôi là chưa đủ để đạt được mô hình trí thông minh không gian - nó đòi hỏi đầu tư vào sức mạnh tính toán công nghiệp, lập lịch kiến trúc cấp hệ thống và khả năng cộng tác của những tài năng xuyên biên giới hàng đầu.
Tất cả những điều này chỉ có thể thực sự được triển khai trong một công ty có trình độ tổ chức cao và khả năng cộng tác kỹ thuật toàn diện vượt trội.
▍Các ứng dụng trí thông minh không gian vượt xa robot
Đối với hầu hết mọi người, "mô hình thế giới" vẫn là một thuật ngữ nghiên cứu khoa học trừu tượng. Nhưng Fei-Fei Li và Martin đã cùng nhau chỉ ra rằng các ứng dụng của nó vượt xa xe tự hành và robot.
Sáng tạo về cơ bản là trực quan. Thiết kế công nghiệp, làm phim, sáng tác kiến trúc và thậm chí cả phát triển trò chơi đều dựa trên cấu trúc và thao tác ba chiều. Nếu AI có khả năng mô hình thế giới, nó không chỉ có thể "hiểu" thế giới ba chiều mà còn có thể "tạo ra" và "vận hành" không gian ảo.
Martin mô tả rằng chỉ với một bức ảnh chụp một chiếc bàn, mô hình có thể suy ra hình dạng và vật liệu đằng sau nó, sau đó xây dựng một bối cảnh không gian hoàn chỉnh. Trên cơ sở này, người dùng thậm chí có thể đo, thêm, xóa hoặc thiết kế lại không gian. Đây là cách tương tác giữa người và máy tính trực quan và tự do hơn so với hướng dẫn bằng văn bản, đồng thời mở ra một chiều hướng mới cho các thí nghiệm thiết kế, sáng tạo và mô phỏng.
Li Feifei còn đề xuất thêm rằng không gian kỹ thuật số đang mang đến một cơ hội chưa từng có để thay đổi: "Cho đến nay, con người chỉ sống trong thế giới vật lý ba chiều. Nhưng thế giới kỹ thuật số sẽ cho phép chúng ta lần đầu tiên bước vào 'đa vũ trụ'."
Bà đã liệt kê một số ví dụ: một số vũ trụ được xây dựng dành riêng cho rô-bốt, một số vũ trụ phục vụ cho sự sáng tạo của con người và một số được sử dụng để kể chuyện, giao tiếp và trải nghiệm du lịch. Những không gian trước đây chỉ tồn tại trong trí tưởng tượng giờ đây sẽ thực sự được tạo ra và hiểu, sử dụng và biến đổi bởi máy móc.
▍Trận chiến tiếp theo của các mô hình cơ bản, mô hình toàn cảnh 3D
Quay lại với công nghệ, Fei-Fei Li nhấn mạnh rằng World Labs không chỉ tạo ra một AI "có thể nhìn thấy", mà còn giúp AI hiểu được cấu trúc 3D, động lực học và logic tổ hợp của thế giới. Đây không chỉ là một vấn đề kỹ thuật khó hơn mà còn là một triết lý mới về biểu diễn.
Bà tin rằng những khám phá khoa học như cấu trúc xoắn kép của DNA và buckyball là sự kết tinh của trí thông minh không gian. Không thể suy ra những cấu trúc hình học như vậy chỉ bằng ngôn ngữ. Đây là lý do tại sao mô hình thế giới không chỉ có thể cải thiện khả năng hiểu biết của máy móc mà còn mở ra những con đường sáng tạo mới cho khoa học và nghệ thuật của con người.
Martin kết luận rằng cuộc cách mạng do LLM mang lại đã chứng minh một sự thật: khi chúng ta tìm thấy cấu trúc dữ liệu và biểu diễn mô hình phù hợp, khả năng của AI sẽ được cải thiện theo cấp số nhân. Bây giờ, họ tin rằng "mô hình thế giới" đang đứng ở một điểm tới hạn tương tự.
▍Chìa khóa để hiểu và xây dựng thế giới
"Chúng ta thực sự đang đi giật lùi trên con đường tiến hóa." Khi Martin đưa ra quan điểm này, toàn bộ cuộc trò chuyện cũng đã đi đến cấp độ triết học.
Ngôn ngữ là một trong những mô-đun mới nhất trong quá trình tiến hóa của não người, trong khi hệ thống nhận thức không gian đã tồn tại từ thời động vật chân đốt, tức là 500 triệu năm trước. AI ngày nay, nếu chỉ "học ngôn ngữ", thì thực sự không thể được gọi là "hiểu thế giới". Chỉ bằng cách xây dựng một mô hình không gian giống con người, AI mới thực sự bước vào cánh cửa của "trí thông minh hiện thân".
Fei-Fei Li kết luận với giọng điệu kiên quyết thường thấy của mình: "Tôi đã chờ đợi ngày này. Không phải vì tôi không tin vào các mô hình ngôn ngữ, mà vì tôi biết rất rõ rằng thế giới thực không được tạo thành từ văn bản."
Và mô hình thế giới chính là chìa khóa để AI thực sự hiểu và xây dựng thế giới này. Từ I/O đến iO, Jony Ive sẽ thúc đẩy một phong trào thiết kế mới - AI đang viết lại mô hình điện toán và định nghĩa phần cứng, và đây cũng là một chiến trường mới sau mô hình lớn.