Tác giả: Paul Veradittakit, Đối tác tại Pantera Capital; Biên dịch: Jinse Finance xiaozou
Tóm tắt:
VLASự đổi mới và quy mô đang thúc đẩy sự ra đời của những robot hình người giá cả phải chăng, hiệu quả và phổ thông.
Khi robot kho hàng mở rộng sang thị trường robot tiêu dùng, các cơ chế đánh giá, tài chính và an toàn của robot xứng đáng được khám phá thêm.
Công nghệ tiền điện tử sẽ thúc đẩy sự phát triển của ngành công nghiệp robot bằng cách cung cấp các đảm bảo kinh tế cho sự an toàn của robot và tối ưu hóa cơ sở hạ tầng kết nối, độ trễ và quy trình thu thập dữ liệu của nó.
ChatGPT hoàn toàn viết lại kỳ vọng của con người về trí tuệ nhân tạo. Khi các mô hình ngôn ngữ lớn bắt đầu tương tác với thế giới phần mềm bên ngoài, nhiều người nghĩ rằng các tác nhân AI là hình thức cuối cùng. Nhưng nếu bạn nhìn lại những bộ phim khoa học viễn tưởng kinh điển như "Star Wars", "Blade Runner" hay "RoboCop", bạn sẽ thấy rằng điều mà con người thực sự mơ ước là trí tuệ nhân tạo có thể tương tác với thế giới vật lý dưới dạng robot.
Theo quan điểm của Pantera Capital, "khoảnh khắc ChatGPT" trong lĩnh vực robot đang đến. Trước tiên, chúng tôi sẽ phân tích cách những đột phá trong trí tuệ nhân tạo đã thay đổi bối cảnh ngành trong vài năm qua, sau đó khám phá cách công nghệ pin, tối ưu hóa độ trễ và cải tiến thu thập dữ liệu sẽ định hình bối cảnh tương lai và vai trò của công nghệ mã hóa trong việc này. Cuối cùng, chúng tôi sẽ giải thích lý do tại sao chúng tôi tin rằng an toàn robot, tài chính, đánh giá và giáo dục là những lĩnh vực dọc cần tập trung vào.
1、Các yếu tố thay đổi
(1)Đột phá về trí tuệ nhân tạo
Những tiến bộ trong lĩnh vực mô hình ngôn ngữ lớn đa phương thức đang cung cấp cho robot "bộ não" mà chúng cần để thực hiện các nhiệm vụ phức tạp. Robot chủ yếu nhận thức môi trường thông qua hai giác quan: thị giác và thính giác.
Các mô hình thị giác máy tính truyền thống (chẳng hạn như mạng nơ-ron tích chập) rất tốt trong các nhiệm vụ phát hiện hoặc phân loại đối tượng, nhưng chúng gặp khó khăn trong việc chuyển đổi thông tin trực quan thành các hướng dẫn hành động có mục đích. Mặc dù các mô hình ngôn ngữ lớn hoạt động tốt trong việc hiểu và tạo văn bản, nhưng chúng bị hạn chế bởi khả năng nhận thức thế giới vật lý của chúng. 
Thông qua mô hình Tầm nhìn-Ngôn ngữ-Hành động (VLA), robot có thể tích hợp nhận thức thị giác, hiểu ngôn ngữ và hành động vật lý trong một khuôn khổ điện toán thống nhất. Vào tháng 2 năm 2025, Figure AI đã phát hành Helix, một mô hình điều khiển robot hình người phổ quát. Mô hình VLA này thiết lập một chuẩn mực mới cho ngành công nghiệp với khả năng khái quát hóa không cần bắn và kiến trúc kép Hệ thống 1/Hệ thống 2. Tính năng khái quát hóa không cần bắn cho phép robot thích ứng ngay lập tức với các cảnh mới, đối tượng mới và hướng dẫn mới mà không cần đào tạo lại cho từng nhiệm vụ. Kiến trúc Hệ thống 1/Hệ thống 2 tách biệt lý luận bậc cao với lý luận nhẹ, tạo ra một robot hình người thương mại có cả tư duy giống con người và độ chính xác theo thời gian thực.
(2)Robot giá cả phải chăng trở thành hiện thực
Các công nghệ thay đổi thế giới đều có một điểm chung – khả năng tiếp cận. Điện thoại thông minh, máy tính cá nhân và công nghệ in 3D đều có thể tiếp cận được với mức giá phù hợp với tầng lớp trung lưu. Khi những chú robot như Unitree G1 có giá thành thấp hơn một chiếc xe Honda Accord hoặc mức thu nhập tối thiểu hàng năm là 34.000 đô la tại Hoa Kỳ, thì không có gì ngạc nhiên khi tưởng tượng ra một thế giới mà lao động chân tay và các công việc hàng ngày chủ yếu do robot thực hiện.

(3)Từ kho bãi đến thị trường tiêu dùng
Robot đang mở rộng từ các giải pháp kho bãi sang lĩnh vực tiêu dùng. Thế giới được thiết kế dành cho con người - con người có thể làm tất cả công việc của robot chuyên nghiệp, nhưng robot chuyên nghiệp không thể làm tất cả công việc của con người. Các công ty sản xuất robot không còn giới hạn ở việc sản xuất robot dành riêng cho nhà máy nữa mà đang phát triển nhiều robot hình người có mục đích chung hơn. Do đó, công nghệ robot tiên phong không chỉ ở kho hàng mà còn thâm nhập vào cuộc sống hàng ngày.
Chi phí là một trong những nút thắt chính đối với khả năng mở rộng. Chỉ số mà chúng tôi quan tâm nhất là tổng chi phí cho mỗi giờ, được tính bằng tổng chi phí cơ hội của thời gian đào tạo và tính phí, chi phí thực hiện nhiệm vụ và chi phí mua robot, chia cho tổng thời gian hoạt động của robot. Chi phí này phải thấp hơn mức lương trung bình của ngành có liên quan để có khả năng cạnh tranh.

Để thâm nhập hoàn toàn vào lĩnh vực kho bãi, tổng chi phí cho mỗi giờ của robot phải dưới 31,39 đô la. Trong thị trường tiêu dùng lớn nhất, dịch vụ giáo dục tư nhân và y tế, chi phí phải được giữ dưới 35,18 đô la. Robot hiện đang phát triển theo hướng trở nên rẻ hơn, hiệu quả hơn và linh hoạt hơn. 2. Bước đột phá tiếp theo trong ngành robot (1) Tối ưu hóa pin Công nghệ pin luôn là nút thắt cổ chai đối với robot thân thiện với người dùng. Những chiếc xe điện đầu tiên như BMW i3 khó được phổ biến do hạn chế về công nghệ pin, dẫn đến tuổi thọ pin ngắn, chi phí cao và tính thực tế thấp. Robot cũng đang phải đối mặt với tình huống tiến thoái lưỡng nan tương tự. Robot Spot của Boston Dynamics có tuổi thọ pin duy nhất chỉ 90 phút và pin Unitree G1 có tuổi thọ pin khoảng 2 giờ. Rõ ràng là người dùng không muốn sạc thủ công sau mỗi hai giờ, vì vậy sạc tự động và kết nối với cơ sở hạ tầng đã trở thành hướng phát triển chính. Hiện tại, có hai chế độ chính để sạc robot: thay pin hoặc sạc trực tiếp.
Chế độ hoán đổi pin cho phép hoạt động liên tục bằng cách nhanh chóng thay thế các bộ pin đã cạn, giảm thiểu thời gian chết và phù hợp với các tình huống tại hiện trường hoặc trong nhà máy. Quá trình này có thể được thực hiện thủ công hoặc tự động.
Sạc cảm ứng sử dụng nguồn điện không dây. Mặc dù mất nhiều thời gian để sạc đầy, nhưng nó có thể dễ dàng đạt được quy trình hoàn toàn tự động.
(2) Tối ưu hóa độ trễ
Các hoạt động có độ trễ thấp có thể được chia thành hai loại: nhận thức môi trường và điều khiển từ xa. Nhận thức đề cập đến nhận thức không gian của robot về môi trường, trong khi điều khiển từ xa cụ thể đề cập đến việc điều khiển thời gian thực của người vận hành.
Theo nghiên cứu của Cintrini, hệ thống nhận thức của robot bắt đầu bằng các cảm biến giá rẻ, nhưng hào kỹ thuật nằm ở sự tích hợp của phần mềm, điện toán công suất thấp và các vòng điều khiển chính xác ở cấp độ mili giây. Khi robot hoàn thành việc định vị không gian, các mạng nơ-ron nhẹ sẽ đánh dấu chướng ngại vật, pallet hoặc con người. Sau khi nhãn cảnh được nhập vào hệ thống lập kế hoạch, các lệnh động cơ được gửi đến chân, bánh xe hoặc cánh tay robot sẽ được tạo ngay lập tức. Độ trễ nhận thức dưới 50 mili giây tương đương với tốc độ phản xạ của con người - bất kỳ độ trễ nào vượt quá ngưỡng này sẽ khiến robot di chuyển vụng về. Do đó, 90% quyết định cần được đưa ra tại địa phương thông qua một mạng lưới thị giác-ngôn ngữ-hành động duy nhất. Robot hoàn toàn tự động cần đảm bảo độ trễ của các mô hình VLA hiệu suất cao phải dưới 50 mili giây; robot điều khiển từ xa yêu cầu độ trễ tín hiệu giữa người vận hành và robot không vượt quá 50 mili giây. Tầm quan trọng của các mô hình VLA đặc biệt nổi bật ở đây - nếu đầu vào hình ảnh và văn bản được xử lý bởi các mô hình khác nhau rồi nhập vào một mô hình ngôn ngữ lớn, thì độ trễ chung sẽ vượt xa ngưỡng 50 mili giây. (3) Tối ưu hóa thu thập dữ liệu Có ba cách chính để thu thập dữ liệu: dữ liệu video thực tế, dữ liệu tổng hợp và dữ liệu điều khiển từ xa. Điểm nghẽn cốt lõi của dữ liệu thực tế và dữ liệu tổng hợp là thu hẹp khoảng cách giữa hành vi vật lý của robot và các mô hình video/mô phỏng. Dữ liệu video thực tế thiếu các chi tiết vật lý như phản hồi lực, lỗi chuyển động khớp và biến dạng vật liệu; dữ liệu mô phỏng thiếu các biến không thể đoán trước như lỗi cảm biến và hệ số ma sát.
Phương pháp thu thập dữ liệu hứa hẹn nhất là điều khiển từ xa - người vận hành điều khiển robot từ xa để thực hiện các nhiệm vụ. Tuy nhiên, chi phí lao động là hạn chế chính đối với việc thu thập dữ liệu điều khiển từ xa.
Phát triển phần cứng tùy chỉnh cũng đang cung cấp các giải pháp mới để thu thập dữ liệu chất lượng cao. Mecka kết hợp các phương pháp chính thống với phần cứng tùy chỉnh để thu thập dữ liệu chuyển động của con người đa chiều, được xử lý và chuyển đổi thành một tập dữ liệu phù hợp để đào tạo mạng nơ-ron nhân tạo rô-bốt và cung cấp dữ liệu chất lượng cao khổng lồ để đào tạo rô-bốt AI với chu kỳ lặp lại nhanh. Các đường ống kỹ thuật này cùng nhau rút ngắn đường dẫn chuyển đổi từ dữ liệu thô sang rô-bốt có thể triển khai.
3Các lĩnh vực khám phá chính
(1) Tích hợp công nghệ mã hóa và rô-bốt
Công nghệ mã hóa có thể khuyến khích các bên không tin cậy cải thiện hiệu quả của mạng rô-bốt. Dựa trên các lĩnh vực chính được đề cập ở trên, chúng tôi tin rằng mật mã có thể cải thiện hiệu quả ở ba khía cạnh: kết nối cơ sở hạ tầng, tối ưu hóa độ trễ và thu thập dữ liệu.
Mạng cơ sở hạ tầng vật lý phi tập trung (DePIN) dự kiến sẽ cách mạng hóa cơ sở hạ tầng tính phí. Khi robot hình người chạy trên toàn cầu như ô tô, các trạm sạc cần phải dễ tiếp cận như các trạm xăng. Các mạng tập trung đòi hỏi khoản đầu tư ban đầu rất lớn, trong khi DePIN phân bổ chi phí cho các nhà điều hành nút, cho phép các cơ sở sạc mở rộng nhanh chóng đến nhiều khu vực hơn.
DePIN cũng có thể tối ưu hóa độ trễ điều khiển từ xa bằng cách sử dụng cơ sở hạ tầng phân tán. Bằng cách tổng hợp các tài nguyên điện toán nút biên phân tán về mặt địa lý, các lệnh điều khiển từ xa có thể được xử lý bởi các nút cục bộ hoặc gần nhất có sẵn, giảm thiểu khoảng cách truyền dữ liệu và giảm đáng kể độ trễ truyền thông. Tuy nhiên, các dự án DePIN hiện tại chủ yếu tập trung vào lưu trữ phi tập trung, phân phối nội dung và chia sẻ băng thông. Mặc dù một số dự án chứng minh được lợi thế ứng dụng của điện toán biên trong phương tiện truyền phát trực tuyến hoặc Internet vạn vật, nhưng chúng vẫn chưa mở rộng sang lĩnh vực robot hoặc điều khiển từ xa.
Điều khiển từ xa là cách thu thập dữ liệu đầy hứa hẹn nhất, nhưng các thực thể tập trung phải thuê các chuyên gia để thu thập dữ liệu rất tốn kém. DePIN giải quyết vấn đề này bằng cách khuyến khích các bên thứ ba cung cấp dữ liệu điều khiển từ xa thông qua mã thông báo mật mã. Dự án Reborn xây dựng một mạng lưới toàn cầu gồm các nhà điều hành từ xa, chuyển đổi các đóng góp của họ thành tài sản kỹ thuật số được mã hóa và hình thành một hệ thống phi tập trung mà không cần sự cho phép - những người tham gia không chỉ có thể nhận được lợi ích mà còn có thể tham gia vào hoạt động quản trị và giúp đào tạo robot AGI.
(2) An toàn luôn là mối quan tâm cốt lõi
Mục tiêu cuối cùng của robot là đạt được tính tự chủ hoàn toàn, nhưng như loạt phim "Kẻ hủy diệt" đã cảnh báo, con người không muốn chứng kiến tính tự chủ biến robot thành vũ khí tấn công. Các vấn đề bảo mật của các mô hình ngôn ngữ lớn đã thu hút sự chú ý và khi các mô hình này có khả năng hành động vật lý, tính an toàn của robot trở thành điều kiện tiên quyết quan trọng để được xã hội chấp nhận.
An ninh kinh tế là một trong những trụ cột của sự thịnh vượng của hệ sinh thái robot. OpenMind, một công ty trong lĩnh vực này, đang xây dựng FABRIC, một lớp phối hợp máy phi tập trung thực hiện xác thực danh tính thiết bị, xác minh sự hiện diện vật lý và thu thập tài nguyên thông qua bằng chứng mật mã. Không giống như quản lý thị trường nhiệm vụ đơn giản, FABRIC cho phép robot tự chứng minh thông tin danh tính, vị trí địa lý và hồ sơ hành vi mà không cần dựa vào các trung gian tập trung.
Các ràng buộc về hành vi và xác thực danh tính được thực thi trên chuỗi, đảm bảo bất kỳ ai cũng có thể kiểm tra việc tuân thủ. Robot đáp ứng các tiêu chuẩn an toàn, yêu cầu về chất lượng và quy định của khu vực sẽ được khen thưởng, trong khi những kẻ vi phạm sẽ phải đối mặt với hình phạt hoặc bị loại, do đó thiết lập cơ chế giải trình và tin cậy trong các mạng máy tự động.
Các mạng đặt cược lại của bên thứ ba (như Symbiotic) cũng có thể cung cấp các đảm bảo bảo mật ngang hàng. Mặc dù hệ thống tham số hình phạt vẫn cần được cải thiện, nhưng công nghệ có liên quan đã bước vào giai đoạn thực tế. Chúng tôi hy vọng rằng các hướng dẫn về an toàn của ngành sẽ sớm được hình thành và các tham số hình phạt sẽ được mô hình hóa dựa trên các hướng dẫn này.
Ví dụ triển khai:
Công ty robot tham gia mạng Symbiotic.
Đặt các tham số cắt có thể xác minh (ví dụ: "áp dụng lực tiếp xúc của con người vượt quá 2500 Newton");
Người đặt cọc cung cấp một khoản tiền đặt cọc để đảm bảo robot tuân thủ các thông số;
Nếu xảy ra vi phạm, khoản tiền đặt cọc sẽ được sử dụng để bồi thường cho nạn nhân.
Mô hình này vừa khuyến khích các công ty đặt vấn đề bảo mật lên hàng đầu vừa thúc đẩy sự chấp nhận của người tiêu dùng thông qua cơ chế bảo hiểm của nhóm cam kết.
Hiểu biết sâu sắc của nhóm Symbiotic về lĩnh vực robot là:
Khung cam kết chung của Symbiotic nhằm mục đích mở rộng khái niệm cam kết sang tất cả các lĩnh vực đòi hỏi sự chứng thực về an ninh kinh tế, cho dù thông qua các mô hình chia sẻ hay độc lập. Các kịch bản ứng dụng của nó bao gồm từ bảo hiểm đến công nghệ robot và yêu cầu thiết kế cụ thể cho các trường hợp cụ thể. Ví dụ: mạng lưới robot có thể được xây dựng hoàn toàn trên khung Symbiotic, cho phép các bên liên quan cung cấp bảo lãnh tài chính cho tính toàn vẹn của mạng lưới. 4. Lấp đầy khoảng trống trong ngăn xếp công nghệ robot OpenAI đã thúc đẩy sự phổ biến của AI, nhưng nền tảng của khoảnh khắc ChatGPT đã được đặt ra từ lâu. Các dịch vụ đám mây đã phá vỡ sự phụ thuộc của mô hình vào sức mạnh tính toán cục bộ, Huggingface đã biến mô hình thành mã nguồn mở và Kaggle đã cung cấp một nền tảng thử nghiệm cho các kỹ sư AI. Những đột phá gia tăng này đã cùng nhau góp phần vào sự phổ biến của AI. Không giống như AI, lĩnh vực robot rất khó để bắt đầu khi nguồn vốn hạn chế. Để đạt được sự phổ biến của robot, ngưỡng phát triển cần được hạ xuống mức thuận tiện tương tự như phát triển ứng dụng AI. Chúng tôi tin rằng có chỗ để cải thiện ở ba khía cạnh: cơ chế tài chính, hệ thống đánh giá và hệ sinh thái giáo dục. Tài chính là một điểm khó khăn trong lĩnh vực robot. Phát triển một chương trình máy tính chỉ cần máy tính và tài nguyên điện toán đám mây, trong khi xây dựng một robot hoạt động đầy đủ đòi hỏi phải mua phần cứng như động cơ, cảm biến và pin, có thể dễ dàng tốn hơn 100.000 đô la. Thuộc tính phần cứng này khiến việc phát triển robot kém linh hoạt và tốn kém hơn so với AI.
Cơ sở hạ tầng đánh giá cho các tình huống robot thực tế vẫn còn trong giai đoạn sơ khai. Lĩnh vực AI đã thiết lập một hệ thống hàm mất mát rõ ràng và việc thử nghiệm có thể được ảo hóa hoàn toàn. Nhưng các chiến lược ảo tuyệt vời không thể được chuyển trực tiếp thành các giải pháp hiệu quả trong thế giới thực. Robot cần các cơ sở đánh giá để thử nghiệm các chiến lược tự động trong nhiều môi trường thực tế khác nhau để đạt được tối ưu hóa lặp lại.
Khi các cơ sở hạ tầng này trưởng thành, tài năng sẽ đổ về và robot hình người sẽ lặp lại đường cong bùng nổ của Web2. Công ty robot tiền điện tử OpenMind đang tiến theo hướng này - dự án nguồn mở OM1 ("Android dành cho robot") của họ biến phần cứng thô thành một tác nhân thông minh có thể nâng cấp và nhận thức về mặt kinh tế. Các mô-đun lập kế hoạch thị giác, ngôn ngữ và chuyển động có thể cắm và chạy giống như các ứng dụng trên điện thoại di động và tất cả các bước lý luận đều được trình bày bằng tiếng Anh đơn giản, cho phép người vận hành kiểm tra hoặc điều chỉnh hành vi mà không cần chạm vào phần mềm cơ sở. Khả năng lý luận ngôn ngữ tự nhiên này cho phép một thế hệ tài năng mới dễ dàng bước vào lĩnh vực robot, thực hiện một bước quan trọng hướng tới một nền tảng mở sẽ châm ngòi cho cuộc cách mạng robot, giống như phong trào nguồn mở đã thúc đẩy AI.

Mật độ tài năng quyết định quỹ đạo của ngành. Một hệ thống giáo dục hòa nhập có cấu trúc là rất quan trọng để cung cấp tài năng trong lĩnh vực robot. Việc OpenMind niêm yết trên Nasdaq đánh dấu sự khởi đầu của một kỷ nguyên mới trong đó các máy móc thông minh tham gia vào cả đổi mới tài chính và giáo dục thể chất. OpenMind vàRobostore đã cùng nhau công bố rằng họ sẽ ra mắt chương trình giáo dục phổ thông đầu tiên dựa trênUnitree G1 robot hình người tại các trường công lập K-12 tại Hoa Kỳ. Thiết kế khóa học không phụ thuộc vào nền tảng và có thể được điều chỉnh cho nhiều hình dạng robot khác nhau, mang đến cho sinh viên cơ hội vận hành thực tế. Tín hiệu tích cực này củng cố thêm phán đoán của chúng tôi: Trong vài năm tới, sự phong phú của các nguồn tài nguyên giáo dục về robot sẽ ngang bằng với lĩnh vực AI.
5. Triển vọng tương lai
Sự đổi mới và quy mô kinh tế của mô hình Tầm nhìn-Ngôn ngữ-Hành động (VLA) đã tạo ra những robot hình người giá cả phải chăng, hiệu quả và đa năng. Khi robot kho mở rộng vào thị trường tiêu dùng, các mô hình bảo mật, tài chính và hệ thống đánh giá trở thành những hướng khám phá chính. Chúng tôi tin tưởng chắc chắn rằng công nghệ mã hóa sẽ thúc đẩy sự phát triển của robot thông qua ba con đường: cung cấp sự đảm bảo kinh tế cho sự an toàn, tối ưu hóa cơ sở hạ tầng sạc và cải thiện hiệu suất độ trễ và đường ống thu thập dữ liệu.