Tác giả: Lu Shiming
Sự xuất hiện của Manus đã gây ra cú sốc kép trên thị trường công nghệ và vốn. Trong một thời gian, các cổ phiếu khái niệm liên quan đến AI Agent đã tăng vọt, và các gã khổng lồ công nghệ như Alibaba, Google và Microsoft đã công bố mạnh mẽ các kế hoạch nghiên cứu và phát triển tác nhân thông minh...
Đằng sau cơn sốt này là sự thay đổi mô hình của công nghệ AI từ "phản ứng thụ động" sang "thực hiện chủ động".
Mặc dù thị trường đánh giá trái chiều, nhưng không thể phủ nhận rằng Manus là một bước đột phá vì đây là công nghệ đầu tiên xác minh được tính khả thi về mặt thương mại của một tác nhân AI nói chung trong các tình huống phức tạp.
Mặc dù các mô hình ngôn ngữ lớn truyền thống có thể tạo ra văn bản, nhưng rất khó để thực hiện các tác vụ trong một vòng lặp khép kín. Manus chuyển đổi khả năng nhận thức của các mô hình AI lớn thành các công cụ năng suất thông qua kiến trúc "lập kế hoạch-xác minh-thực hiện".
Theo nhiều báo cáo có thẩm quyền từ McKinsey và các nguồn khác, được thúc đẩy bởi nhu cầu đa dạng, thị trường AI Agent đang trải qua sự tăng trưởng bùng nổ. Vào năm 2024, quy mô thị trường AI Agent toàn cầu sẽ đạt khoảng 5,1 tỷ đô la Mỹ và dự kiến sẽ tăng vọt lên 47,1 tỷ đô la Mỹ vào năm 2030, với tốc độ tăng trưởng kép hàng năm là 44,8%.
Tuy nhiên, "sóng cơ thể thông minh" này không phải là con đường bằng phẳng. Sự va chạm giữa các rào cản kỹ thuật và tham vọng thương mại khiến cuộc cạnh tranh của các tác nhân AI vừa giàu trí tưởng tượng vừa rủi ro.
Cuộc chiến phá vỡ bức tường
Về bản chất, AI Agent là lực lượng lao động kỹ thuật số với các mô hình tư duy của con người.
Nếu chatbot vẫn đang trong giai đoạn "đối thoại", thì Agent đã bắt đầu "hành động". Nói một cách đơn giản, nó có thể được hiểu là một ứng dụng AI thông minh hơn và tự chủ hơn, không chỉ có thể trả lời các câu hỏi mà còn có thể thực hiện các nhiệm vụ và hoàn tất giao dịch.
Chúng có thể được áp dụng vào nhiều tình huống khác nhau, chẳng hạn như dịch vụ khách hàng, phân tích tài chính, phát triển phần mềm, v.v., giúp cải thiện đáng kể năng suất và hiệu quả.
Với mô hình ngôn ngữ lớn đóng vai trò là “bộ não”, AI Agent không chỉ có thể hiểu được ngữ nghĩa bề mặt của các hướng dẫn mà còn nắm bắt được các nhu cầu tiềm ẩn. Ví dụ, nếu người dùng nói "đang tìm khách sạn có giá cả hợp lý", Manus sẽ suy ra nhu cầu "nhạy cảm với ngân sách" hoặc "ưu tiên trải nghiệm" dựa trên bối cảnh như mùa và hoạt động tại địa phương.
Điều chúng ta có thể mong đợi là với những đột phá liên tục về khả năng đa phương thức của các mô hình lớn, đặc biệt là các nâng cấp lặp đi lặp lại của công nghệ kết hợp đa phương thức, các tác nhân AI sẽ có thể phân tích và phản hồi chính xác hơn nhu cầu của người dùng, và dần đạt được khả năng tương tác và nhận thức âm thanh-hình ảnh giống con người.
Điều này sẽ cho phép AI Agent được áp dụng trong nhiều lĩnh vực hơn, chẳng hạn như chẩn đoán y tế, lái xe tự động và an ninh thông minh.

Trong khi trí thông minh của một máy liên tục được tối ưu hóa, người ta cũng có thể hình dung rằng trong tương lai, AI Agent cũng có thể đột phá khỏi chế độ hoạt động độc lập và tái cấu trúc chuỗi xử lý tác vụ và ra quyết định phức tạp thông qua các cơ chế cộng tác.
Hệ thống đa tác nhân (MAS) này có thể cho phép mỗi tác nhân hoạt động như một nhóm người với sự phân công lao động chuyên biệt thông qua cơ chế định vị vai trò.
Ví dụ, trong kịch bản phát triển phần mềm, mỗi AI Agent đều có chuyên môn riêng. Một số giỏi lập trình, một số giỏi thiết kế và một số giỏi kiểm tra chất lượng. Chỉ cần họ có thể cộng tác tốt, họ có thể cùng nhau hoàn thành một dự án phần mềm chất lượng cao.
Ngoài ra, hệ thống MAS cũng có thể mô phỏng quá trình ra quyết định của con người. Cũng giống như mọi người sẽ tìm kiếm lời khuyên từ người khác khi họ gặp vấn đề, nhiều tác nhân cũng có thể mô phỏng hành vi ra quyết định tập thể, có thể cung cấp cho người dùng hỗ trợ thông tin tốt hơn, đặc biệt là trong một số tình huống phức tạp.
Ví dụ, trong trường hợp khẩn cấp, các tác nhân AI này có thể giúp người dùng mô phỏng mọi tình huống có thể xảy ra và cung cấp thông tin hữu ích kịp thời, cho phép người dùng đưa ra quyết định nhanh hơn và tốt hơn.
Có thể nói rằng mô hình thông minh “giống con người” này đang định hình lại cơ cấu chi phí của cuộc sống và công việc. Bắt đầu từ Manus, có vẻ như AI Agent đã chuyển từ giai đoạn xác minh khái niệm sang thời điểm quan trọng của việc triển khai trên quy mô lớn.
Cuộc đua giữa những gã khổng lồ
Sự phát cuồng vì AI Agent không phải là ngẫu nhiên mà là sản phẩm tất yếu của quá trình phát triển công nghệ.
Ngay từ Hội nghị thượng đỉnh AI Sequoia năm 2024, Giáo sư Andrew Ng đã dự đoán rằng "AI Agent là giai đoạn quan trọng tiếp theo trong quá trình phát triển AI". Trên thực tế, trong năm 2024, nhiều gã khổng lồ công nghệ đã bắt đầu triển khai AI Agent.
Ví dụ, Google đã phát hành mô hình quy mô lớn mới nhất Gemini 2.0 vào tháng 12 năm 2024 và giới thiệu nhiều ứng dụng tác nhân thông minh như Dự án Astra. Microsoft cũng đã phát hành nhiều tác nhân AI cho hoạt động bán hàng, vận hành và các tình huống khác vào tháng 10 và tháng 11 năm 2024, đồng thời ra mắt nền tảng Copilot Studio để hỗ trợ người dùng xây dựng các tác nhân tự động.
Bước sang năm 2025, sự nổi tiếng của Manus đã hoàn toàn thúc đẩy tâm lý thị trường.
Ở nước ngoài, kế hoạch thương mại hóa vừa được OpenAI công bố càng khẳng định thêm tiềm năng B-side của AI Agent. Dịch vụ "cấp tiến sĩ" của công ty hướng đến các nghiên cứu khoa học và kịch bản phát triển phần mềm, với mức phí dịch vụ hàng tháng lên tới 20.000 đô la Mỹ, bao gồm toàn bộ chuỗi nhu cầu từ phân tích cơ bản đến các nhiệm vụ phức tạp.
Trong nước, mô hình Alibaba Qianwen QwQ-32B còn tích hợp các khả năng liên quan đến tác nhân thông minh, cho phép nó suy nghĩ phản biện trong khi sử dụng các công cụ và điều chỉnh quá trình suy luận dựa trên phản hồi từ môi trường.
Mặt khác, các sản phẩm mới như OpenManus và OWL đã xuất hiện trong cộng đồng nguồn mở. Việc tái tạo và đổi mới dựa trên Manus được kỳ vọng sẽ thúc đẩy sự phát triển của các sản phẩm Agent.
Sự điên cuồng trên thị trường vốn càng khẳng định thêm xu hướng này.
Vào ngày Manus được phát hành, hơn 150 cổ phiếu AI hạng A đã đạt mức giới hạn hàng ngày, trong đó Cube Holdings, Coote Intelligence và các công ty khác tăng hơn 20%.

Nguồn: Eastmoney
Ngoài ra, sau khi Manus được phát hành, các PPT môi giới và roadshow phân tích đã nhanh chóng được ra mắt trực tuyến. Số liệu thống kê chưa đầy đủ cho thấy hàng chục viện nghiên cứu môi giới như CICC, Huatai, China Merchants và Zhongtai đã tiến hành roadshow, trong đó các nhà phân tích đã ra mắt nhiều roadshow trực tuyến. Nội dung của các roadshow trải dài từ các nguyên tắc kỹ thuật, ứng dụng AI, hướng dẫn người thụ hưởng đến các kịch bản hạ cánh và khấu trừ của vòng tròn ngành, với nội dung phong phú.
Tất nhiên, đằng sau cơn sốt này cũng có nhiều tiếng nói khác nhau. Nhiều người trong ngành tin rằng Manus là ứng dụng giai đoạn đầu của AI Agent và phản ứng của thị trường là thái quá.
Đây thực sự là trường hợp. AI sẽ thu hẹp hơn nữa khoảng cách thông tin. Công việc thu thập một lượng lớn thông tin và sắp xếp dữ liệu có thể được chuyển giao cho AI, nhưng chắc chắn vẫn còn một chặng đường dài trước khi nó thực sự có thể tạo ra các quyết định đầu tư.
Trong số đó, thách thức lớn nhất là bóng ma của ảo giác AI vẫn luôn lẩn khuất.
Nút thắt kỹ thuật
Trong cuộc cạnh tranh của AI Agent, lối vào là vua.
Khi các nhà sản xuất kiểm soát nhiều lưu lượng người dùng hơn, họ dự kiến sẽ đạt được chu kỳ tích cực về "lưu lượng-dữ liệu-trải nghiệm người dùng" và khi khả năng của mô hình nguồn mở được nâng cấp để bù đắp khoảng cách công nghệ giữa các nhà sản xuất lớn và nhỏ, khả năng kỹ thuật sản phẩm AI có thể nới rộng khoảng cách trong trải nghiệm người dùng sản phẩm.
Mặc dù có tiềm năng to lớn, sự bùng nổ của AI Agent vẫn phải đối mặt với nhiều trở ngại. Từ mô hình kinh doanh đến các nút thắt kỹ thuật, từ việc thiếu quy định đến nhận thức của người dùng, mọi liên kết đều đang thử thách sự kiên nhẫn của ngành.
Lý do đầu tiên và quan trọng nhất là công nghệ hiện tại không thể giải quyết hiệu quả vấn đề ảo giác AI.
Đối với Manus phổ biến, mặc dù đạt được kết quả tuyệt vời trong bài kiểm tra chuẩn GAIA, nhưng vẫn còn một số tình huống không ổn định trong ứng dụng thực tế.

Nguồn xếp hạng chuẩn GAIA: Nền tảng ManusAIX
Theo phản hồi thực tế của người dùng, khi xử lý các tác vụ phức tạp, Manus đôi khi gặp sự cố về lỗi thực thi tác vụ hoặc kết quả không chính xác. Khi phân tích dữ liệu chứng khoán, Manus có thể gây ra sai lệch trong kết quả phân tích do lỗi tạm thời trong giao diện dữ liệu hoặc những thay đổi nhỏ trong định dạng dữ liệu.
Lấy GPT4.5 của OpenAI làm ví dụ. Không còn nghi ngờ gì nữa, đây là mô hình ngôn ngữ lớn mạnh nhất hiện nay. Tuy nhiên, trong chuẩn SimpleQA, GPT-4.5 có độ chính xác là 62,5% và tỷ lệ ảo giác là 7,1%. Mặc dù kết quả này tốt hơn nhiều so với các mô hình như GPT-4o, OpenAIo1 và o3-mini, nhưng vẫn có tỷ lệ ảo giác rất cao.
Và với ảo tưởng này, trong các lĩnh vực rủi ro cao như tài chính và chăm sóc sức khỏe, bất kỳ sai sót nào cũng có thể dẫn đến rủi ro hệ thống.
Giả sử một tác nhân chẩn đoán y khoa có 3% khả năng chẩn đoán sai các trường hợp bệnh hiếm gặp. Nếu nó được áp dụng cho một nhóm người dùng gồm hàng chục triệu người, số lượng chẩn đoán sai tiềm ẩn sẽ lên tới 300.000.
Ngoài ảo tưởng, điều tiếp theo là mâu thuẫn giữa các đảo dữ liệu và khả năng chung.
Hiệu quả của AI Agent phụ thuộc rất nhiều vào dữ liệu tình huống. Ví dụ, kiểm soát rủi ro tài chính yêu cầu dữ liệu giao dịch theo thời gian thực, trong khi chẩn đoán y khoa dựa vào cơ sở dữ liệu bệnh sử của bệnh nhân. Phân mảnh dữ liệu sẽ khiến các tác nhân chung khó di chuyển giữa các lĩnh vực.
Cuối cùng, còn có sự chậm trễ về đạo đức và giám sát. Quyết định tự động của AI Agent liên quan đến các vấn đề về đạo đức như rò rỉ quyền riêng tư và quy trách nhiệm, chẳng hạn như việc sử dụng dữ liệu sức khỏe của người dùng, tai nạn xe tự lái, v.v., và khuôn khổ quản lý toàn cầu vẫn chưa hoàn thiện.
Có thể thấy từ đây rằng con đường đột phá của AI Agent đòi hỏi sự phát triển đồng bộ của công nghệ, sinh thái và giám sát. Trong tương lai, bất kỳ ai có thể vượt qua được nút thắt công nghệ đầu tiên và xây dựng được hệ sinh thái tuân thủ chắc chắn sẽ thống trị "Bến đỗ Normandy" trong kỷ nguyên của các thực thể thông minh.