Tác giả: Lan Xi
Manus thống trị màn ảnh trong một ngày, từ sự nổi tiếng chỉ sau một đêm lúc đầu, đến khó khăn trong việc lấy mã ở giữa, đến việc đặt câu hỏi về khoản đầu tư khổng lồ vào quảng cáo và quảng bá. Trong suốt toàn bộ quá trình, cảm xúc FOMO và sự cảnh giác trực quan đã đan xen vào nhau, đây là một mẫu giao tiếp rất thú vị.
Trên thực tế, ngành công nghiệp AI đã được thúc đẩy bởi một mô hình thông tin "bùng nổ" trong vài năm qua. Những người hiểu được nó đã được giải mã, nhưng những người không hiểu nó vẫn còn ngạc nhiên về nó.Nhưng thành thật mà nói, với rất nhiều vụ nổ mỗi ngày, sẽ có một số vụ nổ thực sự xen lẫn vào.
Và đánh giá của tôi về Manus là nó thực sự là một trong những tác phẩm bùng nổ thực sự, và nó có thể được gọi là khoảnh khắc DeepSeek của ngành công nghiệp AI Agent. Tuy nhiên, có một bản vá mà tôi sẽ thêm vào cuối.
Đầu tiên, chúng ta hãy xem hiệu ứng trình diễn của Manus:
Hãy để nó phát triển một trò chơi tương tác văn bản trong đó bạn có thể vào vai CEO của Google và trải nghiệm những quyết định quan trọng trong lịch sử công ty. Bạn không chỉ có thể vui chơi trong trò chơi mà còn tìm hiểu về văn hóa của công ty.

Manus mất khoảng một giờ để phát triển trò chơi web Google CEO Simulator. Trò chơi rất hoàn chỉnh. Khi bạn nhấp để bắt đầu trò chơi, bạn có thể tự chọn độ khó. Sau đó, bạn sẽ đối mặt với mọi bước ngoặt trong lịch sử phát triển của Google. Lựa chọn của bạn sẽ quyết định những thay đổi trong nguồn lực của công ty và ảnh hưởng đến kết quả cuối cùng của trò chơi.
Trong một giờ, chỉ sử dụng một câu, bạn có thể tạo ra một trò chơi. Đây chính là khả năng của AI Agent.
Nó khác với AI đàm thoại truyền thống. Nó không chỉ cung cấp câu trả lời ở cấp độ thông tin nữa mà còn có thể vận hành máy tính để hoàn thành các nhiệm vụ công việc cụ thể hơn, bao gồm nhưng không giới hạn ở việc viết chương trình, tạo trang web, biên soạn báo cáo, sàng lọc sơ yếu lý lịch, v.v. Nó có thể giải quyết hoàn toàn các khó khăn khác nhau gặp phải trong quá trình một cách độc lập và mang lại kết quả công việc. Tất nhiên, có những ngoại lệ, chúng ta sẽ nói về sau.
Hiện tại, không có nhiều dịch vụ AI Agent chính thống và chúng thường rất đắt. Ví dụ, ChatGPT Operator yêu cầu tư cách thành viên Pro là 200 đô la Mỹ mỗi tháng để sử dụng và Devin, một sản phẩm dành cho kỹ sư AI nhắm vào thị trường lập trình, có giá 500 đô la Mỹ mỗi tháng.
Nhà phát triển của Manus là đội ngũ mô hình lớn của Trung Quốc Monica. Hiện tại đang trong giai đoạn thử nghiệm miễn phí. Chi phí cho một nhiệm vụ duy nhất đã giảm xuống còn 2 đô la Mỹ, bằng 1/10 của OpenAI. Đồng thời, nó đã vượt qua OpenAI trong bảng xếp hạng chuẩn và trở thành mạnh nhất thế giới.
Sau khi nhận được mã mời, tôi đã sử dụng hết tài nguyên máy tính hàng ngày của Manus trong vòng vài giờ. Tôi thực sự phấn khích và hiệu ứng thật kinh ngạc.
Để tôi cho bạn xem một số trường hợp thực tế:
Đầu tiên, tôi yêu cầu nó giúp tôi tạo trang chủ cá nhân theo phong cách Linktree. Manus chia nhiệm vụ này thành 8 bước. Đầu tiên, nó thu thập thông tin của tôi trên toàn bộ Internet, bao gồm các liên kết và tác phẩm đại diện của tôi trên nhiều nền tảng khác nhau, sau đó bắt đầu viết mã trang web dựa trên phong cách thiết kế Linktree. Nửa giờ sau, nó đã giao tác phẩm đó cho tôi.

Đơn giản nhưng đáp ứng hoàn hảo các yêu cầu, không có vấn đề gì về tương tác. Có hiệu ứng sao chép cấp độ Sharingan. Nếu bạn muốn làm cho đẹp hơn, bạn có thể tiếp tục viết lời nhắc để sửa đổi.
Bài kiểm tra thứ hai là tôi dùng Manus để giúp một thành viên nhóm kỹ sư giải quyết một vấn đề thực tế. Cánh tay robot Atlas mà anh ấy phụ trách bảo trì trong nhà máy gặp một vấn đề nhỏ. Nếu anh ấy yêu cầu dịch vụ sau bán hàng, sẽ tốn vài nghìn nhân dân tệ, vì vậy tốt hơn là tự mình tìm cách bù đắp. Anh ấy quá lười để đọc tài liệu, vì vậy anh ấy đã trực tiếp đưa cho tôi một đoạn văn và yêu cầu Manus xem xét cách xử lý.

Xin lưu ý rằng về mặt lý thuyết, AI đàm thoại thông thường cũng có thể đáp ứng yêu cầu này, nhưng sẽ cần nhiều quy trình tương tác hơn. Ví dụ, bạn phải cung cấp tài liệu cho nó và nhận câu trả lời từng bước. Tuy nhiên, Manus không cần những điều này. Nó sẽ tự tải xuống tài liệu từ trang web chính thức của Atlas, tìm nội dung chính cần thiết để giải quyết vấn đề sau khi đọc, phân tích cẩn thận và tạo chương trình. Tôi đã gửi mã cuối cùng cho một người bạn. Nó có một số lỗi nhỏ, nhưng hoàn toàn có thể sử dụng được sau khi sửa đổi thủ công, điều này giúp tiết kiệm trực tiếp một cuộc gọi sau bán hàng.
Bài kiểm tra thứ ba là một gợi ý từ độc giả Weibo của tôi, yêu cầu Manus tạo ra một biên niên sử tối giản về một quốc gia. Tôi đã thêm các yêu cầu về lựa chọn bảng truyện tranh và thiết kế web. Việc phối màu của tác phẩm cuối cùng hơi khó nắm bắt - AI không có khiếu thẩm mỹ, điều này phải được nhấn mạnh nhiều lần - nhưng vào thời điểm này, máy chủ của Manus đã bị sập và không thể sửa đổi trong thời điểm hiện tại, vì vậy tôi chỉ hiển thị sản phẩm bán thành phẩm.

Bạn có thể thấy Manus đã chia lịch sử nước Anh thành 10 thời đại khác nhau, và vẽ các bức tranh SVG dựa trên phong cách của thời đại đó, và cuối cùng trình bày chúng trên trang web HTML. Có thể nói đây là một phòng mẫu cho sự hợp tác giữa con người và máy tính. Cho dù được sử dụng làm kế hoạch giảng dạy ngoại khóa hay bản xem trước công việc, thì nó đều có ngưỡng nhập cảnh cực kỳ thuận tiện.
Trường hợp cuối cùng là tôi yêu cầu Manus làm một trò chơi Candy Crush Saga, nhưng biểu tượng phải là nhân vật Genshin Impact. Đầu tiên, nó bắt đầu nghiên cứu cơ chế trò chơi và phương pháp triển khai của Candy Crush Saga, sau đó cố gắng thu thập tài liệu hình ảnh của Genshin Impact. Lúc này, một ngoại lệ đã xảy ra. Nó đã đưa ra yêu cầu tiếp quản lần đầu tiên. Lý do cũng rất không nói nên lời. Logic vận hành của nó bị một đĩa mạng chặn và không thể đăng ký tài khoản, vì vậy nó không thể tải xuống tài nguyên và muốn tôi giúp nó tải xuống.
Có vẻ như dù AI có mạnh đến đâu thì cũng sẽ bị các thành viên trên đĩa trực tuyến chặn lại.
Dựa trên nguyên tắc để AI Agent hoàn thành công việc của mình một cách độc lập nhất có thể, tôi đã không làm điều này. Thay vào đó, tôi đã thay đổi một chút các yêu cầu và yêu cầu Manus sử dụng logo của công ty công nghệ làm biểu tượng trò chơi. Vì các tài liệu SVG bản quyền mở có ở khắp mọi nơi trên Internet, nên không có vấn đề gì khi chạy Manus bây giờ. Tôi đã nhanh chóng hoàn thành một trò chơi ghép 3 có điểm và chơi khá mượt.

Tuy nhiên, chúng ta cũng có thể thấy rằng khi giải quyết những vấn đề tương đối phức tạp như vậy, Manus vẫn còn thiếu một số chi tiết. Điều này cũng liên quan đến việc thiếu sự tham gia của con người (tôi). Ví dụ, vấn đề thích ứng của màn hình cần được giải thích thêm. Phản ứng sửa đổi của Manus không chậm, nhưng vì cùng một vấn đề về thời gian chết của máy chủ, nên nhiệm vụ này vẫn chưa được cải thiện thêm trong thời điểm hiện tại.
Tôi nghĩ rằng một vài ví dụ thực tế này đã chứng minh rõ ràng khả năng và nhược điểm của AI Agent ở giai đoạn này. Manus không còn là sản phẩm chỉ có thể hoạt động trong trình duyệt. Nó có môi trường sandbox riêng và có thể tự kiểm tra trước khi hoàn thành công việc. Sau đó, nó có thể được phân phối sau khi vượt qua bài kiểm tra chấp nhận. Tuy nhiên, nó cũng bị giới hạn trong ranh giới dữ liệu của Internet. Nếu không có đủ tài nguyên trên mạng, nó sẽ không thể tạo ra tài nguyên để tự cung tự cấp.
Tôi cũng đã thực hiện một số bài kiểm tra hành chính, cũng có thể được sử dụng để so sánh các đặc điểm của các tác nhân AI:
Ví dụ, tôi đã yêu cầu Manus đưa ra các kỹ năng vận hành của cô ấy dựa trên 10 video Hoshimi-ya (nhân vật trò chơi) phổ biến nhất trên Bilibili.

Manus thực sự đã xem hết 10 video - mất hơn một giờ - và sau đó tinh chỉnh các bài luận của từng người dẫn chương trình UP thành tài liệu tôi cần, và nó khá chính xác. Nếu cùng một nhiệm vụ được giao cho một mô hình mạng lớn, nó cũng có thể hoàn thành, nhưng khả năng xảy ra ảo giác rất cao và không đáng tin cậy bằng AI Agent về mặt "trung thực".
Ví dụ, tôi đã yêu cầu Manus nghiên cứu các khả năng chênh lệch giá của PolyMarket. Mặc dù tôi có một tia hy vọng và muốn có một hướng dẫn đầu tư đảm bảo lợi nhuận - đừng cười - Manus đã làm bài tập về nhà một cách tận tâm và liệt kê bốn cơ hội chênh lệch giá, vì vậy miễn là tôi thấy một dự án đủ điều kiện trên PolyMarket, tôi có thể đặt cược theo các quy tắc mà không cần suy nghĩ.

Từ bản phát lại, Manus luôn bắt đầu bằng những thông tin cơ bản nhất. Đầu tiên, anh ấy hiểu PolyMarket là gì, sau đó phân tích lối chơi của thị trường dự đoán, rồi xây dựng chiến lược rủi ro dựa trên các quy tắc của nền tảng. Anh ấy có phong cách làm việc điển hình của một thực tập sinh, làm việc chăm chỉ và thực tế.
Nhân tiện, thiết kế phát lại là một trong những điểm nổi bật của Manus theo tôi. Nó giống như một mô hình lý luận phơi bày sự lựa chọn của chuỗi suy nghĩ. Trong nhiều trường hợp, quá trình suy nghĩ của AI truyền cảm hứng hơn là cung cấp câu trả lời. Mọi nhiệm vụ của Manus đều có chức năng phát lại và có thể được chia sẻ. Các phương tiện mà nó thể hiện trên con đường giải quyết vấn đề có thể được coi là một dạng tài sản thông minh khác, có thể đóng vai trò là giáo viên cho con người.
Vì vậy, khi đã nói như vậy, tôi muốn nói rằng Manus chính là khoảnh khắc DeepSeek của ngành công nghiệp AI Agent. Một bản vá là cần thiết ở đây, đó chính là khoảnh khắc DeepSeek-V2. Vào tháng 5 năm 2024, DeepSeek đã mã nguồn mở phiên bản V2 của mô hình. Đây là lần đầu tiên nó trở nên phổ biến vì giá rất rẻ. Tuy nhiên, vì bản thân mô hình có khả năng trung bình nên nhiều người vào thời điểm đó chỉ nghĩ rằng DeepSeek sẽ bắt đầu một cuộc chiến giá cả. Họ đã rất ngạc nhiên nhưng không coi trọng điều đó, và sự phổ biến không kéo dài được lâu.
Phải đến khi DeepSeek-V3 và R1 liên tiếp ra mắt thì mọi người mới nhận ra mọi thứ đã hoàn toàn khác. Chỉ sau một đêm, logic về chi phí của toàn bộ thị trường mô hình lớn đã bị đảo lộn.
Ban đầu, không ai quan tâm đến thảm họa này. Nó chỉ là một vụ cháy rừng, một trận hạn hán, sự tuyệt chủng của một loài, sự biến mất của một thành phố, cho đến khi thảm họa này trở nên liên quan chặt chẽ đến mọi người. ——"The Wandering Earth"
Ý tôi là sự phát triển của công nghệ AI là liên tục, và trên đường cong lên xuống này, cường độ tín hiệu của mỗi lần quyết định độ sâu của bước đột phá tiếp theo, giống như DeepSeek sẽ không có V3 nếu không có V2, chứ đừng nói đến R1. Ý kiến của tôi về Manus vẫn không thay đổi. Tại bước ngoặt lịch sử đưa dịch vụ AI Agent từ các kịch bản chuyên nghiệp sang các kịch bản chung, đây là thương hiệu sáng lập của trường.
Theo quan điểm trường hợp sử dụng, chức năng của AI Agent rất mạnh mẽ và khả năng phân tích nhiệm vụ rất cao. Việc quan sát CoA (chuỗi tác nhân) có cảm giác rất giống với việc quan sát CoT (chuỗi suy nghĩ) và có thể "nhìn thấy" AI đánh giá và tìm kiếm giải pháp tối ưu trong số nhiều lựa chọn.
Về lý thuyết, nó phải có một lượng lớn CoA được tích hợp sẵn để tiếp quản. Giống như các mô hình lý luận như DeepSeek, chúng sẽ chỉ được đưa ra thị trường đại chúng sau khi đã tiêu hóa trước một lượng CoT đủ lớn, đáp ứng nhu cầu chính thống càng nhiều càng tốt, điều này có thể thấy từ Trường hợp sử dụng trên trang web chính thức.