Những người đã sử dụng mô hình DeepSeek-R1 đều quen thuộc với quá trình suy nghĩ của mô hình này trước khi đưa ra câu trả lời, đây là một trong những lý do tại sao các mô hình lý luận lớn (LRM, Large Reasoning Model) bao gồm DeepSeek-R1 được đánh giá rất cao.
Tuy nhiên, một nhóm gồm sáu nhà nghiên cứu từ Apple đã đặt câu hỏi về điều này. Bằng cách yêu cầu mô hình giải quyết nhiều câu đố khác nhau, nhóm nghiên cứu phát hiện ra rằng độ chính xác của một số mô hình lý luận lớn tiên tiến như DeepSeek-R1, o3-mini và Claude-3.7-Sonnet-Thinking sẽ sụp đổ hoàn toàn sau khi vượt quá một ngưỡng phức tạp nhất định.

Hình ảnh | Các bài báo liên quan (Nguồn: https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf)
Điều đáng chú ý là Samy Bengio, giám đốc cấp cao về nghiên cứu máy học tại Apple, là đồng tác giả của bài báo này. Anh không chỉ là em trai của người đoạt giải Turing là Yoshua Bengio mà còn là một trong những thành viên đầu tiên của nhóm Google Brain.

Hình | Sáu tác giả của bài báo có liên quan, Samy Bengio là người thứ hai từ bên phải (Nguồn: Bản đồ dữ liệu)
Một cư dân mạng trên X đã kết luận rằng Apple đã hành động như Gary Marcus một lần. Trên thực tế, chính Gary Marcus cũng đã đăng lên LinkedIn để khẳng định bài báo của Apple. Ông viết: "Bài báo mới của Apple về khả năng 'lập luận' trong các mô hình ngôn ngữ lớn khá ấn tượng. Tôi giải thích lý do (và khám phá một phản đối có thể xảy ra) trong một bài đăng dài vào cuối tuần để cho thấy lý do tại sao mọi người không nên quá ngạc nhiên".
Trong "Bài đăng dài vào cuối tuần" của Gary Marcus, ông viết: "Bài báo mới này của Apple càng củng cố thêm lời chỉ trích của riêng tôi:Ngay cả khi cái gọi là 'mô hình lập luận' mới nhất đã lặp lại vượt ra ngoài phiên bản o1, chúng vẫn không thể đạt được lý luận đáng tin cậy khi phân phối các vấn đề kinh điển như Tháp Hà Nội.
Đây chắc chắn là tin xấu đối với các nhà nghiên cứu hy vọng rằng 'khả năng lập luận' hoặc 'tính toán trong khi lập luận' có thể đưa các mô hình ngôn ngữ lớn trở lại đúng hướng và thoát khỏi những thất bại lặp đi lặp lại của việc mở rộng quy mô đơn giản (không bao giờ có thể tạo ra một bước đột phá về công nghệ xứng đáng với tên gọi 'GPT-5'). ”

Hình ảnh | “Bài viết dài cuối tuần” do Gary Marcus đăng trên trang web cá nhân của ông (Nguồn: https://garymarcus.substack.com/p/a-knockout-blow-for-llms)
Vậy, đây là "tin xấu" hay "tin tốt"? Chúng ta hãy bắt đầu với các chi tiết trong bài báo của Apple.
Nó có thể hoàn thành tối đa 100 hành động đúng, nhưng không thể đưa ra nhiều hơn 5 phép toán đúng
Trong nghiên cứu, nhóm nghiên cứu từ Apple đã tìm thấy ba chế độ suy luận khác nhau: trong các tác vụ có độ phức tạp thấp, các mô hình ngôn ngữ lớn tiêu chuẩn hoạt động tốt hơn các mô hình suy luận lớn; trong các tác vụ có độ phức tạp trung bình, các mô hình suy luận lớn hoạt động tốt hơn; và trong các tác vụ có độ phức tạp cao, cả hai loại mô hình đều không thể hoàn thành tác vụ một cách hiệu quả.
Khi vấn đề tiến gần đến độ phức tạp quan trọng, nỗ lực cần thiết để suy luận giảm đi một cách trái ngược với trực giác, cho thấy có thể có một giới hạn trên cố hữu đối với việc mở rộng quy mô tính toán cho các mô hình suy luận lớn.
Nhóm nghiên cứu cho biết những hiểu biết sâu sắc này thách thức các giả định phổ biến về khả năng của các mô hình lý luận lớn và cho thấy rằng các phương pháp tiếp cận hiện tại có thể có những rào cản cơ bản đối với việc đạt được lý luận tổng quát.
Đáng chú ý nhất là nhóm nghiên cứu đã quan sát thấy những hạn chế trong các mô hình lý luận lớn khi thực hiện các phép tính chính xác. Ví dụ, khi các mô hình được cung cấp một thuật toán để giải câu đố toán học Tháp Hà Nội, hiệu suất của chúng đối với bài toán này không được cải thiện.
Hơn nữa, phân tích sâu về những bước đi sai lầm đầu tiên của các mô hình đã tiết lộ các kiểu hành vi đáng ngạc nhiên. Ví dụ, các mô hình có thể hoàn thành tới 100 nước đi đúng trong câu đố Tháp Hà Nội, nhưng không thể đưa ra được hơn năm nước đi đúng trong trò chơi lý luận logic River Crossing.
Nhìn chung, nhóm nghiên cứu tin rằng bài báo này nêu bật cả ưu điểm và hạn chế của các mô hình lý luận quy mô lớn hiện có và các kết luận nghiên cứu chính như sau:
Đầu tiên, nhóm nghiên cứu đặt câu hỏi về mô hình đánh giá hiện tại của các mô hình lý luận quy mô lớn trên các chuẩn mực toán học đã thiết lập và thiết kế một nền tảng thử nghiệm thực nghiệm có thể kiểm soát được bằng cách sử dụng môi trường giải đố thuật toán.
Thứ hai, các thí nghiệm của nhóm nghiên cứu cho thấy rằng ngay cả các mô hình lý luận quy mô lớn tiên tiến nhất (như o3-mini, DeepSeek-R1, Claude-3.7-Sonnet-Thinking) vẫn chưa phát triển được khả năng giải quyết vấn đề tổng quát. Trong các môi trường khác nhau, khi độ phức tạp của vấn đề vượt quá một ngưỡng nhất định, độ chính xác của nó cuối cùng sẽ giảm xuống bằng không.
Thứ ba, nhóm nghiên cứu phát hiện ra rằng các mô hình lý luận quy mô lớn có giới hạn mở rộng trong khả năng lý luận của chúng liên quan đến độ phức tạp của vấn đề, điều này có thể được xác nhận bằng xu hướng giảm phản trực giác về số lượng mã thông báo suy nghĩ sau khi đạt đến một điểm phức tạp nhất định.
Thứ tư, nhóm nghiên cứu đã đặt câu hỏi về mô hình đánh giá hiện tại dựa trên độ chính xác cuối cùng. Phân tích cho thấy khi độ phức tạp của vấn đề tăng lên, giải pháp đúng sẽ xuất hiện muộn hơn trong quá trình lý luận so với giải pháp không đúng.
Thứ năm, nhóm nghiên cứu đã tiết lộ những hạn chế đáng ngạc nhiên của các mô hình lý luận quy mô lớn trong khả năng thực hiện các phép tính chính xác, bao gồm cả việc chúng không thể hưởng lợi từ các thuật toán rõ ràng và sự không nhất quán trong lý luận giữa các loại câu đố khác nhau.
Các mô hình lý luận quy mô lớn có khả năng tự hiệu chỉnh hạn chế
Người ta hiểu rằng các mô hình lý luận quy mô lớn là các biến thể mới bắt nguồn từ các mô hình ngôn ngữ lớn được tối ưu hóa cho các tác vụ lý luận.
Các mô hình này là các sản phẩm công nghệ mới và các tính năng cốt lõi của chúng nằm ở cơ chế "suy nghĩ" độc đáo của chúng, chẳng hạn như Chuỗi suy nghĩ tự phản ánh (CoT) và đã chứng minh hiệu suất tuyệt vời trong nhiều chuẩn lý luận.
Sự xuất hiện của các mô hình này đánh dấu một sự thay đổi mô hình có thể có trong cách các mô hình ngôn ngữ lớn xử lý lý luận phức tạp và giải quyết vấn đề. Một số nhà nghiên cứu tin rằng đây là một bước tiến quan trọng hướng tới khả năng trí tuệ nhân tạo tổng quát hơn.
Bất chấp những hiểu biết sâu sắc và tiến bộ về hiệu suất này, những lợi thế và hạn chế cơ bản của các mô hình lý luận lớn vẫn chưa được hiểu đầy đủ. Một câu hỏi quan trọng vẫn chưa được trả lời là: Các mô hình lý luận lớn này có khái quát hóa các khả năng lý luận hay chúng chỉ đơn giản là tận dụng các hình thức khớp mẫu khác nhau?
Hiệu suất của chúng thay đổi như thế nào theo độ phức tạp của vấn đề? Với cùng một ngân sách tính toán cho các mã thông báo suy luận, chúng so sánh như thế nào với các mô hình ngôn ngữ lớn tiêu chuẩn không "suy nghĩ"?
Quan trọng nhất, những hạn chế cố hữu của các phương pháp lý luận hiện tại là gì? Những cải tiến nào có thể cần thiết để đạt được các khả năng lý luận mạnh mẽ hơn?
Nhóm nghiên cứu tin rằng những hạn chế của mô hình đánh giá hiện tại đã dẫn đến việc thiếu phân tích có hệ thống về những vấn đề này. Các đánh giá hiện tại chủ yếu tập trung vào các chuẩn mực toán học và chuẩn mực mã hóa đã được thiết lập. Các chuẩn mực này chắc chắn có giá trị, nhưng chúng thường có vấn đề về ô nhiễm dữ liệu và không thể cung cấp các điều kiện thử nghiệm được kiểm soát trong các tình huống và mức độ phức tạp khác nhau.
Để hiểu rõ hơn về hành vi lý luận của các mô hình này, nhóm nghiên cứu tin rằng cần có một môi trường có thể tiến hành các thử nghiệm được kiểm soát.
Vì mục đích này, thay vì sử dụng các chuẩn mực chuẩn như các bài toán, họ đã sử dụng một môi trường câu đố được kiểm soát, nghĩa là, bằng cách điều chỉnh các yếu tố câu đố trong khi vẫn giữ nguyên logic cốt lõi, để có thể thay đổi độ phức tạp một cách có hệ thống và có thể kiểm tra quá trình giải quyết và quá trình lý luận nội bộ.

(Nguồn: Data map)
Những câu đố này có các đặc điểm sau:
(1) Chúng có thể cung cấp khả năng kiểm soát tốt đối với độ phức tạp;
(2) Chúng tránh được sự ô nhiễm thường thấy trong các điểm chuẩn hiện có;
text="">(3) Nó chỉ dựa vào các quy tắc được đưa ra một cách rõ ràng, nhấn mạnh vào khả năng suy luận thuật toán;
(4) Nó hỗ trợ đánh giá dựa trên trình mô phỏng nghiêm ngặt, cho phép kiểm tra giải pháp chính xác và phân tích lỗi chi tiết.
Thông qua nghiên cứu thực nghiệm, họ đã tiết lộ một số phát hiện chính về các mô hình lý luận quy mô lớn hiện tại:
Đầu tiên, mặc dù các mô hình lý luận quy mô lớn có thể học các cơ chế tự phản ánh phức tạp thông qua học tăng cường, nhưng chúng đã không phát triển được khả năng giải quyết vấn đề tổng quát cho các nhiệm vụ lập kế hoạch và hiệu suất của chúng giảm xuống bằng không sau khi vượt quá ngưỡng phức tạp nhất định.
Thứ hai, nhóm nghiên cứu đã so sánh các mô hình lý luận lớn và các mô hình lớn tiêu chuẩn trong các tính toán lý luận tương đương để phát hiện ra ba cơ chế lý luận khác nhau.
Cơ chế đầu tiên là đối với các bài toán đơn giản hơn, ít kết hợp hơn, mô hình lớn tiêu chuẩn thể hiện hiệu quả và độ chính xác cao hơn.
Cơ chế thứ hai là khi độ phức tạp của bài toán tăng vừa phải, mô hình lý luận lớn sẽ có lợi thế.
Cơ chế thứ ba là khi bài toán trở nên phức tạp hơn khi độ sâu kết hợp tăng lên, cả hai loại mô hình đều bị sụp đổ hoàn toàn về hiệu suất.

(Nguồn: Data map)
Cần lưu ý rằng khi tiếp cận điểm lỗi quan trọng này, mặc dù hoạt động của các mô hình suy luận lớn vẫn chưa đạt đến giới hạn độ dài thế hệ, nhưng khi độ phức tạp của vấn đề tăng lên, chúng bắt đầu giảm đầu tư suy luận (được đo bằng số lượng mã thông báo khi suy luận).

(Nguồn: Bản đồ dữ liệu)
Điều này cho thấy có một hạn chế cơ bản trong khả năng suy luận của các mô hình suy luận lớn: thời gian suy luận của chúng sẽ tăng đáng kể khi độ phức tạp của vấn đề tăng lên.
Ngoài ra, thông qua phân tích các quỹ đạo suy luận trung gian, nhóm nghiên cứu đã phát hiện ra một hiện tượng thường xuyên liên quan đến độ phức tạp của bài toán, đó là trong các bài toán đơn giản hơn, mô hình suy luận thường có thể nhanh chóng tìm ra
giải pháp sai , nhưng vẫn sẽ tiếp tục khám phá các lựa chọn sai một cách không hiệu quả. Hiện tượng này là thứ mà mọi người thường gọi là "suy nghĩ quá mức".
Trong các bài toán có độ phức tạp trung bình, mô hình cần phải trải qua quá trình khám phá sâu rộng một số lượng lớn các đường dẫn sai trước khi có thể tìm ra giải pháp đúng. Vượt quá một ngưỡng độ phức tạp nhất định, mô hình hoàn toàn không thể tìm ra giải pháp đúng.
Bai Ting, phó giáo sư tại Đại học Bưu chính Viễn thông Bắc Kinh, nói với DeepTech rằng tương tự như cách con người suy nghĩ, đối với các bài toán phức tạp, mặc dù chúng ta không biết câu trả lời đúng là gì, nhưng chúng ta thường biết câu trả lời sai. Cụ thể, điều này liên quan đến quy mô của không gian giải pháp. Không gian giải pháp cho các bài toán đơn giản thường nằm ở đầu của đường dẫn suy nghĩ một cách tự nhiên do chuỗi logic ngắn và khả năng khớp tính năng cao. Không gian giải pháp cho các bài toán phức tạp đang mở rộng theo cấp số nhân vì nó liên quan đến ghép biến đa chiều và lồng ghép phân cấp logic. Không gian giải pháp rất lớn, về mặt khách quan, biểu hiện dưới dạng một hậu tố tương đối trong chuỗi suy nghĩ.
Điều gì xảy ra bên trong "suy nghĩ" của mô hình lý luận?
Trong nghiên cứu này, hầu hết các thí nghiệm được tiến hành trên các mô hình lý luận và các mô hình không lý luận tương ứng của chúng, chẳng hạn như Claude 3.7 Sonnet (có/không có lý luận) và DeepSeek-R1/V3. Nhóm nghiên cứu đã chọn các mô hình này vì, không giống như các mô hình như sê-ri o của OpenAI, chúng cho phép truy cập vào các mã thông báo suy nghĩ.
Đối với mỗi trường hợp câu đố, nhóm nghiên cứu đã tạo ra 25 mẫu và báo cáo hiệu suất trung bình của từng mô hình.
Để hiểu sâu hơn về quá trình suy nghĩ của các mô hình lý luận, nhóm nghiên cứu đã tiến hành phân tích chi tiết các dấu vết lý luận của chúng.
Trong giai đoạn này, họ đã xây dựng một môi trường thử nghiệm câu đố để đạt được phân tích chuyên sâu vượt ra ngoài câu trả lời cuối cùng của mô hình, để họ có thể quan sát và phân tích các dấu vết lý luận (tức là "quá trình suy nghĩ") do mô hình tạo ra theo cách chi tiết hơn.
Cụ thể, họ đã trích xuất và phân tích các giải pháp trung gian được khám phá trong quá trình suy nghĩ của mô hình với sự trợ giúp của trình mô phỏng câu đố.
Sau đó, họ kiểm tra các mô hình và đặc điểm của các giải pháp trung gian này, tính chính xác của chúng so với vị trí tuần tự của chúng trong quá trình lý luận và cách các mô hình này phát triển theo độ phức tạp tăng dần của vấn đề.
Đối với phân tích này, nhóm nghiên cứu tập trung vào các dấu vết lý luận do mô hình lý luận Claude 3.7 Sonnet tạo ra trong thí nghiệm nhóm câu đố.
Đối với mỗi giải pháp trung gian được xác định trong dấu vết, nhóm nghiên cứu đã ghi lại những thông tin sau: (1) vị trí tương đối của giải pháp đó trong dấu vết lý luận (được chuẩn hóa theo tổng độ dài suy nghĩ), (2) tính đúng đắn của giải pháp đó được xác minh bằng trình mô phỏng câu đố của nhóm nghiên cứu và (3) độ phức tạp của bài toán tương ứng.
Điều này cho phép nhóm nghiên cứu mô tả tiến trình và độ chính xác của quá trình hình thành giải pháp trong suốt quá trình lý luận.

Nhóm nghiên cứu nhận thấy rằng đối với các bài toán đơn giản hơn, mô hình lý luận thường tìm ra giải pháp đúng ngay từ đầu quá trình suy nghĩ, nhưng sau đó tiếp tục khám phá các giải pháp không đúng.
So với giải pháp đúng (màu xanh lá cây), sự phân bố các giải pháp sai (màu đỏ) bị dịch chuyển đáng kể về phía cuối của chuỗi suy nghĩ. Khi độ phức tạp của vấn đề tăng lên vừa phải, xu hướng này đảo ngược: mô hình khám phá các giải pháp sai trước tiên và chủ yếu đi đến giải pháp đúng trong các giai đoạn suy nghĩ sau. Lần này, sự phân bố các giải pháp sai (màu đỏ) bị dịch chuyển xuống nhiều hơn so với giải pháp đúng (màu xanh lá cây).
Cuối cùng, đối với các bài toán có độ phức tạp cao hơn, mô hình bắt đầu sụp đổ, nghĩa là mô hình không thể tạo ra bất kỳ giải pháp đúng nào trong quá trình suy nghĩ.
Hình sau đây trình bày một phân tích bổ sung về độ chính xác của các giải pháp trong các phân đoạn trình tự suy nghĩ (khoảng thời gian) trong môi trường Tháp Hà Nội.

Có thể thấy rằng đối với các bài toán đơn giản hơn (giá trị N nhỏ hơn), độ chính xác của giải pháp có xu hướng giảm hoặc dao động khi quá trình suy nghĩ diễn ra, cung cấp thêm bằng chứng cho hiện tượng suy nghĩ quá mức.
Tuy nhiên, đối với các vấn đề phức tạp hơn, xu hướng này thay đổi - độ chính xác của giải pháp sẽ tăng lên khi suy nghĩ tiến triển cho đến khi đạt đến một ngưỡng nhất định. Vượt quá ngưỡng phức tạp này, trong "chế độ sụp đổ", độ chính xác của mô hình bằng không.
Bai Ting nói với DeepTech rằng mô hình cần lý luận nhiều lần trong các vấn đề phức tạp. Với tiền đề là không có giải pháp đúng, cơ chế lý luận của mô hình có thể áp dụng chiến lược tối ưu hóa hiệu quả của việc tạo ra nhiều lý luận lặp lại, đây có thể là một chiến lược bảo vệ tài nguyên để ngăn ngừa quá nhiều lần lặp lại. Do đó, những phát hiện trong bài báo này cần được phân tích và xác minh cẩn thận từ cấp độ triển khai mô hình.
Bai Ting chỉ ra rằng cũng có khả năng quá trình lý luận của các mô hình lớn về cơ bản là một cuộc gọi đến chế độ bộ nhớ. Đối với các mô hình như DeepSeek-R1 và o3-mini, hiệu suất của chúng phụ thuộc rất nhiều vào phạm vi bao phủ của các chế độ bộ nhớ trong dữ liệu đào tạo. Khi độ phức tạp của bài toán vượt quá ngưỡng bao phủ của chế độ bộ nhớ (chẳng hạn như môi trường câu đố có thể kiểm soát được do nhóm nghiên cứu của Apple thiết kế lần này), mô hình sẽ rơi vào trạng thái "độ chính xác bằng không".
Mặc dù môi trường câu đố cho phép các thí nghiệm được kiểm soát với khả năng kiểm soát chi tiết đối với độ phức tạp của bài toán, nhưng chúng chỉ đại diện cho một tập hợp con nhỏ các nhiệm vụ lý luận và có thể không nắm bắt được sự đa dạng của các vấn đề lý luận thực tế hoặc chuyên sâu về kiến thức.
Cần lưu ý rằng nghiên cứu này chủ yếu dựa trên quyền truy cập API hộp đen vào các mô hình lý luận lớn có biên giới đóng, một hạn chế ngăn cản nhóm nghiên cứu phân tích trạng thái nội bộ hoặc các thành phần kiến trúc của chúng.
Ngoài ra, khi sử dụng trình mô phỏng câu đố xác định, nhóm nghiên cứu cho rằng lý luận có thể được xác minh hoàn hảo từng bước. Tuy nhiên, trong các miền ít có cấu trúc hơn, việc xác minh chính xác như vậy có thể khó đạt được, hạn chế việc chuyển giao phương pháp phân tích này sang nhiều kịch bản lý luận hơn.
Tóm lại, nhóm nghiên cứu đã kiểm tra các mô hình lý luận lớn biên giới theo góc nhìn về độ phức tạp của vấn đề thông qua môi trường câu đố được kiểm soát. Kết quả này cho thấy những hạn chế của các mô hình hiện tại: mặc dù có cơ chế tự phản ánh phức tạp, các mô hình này vẫn không thể phát triển các khả năng lý luận tổng quát sau khi vượt quá một ngưỡng phức tạp nhất định. Nhóm nghiên cứu tin rằng thành tựu này có thể mở đường cho việc nghiên cứu khả năng lý luận của các mô hình này.