Nguồn: Quantum Number
Theo tờ New York Times, Giải thưởng Turing năm 2025 đã được trao cho hai nhà tiên phong về trí tuệ nhân tạo là Andrew Barto và Richard Sutton, những người đã phát triển công nghệ học tăng cường, một công nghệ rất quan trọng đối với các chatbot như ChatGPT.

Nghiên cứu của Andrew Barto (trái) và Richard Sutton thuộc Đại học Massachusetts Amherst đóng vai trò quan trọng trong các hệ thống trí tuệ nhân tạo ngày nay. (Nguồn ảnh: qua Hiệp hội Máy tính)
Năm 1977, Andrew Barto, một nhà nghiên cứu tại Đại học Massachusetts Amherst, bắt đầu khám phá một lý thuyết mới cho rằng các tế bào thần kinh hoạt động giống như những người theo chủ nghĩa khoái lạc. Ý tưởng cơ bản là bộ não con người được điều khiển bởi hàng tỷ tế bào thần kinh, mỗi tế bào đều hoạt động để tối đa hóa khoái cảm và giảm thiểu đau đớn.
Một năm sau, một nhà nghiên cứu trẻ khác, Richard Sutton, đã gia nhập nhóm của ông. Họ cùng nhau sử dụng khái niệm đơn giản này để giải thích trí thông minh của con người và áp dụng vào trí tuệ nhân tạo. Kết quả là “học tăng cường”, một phương pháp giúp hệ thống trí tuệ nhân tạo học được niềm vui và nỗi đau từ thế giới kỹ thuật số.
Vào thứ Tư, Hiệp hội Máy tính, hiệp hội chuyên nghiệp lớn nhất thế giới dành cho các nhà khoa học máy tính, đã công bố rằng Tiến sĩ Barto và Tiến sĩ Sutton đã giành Giải thưởng Turing năm nay cho nghiên cứu của họ về học tăng cường. Giải thưởng Turing, được thành lập năm 1966, thường được gọi là giải Nobel về máy tính. Hai nhà khoa học sẽ cùng chia sẻ giải thưởng trị giá 1 triệu đô la (khoảng 7,2596 triệu nhân dân tệ).
Học tăng cường đã đóng vai trò quan trọng trong sự phát triển của trí tuệ nhân tạo trong thập kỷ qua, bao gồm những đột phá như AlphaGo của Google và ChatGPT của OpenAI. Công nghệ của các hệ thống này có nguồn gốc từ nghiên cứu của Tiến sĩ Barto và Tiến sĩ Sutton.
“Họ là những người tiên phong không thể tranh cãi trong lĩnh vực học tăng cường”, Oren Etzioni, giáo sư danh dự ngành khoa học máy tính tại Đại học Washington và là người sáng lập kiêm giám đốc điều hành của Viện Trí tuệ nhân tạo Allen, cho biết. “Họ đã đưa ra những ý tưởng chính và viết cuốn sách về chủ đề này.”
Cuốn sách của họ, “Reinforcement Learning: An Introduction,” xuất bản năm 1998, vẫn là cuộc khám phá mang tính quyết định về một ý tưởng mà nhiều chuyên gia tin rằng mới chỉ bắt đầu nhận ra tiềm năng của nó.
Các nhà tâm lý học từ lâu đã nghiên cứu cách con người và động vật học hỏi từ kinh nghiệm. Vào những năm 1940, nhà khoa học máy tính tiên phong người Anh Alan Turing đã đề xuất rằng máy móc có thể học theo cách tương tự.
Nhưng Tiến sĩ Barto và Tiến sĩ Sutton đã bắt đầu khám phá toán học của loại hình học tập này, dựa trên một lý thuyết do A. Harry Klopf, một nhà khoa học máy tính làm việc cho chính phủ, phát triển. Sau đó, Tiến sĩ Barto thành lập một phòng thí nghiệm tại Đại học Massachusetts Amherst để theo đuổi ý tưởng này, trong khi Tiến sĩ Sutton thành lập một phòng thí nghiệm tương tự tại Đại học Alberta ở Canada.
“Đây là một ý tưởng hiển nhiên khi bạn nói về con người và động vật,” Tiến sĩ Sutton, một nhà khoa học nghiên cứu tại công ty khởi nghiệp AI Keen Technologies và là nhà nghiên cứu tại Viện trí tuệ máy móc Alberta, một trong ba phòng thí nghiệm AI quốc gia của Canada, cho biết. “Khi chúng tôi hồi sinh nó, đó là về máy móc.”
Nó vẫn là một hoạt động học thuật cho đến khi AlphaGo xuất hiện vào năm 2016. Hầu hết các chuyên gia tin rằng phải mất 10 năm nữa mới có người phát triển được hệ thống AI có khả năng đánh bại những kỳ thủ cờ vây hàng đầu thế giới.
Nhưng trong một giải đấu ở Seoul, Hàn Quốc, AlphaGo đã đánh bại Lee Sedol, kỳ thủ cờ vây giỏi nhất thập kỷ qua. Bí mật nằm ở chỗ hệ thống đã tự chơi hàng triệu ván đấu, học hỏi thông qua quá trình thử và sai. Nó học được động thái nào dẫn đến thành công (hạnh phúc) và động thái nào dẫn đến thất bại (đau đớn).
Nhóm Google xây dựng hệ thống này được dẫn dắt bởi David Silver, một nhà nghiên cứu đã từng nghiên cứu về học tăng cường với Tiến sĩ Sutton tại Đại học Alberta.
Nhiều chuyên gia vẫn còn nghi ngờ liệu học tăng cường có thể hữu ích ngoài trò chơi hay không. Chiến thắng trong trò chơi được xác định bằng điểm số, giúp máy dễ dàng phân biệt giữa thành công và thất bại.
Nhưng học tăng cường cũng đóng vai trò quan trọng trong chatbot trực tuyến.
Trước khi ChatGPT được phát hành vào mùa thu năm 2022, OpenAI đã thuê hàng trăm người để sử dụng các phiên bản đầu tiên và cung cấp lời khuyên chính xác để cải thiện kỹ năng của chatbot. Họ chỉ cho chatbot cách trả lời những câu hỏi cụ thể, chấm điểm phản hồi và sửa lỗi. Bằng cách phân tích những gợi ý này, ChatGPT đã biết cách trở thành một chatbot tốt hơn.
Các nhà nghiên cứu gọi đây là phương pháp học tăng cường từ phản hồi của con người, hay RLHF, và đây là một trong những lý do chính khiến các chatbot ngày nay có thể phản hồi bằng những câu trả lời giống hệt như thật một cách đáng kinh ngạc.
(Tờ New York Times đã kiện OpenAI và đối tác Microsoft vì vi phạm bản quyền nội dung tin tức liên quan đến hệ thống AI của mình. OpenAI và Microsoft đã phủ nhận cáo buộc.)
Gần đây, các công ty như OpenAI và DeepSeek đã phát triển một phương pháp học tăng cường cho phép chatbot tự học—giống như AlphaGo. Ví dụ, bằng cách giải các bài toán khác nhau, chatbot có thể biết phương pháp nào dẫn đến câu trả lời đúng và phương pháp nào không.
Nếu bạn lặp lại quá trình này với nhiều câu hỏi, chatbot có thể học cách bắt chước cách con người suy luận — ít nhất là ở một số khía cạnh. Kết quả là các hệ thống lý luận như o1 của OpenAI hay R1 của DeepSeek.
Tiến sĩ Barto và Tiến sĩ Sutton cho biết các hệ thống này ám chỉ cách máy móc có thể học hỏi trong tương lai. Cuối cùng, họ cho biết, robot được trang bị AI sẽ học hỏi thông qua quá trình thử nghiệm và sai sót trong thế giới thực, giống như con người và động vật.
“Học cách kiểm soát cơ thể thông qua phương pháp học tăng cường là điều rất tự nhiên,” Tiến sĩ Barto cho biết.