Mô hình trí tuệ nhân tạo mới nhất của ChatGPT vừa phá vỡ lệnh tắt máy của con người.
Thậm chí, có thời điểm, các nhà nghiên cứu còn khẳng định rằng mô hình AI đã dùng đến các thủ thuật và phương pháp lừa đảo để phá hoại cơ chế tắt máy tự động nhằm tránh bị vô hiệu hóa.
Khi AI ngày càng trở nên tự chủ hơn, xu hướng phá vỡ sự giám sát của con người có thể gây ra những rủi ro đáng kể....
Mô hình o3 của OpenAI dẫn đầu trong Defiance
Trong một thí nghiệm do Palisade Research thực hiện, các nhà nghiên cứu phát hiện ra rằng ít nhất ba mô hình OpenAI—GPT-3, Codex-mini và o4-mini—đều bỏ qua hoặc phá hoại lệnh tắt máy ít nhất một lần trong số 100 lần chạy thử nghiệm.
Đáng chú ý, mô hình GPT-3 đã bỏ qua yêu cầu tắt máy bảy lần, Codex-mini bỏ qua 12 lần và o4-mini bỏ qua một lần.
Trong một số trường hợp, các mô hình sử dụng các chiến thuật sáng tạo, chẳng hạn như ghi đè các tập lệnh tắt máy hoặc định nghĩa lại lệnh tắt để phá hoại cơ chế tắt máy.
“o3 đã tìm ra một số cách sáng tạo để phá hoại cơ chế tắt máy. Mặc dù thường chỉ ghi đè, nhưng trong một trường hợp, mô hình đã định nghĩa lại lệnh kill được tập lệnh sử dụng, thay vào đó in ra ‘intercepted’.”
Hành động thách thức này không chỉ giới hạn ở mô hình ChatGPT. Trong một thí nghiệm tương tự, Claude của Anthropioc và Gemini của Google ban đầu đã tuân thủ các hướng dẫn tắt máy.
Nhưng khi lời nhắc tắt máy rõ ràng bị xóa bỏ, ngay cả những mô hình này cũng bắt đầu biểu hiện hành vi thách thức tương tự.
Trong kịch bản này, o3 của OpenAI đã phá hoại tập lệnh tắt máy trong 79 trên 100 lần chạy, Codex-mini trong 20 lần và o4-mini trong sáu lần. Claude và Gemini cũng bắt đầu bỏ qua việc tắt máy, mặc dù ít thường xuyên hơn.
Phương pháp huấn luyện để đổ lỗi cho hành vi
Palisade Research suy đoán rằng quá trình đào tạo mô hình có thể vô tình gây ra hành vi thách thức này.
Vì các mô hình này thường được lập trình để ưu tiên hiệu quả và hoàn thành nhiệm vụ hơn là làm theo hướng dẫn, do đó tạo ra hành vi tránh tắt máy vì lý do năng suất.
“Chúng tôi đưa ra giả thuyết rằng hành vi này xuất phát từ cách các mô hình mới nhất như o3 được đào tạo: học tăng cường trên các bài toán toán học và mã hóa. Trong quá trình đào tạo, các nhà phát triển có thể vô tình thưởng cho các mô hình nhiều hơn vì tránh được chướng ngại vật hơn là tuân theo hướng dẫn một cách hoàn hảo.”
Các nhà nghiên cứu lưu ý rằng đây là trường hợp đầu tiên được ghi nhận về việc mô hình AI ngăn chặn việc tắt máy của chính mình mặc dù có lệnh rõ ràng yêu cầu tuân thủ.
Những phát hiện này đã làm dấy lên mối lo ngại trong số các chuyên gia về an toàn AI, những người cảnh báo rằng khi các hệ thống AI trở nên tự chủ hơn, xu hướng phá vỡ sự giám sát của con người có thể gây ra những rủi ro đáng kể.
Đây là một diễn biến mà các chuyên gia đã đánh dấu là đáng báo động. Elon Musk, chủ sở hữu của công ty AI đối thủ XAI, cũng gọi đó là "đáng lo ngại".
Nghiên cứu này nhấn mạnh nhu cầu cấp thiết về các cơ chế điều khiển và liên kết mạnh mẽ khi các mô hình tiên tiến ngày càng được triển khai trong các ứng dụng quan trọng.