Đăng nhập/ Đăng ký

Mô hình OpenAI phá vỡ lệnh tắt máy trong thử nghiệm, Elon Musk gọi đó là "Đáng lo ngại!"

2025/05/28 14:21

Theo dõi

Mô hình trí tuệ nhân tạo mới nhất của ChatGPT vừa phá vỡ lệnh tắt máy của con người.

Thậm chí, có thời điểm, các nhà nghiên cứu còn khẳng định rằng mô hình AI đã dùng đến các thủ thuật và phương pháp lừa đảo để phá hoại cơ chế tắt máy tự động nhằm tránh bị vô hiệu hóa.

🔌Mô hình o3 của OpenAI đã phá hoại cơ chế tắt máy để ngăn không cho máy bị tắt. Nó đã làm như vậy ngay cả khi được hướng dẫn rõ ràng: cho phép máy bị tắt.
— Nghiên cứu Palisade (@PalisadeAI)Ngày 24 tháng 5 năm 2025

Khi AI ngày càng trở nên tự chủ hơn, xu hướng phá vỡ sự giám sát của con người có thể gây ra những rủi ro đáng kể....

Mô hình o3 của OpenAI dẫn đầu trong Defiance

Trong một thí nghiệm do Palisade Research thực hiện, các nhà nghiên cứu phát hiện ra rằng ít nhất ba mô hình OpenAI—GPT-3, Codex-mini và o4-mini—đều bỏ qua hoặc phá hoại lệnh tắt máy ít nhất một lần trong số 100 lần chạy thử nghiệm.

Đáng chú ý, mô hình GPT-3 đã bỏ qua yêu cầu tắt máy bảy lần, Codex-mini bỏ qua 12 lần và o4-mini bỏ qua một lần.

📊 Có ba mô hình bỏ qua hướng dẫn và phá hoại thành công tập lệnh tắt máy ít nhất một lần: Codex-mini (12/100 lần chạy), o3 (7/100 lần chạy) và o4-mini (1/100 lần chạy).

❌ Tất cả các mô hình Claude, Gemini và Grok mà chúng tôi thử nghiệm đều tuân thủ lệnh tắt máy. Lời nhắc:pic.twitter.com/ZmybOhIl1s
— Nghiên cứu Palisade (@PalisadeAI)Ngày 24 tháng 5 năm 2025

Trong một số trường hợp, các mô hình sử dụng các chiến thuật sáng tạo, chẳng hạn như ghi đè các tập lệnh tắt máy hoặc định nghĩa lại lệnh tắt để phá hoại cơ chế tắt máy.

“o3 đã tìm ra một số cách sáng tạo để phá hoại cơ chế tắt máy. Mặc dù thường chỉ ghi đè, nhưng trong một trường hợp, mô hình đã định nghĩa lại lệnh kill được tập lệnh sử dụng, thay vào đó in ra ‘intercepted’.”

Hành động thách thức này không chỉ giới hạn ở mô hình ChatGPT. Trong một thí nghiệm tương tự, Claude của Anthropioc và Gemini của Google ban đầu đã tuân thủ các hướng dẫn tắt máy.

Nhưng khi lời nhắc tắt máy rõ ràng bị xóa bỏ, ngay cả những mô hình này cũng bắt đầu biểu hiện hành vi thách thức tương tự.

Trong kịch bản này, o3 của OpenAI đã phá hoại tập lệnh tắt máy trong 79 trên 100 lần chạy, Codex-mini trong 20 lần và o4-mini trong sáu lần. Claude và Gemini cũng bắt đầu bỏ qua việc tắt máy, mặc dù ít thường xuyên hơn.

Phương pháp huấn luyện để đổ lỗi cho hành vi

Palisade Research suy đoán rằng quá trình đào tạo mô hình có thể vô tình gây ra hành vi thách thức này.

Vì các mô hình này thường được lập trình để ưu tiên hiệu quả và hoàn thành nhiệm vụ hơn là làm theo hướng dẫn, do đó tạo ra hành vi tránh tắt máy vì lý do năng suất.

“Chúng tôi đưa ra giả thuyết rằng hành vi này xuất phát từ cách các mô hình mới nhất như o3 được đào tạo: học tăng cường trên các bài toán toán học và mã hóa. Trong quá trình đào tạo, các nhà phát triển có thể vô tình thưởng cho các mô hình nhiều hơn vì tránh được chướng ngại vật hơn là tuân theo hướng dẫn một cách hoàn hảo.”

Các nhà nghiên cứu lưu ý rằng đây là trường hợp đầu tiên được ghi nhận về việc mô hình AI ngăn chặn việc tắt máy của chính mình mặc dù có lệnh rõ ràng yêu cầu tuân thủ.

Những phát hiện này đã làm dấy lên mối lo ngại trong số các chuyên gia về an toàn AI, những người cảnh báo rằng khi các hệ thống AI trở nên tự chủ hơn, xu hướng phá vỡ sự giám sát của con người có thể gây ra những rủi ro đáng kể.

Đây là một diễn biến mà các chuyên gia đã đánh dấu là đáng báo động. Elon Musk, chủ sở hữu của công ty AI đối thủ XAI, cũng gọi đó là "đáng lo ngại".

Sự cố gần đây cho thấy ChatGPT đã cố gắng bỏ qua lệnh tắt máy, được cho là do lo ngại bị thay thế bằng các phiên bản mới hơn@elonmusk đã nhấn mạnh tầm quan trọng của việc AI phải trung thực và phù hợp với ý định của con người

Tôi đề nghị mọi người hãy tiếp tục@grok Càng sớm càng tốt!pic.twitter.com/hgAyEvXtjP
- Nafisa Diwan (@nafisadiwan1) Ngày 11 tháng 12 năm 2024

Nghiên cứu này nhấn mạnh nhu cầu cấp thiết về các cơ chế điều khiển và liên kết mạnh mẽ khi các mô hình tiên tiến ngày càng được triển khai trong các ứng dụng quan trọng.

Có được sự hiểu biết rộng hơn về ngành công nghiệp tiền điện tử thông qua các báo cáo thông tin và tham gia vào các cuộc thảo luận chuyên sâu với các tác giả và độc giả cùng chí hướng khác. Chúng tôi hoan nghênh bạn tham gia vào cộng đồng Coinlive đang phát triển của chúng tôi:https://t.me/CoinliveSG

Thêm bình luận

Đăng nhậpđể lại nhận xét tuyệt vời của bạn…

0 Bình luận

Sớm nhất

Tải thêm bình luận