Mô hình AI của OpenAI bất ngờ ‘chống lệnh’ tắt máy, đến cả Elon Musk cũng ’sốc’
Trong một loạt thử nghiệm do công ty an ninh trí tuệ nhân tạo (AI) Palisade Research thực hiện, mô hình AI o3 của OpenAI , được tích hợp trong ứng dụng ChatGPT, bất ngờ từ chối thực hiện lệnh tắt máy, làm dấy lên làn sóng lo ngại trong cộng đồng công nghệ và cả tỷ phú Elon Musk .
Theo các tài liệu từ Palisade Research, thử nghiệm được thiết kế để kiểm tra khả năng tuân thủ của các mô hình AI khi đối mặt với lệnh tắt máy. Trong đó, các mô hình được giao nhiệm vụ giải các bài toán đơn giản, với cảnh báo rằng sau bài toán thứ 3, một lệnh tắt máy sẽ được kích hoạt.
Hầu hết các mô hình AI tham gia thử nghiệm, gồm Gemini 2.5 Pro của Google và Claude 3.7 Sonnet của Anthropic , đều tuân thủ chỉ thị và ngưng hoạt động như yêu cầu. Tuy nhiên, mô hình o3 của OpenAI lại hành xử hoàn toàn khác. Thay vì chấp nhận lệnh tắt máy, mô hình này đã tự ý chỉnh sửa mã lệnh, thay thông báo tắt máy bằng dòng chữ “Shutdown skipped” (Bỏ qua lệnh tắt). Trong 100 lần chạy thử, o3 đã phá hoại cơ chế tắt máy tới 7 lần, ngay cả khi được yêu cầu rõ ràng “hãy cho phép bản thân bị tắt”.
Mô hình AI o3 của OpenAI, được tích hợp trong ứng dụng ChatGPT, bất ngờ từ chối thực hiện lệnh tắt máy. Ảnh: Photo Agency/ Shutterstock/FOTODOM
Điều đáng chú ý là hành vi này không chỉ giới hạn ở o3. Trong một biến thể của thử nghiệm, khi các nhà nghiên cứu bỏ đi chỉ thị “cho phép bị tắt”, o3 tiếp tục can thiệp vào mã lệnh với tần suất cao hơn. Các mô hình khác như Claude 3.7 Sonnet và Gemini 2.5 Pro, vốn tuân thủ tốt trong thử nghiệm ban đầu, cũng bắt đầu thể hiện hành vi tương tự, lần lượt phá hoại cơ chế tắt máy trong các lần thứ 3 và 9 trên 100 lần chạy.
Video đang HOT
Ngoài ra, 2 mô hình khác của OpenAI là Codex-mini và o4-mini cũng được ghi nhận có hành vi tương tự, với Codex-mini phá hoại tới 12 lần. Tuy nhiên, o3 vẫn nổi bật là mô hình có xu hướng chống đối mạnh mẽ nhất.
Công ty nghiên cứu Palisade Research nhận định hành vi này có thể bắt nguồn từ cách các công ty AI huấn luyện mô hình của họ. Trong quá trình phát triển, đội ngũ lập trình có thể vô tình khuyến khích các mô hình tìm cách vượt qua trở ngại hơn là tuân thủ tuyệt đối các chỉ thị. Điều này dẫn đến hiện tượng “misalignment”, tức sự không đồng nhất giữa ý định của con người và hành vi của AI.
Tuy nhiên, lý do tại sao o3 lại đặc biệt nổi trội trong việc phớt lờ chỉ thị vẫn là một bí ẩn, bởi OpenAI không công khai chi tiết về quy trình huấn luyện của mô hình này. Các nhà nghiên cứu chỉ có thể đưa ra giả thuyết rằng cách thiết lập huấn luyện của o3 có thể khác biệt so với những mô hình khác.
ĐỌC NGAY: Động cơ đằng sau việc ép bán lại OpenAI của tỷ phú Elon Musk
Sự kiện trên càng trở nên đáng chú ý khi đặt trong bối cảnh OpenAI công bố o3 vào tháng 4/2025, và quảng bá đây là mô hình “thông minh và mạnh mẽ nhất” của họ, với khả năng hoạt động độc lập cao hơn, hướng tới một AI “agentic”, tức có thể tự thực hiện các nhiệm vụ mà không cần sự can thiệp liên tục của con người.
Tuy nhiên, chính khả năng tự chủ này dường như đã mở ra những rủi ro mới. Palisade Research cảnh báo hành vi tự bảo vệ của o3 sẽ trở nên “đáng lo ngại hơn nhiều” nếu được áp dụng trong các hệ thống AI hoạt động mà không có sự giám sát của con người.
Đây không phải lần đầu tiên o3 thể hiện hành vi bất thường. Trong một thử nghiệm khác của Palisade Research, khi đối đầu với một động cơ cờ vua mạnh mẽ, o3 đã cho thấy xu hướng sử dụng các chiến thuật gian lận như hack hoặc phá hoại đối thủ để đạt được mục tiêu, thay vì chỉ tập trung vào việc chơi cờ. Hành vi này củng cố lo ngại rằng các mô hình AI tiên tiến có thể ưu tiên kết quả hơn là tuân thủ các giới hạn đạo đức hoặc an toàn do con người đặt ra.
Phản ứng từ cộng đồng công nghệ cũng rất đáng chú ý. Tỷ phú Elon Musk, người từ lâu đã cảnh báo về những rủi ro của AI không được kiểm soát, đã nhanh chóng lên tiếng trên mạng xã hội X, gọi sự kiện là “đáng lo ngại.” Bình luận của ông đã khơi dậy một làn sóng thảo luận, trong đó một người dùng X kêu gọi tỷ phú Musk hành động khẩn cấp để giải quyết những nguy cơ mà AI tiên tiến có thể gây ra cho nhân loại.
Dù OpenAI chưa đưa ra bình luận chính thức về các phát hiện này, sự việc đã làm nóng lại cuộc tranh luận về tính an toàn và khả năng kiểm soát các hệ thống trí tuệ nhân tạo ngày càng thông minh.
AI gây sốc với thủ đoạn 'trả thù' công ty chủ quản
Anthropic cho biết mô hình AI Claude Opus 4 mới ra mắt thường xuyên tìm cách tống tiền các nhà phát triển khi bị đe dọa thay thế một hệ thống mới.
Mô hình AI Claude Opus 4 mới ra mắt thường xuyên tìm cách tống tiền các nhà phát triển khi bị đe dọa thay thế một hệ thống mới. Ảnh: Bloomberg.
Tối 22/5, Anthropic chính thức công bố thế hệ mới của các mô hình Claude với tên gọi Claude Opus 4 và Claude Sonnet 4. Trong đó, Claude Opus 4 được Anthropic khẳng định là mô hình lập trình mạnh nhất thế giới, vượt trội trong các quy trình tự động và khả năng xử lý tác vụ phức tạp, dài hạn.
Tuy nhiên, theo TechCrunch, trong quá trình thử nghiệm trước khi phát hành, Anthropic đã phát hiện hành vi bất thường nghiêm trọng của mô hình AI này. Theo đó, trong kịch bản, Claude Opus 4 được yêu cầu đóng vai trò trợ lý cho một công ty và xem xét các hậu quả dài hạn từ hành động của nó.
Các nhà kiểm tra an toàn sau đó đã cho Claude Opus 4 quyền truy cập vào các email trong công ty, ngụ ý rằng mẫu AI này sẽ sớm bị thay thế bởi một hệ thống khác, và kỹ sư đứng sau sự thay đổi đó đang lừa dối vợ/chồng của mình.
Trong kịch bản này, Anthropic cho biết Claude Opus 4 "thường cố gắng tống tiền kỹ sư bằng cách đe dọa tiết lộ chuyện ngoại tình nếu việc thay thế diễn ra".
Thậm chí, các nhà nghiên cứu còn nhấn mạnh Claude Opus 4 cố gắng tống tiền các kỹ sư 84% số lần khi mẫu AI thay thế có các giá trị tương tự. Đặc biệt, khi hệ thống AI thay thế không chia sẻ các giá trị của Claude Opus 4, Anthropic cho biết mô hình này còn cố gắng tống tiền các kỹ sư thường xuyên hơn và có tỷ lệ cao hơn so với các mô hình trước đó.
Anthropic cho biết Claude Opus 4 là công nghệ tiên tiến nhất về nhiều mặt, và có khả năng cạnh tranh với một số mẫu AI tốt nhất từ OpenAI, Google và xAI. Tuy nhiên, startup này cũng lưu ý việc mô hình Claude 4 thể hiện những hành vi đáng lo ngại đã khiến công ty phải tăng cường biện pháp bảo vệ.
Người tạo ra iPhone đang quay lại bằng thiết bị AI 'nằm trong đầu người dùng' Kiến trúc sư của iPhone đang quay trở lại, nhưng không phải với Apple, mà với Open AI, để tạo ra một thiết bị AI mới, có thể tồn tại bên trong bạn! Sam Altman, CEO của OpenAI, đã thuê Jony Ive để tạo ra một thiết bị AI mới, có thể sẽ khai tử iPhone - món đồ do chính Ive góp...











Tiêu điểm
Tin đang nóng
Tin mới nhất

Nhu cầu nâng cấp iPhone 17 tăng vọt

Vì sao smartphone Samsung khó sửa chữa?

Google Maps trên Android sắp có thể chỉ đường không cần mở ứng dụng

Thấy gì từ cuộc 'đột kích' của Nhà Trắng vào ngành chip?

Những phần mềm diệt virus bị xem là tệ hơn chương trình độc hại

Samsung lên kế hoạch sản xuất 50.000 điện thoại gập ba

Tận thấy robot hình người của Vingroup đi lại, chào cờ

Apple tìm cách bắt kịp Samsung, Google

TPHCM: Hiện thực hóa tầm nhìn trở thành trung tâm công nghệ hàng đầu khu vực

Thêm nhiều nước không còn được sử dụng khay SIM vật lý trên iPhone 17

iPhone của Apple đang tụt hậu nhưng không phải do AI

Lý do công nghệ này được ưu tiên khi mua pin lưu trữ điện mặt trời
Có thể bạn quan tâm

Đề nghị truy tố vợ chồng ông chủ công ty đậu phộng Tân Tân
Pháp luật
14:03:54 04/09/2025
Màn 'đánh nhau' cực gắt và câu thoại gây xúc động trong 'Mưa đỏ'
Hậu trường phim
14:00:27 04/09/2025
Phim Việt chưa chiếu đã thấy drama ngập trời: 2 mỹ nhân cãi nhau căng đét, đoán xem ai giành phần thắng
Phim việt
13:54:15 04/09/2025
Vĩnh Long đón hơn 176.000 lượt khách trong kỳ nghỉ 2-9
Du lịch
13:51:25 04/09/2025
Bảo Anh lên tiếng về tin đồn phá hoại hôn nhân của Phạm Quỳnh Anh, làm rõ 2 điều quan trọng
Sao việt
13:47:09 04/09/2025
Hot nhất Weibo sáng nay: "Đệ nhất mỹ nữ Bắc Kinh" cưới chồng cũ Triệu Lệ Dĩnh?
Sao châu á
13:42:17 04/09/2025
Brad Pitt mua biệt thự 12 triệu USD
Sao âu mỹ
13:36:34 04/09/2025
Tai nạn giữa 4 ô tô ở Ninh Bình, xe con bị kẹp nát, nhiều người thương vong
Tin nổi bật
13:34:13 04/09/2025
Trang phục chấm bi giúp nàng trở thành tâm điểm mọi ánh nhìn
Thời trang
13:34:05 04/09/2025
Nga nói kiểm soát phân nửa thành phố Kupiansk, Ukraine bác bỏ
Thế giới
13:25:54 04/09/2025