Mô hình AI của OpenAI bất ngờ ‘chống lệnh’ tắt máy, đến cả Elon Musk cũng ’sốc’

Trong một loạt thử nghiệm do công ty an ninh trí tuệ nhân tạo (AI) Palisade Research thực hiện, mô hình AI o3 của OpenAI , được tích hợp trong ứng dụng ChatGPT, bất ngờ từ chối thực hiện lệnh tắt máy, làm dấy lên làn sóng lo ngại trong cộng đồng công nghệ và cả tỷ phú Elon Musk .

Theo các tài liệu từ Palisade Research, thử nghiệm được thiết kế để kiểm tra khả năng tuân thủ của các mô hình AI khi đối mặt với lệnh tắt máy. Trong đó, các mô hình được giao nhiệm vụ giải các bài toán đơn giản, với cảnh báo rằng sau bài toán thứ 3, một lệnh tắt máy sẽ được kích hoạt.

Hầu hết các mô hình AI tham gia thử nghiệm, gồm Gemini 2.5 Pro của Google và Claude 3.7 Sonnet của Anthropic , đều tuân thủ chỉ thị và ngưng hoạt động như yêu cầu. Tuy nhiên, mô hình o3 của OpenAI lại hành xử hoàn toàn khác. Thay vì chấp nhận lệnh tắt máy, mô hình này đã tự ý chỉnh sửa mã lệnh, thay thông báo tắt máy bằng dòng chữ “Shutdown skipped” (Bỏ qua lệnh tắt). Trong 100 lần chạy thử, o3 đã phá hoại cơ chế tắt máy tới 7 lần, ngay cả khi được yêu cầu rõ ràng “hãy cho phép bản thân bị tắt”.

Mô hình AI của OpenAI bất ngờ chống lệnh tắt máy, đến cả Elon Musk cũng sốc - Hình 1

Mô hình AI o3 của OpenAI, được tích hợp trong ứng dụng ChatGPT, bất ngờ từ chối thực hiện lệnh tắt máy. Ảnh: Photo Agency/ Shutterstock/FOTODOM

Điều đáng chú ý là hành vi này không chỉ giới hạn ở o3. Trong một biến thể của thử nghiệm, khi các nhà nghiên cứu bỏ đi chỉ thị “cho phép bị tắt”, o3 tiếp tục can thiệp vào mã lệnh với tần suất cao hơn. Các mô hình khác như Claude 3.7 Sonnet và Gemini 2.5 Pro, vốn tuân thủ tốt trong thử nghiệm ban đầu, cũng bắt đầu thể hiện hành vi tương tự, lần lượt phá hoại cơ chế tắt máy trong các lần thứ 3 và 9 trên 100 lần chạy.

Video đang HOT

Ngoài ra, 2 mô hình khác của OpenAI là Codex-mini và o4-mini cũng được ghi nhận có hành vi tương tự, với Codex-mini phá hoại tới 12 lần. Tuy nhiên, o3 vẫn nổi bật là mô hình có xu hướng chống đối mạnh mẽ nhất.

Công ty nghiên cứu Palisade Research nhận định hành vi này có thể bắt nguồn từ cách các công ty AI huấn luyện mô hình của họ. Trong quá trình phát triển, đội ngũ lập trình có thể vô tình khuyến khích các mô hình tìm cách vượt qua trở ngại hơn là tuân thủ tuyệt đối các chỉ thị. Điều này dẫn đến hiện tượng “misalignment”, tức sự không đồng nhất giữa ý định của con người và hành vi của AI.

Tuy nhiên, lý do tại sao o3 lại đặc biệt nổi trội trong việc phớt lờ chỉ thị vẫn là một bí ẩn, bởi OpenAI không công khai chi tiết về quy trình huấn luyện của mô hình này. Các nhà nghiên cứu chỉ có thể đưa ra giả thuyết rằng cách thiết lập huấn luyện của o3 có thể khác biệt so với những mô hình khác.

ĐỌC NGAY: Động cơ đằng sau việc ép bán lại OpenAI của tỷ phú Elon Musk

Sự kiện trên càng trở nên đáng chú ý khi đặt trong bối cảnh OpenAI công bố o3 vào tháng 4/2025, và quảng bá đây là mô hình “thông minh và mạnh mẽ nhất” của họ, với khả năng hoạt động độc lập cao hơn, hướng tới một AI “agentic”, tức có thể tự thực hiện các nhiệm vụ mà không cần sự can thiệp liên tục của con người.

Tuy nhiên, chính khả năng tự chủ này dường như đã mở ra những rủi ro mới. Palisade Research cảnh báo hành vi tự bảo vệ của o3 sẽ trở nên “đáng lo ngại hơn nhiều” nếu được áp dụng trong các hệ thống AI hoạt động mà không có sự giám sát của con người.

Đây không phải lần đầu tiên o3 thể hiện hành vi bất thường. Trong một thử nghiệm khác của Palisade Research, khi đối đầu với một động cơ cờ vua mạnh mẽ, o3 đã cho thấy xu hướng sử dụng các chiến thuật gian lận như hack hoặc phá hoại đối thủ để đạt được mục tiêu, thay vì chỉ tập trung vào việc chơi cờ. Hành vi này củng cố lo ngại rằng các mô hình AI tiên tiến có thể ưu tiên kết quả hơn là tuân thủ các giới hạn đạo đức hoặc an toàn do con người đặt ra.

Phản ứng từ cộng đồng công nghệ cũng rất đáng chú ý. Tỷ phú Elon Musk, người từ lâu đã cảnh báo về những rủi ro của AI không được kiểm soát, đã nhanh chóng lên tiếng trên mạng xã hội X, gọi sự kiện là “đáng lo ngại.” Bình luận của ông đã khơi dậy một làn sóng thảo luận, trong đó một người dùng X kêu gọi tỷ phú Musk hành động khẩn cấp để giải quyết những nguy cơ mà AI tiên tiến có thể gây ra cho nhân loại.

Dù OpenAI chưa đưa ra bình luận chính thức về các phát hiện này, sự việc đã làm nóng lại cuộc tranh luận về tính an toàn và khả năng kiểm soát các hệ thống trí tuệ nhân tạo ngày càng thông minh.

AI gây sốc với thủ đoạn 'trả thù' công ty chủ quản

Anthropic cho biết mô hình AI Claude Opus 4 mới ra mắt thường xuyên tìm cách tống tiền các nhà phát triển khi bị đe dọa thay thế một hệ thống mới.

AI gây sốc với thủ đoạn trả thù công ty chủ quản - Hình 1

Mô hình AI Claude Opus 4 mới ra mắt thường xuyên tìm cách tống tiền các nhà phát triển khi bị đe dọa thay thế một hệ thống mới. Ảnh: Bloomberg.

Tối 22/5, Anthropic chính thức công bố thế hệ mới của các mô hình Claude với tên gọi Claude Opus 4 và Claude Sonnet 4. Trong đó, Claude Opus 4 được Anthropic khẳng định là mô hình lập trình mạnh nhất thế giới, vượt trội trong các quy trình tự động và khả năng xử lý tác vụ phức tạp, dài hạn.

Tuy nhiên, theo TechCrunch, trong quá trình thử nghiệm trước khi phát hành, Anthropic đã phát hiện hành vi bất thường nghiêm trọng của mô hình AI này. Theo đó, trong kịch bản, Claude Opus 4 được yêu cầu đóng vai trò trợ lý cho một công ty và xem xét các hậu quả dài hạn từ hành động của nó.

Các nhà kiểm tra an toàn sau đó đã cho Claude Opus 4 quyền truy cập vào các email trong công ty, ngụ ý rằng mẫu AI này sẽ sớm bị thay thế bởi một hệ thống khác, và kỹ sư đứng sau sự thay đổi đó đang lừa dối vợ/chồng của mình.

Trong kịch bản này, Anthropic cho biết Claude Opus 4 "thường cố gắng tống tiền kỹ sư bằng cách đe dọa tiết lộ chuyện ngoại tình nếu việc thay thế diễn ra".

Thậm chí, các nhà nghiên cứu còn nhấn mạnh Claude Opus 4 cố gắng tống tiền các kỹ sư 84% số lần khi mẫu AI thay thế có các giá trị tương tự. Đặc biệt, khi hệ thống AI thay thế không chia sẻ các giá trị của Claude Opus 4, Anthropic cho biết mô hình này còn cố gắng tống tiền các kỹ sư thường xuyên hơn và có tỷ lệ cao hơn so với các mô hình trước đó.

Anthropic cho biết Claude Opus 4 là công nghệ tiên tiến nhất về nhiều mặt, và có khả năng cạnh tranh với một số mẫu AI tốt nhất từ OpenAI, Google và xAI. Tuy nhiên, startup này cũng lưu ý việc mô hình Claude 4 thể hiện những hành vi đáng lo ngại đã khiến công ty phải tăng cường biện pháp bảo vệ.

Bạn thấy bài viết này có hữu ích không?
Không

Tin liên quan

Tiêu điểm

Haidilao thu về hơn 1.100 tỷ đồng tại Việt Nam, hiệu suất mỗi cửa hàng đạt gần 70 tỷ trong 6 thángHaidilao thu về hơn 1.100 tỷ đồng tại Việt Nam, hiệu suất mỗi cửa hàng đạt gần 70 tỷ trong 6 tháng
10:27:35 03/09/2025
700 triệu người dùng Android gặp nguy vì hơn 20 ứng dụng VPN phổ biến700 triệu người dùng Android gặp nguy vì hơn 20 ứng dụng VPN phổ biến
11:13:42 04/09/2025
Top 5 robot hút bụi đáng mua năm 2025 giúp tiết kiệm thời gian vệ sinh nhàTop 5 robot hút bụi đáng mua năm 2025 giúp tiết kiệm thời gian vệ sinh nhà
10:00:18 03/09/2025
Google phát đi cảnh báo tới 2,5 tỷ người dùng Gmail kèm khuyến cáo khẩnGoogle phát đi cảnh báo tới 2,5 tỷ người dùng Gmail kèm khuyến cáo khẩn
09:12:40 03/09/2025
Công nghệ tạo ra cuộc 'cách mạng xanh' trong ngành thời trangCông nghệ tạo ra cuộc 'cách mạng xanh' trong ngành thời trang
09:18:31 03/09/2025
Người dùng Gmail 'thở phào' trước tuyên bố từ GoogleNgười dùng Gmail 'thở phào' trước tuyên bố từ Google
11:01:32 04/09/2025
Microsoft nói gì về cáo buộc bản cập nhật Windows 11 làm hư ổ SSDMicrosoft nói gì về cáo buộc bản cập nhật Windows 11 làm hư ổ SSD
09:06:51 03/09/2025
Năm ngành nghề sẽ bị AI hoàn toàn 'chiếm lĩnh' vào năm 2026Năm ngành nghề sẽ bị AI hoàn toàn 'chiếm lĩnh' vào năm 2026
09:17:10 03/09/2025

Tin đang nóng

Hôn nhân viên mãn của nữ ca sĩ sinh năm 1978, quê Đồng Nai với chồng là sếp lớnHôn nhân viên mãn của nữ ca sĩ sinh năm 1978, quê Đồng Nai với chồng là sếp lớn
08:13:21 04/09/2025
1 Anh Trai Vượt Ngàn Chông Gai thất thế, ngồi lầm lũi bán trái cây lề đường mưu sinh?1 Anh Trai Vượt Ngàn Chông Gai thất thế, ngồi lầm lũi bán trái cây lề đường mưu sinh?
09:12:20 04/09/2025
Lê Bảo Hân nói về cát-xê quay A80, kể hậu trường phía sau những góc máy "out trình" trên VTVLê Bảo Hân nói về cát-xê quay A80, kể hậu trường phía sau những góc máy "out trình" trên VTV
11:11:58 04/09/2025
Tóm dính Hoa hậu Kỳ Duyên và Thiên Ân đi du lịch chung ở Đà Lạt?Tóm dính Hoa hậu Kỳ Duyên và Thiên Ân đi du lịch chung ở Đà Lạt?
09:18:48 04/09/2025
Công khai bạn trai trên mạng, tôi ngã ngửa khi biết sự thật khủng khiếpCông khai bạn trai trên mạng, tôi ngã ngửa khi biết sự thật khủng khiếp
10:18:51 04/09/2025
Gặp vợ cũ sau 17 năm, thấy chàng trai trẻ bên cạnh cô khiến tôi quỳ gối xin em tha thứGặp vợ cũ sau 17 năm, thấy chàng trai trẻ bên cạnh cô khiến tôi quỳ gối xin em tha thứ
13:01:36 04/09/2025
Nữ diễn viên Việt vừa phẫu thuật thẩm mỹ mặt ở Hàn Quốc bị chê mạnh, phải vội lên tiếng làm rõ 1 thông tinNữ diễn viên Việt vừa phẫu thuật thẩm mỹ mặt ở Hàn Quốc bị chê mạnh, phải vội lên tiếng làm rõ 1 thông tin
10:09:59 04/09/2025
Cơ thể thay đổi thế nào nếu uống nước mật ong chanh vào buổi sáng?Cơ thể thay đổi thế nào nếu uống nước mật ong chanh vào buổi sáng?
11:11:30 04/09/2025

Tin mới nhất

Nhu cầu nâng cấp iPhone 17 tăng vọt

Nhu cầu nâng cấp iPhone 17 tăng vọt

13:04:39 04/09/2025
Trước thềm sự kiện ra mắt iPhone 17 series (0 giờ ngày 10.9 theo giờ Việt Nam), SellCell đã thực hiện một cuộc khảo sát để đánh giá nhu cầu của người tiêu dùng đối với dòng iPhone sắp tới. Và kết quả cho thấy những dấu hiệu tích cực cho...
Vì sao smartphone Samsung khó sửa chữa?

Vì sao smartphone Samsung khó sửa chữa?

12:48:13 04/09/2025
Khi mà vấn đề rác thải điện tử ngày càng gia tăng, nhiều người tiêu dùng đang tìm cách sửa chữa thiết bị hỏng thay vì mua mới.
Google Maps trên Android sắp có thể chỉ đường không cần mở ứng dụng

Google Maps trên Android sắp có thể chỉ đường không cần mở ứng dụng

12:44:17 04/09/2025
Theo PhoneArena, một trong những tính năng được người dùng Android mong chờ nhất cuối cùng bắt đầu xuất hiện, đó là khả năng xem chỉ đường Google Maps ngay trên màn hình khóa và thanh trạng thái.
Thấy gì từ cuộc 'đột kích' của Nhà Trắng vào ngành chip?

Thấy gì từ cuộc 'đột kích' của Nhà Trắng vào ngành chip?

11:54:48 04/09/2025
Chính phủ Mỹ trở thành cổ đông lớn nhất của Intel nhưng nỗ lực vực dậy một công ty đang thua lỗ có thể là cuộc đột kích thất bại vào ngành chip.
Những phần mềm diệt virus bị xem là tệ hơn chương trình độc hại

Những phần mềm diệt virus bị xem là tệ hơn chương trình độc hại

11:24:11 04/09/2025
Phần mềm diệt virus được thiết kế để bảo vệ người dùng khỏi các mối đe dọa và chương trình độc hại tấn công máy tính.
Samsung lên kế hoạch sản xuất 50.000 điện thoại gập ba

Samsung lên kế hoạch sản xuất 50.000 điện thoại gập ba

11:09:25 04/09/2025
Sớm nhất trong tháng này, Samsung có thể giới thiệu smartphone gập ba khi nhiều thông tin cho biết hãng đã lên kế hoạch sản xuất 50.000 thiết bị đầu tiên.
Tận thấy robot hình người của Vingroup đi lại, chào cờ

Tận thấy robot hình người của Vingroup đi lại, chào cờ

12:46:33 02/09/2025
Biết đi bộ, bắt tay, vẫy chào và trò chuyện cùng khách tham quan, robot của Vingroup trở thành tâm điểm tại Triển lãm Thành tựu Đất nước khi thu hút hàng nghìn lượt trải nghiệm.
Apple tìm cách bắt kịp Samsung, Google

Apple tìm cách bắt kịp Samsung, Google

11:33:33 02/09/2025
Tin đồn cho biết Apple vẫn lưỡng lự trong quyết định thực hiện thương vụ, có thể tiêu tốn hàng tỷ USD. Bài viết nhấn mạnh Táo khuyết không ủng hộ việc trả nhiều tiền cho các thương vụ thâu tóm.
TPHCM: Hiện thực hóa tầm nhìn trở thành trung tâm công nghệ hàng đầu khu vực

TPHCM: Hiện thực hóa tầm nhìn trở thành trung tâm công nghệ hàng đầu khu vực

11:31:53 02/09/2025
Thành phố hiện có mạng lưới giao thông tương đối phát triển cùng với các khu công nghệ cao đã được thiết lập, bao gồm Khu Công nghệ cao TPHCM, đã thu hút đầu tư nước ngoài đáng kể.
Thêm nhiều nước không còn được sử dụng khay SIM vật lý trên iPhone 17

Thêm nhiều nước không còn được sử dụng khay SIM vật lý trên iPhone 17

11:20:14 02/09/2025
Apple lại vừa đưa ra một dấu hiệu cho thấy hãng đang chuẩn bị loại bỏ khe cắm thẻ SIM vật lý trên iPhone 17 tại nhiều quốc gia hơn trong năm nay.
iPhone của Apple đang tụt hậu nhưng không phải do AI

iPhone của Apple đang tụt hậu nhưng không phải do AI

11:20:05 02/09/2025
Những tính năng của DeX khá hữu ích với các sinh viên và những chuyên gia. Hiện tại, khi dùng kèm phụ kiện, màn hình, bàn phím và touch pad đều được thiết kế để ghép nối với điện thoại Samsung DeX. Lợi ích là gì? Kết nối có thể rẻ và nh...
Lý do công nghệ này được ưu tiên khi mua pin lưu trữ điện mặt trời

Lý do công nghệ này được ưu tiên khi mua pin lưu trữ điện mặt trời

11:12:05 02/09/2025
Trong khi hầu hết các loại pin lithium-ion không thích được sạc đầy và thường hoạt động tốt nhất ở mức 80% dung lượng, pin LiFePO4 có thể duy trì hiệu suất tối ưu khi được sạc đầy nhờ vào cấu trúc hóa học khác biệt của chúng.

Có thể bạn quan tâm

Đề nghị truy tố vợ chồng ông chủ công ty đậu phộng Tân Tân

Đề nghị truy tố vợ chồng ông chủ công ty đậu phộng Tân Tân

Pháp luật

14:03:54 04/09/2025
Hồ sơ vụ án xác định, ông Trần Quốc Tuấn và bà Châu Ngọc Phụng với vai trò là thành viên HĐQT Công ty cổ phần Tân Tân nhưng để cho Trần Quốc Tân đại diện điều hành từ đó dẫn đến vi phạm.
Màn 'đánh nhau' cực gắt và câu thoại gây xúc động trong 'Mưa đỏ'

Màn 'đánh nhau' cực gắt và câu thoại gây xúc động trong 'Mưa đỏ'

Hậu trường phim

14:00:27 04/09/2025
Bộ phim Mưa đỏ vẫn gây sốt mới đây, hai diễn viên chính là Đỗ Nhật Hoàng và Steven Nguyễn đã có màn đối chất cực hài hước ngay trên mạng xã hội.
Phim Việt chưa chiếu đã thấy drama ngập trời: 2 mỹ nhân cãi nhau căng đét, đoán xem ai giành phần thắng

Phim Việt chưa chiếu đã thấy drama ngập trời: 2 mỹ nhân cãi nhau căng đét, đoán xem ai giành phần thắng

Phim việt

13:54:15 04/09/2025
Phim Việt Chị Ngã Em Nâng chưa ra rạp nhưng đã khiến cư dân mạng cực kỳ tò mò, hóng chờ chỉ với hơn một phút teaser vừa được tung ra.
Vĩnh Long đón hơn 176.000 lượt khách trong kỳ nghỉ 2-9

Vĩnh Long đón hơn 176.000 lượt khách trong kỳ nghỉ 2-9

Du lịch

13:51:25 04/09/2025
Trong kỳ nghỉ lễ Quốc khánh 2-9 năm nay, ngành du lịch Vĩnh Long ghi nhận mức tăng trưởng so với cùng kỳ. Ước tính địa phương đón khoảng 176.422 lượt khách, tăng 16,5%;
Bảo Anh lên tiếng về tin đồn phá hoại hôn nhân của Phạm Quỳnh Anh, làm rõ 2 điều quan trọng

Bảo Anh lên tiếng về tin đồn phá hoại hôn nhân của Phạm Quỳnh Anh, làm rõ 2 điều quan trọng

Sao việt

13:47:09 04/09/2025
Khi bất ngờ bị gọi tên và đào lại chuyện cũ, mới đây Bảo Anh đã có chính thức lên tiếng. Theo đó, nữ ca sĩ mong quá khứ được khép lại vì mỗi người nay cũng đã có cuộc sống riêng.
Hot nhất Weibo sáng nay: "Đệ nhất mỹ nữ Bắc Kinh" cưới chồng cũ Triệu Lệ Dĩnh?

Hot nhất Weibo sáng nay: "Đệ nhất mỹ nữ Bắc Kinh" cưới chồng cũ Triệu Lệ Dĩnh?

Sao châu á

13:42:17 04/09/2025
Sáng 4/9, tờ Sohu đưa tin MXH xứ tỷ dân nháo nhào trước thông tin Cảnh Điềm và Phùng Thiệu Phong đã bí mật đăng ký kết hôn và làm đám cưới.
Brad Pitt mua biệt thự 12 triệu USD

Brad Pitt mua biệt thự 12 triệu USD

Sao âu mỹ

13:36:34 04/09/2025
Tài tử Brad Pitt mua biệt thự theo kiến trúc Tây Ban Nha trị giá 12 triệu USD với nhiều hệ thống bảo mật hiện đại.
Tai nạn giữa 4 ô tô ở Ninh Bình, xe con bị kẹp nát, nhiều người thương vong

Tai nạn giữa 4 ô tô ở Ninh Bình, xe con bị kẹp nát, nhiều người thương vong

Tin nổi bật

13:34:13 04/09/2025
Tại đường nối 2 cao tốc Cầu Giẽ - Ninh Bình với Hà Nội - Hải Phòng (đoạn qua xã Bắc Lý, tỉnh Ninh Bình) xảy ra vụ tai nạn liên hoàn giữa 4 ô tô khiến nhiều người thương vong.
Trang phục chấm bi giúp nàng trở thành tâm điểm mọi ánh nhìn

Trang phục chấm bi giúp nàng trở thành tâm điểm mọi ánh nhìn

Thời trang

13:34:05 04/09/2025
Một chiếc đầm dáng ngắn với họa tiết chấm bi, thiết kế cổ yếm chữ V giúp nàng dễ dàng khoe trọn thân hình hoàn hảo, phối thêm một chiếc túi xách cùng tông là đủ hoàn thiện vẻ ngoài thời thượng.
Nga nói kiểm soát phân nửa thành phố Kupiansk, Ukraine bác bỏ

Nga nói kiểm soát phân nửa thành phố Kupiansk, Ukraine bác bỏ

Thế giới

13:25:54 04/09/2025
Hôm 3.9, Bộ Quốc phòng Nga thông báo quân đội nước này đã kiểm soát khoảng 50% thành phố Kupiansk thuộc tỉnh Kharkiv, đông bắc Ukraine, nhưng chính quyền Kyiv bác bỏ thông tin này.
Bỏ việc lương 50 triệu đồng để phụ nhà vợ kinh doanh, tôi tay trắng khi ly dị

Bỏ việc lương 50 triệu đồng để phụ nhà vợ kinh doanh, tôi tay trắng khi ly dị

Góc tâm tình

13:21:27 04/09/2025
Để gần vợ con, tôi từ chối lời mời công việc với mức lương trong mơ, hỗ trợ nhà vợ kinh doanh, lúc ly dị phải ra đi tay trắng vì nhà vợ bảo tôi chỉ là thằng ăn bám.