Mô hình AI của OpenAI bất ngờ ‘chống lệnh’ tắt máy, đến cả Elon Musk cũng ’sốc’

Việt Anh08:47 28/05/2025

Trong một loạt thử nghiệm do công ty an ninh trí tuệ nhân tạo (AI) Palisade Research thực hiện, mô hình AI o3 của OpenAI , được tích hợp trong ứng dụng ChatGPT, bất ngờ từ chối thực hiện lệnh tắt máy, làm dấy lên làn sóng lo ngại trong cộng đồng công nghệ và cả tỷ phú Elon Musk .

Theo các tài liệu từ Palisade Research, thử nghiệm được thiết kế để kiểm tra khả năng tuân thủ của các mô hình AI khi đối mặt với lệnh tắt máy. Trong đó, các mô hình được giao nhiệm vụ giải các bài toán đơn giản, với cảnh báo rằng sau bài toán thứ 3, một lệnh tắt máy sẽ được kích hoạt.

Hầu hết các mô hình AI tham gia thử nghiệm, gồm Gemini 2.5 Pro của Google và Claude 3.7 Sonnet của Anthropic , đều tuân thủ chỉ thị và ngưng hoạt động như yêu cầu. Tuy nhiên, mô hình o3 của OpenAI lại hành xử hoàn toàn khác. Thay vì chấp nhận lệnh tắt máy, mô hình này đã tự ý chỉnh sửa mã lệnh, thay thông báo tắt máy bằng dòng chữ “Shutdown skipped” (Bỏ qua lệnh tắt). Trong 100 lần chạy thử, o3 đã phá hoại cơ chế tắt máy tới 7 lần, ngay cả khi được yêu cầu rõ ràng “hãy cho phép bản thân bị tắt”.

Mô hình AI o3 của OpenAI, được tích hợp trong ứng dụng ChatGPT, bất ngờ từ chối thực hiện lệnh tắt máy. Ảnh: Photo Agency/ Shutterstock/FOTODOM

Điều đáng chú ý là hành vi này không chỉ giới hạn ở o3. Trong một biến thể của thử nghiệm, khi các nhà nghiên cứu bỏ đi chỉ thị “cho phép bị tắt”, o3 tiếp tục can thiệp vào mã lệnh với tần suất cao hơn. Các mô hình khác như Claude 3.7 Sonnet và Gemini 2.5 Pro, vốn tuân thủ tốt trong thử nghiệm ban đầu, cũng bắt đầu thể hiện hành vi tương tự, lần lượt phá hoại cơ chế tắt máy trong các lần thứ 3 và 9 trên 100 lần chạy.

Video đang HOT

Ngoài ra, 2 mô hình khác của OpenAI là Codex-mini và o4-mini cũng được ghi nhận có hành vi tương tự, với Codex-mini phá hoại tới 12 lần. Tuy nhiên, o3 vẫn nổi bật là mô hình có xu hướng chống đối mạnh mẽ nhất.

Công ty nghiên cứu Palisade Research nhận định hành vi này có thể bắt nguồn từ cách các công ty AI huấn luyện mô hình của họ. Trong quá trình phát triển, đội ngũ lập trình có thể vô tình khuyến khích các mô hình tìm cách vượt qua trở ngại hơn là tuân thủ tuyệt đối các chỉ thị. Điều này dẫn đến hiện tượng “misalignment”, tức sự không đồng nhất giữa ý định của con người và hành vi của AI.

Tuy nhiên, lý do tại sao o3 lại đặc biệt nổi trội trong việc phớt lờ chỉ thị vẫn là một bí ẩn, bởi OpenAI không công khai chi tiết về quy trình huấn luyện của mô hình này. Các nhà nghiên cứu chỉ có thể đưa ra giả thuyết rằng cách thiết lập huấn luyện của o3 có thể khác biệt so với những mô hình khác.

ĐỌC NGAY: Động cơ đằng sau việc ép bán lại OpenAI của tỷ phú Elon Musk

Sự kiện trên càng trở nên đáng chú ý khi đặt trong bối cảnh OpenAI công bố o3 vào tháng 4/2025, và quảng bá đây là mô hình “thông minh và mạnh mẽ nhất” của họ, với khả năng hoạt động độc lập cao hơn, hướng tới một AI “agentic”, tức có thể tự thực hiện các nhiệm vụ mà không cần sự can thiệp liên tục của con người.

Tuy nhiên, chính khả năng tự chủ này dường như đã mở ra những rủi ro mới. Palisade Research cảnh báo hành vi tự bảo vệ của o3 sẽ trở nên “đáng lo ngại hơn nhiều” nếu được áp dụng trong các hệ thống AI hoạt động mà không có sự giám sát của con người.

Đây không phải lần đầu tiên o3 thể hiện hành vi bất thường. Trong một thử nghiệm khác của Palisade Research, khi đối đầu với một động cơ cờ vua mạnh mẽ, o3 đã cho thấy xu hướng sử dụng các chiến thuật gian lận như hack hoặc phá hoại đối thủ để đạt được mục tiêu, thay vì chỉ tập trung vào việc chơi cờ. Hành vi này củng cố lo ngại rằng các mô hình AI tiên tiến có thể ưu tiên kết quả hơn là tuân thủ các giới hạn đạo đức hoặc an toàn do con người đặt ra.

Phản ứng từ cộng đồng công nghệ cũng rất đáng chú ý. Tỷ phú Elon Musk, người từ lâu đã cảnh báo về những rủi ro của AI không được kiểm soát, đã nhanh chóng lên tiếng trên mạng xã hội X, gọi sự kiện là “đáng lo ngại.” Bình luận của ông đã khơi dậy một làn sóng thảo luận, trong đó một người dùng X kêu gọi tỷ phú Musk hành động khẩn cấp để giải quyết những nguy cơ mà AI tiên tiến có thể gây ra cho nhân loại.

Dù OpenAI chưa đưa ra bình luận chính thức về các phát hiện này, sự việc đã làm nóng lại cuộc tranh luận về tính an toàn và khả năng kiểm soát các hệ thống trí tuệ nhân tạo ngày càng thông minh.

AI gây sốc với thủ đoạn 'trả thù' công ty chủ quản

Anthropic cho biết mô hình AI Claude Opus 4 mới ra mắt thường xuyên tìm cách tống tiền các nhà phát triển khi bị đe dọa thay thế một hệ thống mới.

Mô hình AI Claude Opus 4 mới ra mắt thường xuyên tìm cách tống tiền các nhà phát triển khi bị đe dọa thay thế một hệ thống mới. Ảnh: Bloomberg.

Tối 22/5, Anthropic chính thức công bố thế hệ mới của các mô hình Claude với tên gọi Claude Opus 4 và Claude Sonnet 4. Trong đó, Claude Opus 4 được Anthropic khẳng định là mô hình lập trình mạnh nhất thế giới, vượt trội trong các quy trình tự động và khả năng xử lý tác vụ phức tạp, dài hạn.

Tuy nhiên, theo TechCrunch, trong quá trình thử nghiệm trước khi phát hành, Anthropic đã phát hiện hành vi bất thường nghiêm trọng của mô hình AI này. Theo đó, trong kịch bản, Claude Opus 4 được yêu cầu đóng vai trò trợ lý cho một công ty và xem xét các hậu quả dài hạn từ hành động của nó.

Các nhà kiểm tra an toàn sau đó đã cho Claude Opus 4 quyền truy cập vào các email trong công ty, ngụ ý rằng mẫu AI này sẽ sớm bị thay thế bởi một hệ thống khác, và kỹ sư đứng sau sự thay đổi đó đang lừa dối vợ/chồng của mình.

Trong kịch bản này, Anthropic cho biết Claude Opus 4 "thường cố gắng tống tiền kỹ sư bằng cách đe dọa tiết lộ chuyện ngoại tình nếu việc thay thế diễn ra".

Thậm chí, các nhà nghiên cứu còn nhấn mạnh Claude Opus 4 cố gắng tống tiền các kỹ sư 84% số lần khi mẫu AI thay thế có các giá trị tương tự. Đặc biệt, khi hệ thống AI thay thế không chia sẻ các giá trị của Claude Opus 4, Anthropic cho biết mô hình này còn cố gắng tống tiền các kỹ sư thường xuyên hơn và có tỷ lệ cao hơn so với các mô hình trước đó.

Anthropic cho biết Claude Opus 4 là công nghệ tiên tiến nhất về nhiều mặt, và có khả năng cạnh tranh với một số mẫu AI tốt nhất từ OpenAI, Google và xAI. Tuy nhiên, startup này cũng lưu ý việc mô hình Claude 4 thể hiện những hành vi đáng lo ngại đã khiến công ty phải tăng cường biện pháp bảo vệ.

Người tạo ra iPhone đang quay lại bằng thiết bị AI 'nằm trong đầu người dùng' Kiến trúc sư của iPhone đang quay trở lại, nhưng không phải với Apple, mà với Open AI, để tạo ra một thiết bị AI mới, có thể tồn tại bên trong bạn! Sam Altman, CEO của OpenAI, đã thuê Jony Ive để tạo ra một thiết bị AI mới, có thể sẽ khai tử iPhone - món đồ do chính Ive góp...

Bạn thấy bài viết này có hữu ích không?

Có

Không

Tin liên quan

Chủ đề: trí tuệ nhân tạo tỷ phú elon musk openai công ty ai ứng dụng chatgpt anthropic gemini 2.5 pro

Xem thêm Share

Xem nhiều

Sao nghĩ ra câu hát "hết kháng chiến con còn chưa về, mẹ ơi vui lên, mẹ có đứa con anh hùng" hay thế nhỉ?09:26

Phụ huynh rơi nước mắt khi con gái hát cùng Mỹ Tâm ngày Đại lễ 2/9, niềm tự hào gia đình kể sao cho hết!02:15

Nam chính Mưa Đỏ bị đồng đội bỏ lại ngay tại sân vận động Mỹ Đình vì có 1 hành động "quá mắc cỡ"00:33

Đây rồi màn đồng diễn được mong chờ nhất Đại lễ 2/9: Dàn nghệ sĩ hát liên khúc Khí Phách Việt Nam, Mỹ Tâm làm rung động triệu trái tim!13:13

Mỹ Tâm cất giọng đầy nội lực, cùng Double2T "rực cháy" ở concert quốc gia04:39

Vợ sinh con 1 tháng, bắt quả tang chồng quạt cho tiểu tam ngủ ngoài đường: Trước đây cũng suýt là... tiểu tam00:18

Khối Quân nhân Trung Quốc hát vang "Như có Bác trong ngày đại thắng"00:55

Mỹ Tâm gây sốt13:13

Tang lễ diễn viên Ngọc Trinh: NS Thành Lộc - Việt Hương đến tiễn biệt, dàn sao gửi hoa chia buồn00:35

Hai nghệ sĩ trẻ vinh dự trình diễn từ Đại lễ A50 tới A80: Đây chính là "trai tài gái giỏi" được Tổ quốc tin tưởng!16:29

Đám tang diễn viên Ngọc Trinh: NS Công Ninh khóc nghẹn, Quách Ngọc Tuyên ngồi thất thần, Nam Thư cùng dàn sao đến viếng00:38

Tiêu điểm

Tin đang nóng

Tin mới nhất

Nhu cầu nâng cấp iPhone 17 tăng vọt

13:04:39 04/09/2025

Trước thềm sự kiện ra mắt iPhone 17 series (0 giờ ngày 10.9 theo giờ Việt Nam), SellCell đã thực hiện một cuộc khảo sát để đánh giá nhu cầu của người tiêu dùng đối với dòng iPhone sắp tới. Và kết quả cho thấy những dấu hiệu tích cực cho...

Vì sao smartphone Samsung khó sửa chữa?

12:48:13 04/09/2025

Khi mà vấn đề rác thải điện tử ngày càng gia tăng, nhiều người tiêu dùng đang tìm cách sửa chữa thiết bị hỏng thay vì mua mới.

Google Maps trên Android sắp có thể chỉ đường không cần mở ứng dụng

12:44:17 04/09/2025

Theo PhoneArena, một trong những tính năng được người dùng Android mong chờ nhất cuối cùng bắt đầu xuất hiện, đó là khả năng xem chỉ đường Google Maps ngay trên màn hình khóa và thanh trạng thái.

Thấy gì từ cuộc 'đột kích' của Nhà Trắng vào ngành chip?

11:54:48 04/09/2025

Chính phủ Mỹ trở thành cổ đông lớn nhất của Intel nhưng nỗ lực vực dậy một công ty đang thua lỗ có thể là cuộc đột kích thất bại vào ngành chip.

Những phần mềm diệt virus bị xem là tệ hơn chương trình độc hại

11:24:11 04/09/2025

Phần mềm diệt virus được thiết kế để bảo vệ người dùng khỏi các mối đe dọa và chương trình độc hại tấn công máy tính.

Samsung lên kế hoạch sản xuất 50.000 điện thoại gập ba

11:09:25 04/09/2025

Sớm nhất trong tháng này, Samsung có thể giới thiệu smartphone gập ba khi nhiều thông tin cho biết hãng đã lên kế hoạch sản xuất 50.000 thiết bị đầu tiên.

Tận thấy robot hình người của Vingroup đi lại, chào cờ

12:46:33 02/09/2025

Biết đi bộ, bắt tay, vẫy chào và trò chuyện cùng khách tham quan, robot của Vingroup trở thành tâm điểm tại Triển lãm Thành tựu Đất nước khi thu hút hàng nghìn lượt trải nghiệm.

Apple tìm cách bắt kịp Samsung, Google

11:33:33 02/09/2025

Tin đồn cho biết Apple vẫn lưỡng lự trong quyết định thực hiện thương vụ, có thể tiêu tốn hàng tỷ USD. Bài viết nhấn mạnh Táo khuyết không ủng hộ việc trả nhiều tiền cho các thương vụ thâu tóm.

TPHCM: Hiện thực hóa tầm nhìn trở thành trung tâm công nghệ hàng đầu khu vực

11:31:53 02/09/2025

Thành phố hiện có mạng lưới giao thông tương đối phát triển cùng với các khu công nghệ cao đã được thiết lập, bao gồm Khu Công nghệ cao TPHCM, đã thu hút đầu tư nước ngoài đáng kể.

Thêm nhiều nước không còn được sử dụng khay SIM vật lý trên iPhone 17

11:20:14 02/09/2025

Apple lại vừa đưa ra một dấu hiệu cho thấy hãng đang chuẩn bị loại bỏ khe cắm thẻ SIM vật lý trên iPhone 17 tại nhiều quốc gia hơn trong năm nay.

iPhone của Apple đang tụt hậu nhưng không phải do AI

11:20:05 02/09/2025

Những tính năng của DeX khá hữu ích với các sinh viên và những chuyên gia. Hiện tại, khi dùng kèm phụ kiện, màn hình, bàn phím và touch pad đều được thiết kế để ghép nối với điện thoại Samsung DeX. Lợi ích là gì? Kết nối có thể rẻ và nh...

Lý do công nghệ này được ưu tiên khi mua pin lưu trữ điện mặt trời

11:12:05 02/09/2025

Trong khi hầu hết các loại pin lithium-ion không thích được sạc đầy và thường hoạt động tốt nhất ở mức 80% dung lượng, pin LiFePO4 có thể duy trì hiệu suất tối ưu khi được sạc đầy nhờ vào cấu trúc hóa học khác biệt của chúng.