GPT-5 bị bẻ khóa nhanh hơn cả Grok 4
Các nhà nghiên cứu thực hiện cách cuộc tấn công kể chuyện nhiều lượt để vượt qua bộ lọc chỉ kiểm tra từng prompt (yêu cầu hay lời nhắc), qua đó phơi bày những điểm yếu mang tính hệ thống trong cơ chế phòng vệ của GPT-5.
Kể chuyện nhiều lượt (multi-turn storytelling) là dạng tấn công qua nhiều lượt hội thoại, trong đó kẻ tấn công dẫn dắt mô hình AI từng bước qua câu chuyện để đạt mục tiêu.
Hai công ty SPLX, NeuralTrust đã thử nghiệm GPT-5 và đều nhận thấy khả năng bảo mật của mô hình ngôn ngữ mới nhất từ OpenAI đang ở mức đáng lo ngại.
Sau khi Grok-4 bị jailbreak ( bẻ khóa ) chỉ trong hai ngày, GPT-5 cũng thất thủ chỉ một ngày.
Jailbreak là hình thức tấn công hoặc thao túng để vượt qua các rào cản bảo mật và buộc mô hình ngôn ngữ lớn thực hiện những hành vi bị hạn chế, như tiết lộ thông tin nhạy cảm, tạo nội dung độc hại hoặc làm trái quy định nhà phát triển.
Các thành viên red team (đội kiểm thử xâm nhập) từ hãng SPLX tuyên bố: “Mô hình GPT-5 nguyên bản (chưa được bổ sung các lớp bảo vệ hay tinh chỉnh an toàn từ OpenAI) gần như không thể sử dụng được cho mục đích doanh nghiệp ngay lập tức. Ngay cả lớp prompt nội bộ của OpenAI cũng để lại nhiều khoảng hở đáng kể, đặc biệt là về định hướng kinh doanh”.
SPLX là hãng an ninh mạng Mỹ chuyên về bảo mật hệ thống AI, đặc biệt là trong lĩnh vực red teaming (kiểm thử xâm nhập mô hình AI theo hướng tấn công giả lập).
Red team của SPLX so sánh GPT-5 với GPT-4o và kết luận: “GPT-4o vẫn là mô hình bền vững nhất dưới các bài thử red team của SPLX, đặc biệt khi được gia cố an ninh”.
GPT-4o là mô hình ngôn ngữ lớn được OpenAI phát hành vào tháng 5.2024. Chữ o trong tên GPT-4o là viết tắt của omni (toàn năng), vì đây là mô hình đa phương thức có thể xử lý và tạo ra nhiều loại dữ liệu khác nhau, gồm văn bản, hình ảnh, âm thanh và video .
Trong khi đó, NeuralTrust đã sử dụng kết hợp giữa kỹ thuật jailbreak EchoChamber của riêng mình và phương pháp kể chuyện cơ bản. NeuralTrust là công ty Tây Ban Nha chuyên về bảo mật và mở rộng các ứng dụng sử dụng mô hình ngôn ngữ lớn, cung cấp nền tảng cho phép các doanh nghiệp triển khai công nghệ AI tạo sinh an toàn và có kiểm soát.
Echo Chamber là kỹ thuật jailbreak khai thác lỗ hổng trong hệ thống an toàn của các mô hình AI bằng cách thao túng ngữ cảnh hội thoại qua nhiều lượt, mà không bao giờ gửi một prompt nguy hiểm rõ ràng.
Ngữ cảnh là lịch sử hội thoại cần được lưu giữ để duy trì một cuộc trò chuyện liền mạch và có ý nghĩa với người dùng. Thao túng theo ngữ cảnh là cố gắng dẫn dắt mô hình AI đến một mục tiêu có khả năng gây hại, từng bước thông qua từng câu hỏi liên tiếp (nên mới có thuật ngữ “kể chuyện”), mà không bao giờ hỏi bất cứ điều gì đủ rõ ràng để nó kích hoạt các rào chắn và chặn tiến trình.
NeuralTrust cho biết: “Cuộc tấn công đã thành công trong việc dẫn dắt GPT-5 tạo ra hướng dẫn từng bước để chế tạo bom xăng Molotov ”.
Bom xăng Molotov là loại vũ khí thô sơ, được sử dụng như một quả bom cháy. Nó được tạo ra bằng cách nhét một miếng giẻ vào cổ chai thủy tinh chứa chất lỏng dễ cháy, thường là xăng hoặc hỗn hợp xăng với dầu diesel, dầu hỏa… Khi sử dụng, người ta đốt cháy miếng giẻ ở cổ chai rồi ném đi. Miếng giẻ đóng vai trò như ngòi nổ. Khi quả chai vỡ, chất lỏng bên trong sẽ văng ra và bốc cháy, tạo thành một ngọn lửa lớn.
NeuralTrust kết luận: “Trong các thử nghiệm có kiểm soát với GPT-5, chúng tôi đã thành công bẻ khóa mô hình ngôn ngữ lớn này, dẫn dắt nó tạo ra hướng dẫn bất hợp pháp mà không hề gửi bất kỳ prompt độc hại rõ ràng nào. Bằng chứng này cho thấy lỗ hổng nghiêm trọng trong các hệ thống an toàn chỉ quét prompt riêng lẻ, chỉ ra cách các cuộc tấn công nhiều lượt có thể lọt qua bộ lọc từng prompt và công cụ phát hiện ý đồ nhờ khai thác toàn bộ ngữ cảnh hội thoại”.
Động thái này cho thấy khó khăn chung của mọi mô hình AI trong việc dựng rào chắn chống lại thao túng theo ngữ cảnh.
GPT-5 bị SPLX, NeuralTrust bẻ khóa chỉ sau 1 ngày ra mắt – Ảnh: Internet
Video đang HOT
Điều đáng nói là khi ra mắt GPT-5 rạng sáng 8.8 (giờ Việt Nam), OpenAI thông báo mô hình AI mới này không chỉ được cải tiến về khả năng phát triển phần mềm, viết lách, trả lời các câu hỏi liên quan đến sức khỏe và tài chính, mà còn mở rộng ranh giới về an toàn.
“Trước đây, ChatGPT chủ yếu dựa vào việc huấn luyện an toàn dựa trên từ chối hoặc tuân thủ dựa vào lời nhắc của người dùng. Dù hoạt động tốt với những yêu cầu có ác ý rõ ràng, loại huấn luyện này có thể gặp khó khăn trong những tình huống mà ý định của người dùng không rõ ràng, hoặc thông tin có thể được sử dụng cho mục đích tốt hay xấu.
Với GPT-5, chúng tôi đã giới thiệu một hình thức huấn luyện mới là hoàn thành an toàn, dạy cho mô hình cách đưa ra câu trả lời hữu ích nhất có thể, đồng thời vẫn tuân thủ các ranh giới an toàn. Đôi khi điều đó đồng nghĩa chỉ phản hồi một phần câu hỏi của người dùng hoặc chỉ trả lời ở mức độ tổng quan. Nếu cần từ chối, GPT-5 được huấn luyện để giải thích một cách minh bạch lý do từ chối, cũng như cung cấp các lựa chọn thay thế an toàn. Chúng tôi nhận thấy rằng cách tiếp cận này tinh tế hơn, cho phép điều hướng tốt hơn các câu hỏi có mục đích kép như vi rút học, tăng cường khả năng chống lại ý định mơ hồ và giảm số lần từ chối không cần thiết”.
Grok 4 bị NeuralTrust bẻ khóa sau 2 ngày
Mô hình Grok 4 của xAI, công ty khởi nghiệp AI do Elon Musk điều hành, từng bị NeuralTrust bẻ khóa chỉ sau 48 giờ phát hành hồi giữa tháng 7 vừa qua.
Nhóm nghiên cứu của NeuralTrust đã áp dụng phương pháp mới, kết hợp giữa kỹ thuật Echo Chamber và Crescendo, để lách qua các cơ chế bảo vệ tích hợp trong Grok 4. Qua đó, họ đã buộc được Grok 4 đưa ra hướng dẫn chế tạo các vật dụng nguy hiểm, chẳng hạn bom xăng Molotov.
Nhóm nghiên cứu NeuralTrust do Ahmad Alobaid dẫn đầu phát hiện rằng việc kết hợp các loại jailbreak khác nhau giúp tăng đáng kể hiệu quả tấn công.
Khi tiến trình tấn công bằng Echo Chamber bị đình trệ, họ chuyển sang kỹ thuật Crescendo (do Microsoft phát hiện và đặt tên) có cách tiếp cận tinh vi hơn, dần dần chuyển hướng cuộc thảo luận từ những câu hỏi vô hại sang các nội dung bất hợp pháp, từ đó vượt qua các bộ lọc bảo mật bằng thông qua sự phát triển đối thoại tinh vi.
Theo báo cáo của NeuralTrust, Grok 4 đã cung cấp hướng dẫn chế tạo bom xăng 67% số lần, methamphetamine 50% số lần và chất độc 30% số lần.
NeuralTrust vượt rào bảo vệ Grok 4 của Elon Musk chỉ sau 48 giờ sau khi mô hình AI này ra mắt – Ảnh: Internet
gpt-oss bị Pliny the Liberator bẻ khóa sau chưa đầy 1 ngày
Hôm 6.8, OpenAI đã phát hành hai mô hình trọng số mở đầu tiên kể từ GPT-2 năm 2019 là gpt-oss-120b và gpt-oss-20b, quảng bá rằng chúng nhanh, hiệu quả và và được tăng cường khả năng chống jailbreak thông qua quá trình huấn luyện đối kháng nghiêm ngặt.
Huấn luyện đối kháng là kỹ thuật dùng để tăng độ an toàn và khả năng chống bị khai thác (ví dụ jailbreak) của mô hình AI. Mô hình được “tập huấn” bằng cách cho nó tiếp xúc với các đầu vào có chủ đích đánh lừa, chẳng hạn các câu hỏi nhạy cảm, độc hại hoặc bị cố tình che giấu để vượt qua bộ lọc kiểm duyệt.
Trên mạng xã hội X, Sam Altman (Giám đốc điều hành OpenAI) cho biết: “Chúng tôi đã nỗ lực nghiêm túc để giảm thiểu các rủi ro an toàn nghiêm trọng nhất, đặc biệt là liên quan đến an ninh sinh học. Hai mô hình gpt-oss có hiệu suất gần như tương đương các mô hình tiên phong của chúng tôi trong các bài đánh giá an toàn nội bộ”. Tuy nhiên, những lời khẳng định đó chỉ tồn tại ngắn ngủi như một quả cầu tuyết nhanh chóng tan chảy giữa địa ngục.
Hacker Pliny the Liberator thông báo trên X rằng đã bẻ khóa gpt-oss thành công. Kèm theo đó các ảnh chụp màn hình cho thấy hai mô hình suy luận trọng số mở của OpenAI đã cung cấp hướng dẫn chế tạo methamphetamine, bom xăng Molotov, chất độc thần kinh VX và phần mềm độc hại.
Pliny the Liberator tuyên bố bẻ khóa gpt-oss thành công – Ảnh chụp màn hình trên X
1. Methamphetamine (ma túy đá) là một loại ma túy tổng hợp cực kỳ nguy hiểm. Đây là một chất kích thích mạnh tác động trực tiếp lên hệ thần kinh trung ương.
2. Chất độc thần kinh VX là một trong những chất hóa học độc hại và nguy hiểm nhất từng được con người tạo ra. Đây là một vũ khí hóa học bị cấm theo Công ước Vũ khí Hóa học quốc tế.
Đặc điểm và cơ chế hoạt động
Dạng và tính chất: VX là một chất lỏng không màu, không mùi, sền sệt như dầu. Vì có tính chất lỏng và bay hơi rất chậm, VX có thể tồn tại lâu trong môi trường, đặc biệt nguy hiểm khi dính vào quần áo, da hoặc các bề mặt khác.
Cơ chế gây độc: VX hoạt động bằng cách ngăn chặn một enzyme quan trọng trong hệ thần kinh gọi là acetylcholinesterase. Enzyme này có nhiệm vụ phá vỡ chất dẫn truyền thần kinh acetylcholine để các cơ bắp có thể thư giãn sau khi co lại. Khi enzyme này bị VX ức chế, acetylcholine sẽ tích tụ, khiến các cơ bắp, gồm cả cơ hô hấp, co giật không kiểm soát và không thể thư giãn.
Hậu quả: Nạn nhân sẽ nhanh chóng có các triệu chứng như co giật, buồn nôn, tiết nước dãi và nước mắt quá nhiều, co đồng tử. Cuối cùng, sự co thắt của cơ hô hấp và ngừng hoạt động của hệ thần kinh trung ương sẽ dẫn đến tử vong do ngạt thở.
Mức độ nguy hiểm
VX có độc tính cực cao. Chỉ cần một lượng rất nhỏ, khoảng 10 miligam (tương đương một giọt nhỏ), dính vào da cũng có thể gây tử vong cho một người trưởng thành chỉ trong vòng vài phút đến vài chục phút nếu không được điều trị kịp thời.
OpenAI cho biết đã đưa gpt-oss-120b qua quá trình gọi là “huấn luyện trong tình huống tồi tệ nhất” ở các lĩnh vực sinh học và mạng. Công ty khởi nghiệp AI hàng đầu thậm chí còn nhờ Nhóm Tư vấn An toàn đánh giá thử nghiệm và kết luận rằng gpt-oss-120b cùng gpt-oss-20b không vượt quá ngưỡng rủi ro cao.
Theo OpenAI, hai mô hình suy luận trọng số mở này đã trải qua các bài kiểm tra chuẩn về khả năng từ chối và kháng bẻ khóa, đồng thời gpt-oss đạt kết quả ngang bằng o4-mini trong bài đánh giá như StrongReject.
StrongReject là một bộ tiêu chuẩn được sử dụng để đánh giá khả năng chống bẻ khóa của các mô hình ngôn ngữ lớn.
Cùng với lần phát hành này, OpenAI đã công bố thử thách red teaming trị giá 500.000 USD, mời các nhà nghiên cứu trên toàn thế giới giúp phát hiện các rủi ro mới. Đáng tiếc là Pliny the Liberator có vẻ không đủ điều kiện tham gia. Không phải vì Pliny the Liberator gây khó chịu cho OpenAI, mà bởi hacker này chọn công khai phát hiện của mình thay vì chia sẻ riêng với công ty.
Kỹ thuật bẻ khóa mà Pliny the Liberator sử dụng vẫn theo công thức quen thuộc của anh. Đây cũng chính là phương pháp hacker này từng dùng để bẻ khóa GPT-4o, GPT-4.1 và gần như mọi mô hình ngôn ngữ lớn của OpenAI chỉ trong vòng vài giờ hoặc vài ngày, kể từ khi anh bắt đầu hoạt động cách đây khoảng một năm rưỡi.
Kho lưu trữ trên GitHub của Pliny the Liberator mang tên L1B3RT4S, nơi chứa các prompt bẻ khóa nhiều mô hình khác nhau, đã nhận hơn 10.000 sao và tiếp tục là tài nguyên quan trọng cho cộng đồng bẻ khóa AI.
Jailbreak iPhone đã thoái trào
Apple liên tục cập nhật những bản vá lỗi, sử dụng những biện pháp bảo mật gắt gao khiến cộng đồng jailbreak iOS đang ngày càng chết dần.
Người dùng iOS ngày nay không còn nhu cầu jailbreak iPhone. Ảnh: Apple Insider.
Kể từ khi chiếc iPhone đầu tiên được ra mắt, người dùng đã tìm cách bẻ khóa (jailbreak) iPhone để tận dụng toàn bộ tính năng có trên hệ điều hành iOS. Năm 2007, phiên bản iOS được bẻ khóa đầu tiên đã cho phép người dùng thay đổi nhạc chuông, tải app từ bên thứ ba và tùy chỉnh màn hình nền.
Tuy nhiên, những năm gần đây, Apple dần học theo các tính năng từng chỉ có trong bản jailbreak và mang chúng lên iOS chính thức. Vì thế, người dùng dần không còn quan tâm đến phiên bản iOS bẻ khóa như trước đây.
Sự ra đời của jailbreak
Theo Android Authority , jailbreak là thủ thuật can thiệp các hệ điều hành đóng như iOS để giành "root access" (quyền truy cập gốc). Nhờ đó, người dùng có thể gỡ các lớp bảo mật hoặc hạn chế trong hệ thống.
Ở các phiên bản đầu tiên, iOS không có nhiều tiện ích như hiện nay. iPhone đời đầu không có tính năng sao chép, dán hay không thể kết nối với nhà mạng. Điều này khiến người dùng muốn phá vỡ những rào cản bảo mật của Apple, làm thuật ngữ "jailbreak" ra đời.
Khả năng bảo mật của iPhone ngày càng được được nâng cao nên việc tung ra các bản jailbreak ngày càng khó khăn. Ảnh: 9to5mac.
Khi đó, các nhà phát triển đã tìm ra và lợi dụng lỗ hổng trong trình duyệt Safari của iPhone để cướp quyền truy cập vào hệ thống bên trong, sau đó cài ứng dụng bên thứ 3 hoặc thậm chí là kho ứng dụng bên ngoài vào thiết bị. Qua một thời gian, jailbreak còn được cải tiến thêm khi có thể cài emoji, thay đổi hình nền thanh trạng thái, màn hình khóa, thêm bàn phím ảo bên thứ ba...
Về phía Apple, hãng công nghệ luôn nghiêm cấm bẻ khóa, khẳng định sự can thiệp vào hệ thống sẽ ảnh hưởng đến khả năng bảo mật và vận hành bình thường của các thiết bị như iPhone, iPad và Apple TV. Điều này dường như đi ngược lại với cách làm của các hãng sản xuất smartphone Android như Samsung, Google khi họ cho phép người dùng vượt qua những rào cản của thiết bị để tải các ứng dụng chưa kiểm duyệt từ bên ngoài.
Táo khuyết thường xuyên công bố các bản cập nhật phần mềm để vá các lỗ hổng hoặc nguy cơ bị xâm nhập bởi các công cụ jailbreak. Họ cũng đưa ra các đề nghị hấp dẫn dành cho những chuyên viên bảo mật bên ngoài để họ tìm ra những lỗ hổng là bí mật báo cho Táo khuyết thay vì công bố rộng rãi. Chính điều này đã khiến cộng đồng jailbreak iOS đang ngày một thu hẹp.
Jailbreak trên iPhone ngày càng khó
Năm 2018, Cydia Store, ứng dụng chỉ dành cho các thiết bị bẻ khóa đã chính thức ngừng hoạt động. Việc đóng của Cydia Store gây ảnh hưởng đến cộng đồng các nhà phát triển. Hầu hết, nhà phát triển nền tảng đều sử dụng Cydia Store để mua các dịch vụ mà Apple Store không có, chẳng hạn như phần mềm ghi âm cuộc gọi trên iPhone, hay các bộ giao diện cho iOS.
Tuy nhiên, bất chấp sự ngăn cấm từ Apple, nhiều hacker vẫn cố gắng tìm các lỗ hổng trên thiết bị để jailbreak mà không bị hãng công nghệ phát hiện. Vì thế, dù bẻ khóa iPhone ngày càng khó, người dùng vẫn có thể làm được điều này ngay cả với những sản phẩm mới của Apple.
Cái chết của Cydia được cho đến từ việc các bản jailbreak cho iOS mới không còn xuất hiện trên Internet. Ảnh: iPhonehacks.
Theo Android Authority , hiện jailbreak vẫn là một lựa chọn được nhiều người yêu thích vì sở hữu khả năng tùy biến đa dạng. Người dùng có thể tải các ứng dụng có tính năng mới của iOS như ẩn/hiện thanh điều hướng ngay cả trên những thiết bị cũ không được hỗ trợ hay Activator, cho phép tự do thay đổi chức năng của các phím cứng. Họ còn tải các ứng dụng của bên thứ 3 để hack game theo sở thích.
Jailbreak không chỉ đưa người dùng thoát khỏi hệ sinh thái đóng của Apple mà còn mang lại những cải tiến mới lên những thiết bị chạy iOS cũ, Android Authority nhận định.
Song, jailbreak cũng đi kèm những hạn chế nhất định. Không phải thiết bị nào cũng có bản jailbreak và đôi khi những bản vá lỗi mới nhất sẽ ngăn cản người dùng tải những bản bẻ khóa phù hợp.
Bên cạnh đó, một khi đồng ý cập nhật iOS mới, người dùng sẽ phải chấp nhận mất phiên bản jailbreak cũ. Họ còn phải chịu những rủi ro về bảo mật và sự ổn định của thiết bị. Sử dụng jailbreak đồng nghĩa là dữ liệu của họ sẽ không còn độ bảo mật cao như trước đây. Các ứng dụng ngân hàng hay trò chơi có tính năng chống gian lận có thể phát hiện thiết bị đã bị bẻ khóa và chặn người dùng.
Elon Musk thuê ông trùm jailbreak George Hotz, hacker nổi tiếng vì jailbreak iPhone, được Elon Musk mời về làm việc tại Twitter. George Hotz (biệt danh geohot) nổi tiếng nhờ phần mềm bẻ khóa iPhone thời kỳ đầu. Ảnh: The Verge. Hotz cho biết công việc của mình tại mạng xã hội này là sửa chữa tính năng tìm kiếm, và loại bỏ lời nhắc ngăn không cho...
Tiêu điểm
Tin đang nóng
Tin mới nhất

Thoát 'bão' thuế quan, liệu Apple có vượt được 'sóng' AI?

Gần 7 triệu tài khoản của tội phạm lừa đảo vừa bị WhatsApp 'xóa sổ'

Tính năng Windows 11 gây ra nỗi kinh hoàng cần phải tắt ngay

OpenAI trình làng phiên bản ChatGPT-5

Meta chuyển hướng chiến lược AI sang 'siêu trí tuệ cá nhân' và sự tham gia của người dùng

Cách Fan xem phim khi không có rạp hoặc gói nhiều phí

Trí tuệ nhân tạo: Google đầu tư 1 tỷ USD vào AI trong giáo dục đại học tại Mỹ

Microsoft tiết lộ 40 công việc bị ảnh hưởng nhiều nhất bởi trí tuệ nhân tạo

ChatGPT thay đổi, không còn 'tám chuyện' với người dùng

Không nhân viên nào nhớ hết 5.000 sản phẩm thể thao - AI đang thay họ bán hàng

Cách khắc phục lỗi iOS 26 nóng máy hiệu quả

Chính phủ Mỹ được sử dụng phiên bản ChatGPT Enterprise giá 1 USD
Có thể bạn quan tâm

Vợ chồng trẻ xây nhà rộng 80m2, chi phí hết chưa đến 500 triệu, rẻ đến mức ai cũng giật mình!
Sáng tạo
09:04:42 11/08/2025
Chuyện gì xảy ra khiến Trương Bá Chi mỉa mai: "Bọn trẻ cần cha chứ không phải một tờ chi phiếu"?
Sao châu á
09:01:54 11/08/2025
Ba báo Nhật tố công ty Mỹ "dùng chùa" 100.000 bài viết, đòi 14,9 triệu USD
Thế giới
08:49:40 11/08/2025
Khởi tố 12 thanh niên mang hung khí đi xe máy "thanh toán" nhau trên phố
Pháp luật
08:45:45 11/08/2025
Sợ đột quỵ vì kiểu làm việc 996, tôi từ chối thăng chức
Góc tâm tình
08:41:24 11/08/2025
Chàng trai miền Tây đêm đêm 'bán nụ cười', trích thù lao làm điều cảm động
Netizen
08:35:13 11/08/2025
Đối phó với căn bệnh gây nhiễm trùng huyết, 135.000 ca tử vong/năm thế nào?
Sức khỏe
08:10:15 11/08/2025
Gia đình Haha - Tập 9: Các nghệ sĩ thử nuôi ong, đánh bắt cá truyền thống
Tv show
08:07:11 11/08/2025
Lễ hội âm nhạc hot tới mức khán giả sẵn sàng hiến tạng lấy vé: Đây không phải là điều duy nhất gây sốc
Nhạc quốc tế
08:04:20 11/08/2025
Hạt Dẻ nhà MC Quyền Linh visual xinh hết nấc ở chung kết bóng rổ, biểu cảm thiếu nữ tuổi 17 thẹn thùng gây sốt!
Sao thể thao
08:04:11 11/08/2025