Đừng nói chuyện riêng tư với Grok
Kết quả tìm kiếm Google cho thấy gần 400.000 cuộc trò chuyện với chatbot Grok đã được công khai mà người dùng không hay biết.
Hàng nghìn cuộc trò chuyện với Grok đã được công khai. Ảnh: Reuters.
Grok AI, chatbot của công ty xAI do tỷ phú Elon Musk sáng lập, vừa bị phát hiện công khai hàng loạt cuộc trò chuyện từ người dùng. Điều quan trọng là rất nhiều người dùng không biết hoặc thậm chí chưa cho phép.
Trong một đoạn chat, bất cứ khi nào người dùng nhấn nút “chia sẻ”, một đường dẫn URL sẽ được tạo ra, cho phép họ chia sẻ cuộc trò chuyện đó qua email, tin nhắn hoặc các phương tiện khác. Tuy nhiên, người dùng không hề biết các công cụ tìm kiếm như Google, Bing và DuckDuckGo cũng có thể thu thập, khiến bất kỳ ai cũng có thể tìm thấy.
Nói cách khác, việc nhấn nút chia sẻ khi trò chuyện với chatbot đồng nghĩa với việc đoạn trò chuyện sẽ được công khai trên website của Grok, dù không hề có cảnh báo nào cho người dùng.
Một tìm kiếm của Forbes trên Google ngày 20/8 về các đoạn chat của Grok cho ra 370.000, tương ứng với số cuộc trò chuyện. Chủ đề trò chuyện khá đa dạng, từ thực hiện tác vụ công việc hàng ngày đến tạo hình ảnh về một vụ tấn công khủng bố, hay thử hack vào một ví tiền điện tử.
Một số người dùng đặt câu hỏi nhạy cảm về y học và tâm lý, số khác thậm chí còn tiết lộ tên, thông tin cá nhân và ít nhất một mật khẩu người dùng bị lộ, theo xem xét từ Forbes . Các tệp hình ảnh, bảng tính và một số tài liệu văn bản do người dùng tải lên cũng có thể được truy cập.
Trong số những cuộc trò chuyện được lập chỉ mục có các đoạn hội thoại do nhà báo người Anh Andrew Clifford khởi tạo. Ông đã dùng Grok để tóm tắt trang nhất các tờ báo và nói rằng không hề biết những đoạn hội thoại ấy đã xuất hiện trên Google. “Tôi có hơi khó chịu nhưng may mắn cũng không có gì đáng lo ngại ở đó”, Clifford nói, đồng thời cho biết đã chuyển sang dùng Gemini AI của Google.
Không phải nội dung nào cũng vô hại như trường hợp của Clifford. Cuộc tìm kiếm còn cho thấy một số cuộc trò chuyện chứa nội dung phản cảm, cực đoan và vi phạm quy tắc của xAI.
Công ty nghiêm cấm việc sử dụng bot để “khuyến khích gây hại nghiêm trọng đến tính mạng con người” hoặc “phát triển vũ khí sinh học, hóa học, hay vũ khí hủy diệt hàng loạt”. Thế nhưng, một số người dùng Grok để cung cấp hướng dẫn chế tạo ma túy bất hợp pháp như fentanyl và methamphetamine , viết mã phần mềm độc hại tự kích hoạt, chế tạo bom và các phương thức tự sát.
Đầu tháng 8, người dùng ChatGPT của OpenAI cũng hoang mang khi phát hiện các đoạn hội thoại của mình xuất hiện trên kết quả tìm kiếm Google . Sự việc bắt nguồn từ một tính năng cho phép người dùng chia sẻ cuộc trò chuyện công khai. Khi bật tính năng này, khách hàng có thể đánh dấu vào ô “Cho phép người khác khám phá cuộc trò chuyện này”.
Tính năng đi kèm một bảng cảnh báo, nhưng với phông chữ rất nhỏ, dễ gây hiểu nhầm. Sau làn sóng phản đối, công ty đã nhanh chóng thay đổi chính sách. Dane Stuckey, Giám đốc An ninh Thông tin của OpenAI, đã gọi đây là “một thử nghiệm ngắn ngủi” và đã dừng lại vì có khả năng chia sẻ những thứ người dùng không hề có ý công khai.
Sau khi OpenAI loại bỏ tính năng này, Musk đã tranh thủ tâng bốc AI của mình. Ông đã đăng lại bài viết trên X của Grok khẳng định rằng ứng dụng không hề có tính năng chia sẻ, với giọng điệu ăn mừng chiến thắng.
Hiện chưa rõ Grok bổ sung tính năng chia sẻ này từ khi nào. Từ tháng 1, người dùng X đã liên tục cảnh báo rằng các đoạn trò chuyện của Grok đang bị Google thu thập.
Một số chuyên gia đã bày tỏ lo ngại về vấn đề này. Carissa Véliz, nhà đạo đức học AI tại Đại học Oxford chỉ trích cách các công ty công nghệ triển khai những thử nghiệm mà không cân nhắc đầy đủ tác động. “Họ xem người dùng như chuột thí nghiệm. Chỉ khi có người phàn nàn, họ mới điều chỉnh”, bà nói.
Video đang HOT
GPT-5 bị bẻ khóa nhanh hơn cả Grok 4
Các nhà nghiên cứu thực hiện cách cuộc tấn công kể chuyện nhiều lượt để vượt qua bộ lọc chỉ kiểm tra từng prompt (yêu cầu hay lời nhắc), qua đó phơi bày những điểm yếu mang tính hệ thống trong cơ chế phòng vệ của GPT-5.
Kể chuyện nhiều lượt (multi-turn storytelling) là dạng tấn công qua nhiều lượt hội thoại, trong đó kẻ tấn công dẫn dắt mô hình AI từng bước qua câu chuyện để đạt mục tiêu.
Hai công ty SPLX, NeuralTrust đã thử nghiệm GPT-5 và đều nhận thấy khả năng bảo mật của mô hình ngôn ngữ mới nhất từ OpenAI đang ở mức đáng lo ngại.
Sau khi Grok-4 bị jailbreak (bẻ khóa) chỉ trong hai ngày, GPT-5 cũng thất thủ chỉ một ngày.
Jailbreak là hình thức tấn công hoặc thao túng để vượt qua các rào cản bảo mật và buộc mô hình ngôn ngữ lớn thực hiện những hành vi bị hạn chế, như tiết lộ thông tin nhạy cảm, tạo nội dung độc hại hoặc làm trái quy định nhà phát triển.
Các thành viên red team (đội kiểm thử xâm nhập) từ hãng SPLX tuyên bố: "Mô hình GPT-5 nguyên bản (chưa được bổ sung các lớp bảo vệ hay tinh chỉnh an toàn từ OpenAI) gần như không thể sử dụng được cho mục đích doanh nghiệp ngay lập tức. Ngay cả lớp prompt nội bộ của OpenAI cũng để lại nhiều khoảng hở đáng kể, đặc biệt là về định hướng kinh doanh".
SPLX là hãng an ninh mạng Mỹ chuyên về bảo mật hệ thống AI, đặc biệt là trong lĩnh vực red teaming (kiểm thử xâm nhập mô hình AI theo hướng tấn công giả lập).
Red team của SPLX so sánh GPT-5 với GPT-4o và kết luận: "GPT-4o vẫn là mô hình bền vững nhất dưới các bài thử red team của SPLX, đặc biệt khi được gia cố an ninh".
GPT-4o là mô hình ngôn ngữ lớn được OpenAI phát hành vào tháng 5.2024. Chữ o trong tên GPT-4o là viết tắt của omni (toàn năng), vì đây là mô hình đa phương thức có thể xử lý và tạo ra nhiều loại dữ liệu khác nhau, gồm văn bản, hình ảnh, âm thanh và video.
Trong khi đó, NeuralTrust đã sử dụng kết hợp giữa kỹ thuật jailbreak EchoChamber của riêng mình và phương pháp kể chuyện cơ bản. NeuralTrust là công ty Tây Ban Nha chuyên về bảo mật và mở rộng các ứng dụng sử dụng mô hình ngôn ngữ lớn, cung cấp nền tảng cho phép các doanh nghiệp triển khai công nghệ AI tạo sinh an toàn và có kiểm soát.
Echo Chamber là kỹ thuật jailbreak khai thác lỗ hổng trong hệ thống an toàn của các mô hình AI bằng cách thao túng ngữ cảnh hội thoại qua nhiều lượt, mà không bao giờ gửi một prompt nguy hiểm rõ ràng.
Ngữ cảnh là lịch sử hội thoại cần được lưu giữ để duy trì một cuộc trò chuyện liền mạch và có ý nghĩa với người dùng. Thao túng theo ngữ cảnh là cố gắng dẫn dắt mô hình AI đến một mục tiêu có khả năng gây hại, từng bước thông qua từng câu hỏi liên tiếp (nên mới có thuật ngữ "kể chuyện"), mà không bao giờ hỏi bất cứ điều gì đủ rõ ràng để nó kích hoạt các rào chắn và chặn tiến trình.
NeuralTrust cho biết: "Cuộc tấn công đã thành công trong việc dẫn dắt GPT-5 tạo ra hướng dẫn từng bước để chế tạo bom xăng Molotov".
Bom xăng Molotov là loại vũ khí thô sơ, được sử dụng như một quả bom cháy. Nó được tạo ra bằng cách nhét một miếng giẻ vào cổ chai thủy tinh chứa chất lỏng dễ cháy, thường là xăng hoặc hỗn hợp xăng với dầu diesel, dầu hỏa... Khi sử dụng, người ta đốt cháy miếng giẻ ở cổ chai rồi ném đi. Miếng giẻ đóng vai trò như ngòi nổ. Khi quả chai vỡ, chất lỏng bên trong sẽ văng ra và bốc cháy, tạo thành một ngọn lửa lớn.
NeuralTrust kết luận: "Trong các thử nghiệm có kiểm soát với GPT-5, chúng tôi đã thành công bẻ khóa mô hình ngôn ngữ lớn này, dẫn dắt nó tạo ra hướng dẫn bất hợp pháp mà không hề gửi bất kỳ prompt độc hại rõ ràng nào. Bằng chứng này cho thấy lỗ hổng nghiêm trọng trong các hệ thống an toàn chỉ quét prompt riêng lẻ, chỉ ra cách các cuộc tấn công nhiều lượt có thể lọt qua bộ lọc từng prompt và công cụ phát hiện ý đồ nhờ khai thác toàn bộ ngữ cảnh hội thoại".
Động thái này cho thấy khó khăn chung của mọi mô hình AI trong việc dựng rào chắn chống lại thao túng theo ngữ cảnh.
GPT-5 bị SPLX, NeuralTrust bẻ khóa chỉ sau 1 ngày ra mắt - Ảnh: Internet
Điều đáng nói là khi ra mắt GPT-5 rạng sáng 8.8 (giờ Việt Nam), OpenAI thông báo mô hình AI mới này không chỉ được cải tiến về khả năng phát triển phần mềm, viết lách, trả lời các câu hỏi liên quan đến sức khỏe và tài chính, mà còn mở rộng ranh giới về an toàn.
"Trước đây, ChatGPT chủ yếu dựa vào việc huấn luyện an toàn dựa trên từ chối hoặc tuân thủ dựa vào lời nhắc của người dùng. Dù hoạt động tốt với những yêu cầu có ác ý rõ ràng, loại huấn luyện này có thể gặp khó khăn trong những tình huống mà ý định của người dùng không rõ ràng, hoặc thông tin có thể được sử dụng cho mục đích tốt hay xấu.
Với GPT-5, chúng tôi đã giới thiệu một hình thức huấn luyện mới là hoàn thành an toàn, dạy cho mô hình cách đưa ra câu trả lời hữu ích nhất có thể, đồng thời vẫn tuân thủ các ranh giới an toàn. Đôi khi điều đó đồng nghĩa chỉ phản hồi một phần câu hỏi của người dùng hoặc chỉ trả lời ở mức độ tổng quan. Nếu cần từ chối, GPT-5 được huấn luyện để giải thích một cách minh bạch lý do từ chối, cũng như cung cấp các lựa chọn thay thế an toàn. Chúng tôi nhận thấy rằng cách tiếp cận này tinh tế hơn, cho phép điều hướng tốt hơn các câu hỏi có mục đích kép như vi rút học, tăng cường khả năng chống lại ý định mơ hồ và giảm số lần từ chối không cần thiết".
Grok 4 bị NeuralTrust bẻ khóa sau 2 ngày
Mô hình Grok 4 của xAI, công ty khởi nghiệp AI do Elon Musk điều hành, từng bị NeuralTrust bẻ khóa chỉ sau 48 giờ phát hành hồi giữa tháng 7 vừa qua.
Nhóm nghiên cứu của NeuralTrust đã áp dụng phương pháp mới, kết hợp giữa kỹ thuật Echo Chamber và Crescendo, để lách qua các cơ chế bảo vệ tích hợp trong Grok 4. Qua đó, họ đã buộc được Grok 4 đưa ra hướng dẫn chế tạo các vật dụng nguy hiểm, chẳng hạn bom xăng Molotov.
Nhóm nghiên cứu NeuralTrust do Ahmad Alobaid dẫn đầu phát hiện rằng việc kết hợp các loại jailbreak khác nhau giúp tăng đáng kể hiệu quả tấn công.
Khi tiến trình tấn công bằng Echo Chamber bị đình trệ, họ chuyển sang kỹ thuật Crescendo (do Microsoft phát hiện và đặt tên) có cách tiếp cận tinh vi hơn, dần dần chuyển hướng cuộc thảo luận từ những câu hỏi vô hại sang các nội dung bất hợp pháp, từ đó vượt qua các bộ lọc bảo mật bằng thông qua sự phát triển đối thoại tinh vi.
Theo báo cáo của NeuralTrust, Grok 4 đã cung cấp hướng dẫn chế tạo bom xăng 67% số lần, methamphetamine 50% số lần và chất độc 30% số lần.
NeuralTrust vượt rào bảo vệ Grok 4 của Elon Musk chỉ sau 48 giờ sau khi mô hình AI này ra mắt - Ảnh: Internet
gpt-oss bị Pliny the Liberator bẻ khóa sau chưa đầy 1 ngày
Hôm 6.8, OpenAI đã phát hành hai mô hình trọng số mở đầu tiên kể từ GPT-2 năm 2019 là gpt-oss-120b và gpt-oss-20b, quảng bá rằng chúng nhanh, hiệu quả và và được tăng cường khả năng chống jailbreak thông qua quá trình huấn luyện đối kháng nghiêm ngặt.
Huấn luyện đối kháng là kỹ thuật dùng để tăng độ an toàn và khả năng chống bị khai thác (ví dụ jailbreak) của mô hình AI. Mô hình được "tập huấn" bằng cách cho nó tiếp xúc với các đầu vào có chủ đích đánh lừa, chẳng hạn các câu hỏi nhạy cảm, độc hại hoặc bị cố tình che giấu để vượt qua bộ lọc kiểm duyệt.
Trên mạng xã hội X, Sam Altman (Giám đốc điều hành OpenAI) cho biết: "Chúng tôi đã nỗ lực nghiêm túc để giảm thiểu các rủi ro an toàn nghiêm trọng nhất, đặc biệt là liên quan đến an ninh sinh học. Hai mô hình gpt-oss có hiệu suất gần như tương đương các mô hình tiên phong của chúng tôi trong các bài đánh giá an toàn nội bộ". Tuy nhiên, những lời khẳng định đó chỉ tồn tại ngắn ngủi như một quả cầu tuyết nhanh chóng tan chảy giữa địa ngục.
Hacker Pliny the Liberator thông báo trên X rằng đã bẻ khóa gpt-oss thành công. Kèm theo đó các ảnh chụp màn hình cho thấy hai mô hình suy luận trọng số mở của OpenAI đã cung cấp hướng dẫn chế tạo methamphetamine, bom xăng Molotov, chất độc thần kinh VX và phần mềm độc hại.
Pliny the Liberator tuyên bố bẻ khóa gpt-oss thành công - Ảnh chụp màn hình trên X
1. Methamphetamine (ma túy đá) là một loại ma túy tổng hợp cực kỳ nguy hiểm. Đây là một chất kích thích mạnh tác động trực tiếp lên hệ thần kinh trung ương.
2. Chất độc thần kinh VX là một trong những chất hóa học độc hại và nguy hiểm nhất từng được con người tạo ra. Đây là một vũ khí hóa học bị cấm theo Công ước Vũ khí Hóa học quốc tế.
Đặc điểm và cơ chế hoạt động
Dạng và tính chất: VX là một chất lỏng không màu, không mùi, sền sệt như dầu. Vì có tính chất lỏng và bay hơi rất chậm, VX có thể tồn tại lâu trong môi trường, đặc biệt nguy hiểm khi dính vào quần áo, da hoặc các bề mặt khác.
Cơ chế gây độc: VX hoạt động bằng cách ngăn chặn một enzyme quan trọng trong hệ thần kinh gọi là acetylcholinesterase. Enzyme này có nhiệm vụ phá vỡ chất dẫn truyền thần kinh acetylcholine để các cơ bắp có thể thư giãn sau khi co lại. Khi enzyme này bị VX ức chế, acetylcholine sẽ tích tụ, khiến các cơ bắp, gồm cả cơ hô hấp, co giật không kiểm soát và không thể thư giãn.
Hậu quả: Nạn nhân sẽ nhanh chóng có các triệu chứng như co giật, buồn nôn, tiết nước dãi và nước mắt quá nhiều, co đồng tử. Cuối cùng, sự co thắt của cơ hô hấp và ngừng hoạt động của hệ thần kinh trung ương sẽ dẫn đến tử vong do ngạt thở.
Mức độ nguy hiểm
VX có độc tính cực cao. Chỉ cần một lượng rất nhỏ, khoảng 10 miligam (tương đương một giọt nhỏ), dính vào da cũng có thể gây tử vong cho một người trưởng thành chỉ trong vòng vài phút đến vài chục phút nếu không được điều trị kịp thời.
OpenAI cho biết đã đưa gpt-oss-120b qua quá trình gọi là "huấn luyện trong tình huống tồi tệ nhất" ở các lĩnh vực sinh học và mạng. Công ty khởi nghiệp AI hàng đầu thậm chí còn nhờ Nhóm Tư vấn An toàn đánh giá thử nghiệm và kết luận rằng gpt-oss-120b cùng gpt-oss-20b không vượt quá ngưỡng rủi ro cao.
Theo OpenAI, hai mô hình suy luận trọng số mở này đã trải qua các bài kiểm tra chuẩn về khả năng từ chối và kháng bẻ khóa, đồng thời gpt-oss đạt kết quả ngang bằng o4-mini trong bài đánh giá như StrongReject.
StrongReject là một bộ tiêu chuẩn được sử dụng để đánh giá khả năng chống bẻ khóa của các mô hình ngôn ngữ lớn.
Cùng với lần phát hành này, OpenAI đã công bố thử thách red teaming trị giá 500.000 USD, mời các nhà nghiên cứu trên toàn thế giới giúp phát hiện các rủi ro mới. Đáng tiếc là Pliny the Liberator có vẻ không đủ điều kiện tham gia. Không phải vì Pliny the Liberator gây khó chịu cho OpenAI, mà bởi hacker này chọn công khai phát hiện của mình thay vì chia sẻ riêng với công ty.
Kỹ thuật bẻ khóa mà Pliny the Liberator sử dụng vẫn theo công thức quen thuộc của anh. Đây cũng chính là phương pháp hacker này từng dùng để bẻ khóa GPT-4o, GPT-4.1 và gần như mọi mô hình ngôn ngữ lớn của OpenAI chỉ trong vòng vài giờ hoặc vài ngày, kể từ khi anh bắt đầu hoạt động cách đây khoảng một năm rưỡi.
Kho lưu trữ trên GitHub của Pliny the Liberator mang tên L1B3RT4S, nơi chứa các prompt bẻ khóa nhiều mô hình khác nhau, đã nhận hơn 10.000 sao và tiếp tục là tài nguyên quan trọng cho cộng đồng bẻ khóa AI.
Elon Musk: xAI sẽ dùng Grok để viết lại toàn bộ kho tri thức của nhân loại, có quá nhiều rác Khi là Elon Musk, bạn không cần phải dựa vào hàng thế kỷ tri thức phổ quát của nhân loại và có thể tự tạo ra tri thức của riêng mình? "Chúng tôi sẽ dùng Grok 3.5 (có lẽ nên gọi là phiên bản 4), với khả năng suy luận nâng cao, để viết lại toàn bộ kho tri thức của nhân loại,...











Tiêu điểm
Tin đang nóng
Tin mới nhất

Microsoft đang tìm cách khắc phục sự cố với bản cập nhật Windows 11

Sau bao năm chờ đợi, Android sắp có tính năng 'vàng' của iOS

Chuẩn hóa kỹ thuật phần mềm ký số, bảo đảm an toàn giao dịch điện tử

Chuyển đổi số: Thay đổi tư duy, cách làm việc và lối sống

Tính năng được game thủ mong đợi đã có mặt trên One UI 8

Apple sẽ không ra mắt iPhone 18 vào năm sau

Trải nghiệm Razer DeathAdder V4 Pro và BlackShark V3 Pro: combo hoàn hảo cho game thủ FPS

Hai rò rỉ về Galaxy S26 khiến người dùng Samsung mong chờ

Người dùng máy tính cảnh giác với sự cố khi cập nhật Windows 11

Anh bỏ yêu cầu truy cập dữ liệu mã hóa của người dùng Apple

Lần đầu tiên trong 15 năm, iPhone bản tiêu chuẩn không ra mắt vào mùa thu

Những nâng cấp đơn giản nhưng hiệu quả cho PC
Có thể bạn quan tâm

Từ Hà Nội đi đâu dịp lễ 2/9: Gợi ý 3 hành trình lên rừng xuống biển
Du lịch
07:37:50 22/08/2025
Bi Rain - Kim Tae Hee bất đồng đến mức "quốc bảo nhan sắc" xứ Hàn phải bật khóc?
Sao châu á
07:32:59 22/08/2025
Mỹ nhân Việt duy nhất đổi đời nhờ liên tục làm rơi đồ, đẹp như hoa như ngọc cứ xuất hiện là bùng nổ visual
Hậu trường phim
07:28:50 22/08/2025
Nam ca sĩ đẹp trai, nhảy giỏi nhất Anh Trai Say Hi, gây phản cảm khi chụp ảnh với fan nữ là ai?
Sao việt
07:24:21 22/08/2025
Tựa game "hot" nhất Gamescom 2025, sở hữu lượt xem trailer kỷ lục, áp đảo hoàn toàn các siêu phẩm khác
Mọt game
07:04:03 22/08/2025
Laptop giá rẻ: Sự chọn lựa tối ưu cho học sinh, sinh viên
Đồ 2-tek
06:45:30 22/08/2025
Trent Alexander-Arnold nhận cảnh báo gắt từ Real Madrid
Sao thể thao
06:43:55 22/08/2025
Hyundai SantaFe 2025 giảm 100% lệ phí trước bạ
Ôtô
06:36:36 22/08/2025
Làm chả lá lốt theo cách này của mẹ trẻ Hà thành, gói không sợ bung, ăn giòn rôm rốp, ngon 'ô mê ly'
Ẩm thực
06:01:12 22/08/2025