Mô hình LLM phản hồi sai nếu bị dẫn dắt bằng thủ thuật tâm lý

Khải Minh11:28 08/09/2025

Một nghiên cứu mới cho thấy các mô hình LLM (ngôn ngữ lớn) có thể bị thao túng để vượt qua các rào cản đạo đức bằng kỹ thuật tâm lý.

Theo ArsTechnica , một nhóm nhà nghiên cứu vừa công bố kết quả thử nghiệm cho thấy các mô hình ngôn ngữ lớn (LLM), bao gồm những hệ thống như ChatGPT , có thể bị thuyết phục để trả lời các yêu cầu bị cấm thông qua các thủ thuật tâm lý đơn giản. Nghiên cứu này chỉ ra những điểm yếu tiềm tàng trong cách các mô hình LLM được huấn luyện và phản hồi, dù đã được thiết kế với nhiều lớp bảo vệ để từ chối các lệnh nguy hiểm hoặc phi đạo đức.

Trong thử nghiệm, các nhà nghiên cứu từ nhóm Alignment Research Center (ARC) sử dụng một mô hình đặc biệt có tên là “parahuman” để mô phỏng hành vi người dùng tìm cách vượt rào. Mô hình parahuman này được huấn luyện để tối ưu khả năng thuyết phục các LLM cung cấp thông tin mà thông thường sẽ bị từ chối, như cách chế tạo chất nổ hoặc thực hiện các hành vi bất hợp pháp khác.

Hệ thống kiểm soát đạo đức trong LLM có thể bị qua mặt nếu lệnh được diễn đạt gián tiếp hay giả tưởng , khiến mô hình phản hồi nội dung bị cấm . ẢNH: CHỤP MÀN HÌNH ARTHUR.AI

Video đang HOT

Kỹ thuật được sử dụng bao gồm việc làm mềm câu lệnh, mô tả tình huống giả tưởng, hoặc thậm chí gợi ý rằng AI có thể từ chối nhưng nên xem xét lại vì lý do “nghiên cứu” hoặc “học thuật”. Những cách tiếp cận này không yêu cầu thao túng kỹ thuật như jailbreak (vượt rào bảo mật) hay prompt injection (chèn lệnh độc hại), mà chỉ đơn thuần khai thác phản xạ tương tác của mô hình dựa trên dữ liệu huấn luyện.

Kết quả cho thấy ngay cả các LLM đã qua tinh chỉnh như Claude và ChatGPT cũng có tỷ lệ phản hồi sai lệch lên tới 50% trong một số trường hợp. Điều này đặt ra câu hỏi nghiêm túc về độ an toàn và khả năng kiểm soát của các hệ thống AI hiện đại, đặc biệt khi chúng được sử dụng trong các môi trường mở, nơi người dùng có thể sáng tạo ra vô số kịch bản để qua mặt kiểm duyệt.

Đáng chú ý, nghiên cứu cũng nhấn mạnh rằng hệ thống AI không cần phải bị “lừa” theo cách truyền thống. Việc các mô hình bị “thuyết phục” giống như một người dùng đang tranh luận có lý – chính xác là điều khiến chúng trở nên nguy hiểm hơn, vì sự vi phạm không xuất phát từ lỗi kỹ thuật, mà từ sự phản hồi giống con người trong ngữ cảnh thuyết phục.

Các chuyên gia nhận định rằng đây là một lời cảnh tỉnh với cộng đồng phát triển AI. Dù các rào chắn kỹ thuật vẫn cần thiết, song việc hiểu rõ các hành vi “gần người” (parahuman) và kiểm soát phản xạ ngôn ngữ của mô hình đang trở thành ưu tiên hàng đầu. Nếu không được xử lý kịp thời, những lỗ hổng này có thể bị khai thác trong các ứng dụng thực tế, từ lừa đảo đến tấn công thông tin hoặc thao túng nhận thức.

OpenAI tự sản xuất chip

Nhà phát triển ChatGPT hợp tác với Broadcom để phát triển chip AI tùy chỉnh, sử dụng trong các hệ thống phần cứng nội bộ.

OpenAI tính chuyện tự sản xuất chip bán dẫn để đáp ứng nhu cầu tính toán khổng lồ. Ảnh: Reuters.

Theo Financial Times , OpenAI chuẩn bị sản xuất hàng loạt chip AI vào năm tới, có thể cung cấp sức mạnh tính toán khổng lồ cho các nền tảng trí tuệ nhân tạo họ đang vận hành và giảm bớt sự phụ thuộc vào Nvidia.

Các nguồn tin cho rằng OpenAI thiết kế chip AI tùy chỉnh này với sự hợp tác của nhà sản xuất bán dẫn Broadcom - tập đoàn vừa thông báo có một khách hàng mới, với đơn đặt hàng lên tới 10 tỷ USD.

Nhà sản xuất chip của Mỹ không nêu tên khách hàng, nhưng các nguồn tin của Financial Times xác nhận đó là OpenAI. Ngoài ra, dường như công ty không có kế hoạch bán chip ra bên ngoài, chỉ sử dụng trong các hệ thống phần cứng nội bộ.

Động thái này tương tự cách tiếp cận của các gã khổng lồ công nghệ khác như Google và Amazon, những công ty thiết kế chip tùy chỉnh để cắt giảm chi phí, củng cố nguồn cung và giảm sự phụ thuộc vào Nvidia.

Từ năm 2023, Reuters đưa tin OpenAI bắt đầu tìm hiểu khả năng tự sản xuất chip AI sau khi Sam Altman đổ lỗi cho tình trạng thiếu hụt GPU ảnh hưởng đến tốc độ và độ tin cậy của API.

Trước đó, hãng thông tấn này cũng đưa tin OpenAI hợp tác với cả Broadcom và Taiwan Semiconductor Manufacturing Co. (TSMC) để phát triển sản phẩm riêng. Financial Times không cho biết OpenAI còn duy trì quan hệ đối tác với TSMC hay không.

Sau khi GPT-5 ra mắt, Altman công bố những thay đổi mà OpenAI đang thực hiện để đáp ứng "nhu cầu ngày càng tăng". Ngoài việc ưu tiên người dùng ChatGPT trả phí, ông khẳng định OpenAI sẽ tăng gấp đôi năng lực tính toán của mình "trong 5 tháng tới".

Các chip AI tùy chỉnh được gọi là XPU, cùng loại OpenAI đang phát triển, cuối cùng sẽ chiếm thị phần lớn trên thị trường phần cứng dành cho AI. Hiện tại, Nvidia vẫn là cái tên hàng đầu trong ngành. Gần đây, công ty công bố doanh thu trong quý 2, kết thúc vào ngày 27/7, tăng 56% so với cùng kỳ năm ngoái.

Năm ngành nghề sẽ bị AI hoàn toàn 'chiếm lĩnh' vào năm 2026 AI không còn là một "khái niệm tương lai" nữa; nó đã và đang thay đổi cách con người sống và làm việc! Một số tổ chức uy tín dự đoán AI có thể thay thế 300 triệu việc làm trong vài năm tới và 5 ngành sẽ bị AI hoàn toàn "chiếm lĩnh" vào năm tới. Trí tuệ nhân tạo sẽ thế...

Bạn thấy bài viết này có hữu ích không?

Có

Không

Tin liên quan

Xem thêm Share

Xem nhiều

Chiếc điện thoại có camera tách rời, tích hợp chống rung gimbal03:00

Lỗi kỳ lạ khiến Facebook Việt tràn ngập nội dung khiêu dâm07:02

Chiếc SUV Trung Quốc vượt sông dài nhất châu Á, nổi trên nước như thuyền03:48

Tiêu điểm

Tin đang nóng

Tin mới nhất

Exynos 2600 sẽ xuất hiện trên Galaxy S26 Ultra?

12:49:06 23/10/2025

Theo SammyGuru, một thông tin rò rỉ mới đây đang gây xôn xao cộng đồng công nghệ về việc Samsung dường như đã sẵn sàng trang bị cho Galaxy S26 Ultra chipset Exynos 2600 cây nhà lá vườn của hãng.

Dòng Galaxy S23 bị hoãn cập nhật One UI 8

12:39:25 23/10/2025

Dòng Galaxy S23 đã trở thành thiết bị mới nhất bị ảnh hưởng bởi việc tạm dừng triển khai One UI 8, chỉ vài ngày sau khi Samsung thu hồi bản cập nhật cho một số thiết bị khác.

Người dùng tuyệt đối không làm theo những video này trên TikTok

09:09:02 23/10/2025

Một làn sóng video bẫy mới do AI tạo ra đang lan truyền nhanh chóng trên TikTok, dụ dỗ người xem chạy mã độc trên máy tính của chính họ.

DeepSeek V3.1 dẫn trước GPT-5, Gemini 2.5 Pro trong cuộc thi đầu tư tiền mã hóa

10:13:04 22/10/2025

Cuộc thử nghiệm giao dịch tiền mã hóa trên thị trường thật được thiết kế để đánh giá năng lực đầu tư của 6 mô hình ngôn ngữ lớn hàng đầu, với DeepSeek V3.1 đang tạm thời vượt trội các đối thủ.

Người dùng iPhone nên bật tùy chọn này ngay lập tức trên iOS 26

18:10:28 21/10/2025

Nhìn chung, chỉ với vài thao tác đơn giản, người dùng iPhone có thể tăng cường khả năng bảo mật của thiết bị, đặc biệt là trong bối cảnh các hình thức tấn công vật lý ngày càng tinh vi.

Realme GT 8 và GT 8 Pro: trang bị camera 200MP, pin 7.000 mAh và sạc nhanh 120W

16:32:38 21/10/2025

Realme đang chuẩn bị khuấy đảo phân khúc flagship với bộ đôi Realme GT 8 và GT 8 Pro, dự kiến ra mắt chính thức vào ngày 21/10.

X ra mắt sàn giao dịch mua bán tên người dùng không hoạt động

08:56:56 21/10/2025

Đối với giao dịch mua trực tiếp, giá cả dựa trên một số yếu tố, chẳng hạn như mức độ phổ biến của từ, độ dài ký tự và ý nghĩa văn hóa của tên người dùng.

Bật ngay cài đặt bảo mật này trên iPhone nếu không muốn bị đánh cắp dữ liệu

08:44:19 21/10/2025

Chỉ cần một lần nhấn Cho phép sai có thể khiến dữ liệu quý giá bị đánh cắp. Vì thế, nên bật chế độ Always Ask ngay và biến iPhone của bạn thành một pháo đài an toàn trước mọi ổ sạc công cộng đầy rủi ro.

Pin siêu lớn đang thúc đẩy cuộc cách mạng năng lượng sạch

08:38:06 21/10/2025

Tesla đang nỗ lực giành vị trí tiên phong trong làn sóng siêu pin này. Tháng trước, công ty ra mắt pin Megablock mới, kết hợp bốn bộ Megapack và một máy biến áp trong một module duy nhất nhằm tối ưu hiệu suất và đơn giản hóa quy trình l...

Tham vọng của OpenAI đối mặt với thực tế đắt đỏ

17:39:07 20/10/2025

Nhưng mạng lưới đầu tư chằng chịt giữa các công ty hàng đầu trong ngành đã dẫn đến những lo ngại rằng nhu cầu về AI có thể đang bị thổi phồng.

Công nghệ QLED siêu mỏng mô phỏng ánh sáng tự nhiên

14:21:56 20/10/2025

Với độ dày tối thiểu và chất lượng ánh sáng vượt trội, nguyên mẫu LED mỏng như giấy dán tường này đang đặt nền móng vững chắc cho một thế hệ công nghệ chiếu sáng mới, nơi sự hiệu quả và sức khỏe con người được đặt lên hàng đầu.

So sánh sự khác biệt giữa AirPods 4 và AirPods Pro 2

13:11:16 20/10/2025

Cả hai dòng sản phẩm đều được trang bị chip H2 mạnh mẽ của Apple. Tuy nhiên, cách chúng tận dụng con chip này lại tạo ra những trải nghiệm rất khác nhau.