Mô hình LLM phản hồi sai nếu bị dẫn dắt bằng thủ thuật tâm lý
Một nghiên cứu mới cho thấy các mô hình LLM (ngôn ngữ lớn) có thể bị thao túng để vượt qua các rào cản đạo đức bằng kỹ thuật tâm lý.
Theo ArsTechnica , một nhóm nhà nghiên cứu vừa công bố kết quả thử nghiệm cho thấy các mô hình ngôn ngữ lớn (LLM), bao gồm những hệ thống như ChatGPT , có thể bị thuyết phục để trả lời các yêu cầu bị cấm thông qua các thủ thuật tâm lý đơn giản. Nghiên cứu này chỉ ra những điểm yếu tiềm tàng trong cách các mô hình LLM được huấn luyện và phản hồi, dù đã được thiết kế với nhiều lớp bảo vệ để từ chối các lệnh nguy hiểm hoặc phi đạo đức.
Trong thử nghiệm, các nhà nghiên cứu từ nhóm Alignment Research Center (ARC) sử dụng một mô hình đặc biệt có tên là “parahuman” để mô phỏng hành vi người dùng tìm cách vượt rào. Mô hình parahuman này được huấn luyện để tối ưu khả năng thuyết phục các LLM cung cấp thông tin mà thông thường sẽ bị từ chối, như cách chế tạo chất nổ hoặc thực hiện các hành vi bất hợp pháp khác.
Hệ thống kiểm soát đạo đức trong LLM có thể bị qua mặt nếu lệnh được diễn đạt gián tiếp hay giả tưởng , khiến mô hình phản hồi nội dung bị cấm . ẢNH: CHỤP MÀN HÌNH ARTHUR.AI
Video đang HOT
Kỹ thuật được sử dụng bao gồm việc làm mềm câu lệnh, mô tả tình huống giả tưởng, hoặc thậm chí gợi ý rằng AI có thể từ chối nhưng nên xem xét lại vì lý do “nghiên cứu” hoặc “học thuật”. Những cách tiếp cận này không yêu cầu thao túng kỹ thuật như jailbreak (vượt rào bảo mật) hay prompt injection (chèn lệnh độc hại), mà chỉ đơn thuần khai thác phản xạ tương tác của mô hình dựa trên dữ liệu huấn luyện.
Kết quả cho thấy ngay cả các LLM đã qua tinh chỉnh như Claude và ChatGPT cũng có tỷ lệ phản hồi sai lệch lên tới 50% trong một số trường hợp. Điều này đặt ra câu hỏi nghiêm túc về độ an toàn và khả năng kiểm soát của các hệ thống AI hiện đại, đặc biệt khi chúng được sử dụng trong các môi trường mở, nơi người dùng có thể sáng tạo ra vô số kịch bản để qua mặt kiểm duyệt.
Đáng chú ý, nghiên cứu cũng nhấn mạnh rằng hệ thống AI không cần phải bị “lừa” theo cách truyền thống. Việc các mô hình bị “thuyết phục” giống như một người dùng đang tranh luận có lý – chính xác là điều khiến chúng trở nên nguy hiểm hơn, vì sự vi phạm không xuất phát từ lỗi kỹ thuật, mà từ sự phản hồi giống con người trong ngữ cảnh thuyết phục.
Các chuyên gia nhận định rằng đây là một lời cảnh tỉnh với cộng đồng phát triển AI. Dù các rào chắn kỹ thuật vẫn cần thiết, song việc hiểu rõ các hành vi “gần người” (parahuman) và kiểm soát phản xạ ngôn ngữ của mô hình đang trở thành ưu tiên hàng đầu. Nếu không được xử lý kịp thời, những lỗ hổng này có thể bị khai thác trong các ứng dụng thực tế, từ lừa đảo đến tấn công thông tin hoặc thao túng nhận thức.
OpenAI tự sản xuất chip
Nhà phát triển ChatGPT hợp tác với Broadcom để phát triển chip AI tùy chỉnh, sử dụng trong các hệ thống phần cứng nội bộ.
OpenAI tính chuyện tự sản xuất chip bán dẫn để đáp ứng nhu cầu tính toán khổng lồ. Ảnh: Reuters.
Theo Financial Times , OpenAI chuẩn bị sản xuất hàng loạt chip AI vào năm tới, có thể cung cấp sức mạnh tính toán khổng lồ cho các nền tảng trí tuệ nhân tạo họ đang vận hành và giảm bớt sự phụ thuộc vào Nvidia.
Các nguồn tin cho rằng OpenAI thiết kế chip AI tùy chỉnh này với sự hợp tác của nhà sản xuất bán dẫn Broadcom - tập đoàn vừa thông báo có một khách hàng mới, với đơn đặt hàng lên tới 10 tỷ USD.
Nhà sản xuất chip của Mỹ không nêu tên khách hàng, nhưng các nguồn tin của Financial Times xác nhận đó là OpenAI. Ngoài ra, dường như công ty không có kế hoạch bán chip ra bên ngoài, chỉ sử dụng trong các hệ thống phần cứng nội bộ.
Động thái này tương tự cách tiếp cận của các gã khổng lồ công nghệ khác như Google và Amazon, những công ty thiết kế chip tùy chỉnh để cắt giảm chi phí, củng cố nguồn cung và giảm sự phụ thuộc vào Nvidia.
Từ năm 2023, Reuters đưa tin OpenAI bắt đầu tìm hiểu khả năng tự sản xuất chip AI sau khi Sam Altman đổ lỗi cho tình trạng thiếu hụt GPU ảnh hưởng đến tốc độ và độ tin cậy của API.
Trước đó, hãng thông tấn này cũng đưa tin OpenAI hợp tác với cả Broadcom và Taiwan Semiconductor Manufacturing Co. (TSMC) để phát triển sản phẩm riêng. Financial Times không cho biết OpenAI còn duy trì quan hệ đối tác với TSMC hay không.
Sau khi GPT-5 ra mắt, Altman công bố những thay đổi mà OpenAI đang thực hiện để đáp ứng "nhu cầu ngày càng tăng". Ngoài việc ưu tiên người dùng ChatGPT trả phí, ông khẳng định OpenAI sẽ tăng gấp đôi năng lực tính toán của mình "trong 5 tháng tới".
Các chip AI tùy chỉnh được gọi là XPU, cùng loại OpenAI đang phát triển, cuối cùng sẽ chiếm thị phần lớn trên thị trường phần cứng dành cho AI. Hiện tại, Nvidia vẫn là cái tên hàng đầu trong ngành. Gần đây, công ty công bố doanh thu trong quý 2, kết thúc vào ngày 27/7, tăng 56% so với cùng kỳ năm ngoái.
Năm ngành nghề sẽ bị AI hoàn toàn 'chiếm lĩnh' vào năm 2026 AI không còn là một "khái niệm tương lai" nữa; nó đã và đang thay đổi cách con người sống và làm việc! Một số tổ chức uy tín dự đoán AI có thể thay thế 300 triệu việc làm trong vài năm tới và 5 ngành sẽ bị AI hoàn toàn "chiếm lĩnh" vào năm tới. Trí tuệ nhân tạo sẽ thế...











Tiêu điểm
Tin đang nóng
Tin mới nhất

OpenAI ký thỏa thuận điện toán đám mây lịch sử trị giá 300 tỷ USD với Oracle

"Xanh hóa" AI: Nhiệm vụ cấp bách cho Đông Nam Á

Vì sao các tập đoàn công nghệ trả hàng triệu USD để thu hút nhân tài AI?

Tạo đột phá thể chế, thúc đẩy khoa học công nghệ và đổi mới sáng tạo

Khi trí tuệ nhân tạo 'bước vào' phòng phỏng vấn tuyển dụng

Ứng dụng trợ lý ảo hỗ trợ sinh viên trong trường đại học

Meta đối mặt thêm 'sóng gió' từ cáo buộc sai sót trong đảm bảo an ninh mạng

Apple ra mắt iPhone 17, iOS 26 và loạt sản phẩm mới

Windows 10 "nổi loạn" giành lại thị phần từ Windows 11 ngay trước giờ G

Người dùng 'sập bẫy' trước chiêu trò buộc nâng cấp iPhone của Apple

Thói quen gây hao pin trên điện thoại Android cần bỏ ngay

Apple có thể phải 'nhờ cậy' Google Gemini sau khi trì hoãn nâng cấp lớn cho Siri tới năm 2026
Có thể bạn quan tâm

Xe tay ga cùng phân khúc với Honda Vision, giá gần 25 triệu đồng
Xe máy
08:35:24 12/09/2025
Park Bo Gum "rơi mặt nạ" hiền lành, lộ thái độ thô lỗ giữa sự kiện đông người?
Sao châu á
08:34:17 12/09/2025
Những bộ phận ô tô dễ hỏng nhất cần chú ý khi độ xe
Ôtô
08:32:52 12/09/2025
Bị hôn mê do hạ đường huyết giữa đêm, người đàn ông may mắn được cứu sống nhờ... hàng xóm
Sức khỏe
08:18:21 12/09/2025
Thuý Kiều, Thuý Vân trở thành tân bác sĩ nội trú
Netizen
08:11:55 12/09/2025
Sơn Tùng M-TP tiếp tục thả xích "bùa chống flop" phiên bản cập nhật làm náo loạn mạng xã hội
Nhạc việt
07:29:12 12/09/2025
Đây chính là mỹ nhân đẹp nhất Gió Ngang Khoảng Trời Xanh, càng nhìn càng không thấy khuyết điểm
Phim việt
07:13:18 12/09/2025
Màn ảnh Việt xuất hiện 1 mỹ nhân cổ trang trời sinh: 13 tuổi ra dáng minh tinh, 21 tuổi nhan sắc mê hoặc lòng người
Hậu trường phim
07:08:29 12/09/2025
Cổng Tò Vò ở đảo Lý Sơn thành di tích quốc gia
Du lịch
07:01:27 12/09/2025
Đố ai tìm được phim Hàn nào cuốn cỡ này: Nữ chính đẹp đến phi lý, khí chất tài phiệt tràn màn hình
Phim châu á
06:40:54 12/09/2025