Mô hình LLM phản hồi sai nếu bị dẫn dắt bằng thủ thuật tâm lý
Một nghiên cứu mới cho thấy các mô hình LLM (ngôn ngữ lớn) có thể bị thao túng để vượt qua các rào cản đạo đức bằng kỹ thuật tâm lý.
Theo ArsTechnica , một nhóm nhà nghiên cứu vừa công bố kết quả thử nghiệm cho thấy các mô hình ngôn ngữ lớn (LLM), bao gồm những hệ thống như ChatGPT , có thể bị thuyết phục để trả lời các yêu cầu bị cấm thông qua các thủ thuật tâm lý đơn giản. Nghiên cứu này chỉ ra những điểm yếu tiềm tàng trong cách các mô hình LLM được huấn luyện và phản hồi, dù đã được thiết kế với nhiều lớp bảo vệ để từ chối các lệnh nguy hiểm hoặc phi đạo đức.
Trong thử nghiệm, các nhà nghiên cứu từ nhóm Alignment Research Center (ARC) sử dụng một mô hình đặc biệt có tên là “parahuman” để mô phỏng hành vi người dùng tìm cách vượt rào. Mô hình parahuman này được huấn luyện để tối ưu khả năng thuyết phục các LLM cung cấp thông tin mà thông thường sẽ bị từ chối, như cách chế tạo chất nổ hoặc thực hiện các hành vi bất hợp pháp khác.
Hệ thống kiểm soát đạo đức trong LLM có thể bị qua mặt nếu lệnh được diễn đạt gián tiếp hay giả tưởng , khiến mô hình phản hồi nội dung bị cấm . ẢNH: CHỤP MÀN HÌNH ARTHUR.AI
Video đang HOT
Kỹ thuật được sử dụng bao gồm việc làm mềm câu lệnh, mô tả tình huống giả tưởng, hoặc thậm chí gợi ý rằng AI có thể từ chối nhưng nên xem xét lại vì lý do “nghiên cứu” hoặc “học thuật”. Những cách tiếp cận này không yêu cầu thao túng kỹ thuật như jailbreak (vượt rào bảo mật) hay prompt injection (chèn lệnh độc hại), mà chỉ đơn thuần khai thác phản xạ tương tác của mô hình dựa trên dữ liệu huấn luyện.
Kết quả cho thấy ngay cả các LLM đã qua tinh chỉnh như Claude và ChatGPT cũng có tỷ lệ phản hồi sai lệch lên tới 50% trong một số trường hợp. Điều này đặt ra câu hỏi nghiêm túc về độ an toàn và khả năng kiểm soát của các hệ thống AI hiện đại, đặc biệt khi chúng được sử dụng trong các môi trường mở, nơi người dùng có thể sáng tạo ra vô số kịch bản để qua mặt kiểm duyệt.
Đáng chú ý, nghiên cứu cũng nhấn mạnh rằng hệ thống AI không cần phải bị “lừa” theo cách truyền thống. Việc các mô hình bị “thuyết phục” giống như một người dùng đang tranh luận có lý – chính xác là điều khiến chúng trở nên nguy hiểm hơn, vì sự vi phạm không xuất phát từ lỗi kỹ thuật, mà từ sự phản hồi giống con người trong ngữ cảnh thuyết phục.
Các chuyên gia nhận định rằng đây là một lời cảnh tỉnh với cộng đồng phát triển AI. Dù các rào chắn kỹ thuật vẫn cần thiết, song việc hiểu rõ các hành vi “gần người” (parahuman) và kiểm soát phản xạ ngôn ngữ của mô hình đang trở thành ưu tiên hàng đầu. Nếu không được xử lý kịp thời, những lỗ hổng này có thể bị khai thác trong các ứng dụng thực tế, từ lừa đảo đến tấn công thông tin hoặc thao túng nhận thức.
OpenAI tự sản xuất chip
Nhà phát triển ChatGPT hợp tác với Broadcom để phát triển chip AI tùy chỉnh, sử dụng trong các hệ thống phần cứng nội bộ.
OpenAI tính chuyện tự sản xuất chip bán dẫn để đáp ứng nhu cầu tính toán khổng lồ. Ảnh: Reuters.
Theo Financial Times , OpenAI chuẩn bị sản xuất hàng loạt chip AI vào năm tới, có thể cung cấp sức mạnh tính toán khổng lồ cho các nền tảng trí tuệ nhân tạo họ đang vận hành và giảm bớt sự phụ thuộc vào Nvidia.
Các nguồn tin cho rằng OpenAI thiết kế chip AI tùy chỉnh này với sự hợp tác của nhà sản xuất bán dẫn Broadcom - tập đoàn vừa thông báo có một khách hàng mới, với đơn đặt hàng lên tới 10 tỷ USD.
Nhà sản xuất chip của Mỹ không nêu tên khách hàng, nhưng các nguồn tin của Financial Times xác nhận đó là OpenAI. Ngoài ra, dường như công ty không có kế hoạch bán chip ra bên ngoài, chỉ sử dụng trong các hệ thống phần cứng nội bộ.
Động thái này tương tự cách tiếp cận của các gã khổng lồ công nghệ khác như Google và Amazon, những công ty thiết kế chip tùy chỉnh để cắt giảm chi phí, củng cố nguồn cung và giảm sự phụ thuộc vào Nvidia.
Từ năm 2023, Reuters đưa tin OpenAI bắt đầu tìm hiểu khả năng tự sản xuất chip AI sau khi Sam Altman đổ lỗi cho tình trạng thiếu hụt GPU ảnh hưởng đến tốc độ và độ tin cậy của API.
Trước đó, hãng thông tấn này cũng đưa tin OpenAI hợp tác với cả Broadcom và Taiwan Semiconductor Manufacturing Co. (TSMC) để phát triển sản phẩm riêng. Financial Times không cho biết OpenAI còn duy trì quan hệ đối tác với TSMC hay không.
Sau khi GPT-5 ra mắt, Altman công bố những thay đổi mà OpenAI đang thực hiện để đáp ứng "nhu cầu ngày càng tăng". Ngoài việc ưu tiên người dùng ChatGPT trả phí, ông khẳng định OpenAI sẽ tăng gấp đôi năng lực tính toán của mình "trong 5 tháng tới".
Các chip AI tùy chỉnh được gọi là XPU, cùng loại OpenAI đang phát triển, cuối cùng sẽ chiếm thị phần lớn trên thị trường phần cứng dành cho AI. Hiện tại, Nvidia vẫn là cái tên hàng đầu trong ngành. Gần đây, công ty công bố doanh thu trong quý 2, kết thúc vào ngày 27/7, tăng 56% so với cùng kỳ năm ngoái.
Năm ngành nghề sẽ bị AI hoàn toàn 'chiếm lĩnh' vào năm 2026
AI không còn là một "khái niệm tương lai" nữa; nó đã và đang thay đổi cách con người sống và làm việc! Một số tổ chức uy tín dự đoán AI có thể thay thế 300 triệu việc làm trong vài năm tới và 5 ngành sẽ bị AI hoàn toàn "chiếm lĩnh" vào năm tới. Trí tuệ nhân tạo sẽ thế...
Tiêu điểm
Tin đang nóng
Tin mới nhất

Exynos 2600 sẽ xuất hiện trên Galaxy S26 Ultra?

Dòng Galaxy S23 bị hoãn cập nhật One UI 8

Người dùng tuyệt đối không làm theo những video này trên TikTok

DeepSeek V3.1 dẫn trước GPT-5, Gemini 2.5 Pro trong cuộc thi đầu tư tiền mã hóa

Người dùng iPhone nên bật tùy chọn này ngay lập tức trên iOS 26

Realme GT 8 và GT 8 Pro: trang bị camera 200MP, pin 7.000 mAh và sạc nhanh 120W

X ra mắt sàn giao dịch mua bán tên người dùng không hoạt động

Bật ngay cài đặt bảo mật này trên iPhone nếu không muốn bị đánh cắp dữ liệu

Pin siêu lớn đang thúc đẩy cuộc cách mạng năng lượng sạch

Tham vọng của OpenAI đối mặt với thực tế đắt đỏ

Công nghệ QLED siêu mỏng mô phỏng ánh sáng tự nhiên

So sánh sự khác biệt giữa AirPods 4 và AirPods Pro 2
Có thể bạn quan tâm

Ai cấm chiếu bộ phim này giùm với: Hại chết một sinh mạng vô tội, hàng triệu người phẫn nộ tẩy chay
Hậu trường phim
00:29:23 24/10/2025
Dấu chấm hết của Lương Bằng Quang
Nhạc việt
00:24:26 24/10/2025
Làm ơn đừng để tài tử này cưa sừng làm nghé nữa: Đóng học sinh mà già như phụ huynh, lừa được ai hả trời
Phim châu á
00:21:50 24/10/2025
Ngân 98 bị khởi tố thêm tội sau khi Lương Bằng Quang bị bắt
Sao việt
00:00:58 24/10/2025
Ái nữ trùm sòng bạc Macau và "chồng nghèo" Đậu Kiêu ra tuyên bố nóng
Sao châu á
23:56:33 23/10/2025
Chỉ vì một cây vàng tặng con dâu, mẹ chồng tôi bỗng dưng mất tất cả
Góc tâm tình
23:53:53 23/10/2025
MC Quyền Linh phản ứng khi bị chê 1 màu, dẫn chương trình lặp lại
Tv show
23:53:34 23/10/2025
Ngoại trưởng Mỹ nói vẫn sẵn sàng đối thoại với Nga
Thế giới
23:50:30 23/10/2025
Vụ 40 học sinh nhập viện: Thông tin bất ngờ gây bức xúc cho phụ huynh
Tin nổi bật
23:45:15 23/10/2025
Quản lý thị trường Hà Nội chuyển cơ quan điều tra 78 vụ sản xuất, buôn bán hàng giả
Pháp luật
23:25:13 23/10/2025
Cách kéo dài thêm một năm hỗ trợ miễn phí cho Windows 10
Những tính năng đã biến mất khỏi smartphone
AI thay đổi cách con người lên kế hoạch du lịch như thế nào?
xAI công bố mã nguồn mở Grok 2.5, chuẩn bị điều tương tự với Grok 3
Công ty DeepSeek ra mắt mô hình Trí tuệ Nhân tạo nâng cấp V3.1
CEO OpenAI cảnh báo bong bóng AI
Ứng dụng di động của ChatGPT đã thu về 2 tỷ USD
Ứng dụng ChatGPT đạt 2 tỉ USD doanh thu, kiếm 2,91 đô/lượt cài
Chatbot AI của Meta tương tác 'gợi cảm' với trẻ em?
Google bị tấn công dữ liệu nghiêm trọng
Cảnh báo trợ lý AI có thể trở thành 'tác nhân độc hại' tấn công người dùng
GPT-5 ra mắt: Perplexity AI hay ChatGPT sẽ soán ngôi?
iOS 26 beta mở cửa cho công chúng, sẵn sàng để thử nghiệm
iPhone 17 sử dụng AI mạnh nhất lịch sử của OpenAI
Nhận diện thủ đoạn lợi dụng trí tuệ nhân tạo để tác động 'tự diễn biến', 'tự chuyển hóa'
OpenAI trình làng phiên bản ChatGPT-5
ChatGPT thay đổi, không còn 'tám chuyện' với người dùng
Chính phủ Mỹ được sử dụng phiên bản ChatGPT Enterprise giá 1 USD
Chạy đua AI kiểu Big Tech: Có nên nhanh tới mức bỏ quên người dùng?
Quét não người dùng Chat GPT, phát hiện điều không ai ngờ tới
Phát hiện bàng hoàng về ChatGPT
Người dùng hoang mang khi bị lộ cuộc trò chuyện với ChatGPT trên Google
Cách viết prompt cho AI cho người mới đơn giản, hiệu quả
Chiếc điện thoại có camera tách rời, tích hợp chống rung gimbal
Lỗi kỳ lạ khiến Facebook Việt tràn ngập nội dung khiêu dâm
Chiếc SUV Trung Quốc vượt sông dài nhất châu Á, nổi trên nước như thuyền
Cách ngăn Facebook "xem" ảnh riêng tư trong điện thoại, tránh nguy cơ rò rỉ
iOS 26.1 giúp giải quyết vấn đề gây khó chịu nhất trên iOS 26
OpenAI ra mắt ChatGPT Atlas - trình duyệt AI có thể lướt web thay con người
Vì sao iPhone 17 Pro màu cam bỗng hóa hồng?
OpenAI ra mắt trình duyệt cạnh tranh với Google Chrome
Bác sĩ AI và bài toán nhân lực y tế: Hợp tác giữa công nghệ và nhân văn
OpenAI tạo mối đe dọa đáng kể nhất với vị trí thống trị của Google trên internet
OpenAI ra mắt trình duyệt web tích hợp AI
Bắt tạm giam Lương Bằng Quang vì hành vi cùng Ngân 98 'chạy án'
"Ông trùm săn mồi tình dục" Diddy bị ám sát trong tù
"Chồng nghèo" Đậu Kiêu tháo chạy khỏi nhà trùm sòng bạc Macau vì vợ chỉ là con ngoài giá thú?
5 mỹ nhân showbiz này "ăn giấy sống qua ngày" sao?
Lương Bằng Quang liên tục gào khóc trước lúc bị bắt
Nữ tỷ phú 55 tuổi gây xôn xao khi công khai yêu trai trẻ kém 30 tuổi
Loạt sự cố "cười ra nước mắt" của Hoa hậu Đỗ Hà trong đám cưới giữa bão số 12
Siêu thảm đỏ "đáng sợ" nhất Cbiz: "Tiên hoa" Lưu Diệc Phi gầy khó tin vẫn không cứu nổi rừng sao "xấu đau xấu đớn"
Mẹ chồng tập đoàn Sơn Hải mang đến 1 món đồ khiến con dâu Đỗ Hà "sĩ" hết đời!
2 chi tiết đưa đám cưới Viết Vương - Đỗ Hà lên hàng top, gia đình chủ tịch Sơn Hải quá chu toàn!
Tại sao dàn sao Việt vắng mặt ở đám cưới Hoa hậu Đỗ Hà?
Mẹ tôi lên chơi với cháu nhưng đột nhiên biến mất, 2 ngày sau bà nhắn cho tôi đúng 1 dòng: "Cẩn thận chồng con"
Chồng doanh nhân của Đỗ Thị Hà tới đón dâu
Khởi tố Giám đốc Công ty cổ phần dược Bảo Khánh
Lễ đón dâu Đỗ Hà và thiếu gia tập đoàn Sơn Hải: Cô dâu cực xinh, thái độ mẹ chồng gây chú ý
Việt Nam có 1 mỹ nhân giống cả tá sao Trung Quốc: Đẹp tựa Lưu Diệc Phi, hao hao Vương Sở Nhiên, ăn đứt Lý Thấm
Công trình giao thông "tê liệt" vì vướng mặt bằng, bị đào trộm 2.000m3 đất
Mỗi lần nhìn thấy anh rể, tôi lại run rẩy vì một bí mật anh từng tiết lộ