Mô hình LLM phản hồi sai nếu bị dẫn dắt bằng thủ thuật tâm lý

Một nghiên cứu mới cho thấy các mô hình LLM (ngôn ngữ lớn) có thể bị thao túng để vượt qua các rào cản đạo đức bằng kỹ thuật tâm lý.

Theo ArsTechnica , một nhóm nhà nghiên cứu vừa công bố kết quả thử nghiệm cho thấy các mô hình ngôn ngữ lớn (LLM), bao gồm những hệ thống như ChatGPT , có thể bị thuyết phục để trả lời các yêu cầu bị cấm thông qua các thủ thuật tâm lý đơn giản. Nghiên cứu này chỉ ra những điểm yếu tiềm tàng trong cách các mô hình LLM được huấn luyện và phản hồi, dù đã được thiết kế với nhiều lớp bảo vệ để từ chối các lệnh nguy hiểm hoặc phi đạo đức.

Trong thử nghiệm, các nhà nghiên cứu từ nhóm Alignment Research Center (ARC) sử dụng một mô hình đặc biệt có tên là “parahuman” để mô phỏng hành vi người dùng tìm cách vượt rào. Mô hình parahuman này được huấn luyện để tối ưu khả năng thuyết phục các LLM cung cấp thông tin mà thông thường sẽ bị từ chối, như cách chế tạo chất nổ hoặc thực hiện các hành vi bất hợp pháp khác.

Mô hình LLM phản hồi sai nếu bị dẫn dắt bằng thủ thuật tâm lý - Hình 1

Hệ thống kiểm soát đạo đức trong LLM có thể bị qua mặt nếu lệnh được diễn đạt gián tiếp hay giả tưởng , khiến mô hình phản hồi nội dung bị cấm . ẢNH: CHỤP MÀN HÌNH ARTHUR.AI

Video đang HOT

Kỹ thuật được sử dụng bao gồm việc làm mềm câu lệnh, mô tả tình huống giả tưởng, hoặc thậm chí gợi ý rằng AI có thể từ chối nhưng nên xem xét lại vì lý do “nghiên cứu” hoặc “học thuật”. Những cách tiếp cận này không yêu cầu thao túng kỹ thuật như jailbreak (vượt rào bảo mật) hay prompt injection (chèn lệnh độc hại), mà chỉ đơn thuần khai thác phản xạ tương tác của mô hình dựa trên dữ liệu huấn luyện.

Kết quả cho thấy ngay cả các LLM đã qua tinh chỉnh như Claude và ChatGPT cũng có tỷ lệ phản hồi sai lệch lên tới 50% trong một số trường hợp. Điều này đặt ra câu hỏi nghiêm túc về độ an toàn và khả năng kiểm soát của các hệ thống AI hiện đại, đặc biệt khi chúng được sử dụng trong các môi trường mở, nơi người dùng có thể sáng tạo ra vô số kịch bản để qua mặt kiểm duyệt.

Đáng chú ý, nghiên cứu cũng nhấn mạnh rằng hệ thống AI không cần phải bị “lừa” theo cách truyền thống. Việc các mô hình bị “thuyết phục” giống như một người dùng đang tranh luận có lý – chính xác là điều khiến chúng trở nên nguy hiểm hơn, vì sự vi phạm không xuất phát từ lỗi kỹ thuật, mà từ sự phản hồi giống con người trong ngữ cảnh thuyết phục.

Các chuyên gia nhận định rằng đây là một lời cảnh tỉnh với cộng đồng phát triển AI. Dù các rào chắn kỹ thuật vẫn cần thiết, song việc hiểu rõ các hành vi “gần người” (parahuman) và kiểm soát phản xạ ngôn ngữ của mô hình đang trở thành ưu tiên hàng đầu. Nếu không được xử lý kịp thời, những lỗ hổng này có thể bị khai thác trong các ứng dụng thực tế, từ lừa đảo đến tấn công thông tin hoặc thao túng nhận thức.

OpenAI tự sản xuất chip

Nhà phát triển ChatGPT hợp tác với Broadcom để phát triển chip AI tùy chỉnh, sử dụng trong các hệ thống phần cứng nội bộ.

OpenAI tự sản xuất chip - Hình 1

OpenAI tính chuyện tự sản xuất chip bán dẫn để đáp ứng nhu cầu tính toán khổng lồ. Ảnh: Reuters.

Theo Financial Times , OpenAI chuẩn bị sản xuất hàng loạt chip AI vào năm tới, có thể cung cấp sức mạnh tính toán khổng lồ cho các nền tảng trí tuệ nhân tạo họ đang vận hành và giảm bớt sự phụ thuộc vào Nvidia.

Các nguồn tin cho rằng OpenAI thiết kế chip AI tùy chỉnh này với sự hợp tác của nhà sản xuất bán dẫn Broadcom - tập đoàn vừa thông báo có một khách hàng mới, với đơn đặt hàng lên tới 10 tỷ USD.

Nhà sản xuất chip của Mỹ không nêu tên khách hàng, nhưng các nguồn tin của Financial Times xác nhận đó là OpenAI. Ngoài ra, dường như công ty không có kế hoạch bán chip ra bên ngoài, chỉ sử dụng trong các hệ thống phần cứng nội bộ.

Động thái này tương tự cách tiếp cận của các gã khổng lồ công nghệ khác như Google và Amazon, những công ty thiết kế chip tùy chỉnh để cắt giảm chi phí, củng cố nguồn cung và giảm sự phụ thuộc vào Nvidia.

Từ năm 2023, Reuters đưa tin OpenAI bắt đầu tìm hiểu khả năng tự sản xuất chip AI sau khi Sam Altman đổ lỗi cho tình trạng thiếu hụt GPU ảnh hưởng đến tốc độ và độ tin cậy của API.

Trước đó, hãng thông tấn này cũng đưa tin OpenAI hợp tác với cả Broadcom và Taiwan Semiconductor Manufacturing Co. (TSMC) để phát triển sản phẩm riêng. Financial Times không cho biết OpenAI còn duy trì quan hệ đối tác với TSMC hay không.

Sau khi GPT-5 ra mắt, Altman công bố những thay đổi mà OpenAI đang thực hiện để đáp ứng "nhu cầu ngày càng tăng". Ngoài việc ưu tiên người dùng ChatGPT trả phí, ông khẳng định OpenAI sẽ tăng gấp đôi năng lực tính toán của mình "trong 5 tháng tới".

Các chip AI tùy chỉnh được gọi là XPU, cùng loại OpenAI đang phát triển, cuối cùng sẽ chiếm thị phần lớn trên thị trường phần cứng dành cho AI. Hiện tại, Nvidia vẫn là cái tên hàng đầu trong ngành. Gần đây, công ty công bố doanh thu trong quý 2, kết thúc vào ngày 27/7, tăng 56% so với cùng kỳ năm ngoái.

Bạn thấy bài viết này có hữu ích không?
Không

Tin liên quan

Tiêu điểm

Cách ngăn Facebook "xem" ảnh riêng tư trong điện thoại, tránh nguy cơ rò rỉCách ngăn Facebook "xem" ảnh riêng tư trong điện thoại, tránh nguy cơ rò rỉ
09:02:28 23/10/2025
iOS 26.1 giúp giải quyết vấn đề gây khó chịu nhất trên iOS 26iOS 26.1 giúp giải quyết vấn đề gây khó chịu nhất trên iOS 26
15:25:11 22/10/2025
OpenAI ra mắt ChatGPT Atlas - trình duyệt AI có thể lướt web thay con ngườiOpenAI ra mắt ChatGPT Atlas - trình duyệt AI có thể lướt web thay con người
08:47:17 23/10/2025
Vì sao iPhone 17 Pro màu cam bỗng hóa hồng?Vì sao iPhone 17 Pro màu cam bỗng hóa hồng?
20:46:43 23/10/2025
OpenAI ra mắt trình duyệt cạnh tranh với Google ChromeOpenAI ra mắt trình duyệt cạnh tranh với Google Chrome
09:39:30 22/10/2025
Bác sĩ AI và bài toán nhân lực y tế: Hợp tác giữa công nghệ và nhân vănBác sĩ AI và bài toán nhân lực y tế: Hợp tác giữa công nghệ và nhân văn
10:15:48 22/10/2025
OpenAI tạo mối đe dọa đáng kể nhất với vị trí thống trị của Google trên internetOpenAI tạo mối đe dọa đáng kể nhất với vị trí thống trị của Google trên internet
17:33:49 23/10/2025
OpenAI ra mắt trình duyệt web tích hợp AIOpenAI ra mắt trình duyệt web tích hợp AI
09:43:48 22/10/2025

Tin đang nóng

Bắt tạm giam Lương Bằng Quang vì hành vi cùng Ngân 98 'chạy án'Bắt tạm giam Lương Bằng Quang vì hành vi cùng Ngân 98 'chạy án'
19:34:38 23/10/2025
"Ông trùm săn mồi tình dục" Diddy bị ám sát trong tù"Ông trùm săn mồi tình dục" Diddy bị ám sát trong tù
19:28:41 23/10/2025
"Chồng nghèo" Đậu Kiêu tháo chạy khỏi nhà trùm sòng bạc Macau vì vợ chỉ là con ngoài giá thú?"Chồng nghèo" Đậu Kiêu tháo chạy khỏi nhà trùm sòng bạc Macau vì vợ chỉ là con ngoài giá thú?
17:59:24 23/10/2025
5 mỹ nhân showbiz này "ăn giấy sống qua ngày" sao?5 mỹ nhân showbiz này "ăn giấy sống qua ngày" sao?
19:39:04 23/10/2025
Lương Bằng Quang liên tục gào khóc trước lúc bị bắtLương Bằng Quang liên tục gào khóc trước lúc bị bắt
23:58:24 23/10/2025
Nữ tỷ phú 55 tuổi gây xôn xao khi công khai yêu trai trẻ kém 30 tuổiNữ tỷ phú 55 tuổi gây xôn xao khi công khai yêu trai trẻ kém 30 tuổi
20:32:17 23/10/2025
Loạt sự cố "cười ra nước mắt" của Hoa hậu Đỗ Hà trong đám cưới giữa bão số 12Loạt sự cố "cười ra nước mắt" của Hoa hậu Đỗ Hà trong đám cưới giữa bão số 12
19:43:09 23/10/2025
Siêu thảm đỏ "đáng sợ" nhất Cbiz: "Tiên hoa" Lưu Diệc Phi gầy khó tin vẫn không cứu nổi rừng sao "xấu đau xấu đớn"Siêu thảm đỏ "đáng sợ" nhất Cbiz: "Tiên hoa" Lưu Diệc Phi gầy khó tin vẫn không cứu nổi rừng sao "xấu đau xấu đớn"
20:50:22 23/10/2025

Tin mới nhất

Exynos 2600 sẽ xuất hiện trên Galaxy S26 Ultra?

Exynos 2600 sẽ xuất hiện trên Galaxy S26 Ultra?

12:49:06 23/10/2025
Theo SammyGuru, một thông tin rò rỉ mới đây đang gây xôn xao cộng đồng công nghệ về việc Samsung dường như đã sẵn sàng trang bị cho Galaxy S26 Ultra chipset Exynos 2600 cây nhà lá vườn của hãng.
Dòng Galaxy S23 bị hoãn cập nhật One UI 8

Dòng Galaxy S23 bị hoãn cập nhật One UI 8

12:39:25 23/10/2025
Dòng Galaxy S23 đã trở thành thiết bị mới nhất bị ảnh hưởng bởi việc tạm dừng triển khai One UI 8, chỉ vài ngày sau khi Samsung thu hồi bản cập nhật cho một số thiết bị khác.
Người dùng tuyệt đối không làm theo những video này trên TikTok

Người dùng tuyệt đối không làm theo những video này trên TikTok

09:09:02 23/10/2025
Một làn sóng video bẫy mới do AI tạo ra đang lan truyền nhanh chóng trên TikTok, dụ dỗ người xem chạy mã độc trên máy tính của chính họ.
DeepSeek V3.1 dẫn trước GPT-5, Gemini 2.5 Pro trong cuộc thi đầu tư tiền mã hóa

DeepSeek V3.1 dẫn trước GPT-5, Gemini 2.5 Pro trong cuộc thi đầu tư tiền mã hóa

10:13:04 22/10/2025
Cuộc thử nghiệm giao dịch tiền mã hóa trên thị trường thật được thiết kế để đánh giá năng lực đầu tư của 6 mô hình ngôn ngữ lớn hàng đầu, với DeepSeek V3.1 đang tạm thời vượt trội các đối thủ.
Người dùng iPhone nên bật tùy chọn này ngay lập tức trên iOS 26

Người dùng iPhone nên bật tùy chọn này ngay lập tức trên iOS 26

18:10:28 21/10/2025
Nhìn chung, chỉ với vài thao tác đơn giản, người dùng iPhone có thể tăng cường khả năng bảo mật của thiết bị, đặc biệt là trong bối cảnh các hình thức tấn công vật lý ngày càng tinh vi.
Realme GT 8 và GT 8 Pro: trang bị camera 200MP, pin 7.000 mAh và sạc nhanh 120W

Realme GT 8 và GT 8 Pro: trang bị camera 200MP, pin 7.000 mAh và sạc nhanh 120W

16:32:38 21/10/2025
Realme đang chuẩn bị khuấy đảo phân khúc flagship với bộ đôi Realme GT 8 và GT 8 Pro, dự kiến ra mắt chính thức vào ngày 21/10.
X ra mắt sàn giao dịch mua bán tên người dùng không hoạt động

X ra mắt sàn giao dịch mua bán tên người dùng không hoạt động

08:56:56 21/10/2025
Đối với giao dịch mua trực tiếp, giá cả dựa trên một số yếu tố, chẳng hạn như mức độ phổ biến của từ, độ dài ký tự và ý nghĩa văn hóa của tên người dùng.
Bật ngay cài đặt bảo mật này trên iPhone nếu không muốn bị đánh cắp dữ liệu

Bật ngay cài đặt bảo mật này trên iPhone nếu không muốn bị đánh cắp dữ liệu

08:44:19 21/10/2025
Chỉ cần một lần nhấn Cho phép sai có thể khiến dữ liệu quý giá bị đánh cắp. Vì thế, nên bật chế độ Always Ask ngay và biến iPhone của bạn thành một pháo đài an toàn trước mọi ổ sạc công cộng đầy rủi ro.
Pin siêu lớn đang thúc đẩy cuộc cách mạng năng lượng sạch

Pin siêu lớn đang thúc đẩy cuộc cách mạng năng lượng sạch

08:38:06 21/10/2025
Tesla đang nỗ lực giành vị trí tiên phong trong làn sóng siêu pin này. Tháng trước, công ty ra mắt pin Megablock mới, kết hợp bốn bộ Megapack và một máy biến áp trong một module duy nhất nhằm tối ưu hiệu suất và đơn giản hóa quy trình l...
Tham vọng của OpenAI đối mặt với thực tế đắt đỏ

Tham vọng của OpenAI đối mặt với thực tế đắt đỏ

17:39:07 20/10/2025
Nhưng mạng lưới đầu tư chằng chịt giữa các công ty hàng đầu trong ngành đã dẫn đến những lo ngại rằng nhu cầu về AI có thể đang bị thổi phồng.
Công nghệ QLED siêu mỏng mô phỏng ánh sáng tự nhiên

Công nghệ QLED siêu mỏng mô phỏng ánh sáng tự nhiên

14:21:56 20/10/2025
Với độ dày tối thiểu và chất lượng ánh sáng vượt trội, nguyên mẫu LED mỏng như giấy dán tường này đang đặt nền móng vững chắc cho một thế hệ công nghệ chiếu sáng mới, nơi sự hiệu quả và sức khỏe con người được đặt lên hàng đầu.
So sánh sự khác biệt giữa AirPods 4 và AirPods Pro 2

So sánh sự khác biệt giữa AirPods 4 và AirPods Pro 2

13:11:16 20/10/2025
Cả hai dòng sản phẩm đều được trang bị chip H2 mạnh mẽ của Apple. Tuy nhiên, cách chúng tận dụng con chip này lại tạo ra những trải nghiệm rất khác nhau.

Có thể bạn quan tâm

Ai cấm chiếu bộ phim này giùm với: Hại chết một sinh mạng vô tội, hàng triệu người phẫn nộ tẩy chay

Ai cấm chiếu bộ phim này giùm với: Hại chết một sinh mạng vô tội, hàng triệu người phẫn nộ tẩy chay

Hậu trường phim

00:29:23 24/10/2025
Mạng xã hội Trung Quốc đang dậy sóng trước vụ việc đoàn làm phim Giày Khiêu Vũ Đỏ bị tố lái xe quá tốc độ trong khuôn viên Đại học Vân Nam, khiến một chú mèo hoang tên Tiểu Quất Tử tử vong.
Dấu chấm hết của Lương Bằng Quang

Dấu chấm hết của Lương Bằng Quang

Nhạc việt

00:24:26 24/10/2025
Từ ca - nhạc sĩ nổi danh đầu những năm 2000s, Lương Bằng Quang trượt dài trong tai tiếng thị phi và cuối cùng bị khởi tố.
Làm ơn đừng để tài tử này cưa sừng làm nghé nữa: Đóng học sinh mà già như phụ huynh, lừa được ai hả trời

Làm ơn đừng để tài tử này cưa sừng làm nghé nữa: Đóng học sinh mà già như phụ huynh, lừa được ai hả trời

Phim châu á

00:21:50 24/10/2025
Bộ phim của đài JTBC mang tên Trăm Mảnh Ký Ức (A Hundred Memories) vấp phải làn sóng tranh cãi dữ dội xoay quanh việc lựa chọn diễn viên chính.
Ngân 98 bị khởi tố thêm tội sau khi Lương Bằng Quang bị bắt

Ngân 98 bị khởi tố thêm tội sau khi Lương Bằng Quang bị bắt

Sao việt

00:00:58 24/10/2025
Theo đó, ngoài việc bị khởi tố liên quan đến vụ sản xuất, buôn bán hàng giả là thực phẩm thì Ngân 98 giờ lại tiếp tục bị liên quan đến tội Đưa hối lộ.
Ái nữ trùm sòng bạc Macau và "chồng nghèo" Đậu Kiêu ra tuyên bố nóng

Ái nữ trùm sòng bạc Macau và "chồng nghèo" Đậu Kiêu ra tuyên bố nóng

Sao châu á

23:56:33 23/10/2025
Tối 23/10, sau 1 thời gian dài giữ im lặng, Hà Siêu Liên và Đậu Kiêu đã chính thức lên tiếng về thông tin hôn nhân trục trặc, đã ly thân 2 năm qua.
Chỉ vì một cây vàng tặng con dâu, mẹ chồng tôi bỗng dưng mất tất cả

Chỉ vì một cây vàng tặng con dâu, mẹ chồng tôi bỗng dưng mất tất cả

Góc tâm tình

23:53:53 23/10/2025
Tôi kết hôn chưa đầy 3 tháng nhưng có cảm giác như mình đã trải qua cả một cuộc chiến dai dẳng. Mọi chuyện bắt đầu từ cây vàng mà mẹ chồng tặng tôi trong ngày cưới.
MC Quyền Linh phản ứng khi bị chê 1 màu, dẫn chương trình lặp lại

MC Quyền Linh phản ứng khi bị chê 1 màu, dẫn chương trình lặp lại

Tv show

23:53:34 23/10/2025
MC Quyền Linh lên tiếng trước nhiều ý kiến cho rằng anh tham gia các chương trình xã hội, thiện nguyện có nội dung na ná nhau, lặp lại trong nhiều năm qua.
Ngoại trưởng Mỹ nói vẫn sẵn sàng đối thoại với Nga

Ngoại trưởng Mỹ nói vẫn sẵn sàng đối thoại với Nga

Thế giới

23:50:30 23/10/2025
Chúng tôi vẫn muốn gặp phía Nga. Chúng tôi luôn quan tâm đến việc đối thoại nếu có cơ hội đạt được hòa bình, Ngoại trưởng Mỹ Marco Rubio nhấn mạnh.
Vụ 40 học sinh nhập viện: Thông tin bất ngờ gây bức xúc cho phụ huynh

Vụ 40 học sinh nhập viện: Thông tin bất ngờ gây bức xúc cho phụ huynh

Tin nổi bật

23:45:15 23/10/2025
Nữ Phó Hiệu trưởng Trường PTDT bán trú Tiểu học Kim Thủy bất ngờ xuất hiện tại trường dù đang trong thời gian bị tạm đình chỉ công tác.
Quản lý thị trường Hà Nội chuyển cơ quan điều tra 78 vụ sản xuất, buôn bán hàng giả

Quản lý thị trường Hà Nội chuyển cơ quan điều tra 78 vụ sản xuất, buôn bán hàng giả

Pháp luật

23:25:13 23/10/2025
Chi cục Quản lý thị trường TP Hà Nội vừa tổ chức Hội nghị giao ban tháng 10, đánh giá toàn diện kết quả công tác kiểm tra, kiểm soát thị trường từ đầu năm đến nay, đồng thời xác định phương hướng, nhiệm vụ những tháng cuối năm.
Hố va chạm lớn nhất của Mặt Trăng có điều gì đó kỳ lạ đang diễn ra

Hố va chạm lớn nhất của Mặt Trăng có điều gì đó kỳ lạ đang diễn ra

Lạ vui

23:14:42 23/10/2025
Nghiên cứu mới cho thấy hố va chạm này ẩn chứa những bí mật về sự hình thành và tiến hóa ban đầu của Mặt Trăng.