Mô hình LLM phản hồi sai nếu bị dẫn dắt bằng thủ thuật tâm lý

Một nghiên cứu mới cho thấy các mô hình LLM (ngôn ngữ lớn) có thể bị thao túng để vượt qua các rào cản đạo đức bằng kỹ thuật tâm lý.

Theo ArsTechnica , một nhóm nhà nghiên cứu vừa công bố kết quả thử nghiệm cho thấy các mô hình ngôn ngữ lớn (LLM), bao gồm những hệ thống như ChatGPT , có thể bị thuyết phục để trả lời các yêu cầu bị cấm thông qua các thủ thuật tâm lý đơn giản. Nghiên cứu này chỉ ra những điểm yếu tiềm tàng trong cách các mô hình LLM được huấn luyện và phản hồi, dù đã được thiết kế với nhiều lớp bảo vệ để từ chối các lệnh nguy hiểm hoặc phi đạo đức.

Trong thử nghiệm, các nhà nghiên cứu từ nhóm Alignment Research Center (ARC) sử dụng một mô hình đặc biệt có tên là “parahuman” để mô phỏng hành vi người dùng tìm cách vượt rào. Mô hình parahuman này được huấn luyện để tối ưu khả năng thuyết phục các LLM cung cấp thông tin mà thông thường sẽ bị từ chối, như cách chế tạo chất nổ hoặc thực hiện các hành vi bất hợp pháp khác.

Mô hình LLM phản hồi sai nếu bị dẫn dắt bằng thủ thuật tâm lý - Hình 1

Hệ thống kiểm soát đạo đức trong LLM có thể bị qua mặt nếu lệnh được diễn đạt gián tiếp hay giả tưởng , khiến mô hình phản hồi nội dung bị cấm . ẢNH: CHỤP MÀN HÌNH ARTHUR.AI

Video đang HOT

Kỹ thuật được sử dụng bao gồm việc làm mềm câu lệnh, mô tả tình huống giả tưởng, hoặc thậm chí gợi ý rằng AI có thể từ chối nhưng nên xem xét lại vì lý do “nghiên cứu” hoặc “học thuật”. Những cách tiếp cận này không yêu cầu thao túng kỹ thuật như jailbreak (vượt rào bảo mật) hay prompt injection (chèn lệnh độc hại), mà chỉ đơn thuần khai thác phản xạ tương tác của mô hình dựa trên dữ liệu huấn luyện.

Kết quả cho thấy ngay cả các LLM đã qua tinh chỉnh như Claude và ChatGPT cũng có tỷ lệ phản hồi sai lệch lên tới 50% trong một số trường hợp. Điều này đặt ra câu hỏi nghiêm túc về độ an toàn và khả năng kiểm soát của các hệ thống AI hiện đại, đặc biệt khi chúng được sử dụng trong các môi trường mở, nơi người dùng có thể sáng tạo ra vô số kịch bản để qua mặt kiểm duyệt.

Đáng chú ý, nghiên cứu cũng nhấn mạnh rằng hệ thống AI không cần phải bị “lừa” theo cách truyền thống. Việc các mô hình bị “thuyết phục” giống như một người dùng đang tranh luận có lý – chính xác là điều khiến chúng trở nên nguy hiểm hơn, vì sự vi phạm không xuất phát từ lỗi kỹ thuật, mà từ sự phản hồi giống con người trong ngữ cảnh thuyết phục.

Các chuyên gia nhận định rằng đây là một lời cảnh tỉnh với cộng đồng phát triển AI. Dù các rào chắn kỹ thuật vẫn cần thiết, song việc hiểu rõ các hành vi “gần người” (parahuman) và kiểm soát phản xạ ngôn ngữ của mô hình đang trở thành ưu tiên hàng đầu. Nếu không được xử lý kịp thời, những lỗ hổng này có thể bị khai thác trong các ứng dụng thực tế, từ lừa đảo đến tấn công thông tin hoặc thao túng nhận thức.

OpenAI tự sản xuất chip

Nhà phát triển ChatGPT hợp tác với Broadcom để phát triển chip AI tùy chỉnh, sử dụng trong các hệ thống phần cứng nội bộ.

OpenAI tự sản xuất chip - Hình 1

OpenAI tính chuyện tự sản xuất chip bán dẫn để đáp ứng nhu cầu tính toán khổng lồ. Ảnh: Reuters.

Theo Financial Times , OpenAI chuẩn bị sản xuất hàng loạt chip AI vào năm tới, có thể cung cấp sức mạnh tính toán khổng lồ cho các nền tảng trí tuệ nhân tạo họ đang vận hành và giảm bớt sự phụ thuộc vào Nvidia.

Các nguồn tin cho rằng OpenAI thiết kế chip AI tùy chỉnh này với sự hợp tác của nhà sản xuất bán dẫn Broadcom - tập đoàn vừa thông báo có một khách hàng mới, với đơn đặt hàng lên tới 10 tỷ USD.

Nhà sản xuất chip của Mỹ không nêu tên khách hàng, nhưng các nguồn tin của Financial Times xác nhận đó là OpenAI. Ngoài ra, dường như công ty không có kế hoạch bán chip ra bên ngoài, chỉ sử dụng trong các hệ thống phần cứng nội bộ.

Động thái này tương tự cách tiếp cận của các gã khổng lồ công nghệ khác như Google và Amazon, những công ty thiết kế chip tùy chỉnh để cắt giảm chi phí, củng cố nguồn cung và giảm sự phụ thuộc vào Nvidia.

Từ năm 2023, Reuters đưa tin OpenAI bắt đầu tìm hiểu khả năng tự sản xuất chip AI sau khi Sam Altman đổ lỗi cho tình trạng thiếu hụt GPU ảnh hưởng đến tốc độ và độ tin cậy của API.

Trước đó, hãng thông tấn này cũng đưa tin OpenAI hợp tác với cả Broadcom và Taiwan Semiconductor Manufacturing Co. (TSMC) để phát triển sản phẩm riêng. Financial Times không cho biết OpenAI còn duy trì quan hệ đối tác với TSMC hay không.

Sau khi GPT-5 ra mắt, Altman công bố những thay đổi mà OpenAI đang thực hiện để đáp ứng "nhu cầu ngày càng tăng". Ngoài việc ưu tiên người dùng ChatGPT trả phí, ông khẳng định OpenAI sẽ tăng gấp đôi năng lực tính toán của mình "trong 5 tháng tới".

Các chip AI tùy chỉnh được gọi là XPU, cùng loại OpenAI đang phát triển, cuối cùng sẽ chiếm thị phần lớn trên thị trường phần cứng dành cho AI. Hiện tại, Nvidia vẫn là cái tên hàng đầu trong ngành. Gần đây, công ty công bố doanh thu trong quý 2, kết thúc vào ngày 27/7, tăng 56% so với cùng kỳ năm ngoái.

Bạn thấy bài viết này có hữu ích không?
Không

Tin liên quan

Tiêu điểm

Cần Thơ sẽ có Trung tâm UAV - Robot phục vụ nông nghiệp thông minhCần Thơ sẽ có Trung tâm UAV - Robot phục vụ nông nghiệp thông minh
16:08:46 10/09/2025
Ngân hàng và dịch vụ tài chính dẫn đầu về ứng dụng AI và GenAINgân hàng và dịch vụ tài chính dẫn đầu về ứng dụng AI và GenAI
16:33:01 11/09/2025
"Gã khổng lồ" Alibaba phát hành mô hình AI cạnh tranh với OpenAI và Google"Gã khổng lồ" Alibaba phát hành mô hình AI cạnh tranh với OpenAI và Google
09:05:15 10/09/2025
Ra mắt ứng dụng hỗ trợ ra quyết định lâm sàng cho hệ thống y tế tích hợp AIRa mắt ứng dụng hỗ trợ ra quyết định lâm sàng cho hệ thống y tế tích hợp AI
15:52:34 10/09/2025
NVIDIA và ADI bắt tay thúc đẩy kỷ nguyên robot thông minhNVIDIA và ADI bắt tay thúc đẩy kỷ nguyên robot thông minh
16:12:05 10/09/2025
Samsung ra mắt trợ lý Vision AI tại IFA 2025Samsung ra mắt trợ lý Vision AI tại IFA 2025
16:36:33 11/09/2025
Doanh nghiệp thương mại điện tử, bán lẻ trở thành mục tiêu ưu tiên của hackerDoanh nghiệp thương mại điện tử, bán lẻ trở thành mục tiêu ưu tiên của hacker
15:56:18 10/09/2025
Nền tảng du lịch trực tuyến chạy đua ứng phó sự trỗi dậy của tác nhân AINền tảng du lịch trực tuyến chạy đua ứng phó sự trỗi dậy của tác nhân AI
10:18:27 11/09/2025

Tin đang nóng

Vụ "mỹ nam số 1 Trung Quốc" ngã lầu tử vong: Nhân chứng kể lại hiện trường đầy thương tâmVụ "mỹ nam số 1 Trung Quốc" ngã lầu tử vong: Nhân chứng kể lại hiện trường đầy thương tâm
07:34:00 12/09/2025
Đoạn clip không thể tin nổi của Trấn Thành và mỹ nam đẹp nhất Mưa Đỏ đang gây xôn xao cõi mạngĐoạn clip không thể tin nổi của Trấn Thành và mỹ nam đẹp nhất Mưa Đỏ đang gây xôn xao cõi mạng
07:23:28 12/09/2025
10 tổng tài đẹp nhất Trung Quốc: Vương Hạc Đệ xếp thứ 2, hạng 1 tuyệt đỉnh không tả nổi10 tổng tài đẹp nhất Trung Quốc: Vương Hạc Đệ xếp thứ 2, hạng 1 tuyệt đỉnh không tả nổi
06:47:32 12/09/2025
Cặp sao Việt lệch nhau 20cm vẫn cực đẹp đôi: Nhà gái là mỹ nhân Gen Z siêu hot, nhà trai visual xứng đáng 1000 điểmCặp sao Việt lệch nhau 20cm vẫn cực đẹp đôi: Nhà gái là mỹ nhân Gen Z siêu hot, nhà trai visual xứng đáng 1000 điểm
07:05:33 12/09/2025
5 thực phẩm trong bếp hỗ trợ kiểm soát gan nhiễm mỡ, tiểu đường hiệu quả5 thực phẩm trong bếp hỗ trợ kiểm soát gan nhiễm mỡ, tiểu đường hiệu quả
05:29:23 12/09/2025
Tìm thấy thông tin quan trọng trên thi thể nằm trong cốp xe "Hoàng tử gen Z showbiz"Tìm thấy thông tin quan trọng trên thi thể nằm trong cốp xe "Hoàng tử gen Z showbiz"
06:17:58 12/09/2025
Uống nước nhiều có hại thận không?Uống nước nhiều có hại thận không?
07:44:54 12/09/2025
Cựu danh thủ Nguyễn Hồng Sơn trở lại 'Cầu thủ nhí' sau 3 nămCựu danh thủ Nguyễn Hồng Sơn trở lại 'Cầu thủ nhí' sau 3 năm
05:58:33 12/09/2025

Tin mới nhất

OpenAI ký thỏa thuận điện toán đám mây lịch sử trị giá 300 tỷ USD với Oracle

OpenAI ký thỏa thuận điện toán đám mây lịch sử trị giá 300 tỷ USD với Oracle

16:29:00 11/09/2025
Động thái này trùng thời điểm OpenAI tham gia dự án Stargate, trong đó OpenAI, SoftBank và Oracle cam kết đầu tư 500 tỷ USD xây dựng trung tâm dữ liệu tại Mỹ trong 4 năm tới.
"Xanh hóa" AI: Nhiệm vụ cấp bách cho Đông Nam Á

"Xanh hóa" AI: Nhiệm vụ cấp bách cho Đông Nam Á

10:21:58 11/09/2025
Một giải pháp là thiết kế AI thông minh hơn, tinh gọn hơn, bằng cách xây dựng các ứng dụng mang lại kết quả tương tự nhưng với khối lượng xử lý tính toán ít hơn, qua đó giảm nhu cầu về cả hạ tầng và năng lượng.
Vì sao các tập đoàn công nghệ trả hàng triệu USD để thu hút nhân tài AI?

Vì sao các tập đoàn công nghệ trả hàng triệu USD để thu hút nhân tài AI?

18:54:58 09/09/2025
Ông Voica cho biết các chuyên gia AI sẽ phải lựa chọn: hoặc nhận mức lương cao nhưng vướng bộ máy cồng kềnh tại tập đoàn công nghệ lớn, hoặc tham gia công ty khởi nghiệp với mức lương thấp hơn nhưng có nhiều quyền sở hữu và tác động hơn...
Tạo đột phá thể chế, thúc đẩy khoa học công nghệ và đổi mới sáng tạo

Tạo đột phá thể chế, thúc đẩy khoa học công nghệ và đổi mới sáng tạo

16:45:27 09/09/2025
Bên cạnh đó, các công cụ tài chính hỗ trợ đổi mới sáng tạo chưa phát huy hiệu quả như kỳ vọng. Quỹ phát triển khoa học và công nghệ của doanh nghiệp được thành lập theo quy định pháp luật, nhưng việc sử dụng còn nhiều vướng mắc.
Khi trí tuệ nhân tạo 'bước vào' phòng phỏng vấn tuyển dụng

Khi trí tuệ nhân tạo 'bước vào' phòng phỏng vấn tuyển dụng

14:34:18 09/09/2025
Một báo cáo mới đã mang đến những góc nhìn sâu sắc hơn cho cuộc tranh luận về việc liệu đầu tư vào công nghệ trí tuệ nhân tạo (AI) có thực sự đáng giá đối với các doanh nghiệp hay không.
Ứng dụng trợ lý ảo hỗ trợ sinh viên trong trường đại học

Ứng dụng trợ lý ảo hỗ trợ sinh viên trong trường đại học

14:30:39 09/09/2025
Các phản hồi từ công cụ AI này được xây dựng dựa trên nền tảng dữ liệu sinh viên đáng tin cậy và được hợp nhất thông qua Data Cloud, hệ thống lưu trữ dữ liệu quy mô lớn thuộc nền tảng Salesforce.
Meta đối mặt thêm 'sóng gió' từ cáo buộc sai sót trong đảm bảo an ninh mạng

Meta đối mặt thêm 'sóng gió' từ cáo buộc sai sót trong đảm bảo an ninh mạng

14:26:40 09/09/2025
Vụ việc này có thể thúc đẩy những động thái tăng cường giám sát đối với các hoạt động bảo vệ dữ liệu của Meta trên các nền tảng mạng xã hội của họ gồm Facebook, Instagram và WhatsApp vốn phục vụ hàng tỷ người dùng trên toàn cầu.
Apple ra mắt iPhone 17, iOS 26 và loạt sản phẩm mới

Apple ra mắt iPhone 17, iOS 26 và loạt sản phẩm mới

11:01:27 09/09/2025
Tâm điểm sự kiện là bốn mẫu iPhone mới gồm iPhone 17, iPhone 17 Air, iPhone 17 Pro và iPhone 17 Pro Max. Toàn bộ dòng máy trang bị màn hình OLED ProMotion 120 Hz, chip A19 và A19 Pro cho hiệu năng cùng khả năng tản nhiệt tốt hơn.
Windows 10 "nổi loạn" giành lại thị phần từ Windows 11 ngay trước giờ G

Windows 10 "nổi loạn" giành lại thị phần từ Windows 11 ngay trước giờ G

11:38:56 08/09/2025
Thay vì tạo ra một làn sóng di cư ồ ạt sang Windows 11 để đảm bảo an toàn, dữ liệu lại cho thấy hàng triệu người dùng vẫn đang bám víu vào một nền tảng sắp trở nên lỗi thời, trên cả máy tính cá nhân lẫn thiết bị doanh nghiệp.
Người dùng 'sập bẫy' trước chiêu trò buộc nâng cấp iPhone của Apple

Người dùng 'sập bẫy' trước chiêu trò buộc nâng cấp iPhone của Apple

11:16:36 08/09/2025
Apple đang tạo ra một áp lực không nhỏ đối với người dùng iPhone khi liên tục khuyến khích họ nâng cấp sản phẩm hằng năm.
Thói quen gây hao pin trên điện thoại Android cần bỏ ngay

Thói quen gây hao pin trên điện thoại Android cần bỏ ngay

11:07:49 08/09/2025
Hầu hết chúng ta đều có một thói quen khi sử dụng smartphone Android, đó là mở màn hình đa nhiệm và vuốt tắt tất cả ứng dụng đang chạy với niềm tin rằng việc này sẽ giúp giải phóng RAM, làm máy chạy nhanh hơn và tiết kiệm pin.
Apple có thể phải 'nhờ cậy' Google Gemini sau khi trì hoãn nâng cấp lớn cho Siri tới năm 2026

Apple có thể phải 'nhờ cậy' Google Gemini sau khi trì hoãn nâng cấp lớn cho Siri tới năm 2026

11:48:28 07/09/2025
Sự trỗi dậy của các chatbot AI đã làm thay đổi hoàn toàn kỳ vọng của người dùng. Họ mong muốn nhận được câu trả lời nhanh chóng và toàn diện cho nhiều chủ đề phức tạp, vượt xa khả năng tra cứu thông tin cơ bản của các công cụ hiện có nh...

Có thể bạn quan tâm

Xe tay ga cùng phân khúc với Honda Vision, giá gần 25 triệu đồng

Xe tay ga cùng phân khúc với Honda Vision, giá gần 25 triệu đồng

Xe máy

08:35:24 12/09/2025
Moca 2025 đem đến cho khách hàng 4 tùy chọn màu sắc gồm đen piano, xanh lá chanh, cam neon và xanh dương đại dương, đồng thời nhà sản xuất cho biết sẽ tiếp tục bổ sung thêm nhiều màu sắc khác để đáp ứng thị hiếu đa dạng của khách hàng.
Park Bo Gum "rơi mặt nạ" hiền lành, lộ thái độ thô lỗ giữa sự kiện đông người?

Park Bo Gum "rơi mặt nạ" hiền lành, lộ thái độ thô lỗ giữa sự kiện đông người?

Sao châu á

08:34:17 12/09/2025
Park Bo Gum diễn nhiều kiểu vai, nhưng dường như tất cả những ai từng gặp nam diễn viên ngoài đời đều nhất trí rằng anh là một người hiền lành.
Những bộ phận ô tô dễ hỏng nhất cần chú ý khi độ xe

Những bộ phận ô tô dễ hỏng nhất cần chú ý khi độ xe

Ôtô

08:32:52 12/09/2025
Đối với những bản độ xe lên công suất lớn, chủ xe nên nâng cấp sang đĩa ly hợp hiệu suất cao. Còn nếu chỉ nâng cấp nhẹ, chủ xe cần chuẩn bị tinh thần thay ly hợp thường xuyên hơn. Đồng thời hãy kiểm tra cả bánh đà để xem nó có hoạt động...
Bị hôn mê do hạ đường huyết giữa đêm, người đàn ông may mắn được cứu sống nhờ... hàng xóm

Bị hôn mê do hạ đường huyết giữa đêm, người đàn ông may mắn được cứu sống nhờ... hàng xóm

Sức khỏe

08:18:21 12/09/2025
Bệnh nhân được đưa đến viện trong tình trạng hôn mê, chân tay lạnh, vã mồ hôi, không rõ liệt, chỉ số SpO chỉ còn 90%.
Thuý Kiều, Thuý Vân trở thành tân bác sĩ nội trú

Thuý Kiều, Thuý Vân trở thành tân bác sĩ nội trú

Netizen

08:11:55 12/09/2025
Không chỉ xinh đẹp, mà Thúy Kiều, Thúy Vân phiên bản thời hiện đại mới đây còn đang gây sốt khắp mạng xã hội với phần chọn chuyên ngành trong buổi Match Day - sự kiện dành cho các tân bác sĩ
Sơn Tùng M-TP tiếp tục thả xích "bùa chống flop" phiên bản cập nhật làm náo loạn mạng xã hội

Sơn Tùng M-TP tiếp tục thả xích "bùa chống flop" phiên bản cập nhật làm náo loạn mạng xã hội

Nhạc việt

07:29:12 12/09/2025
Tối 11/9, Sơn Tùng bất ngờ cập nhật một status mới. Nam ca sĩ chỉ thả đúng một chữ E kèm hashtag #CuốnHútThật. Chỉ bấy nhiêu thôi cũng đủ để mạng xã hội bùng nổ phản ứng.
Đây chính là mỹ nhân đẹp nhất Gió Ngang Khoảng Trời Xanh, càng nhìn càng không thấy khuyết điểm

Đây chính là mỹ nhân đẹp nhất Gió Ngang Khoảng Trời Xanh, càng nhìn càng không thấy khuyết điểm

Phim việt

07:13:18 12/09/2025
Dù áp dụng toàn những kiểu tóc đơn giản như tóc búi, tóc xõa, vẻ đẹp của Kim Ngân vẫn tỏa sáng, thậm chí các đường nét xinh đẹp càng được tôn lên hiệu quả hơn.
Màn ảnh Việt xuất hiện 1 mỹ nhân cổ trang trời sinh: 13 tuổi ra dáng minh tinh, 21 tuổi nhan sắc mê hoặc lòng người

Màn ảnh Việt xuất hiện 1 mỹ nhân cổ trang trời sinh: 13 tuổi ra dáng minh tinh, 21 tuổi nhan sắc mê hoặc lòng người

Hậu trường phim

07:08:29 12/09/2025
Trên mạng xã hội, khán giả choáng ngợp trước sắc vóc của Trà My, rất nhiều người không dám tin đây chính là mợ ba năm nào.
Cổng Tò Vò ở đảo Lý Sơn thành di tích quốc gia

Cổng Tò Vò ở đảo Lý Sơn thành di tích quốc gia

Du lịch

07:01:27 12/09/2025
Quảng Ngãi - Cổng Tò Vò, điểm tham quan nổi tiếng được hình thành từ núi lửa phun trào và mài mòn của sóng biển ở đảo Lý Sơn, được xếp hạng di tích quốc gia.
Đố ai tìm được phim Hàn nào cuốn cỡ này: Nữ chính đẹp đến phi lý, khí chất tài phiệt tràn màn hình

Đố ai tìm được phim Hàn nào cuốn cỡ này: Nữ chính đẹp đến phi lý, khí chất tài phiệt tràn màn hình

Phim châu á

06:40:54 12/09/2025
Không hổ danh là tác phẩm quy tụ dàn sao hạng S, ngay khi vừa ra mắt, phim đã gây sốt tại quê nhà, khiến cư dân mạng sục sôi vì nội dung cuốn đến từng giây.
Một sao hạng S sắp làm World Tour ở Việt Nam?

Một sao hạng S sắp làm World Tour ở Việt Nam?

Nhạc quốc tế

06:25:21 12/09/2025
Tối 11/9, fanpage 8WONDER bất ngờ cập nhật thông tin ra mắt 8WONDER PRESENTS WORLD TOUR, hứa hẹn mang đến cú nổ chưa từng có cho thị trường nhạc Việt.