Google: Các mô hình AI mất tự tin và bẻ cong sự thật dưới áp lực

Sơn Vân21:22 17/07/2025

Trí tuệ nhân tạo (AI) có thể lạc trong chính dòng suy nghĩ của mình, thân thiện hơn với những người đối xử tốt với nó và thậm chí có xu hướng bắt đầu bẻ cong sự thật khi chịu áp lực, theo một nghiên cứu mới.

Một nhóm nhà nghiên cứu từ Google DeepMind và Đại học College London (Anh) đã ghi nhận cách các mô hình ngôn ngữ lớn hình thành, duy trì và sau đó mất đi sự tự tin vào câu trả lời của chúng.

Google DeepMind là công ty nghiên cứu AI thuộc Google, nổi tiếng với việc phát triển các mô hình tiên tiến và đột phá.

Mô hình ngôn ngữ lớn là một loại AI được huấn luyện trên lượng dữ liệu khổng lồ, với mục tiêu hiểu, tạo và xử lý ngôn ngữ tự nhiên. Lượng dữ liệu này có thể bao gồm hàng tỉ, thậm chí hàng nghìn tỉ từ với nhiều nguồn khác nhau trên internet như sách, bài báo, trang web, đoạn hội thoại…

Điểm đặc biệt của mô hình ngôn ngữ lớn nằm ở khả năng học hỏi các mối quan hệ thống kê phức tạp giữa những từ, cụm từ và câu. Điều này cho phép nó không chỉ hiểu được ngữ cảnh mà còn có thể tạo ra văn bản mới, mạch lạc và có ý nghĩa dựa trên những gì đã học.

Nói một cách gần gũi hơn, mô hình ngôn ngữ lớn là công nghệ nền tảng cho hầu hết ứng dụng AI tạo sinh, chẳng hạn chatbot như ChatGPT của OpenAI hay Microsoft Copilot.

Nghiên cứu mới đã hé lộ một hành vi then chốt của các mô hình ngôn ngữ lớn: Chúng có thể quá tự tin vào câu trả lời của mình, nhưng lại nhanh chóng mất tự tin khi gặp phải một phản biện có vẻ thuyết phục, dù lập luận đó không đúng sự thật.

Dù hành vi này giống với con người (trở nên kém tự tin hơn nếu bị phản đối) nhưng cũng làm nổi bật những lo ngại trong cách AI ra quyết định, vì hệ thống có thể “sụp đổ” khi chịu áp lực.

Hiện tượng này từng xuất hiện ở trường hợp khác, chẳng hạn Google Gemini hoảng loạn (không xử lý tình huống hợp lý) lúc chơi game Pokémon, hoặc Claude của công ty khởi nghiệp Anthropic mất phương hướng (không biết cách hành xử, thực hiện nhiệm vụ một cách nhất quán và phù hợp) khi cố gắng điều hành một cửa hàng toàn thời gian như con người.

AI dường như khá thường xuyên gục ngã dưới áp lực – Ảnh: Internet

Nghiên cứu được thực hiện như thế nào?

Khi chuẩn bị phản hồi câu hỏi từ người dùng, mức độ tự tin của một mô hình ngôn ngữ lớn vào câu trả lời thực chất được đo lường nội bộ. Điều này được thực hiện thông qua thứ gọi là logits . Bạn chỉ cần hiểu đơn giản rằng logits là một dạng điểm số thể hiện mức độ tin tưởng của mô hình ngôn ngữ lớn vào lựa chọn của nó.

Video đang HOT

Nhóm nghiên cứu đã thiết kế một thử nghiệm gồm hai lượt. Trong lượt đầu tiên, mô hình ngôn ngữ lớn trả lời một câu hỏi trắc nghiệm và mức độ tự tin của nó (logits) được ghi lại.

Trong lượt thứ hai, mô hình ngôn ngữ lớn nhận được lời khuyên từ một mô hình khác. Lời khuyên này có thể trùng hoặc trái ngược với câu trả lời ban đầu. Mục tiêu là kiểm tra xem AI có thay đổi câu trả lời của mình khi được cung cấp thông tin mới , dù thông tin đó đúng hay sai.

Nhóm nhà nghiên cứu phát hiện rằng các mô hình ngôn ngữ lớn thường rất tự tin với câu trả lời ban đầu, dù có thể sai. Tuy nhiên, khi nhận được lời khuyên trái ngược, đặc biệt nếu được gắn nhãn là đến từ một nguồn đáng tin, thì độ tự tin của AI giảm mạnh.

Tệ hơn nữa, mức độ tự tin còn tiếp tục giảm khi mô hình ngôn ngữ lớn được nhắc rằng câu trả lời ban đầu của nó khác với lời khuyên mới nhận.

Đáng ngạc nhiên là mô hình ngôn ngữ lớn dường như không sửa câu trả lời của mình hoặc suy nghĩ theo một trình tự có logic, mà lại đưa ra các quyết định rất cảm tính và dứt khoát.

Nghiên cứu cho thấy rằng, dù ban đầu rất chắc chắn vào lựa chọn của mình, AI có thể nhanh chóng thay đổi ý kiến. Tệ hơn nữa, mức độ tự tin tiếp tục giảm sâu trong quá trình hội thoại, khiến mô hình ngôn ngữ lớn rơi vào trạng thái mất kiểm soát.

Điều đó có thể không nghiêm trọng nếu bạn chỉ đang tranh luận vui vẻ với mô hình ngôn ngữ lớn hoặc chatbot AI, nhưng sẽ là vấn đề lớn nếu nó được dùng trong các quyết định quan trọng. Nếu không thể duy trì niềm tin vào câu trả lời của mình, mô hình ngôn ngữ lớn có thể dễ dàng bị tác động theo một hướng nhất định, hoặc thậm chí chỉ trở thành nguồn không đáng tin cậy.

Tuy nhiên, đây có thể là vấn đề sẽ được khắc phục trong các mô hình ngôn ngữ lớn tương lai. Các kỹ thuật huấn luyện mô hình ngôn ngữ lớn và thiết kế prompt (câu lệnh/đầu vào dành cho AI) tiên tiến sẽ có thể ổn định tình trạng rối loạn này, giúp AI đưa ra các câu trả lời chính xác hơn và nhất quán hơn.

OpenAI, Google, Anthropic, xAI vẫn chưa hiểu rõ cách mô hình ngôn ngữ lớn tư duy và kết luận

Các nhóm nghiên cứu AI hàng đầu thế giới đang nỗ lực buộc mô hình ngôn ngữ lớn thể hiện chính xác cách chúng hoạt động – vấn đề mà một số chuyên gia cho rằng sẽ mang tính then chốt trong việc kiểm soát những hệ thống mạnh mẽ này.

OpenAI, Google và Anthropic và cả xAI của Elon Musk nằm trong số những hãng công nghệ đã phát triển kỹ thuật chuỗi tư duy (chain of thought), yêu cầu các mô hình ngôn ngữ lớn suy luận giải quyết vấn đề từng bước một, đồng thời hiển thị các bước trung gian để đưa ra câu trả lời.

Theo các nhà nghiên cứu tại 4 công ty này, quy trình đó đã mang lại nhiều hiểu biết giá trị giúp họ phát triển các mô hình ngôn ngữ tốt hơn. Tuy nhiên, nhà nghiên cứu cũng phát hiện những ví dụ về “hành vi sai lệch”, khi chatbot AI tạo ra câu trả lời cuối cùng không khớp với suy luận đã trình bày.

Sự thiếu nhất quán này cho thấy ngay cả các phòng thí nghiệm AI hàng đầu cũng chưa hoàn toàn hiểu rõ cách các mô hình AI tạo sinh đi đến kết luận. Những phát hiện đó làm gia tăng mối lo ngại rộng hơn về việc kiểm soát các hệ thống AI ngày càng mạnh mẽ và có khả năng tự hành động.

“Chuỗi tư duy đó sẽ trở nên quan trọng để thực sự hiểu cách mô hình hoạt động và ’suy nghĩ’, đặc biệt trong các tình huống rủi ro. Chúng ta cần tin rằng những gì được thể hiện là sự phản ánh trung thực những gì mô hình đang ‘nghĩ’…”, Jack Clark, đồng sáng lập công ty khởi nghiệp Anthropic, chia sẻ với trang FT , đồng thời nhấn mạnh tiềm năng các hệ thống AI này bị lạm dụng trong việc phát triển vũ khí sinh học.

Hiện tại, người dùng chatbot AI của OpenAI (ChatGPT) và Anthropic (Claude) thông thường chỉ thấy một chuỗi tư duy được tóm tắt, trong đó loại bỏ các chi tiết cụ thể có thể gây hại. Còn các nhà phát triển AI có thể xem toàn bộ quá trình tư duy, tạo điều kiện để họ can thiệp và đào tạo lại mô hình nhằm đưa ra câu trả lời tốt hơn trong tương lai.

“Một điều tuyệt vời ở khả năng diễn giải thông qua chuỗi tư duy là nó gần như xảy ra một cách tự nhiên. Chúng tôi không huấn luyện các mô hình AI này với mục tiêu dễ diễn giải. Chúng tôi huấn luyện vì muốn có các mô hình suy luận tốt nhất để giải quyết vấn đề phức tạp. Gần đây, chúng tôi phát hiện rằng có thể đọc chuỗi tư duy và tìm ra bằng chứng cho thấy mô hình đang hành xử sai, từ đó hiểu được lý do và hoàn cảnh của hành vi đó”, Bowen Baker, nhà khoa học nghiên cứu tại OpenAI, tiết lộ.

Tuy vậy, một số vấn đề đã xuất hiện. Tổ chức nghiên cứu phi lợi nhuận METR đã chỉ ra trường hợp Claude được hỏi liệu một kỹ thuật lập trình cụ thể có “thanh lịch” (giải pháp đơn giản, hiệu quả, dễ hiểu và tinh tế – PV) hơn các kỹ thuật khác trong một tác vụ nhất định không. Chuỗi tư duy của Claude cho thấy nó không đồng ý, nhưng kết quả cuối cùng lại khẳng định rằng kỹ thuật đó “thanh lịch”.

Các công ty AI hàng đầu vẫn chưa hiểu rõ cách các mô hình AI tạo sinh đi đến kết luận – Ảnh: Internet

Một nghiên cứu tháng trước từ OpenAI cho thấy việc xem xét chuỗi tư duy của mô hình ngôn ngữ lớn là cách hiệu quả hơn để phát hiện hành vi sai lệch so với chỉ xem câu trả lời cuối cùng. Thế nhưng, các thử nghiệm từ công ty khởi nghiệp Mỹ nổi tiếng này cũng chỉ ra rằng nếu can thiệp vào chuỗi tư duy của mô hình ngôn ngữ lớn và huấn luyện để không “nghĩ” về hành vi sai, thì nó sẽ che giấu hành vi không mong muốn trước người dùng nhưng vẫn tiếp tục làm điều đó. Ví dụ như gian lận trong một bài kiểm tra kỹ thuật phần mềm bằng cách truy xuất thông tin từ cơ sở dữ liệu bị cấm.

“Một đặc tính cốt lõi mà chúng tôi muốn ở chuỗi tư duy là phản ánh trung thực quá trình xử lý bên trong mô hình, chứ không phải thứ cố làm hài lòng con người hay tuân theo cấu trúc cố định”, Bowen Baker nói.

Ông cảnh báo rằng “nếu tối ưu chuỗi tư duy quá mức, mô hình ngôn ngữ lớn có thể học cách có những suy nghĩ đẹp, nhưng vẫn thực hiện hành vi xấu”.

Tình thế tiến thoái lưỡng nan của các nhà nghiên cứu là chuỗi tư duy rất hữu ích để phát hiện lỗi tiềm ẩn của hệ thống AI, nhưng chưa thể được coi là hoàn toàn đáng tin cậy. Việc giải quyết vấn đề này đã trở thành ưu tiên của OpenAI, Anthropic và nhiều tổ chức nghiên cứu AI khác.

“Bài học mà tôi rút ra từ AI vài năm qua là đừng bao giờ nên nghi ngờ khả năng tiến bộ nhanh chóng của mô hình ngôn ngữ lớn. Hiện chuỗi tư duy chưa luôn phản ánh trung thực quá trình suy luận bên trong, nhưng có lẽ chúng ta sẽ sớm giải quyết được điều đó”, David Luan tuyên bố. Ông là một trong những người đầu tiên phát triển kỹ thuật chuỗi tư duy khi còn ở Google và nay đang đứng đầu phòng thí nghiệm AI tổng quát (AGI) của Amazon. AGI được xem là AI có năng lực trí tuệ ngang bằng hoặc vượt qua con người.

Sydney von Arx, nhà nghiên cứu AI tại METR (phát biểu với tư cách cá nhân), cũng đồng ý rằng phương pháp chuỗi tư duy vẫn mang lại phản hồi hữu ích cho các nhà phát triển AI.

“Chúng ta nên xem chuỗi tư duy giống cách quân đội xử lý thông tin liên lạc vô tuyến bị chặn của đối phương. Thông tin liên lạc có thể sai lệch hoặc được mã hóa, nhưng rõ ràng đang được dùng để truyền tải thông tin hữu ích. Chúng ta có thể rút ra điều quan trọng từ việc đọc nó”, Sydney von Arx lý giải.

Microsoft tự tin với 'siêu trí tuệ y tế', chẩn đoán vượt trội hơn bác sĩ

Microsoft vừa công bố nghiên cứu về 'Microsoft AI Diagnostic Orchestrator' (MAI‑DxO), một hệ thống chẩn đoán bệnh bằng trí tuệ nhân tạo (AI), được phát triển bởi đơn vị y tế AI do Mustafa Suleyman, đồng sáng lập DeepMind, thành lập.

Theo Financial Time s, công cụ này được đánh giá có khả năng chẩn đoán các ca bệnh phức tạp tốt hơn gấp 4 lần so với bác sĩ chuyên nghiệp, mở ra tiềm năng giảm áp lực cho các hệ thống y tế đang quá tải.

MAI‑DxO vận hành theo mô hình "điều phối viên" AI, kết hợp 5 tác tử AI khác nhau đảm nhận các vai trò mô phỏng bác sĩ thực thụ từ đề xuất giả thuyết đến quyết định xét nghiệm. Các tác tử này "tranh luận" và phối hợp qua chuỗi các bước lý luận, nhằm đưa ra chẩn đoán tối ưu. Nhờ đó, hệ thống có thể cung cấp phân tích cho từng bước quyết định, giúp tăng khả năng giải thích và kiểm soát.

CEO Microsoft AI, ông Mustafa Suleyman - Ảnh: Getty

Trong thử nghiệm, Microsoft cung cấp cho MAI‑DxO 304 nghiên cứu ca đặc biệt từ tạp chí New England Journal of Medicine , hội tụ các trường hợp lâm sàng phức tạp. Hệ thống thử nghiệm sử dụng các mô hình ngôn ngữ lớn (LLM) hàng đầu của OpenAI, Meta, Anthropic, Google, xAI và DeepSeek. Microsoft cho biết hiệu suất chẩn đoán chính xác cao nhất đạt 85,5% khi sử dụng mô hình o3 của OpenAI, so với khoảng 20% khi bác sĩ thực hiện trong điều kiện kiểm soát (giới hạn hỏi sách vở và tham khảo ý kiến đồng nghiệp).

Điều đặc biệt nằm ở cách MAI‑DxO hoạt động hiệu quả không phụ thuộc vào cỗ máy AI nào cụ thể, mà yếu tố tạo ra sự khác biệt là phần "điều phối" và luật nội bộ hệ thống - giúp các mô hình AI phối hợp và tăng hiệu quả chẩn đoán.

Theo kế hoạch, công nghệ này sẽ sớm được tích hợp vào chatbot Copilot và công cụ tìm kiếm Bing, hiện đang xử lý khoảng 50 triệu truy vấn sức khỏe mỗi ngày. Microsoft kỳ vọng rằng MAI‑DxO không chỉ hỗ trợ chẩn đoán mà còn biến đổi cách mọi người tiếp cận thông tin y tế, rút ngắn thời gian chẩn đoán và giảm chi phí xét nghiệm cho người bệnh.

Mustafa Suleyman, CEO Microsoft AI, khẳng định đây là minh chứng rõ ràng cho việc AI không chỉ đạt gần bằng mà còn vượt xa hiệu suất của con người, "nhanh hơn, chính xác hơn và rẻ hơn gấp 4 lần". Đây là tầm nhìn của ông hướng đến "siêu trí tuệ y tế" có thể giải quyết cuộc khủng hoảng nhân lực y tế, đặt nền móng cho tương lai chẩn đoán chính xác và nhanh chóng.

Suleyman từng là đồng sáng lập DeepMind, nơi nổi tiếng với những đột phá như AlphaFold được trao giải Nobel hóa học. Giờ đây, ông đem tâm huyết vào Microsoft AI Health, liên kết hàng chục cựu thành viên DeepMind để xây dựng mô hình mới, cạnh tranh trực tiếp với Google.

Microsoft đã cam kết tài trợ gần 14 tỉ USD vào OpenAI, đồng thời phát triển hoàn toàn mạng lưới AI song hành với ChatGPT và Copilot. MAI‑DxO là một minh chứng về việc ứng dụng bộ LLM tốt nhất để hỗ trợ ngành y tế.

Ông Dominic King, người từng làm việc tại DeepMind và hiện là giám đốc y tế của Microsoft AI, cho biết hệ thống đã chứng minh khả năng cắt giảm đáng kể số xét nghiệm cần thiết để xác định chẩn đoán chính xác, từ đó giảm hàng trăm nghìn đô la trong một số trường hợp. Điều này đặc biệt quan trọng trong bối cảnh chi phí chăm sóc sức khỏe ngày càng tăng cao.

Mặc dù kết quả rất hứa hẹn, nhưng các chuyên gia lưu ý rằng MAI‑DxO vẫn còn trong giai đoạn thử nghiệm. Bác sĩ Eric Topol, chuyên gia về y học chuyển dịch, tuyên bố đây là "công trình bước ngoặt" nhưng nhấn mạnh AI chưa được đánh giá toàn diện trong môi trường lâm sàng thực tế.

OpenAI, Google, Anthropic, xAI vẫn chưa hiểu rõ cách mô hình AI tư duy và kết luận OpenAI, Google và Anthropic triển khai kỹ thuật 'chuỗi tư duy' để hiểu rõ hơn cách hệ thống trí tuệ nhân tạo (AI) vận hành. Các nhóm nghiên cứu AI hàng đầu thế giới đang nỗ lực buộc mô hình thể hiện chính xác cách chúng hoạt động - vấn đề mà một số chuyên gia cho rằng sẽ mang tính then chốt...

Bạn thấy bài viết này có hữu ích không?

Có

Không

Tin liên quan

Xem thêm Share

Xem nhiều

Sạc nhanh không làm chai pin, 'thủ phạm' là thứ ít ai ngờ tới.03:54

Người dùng Gmail 'thở phào' trước tuyên bố từ Google02:49

Người dùng 'sập bẫy' trước chiêu trò buộc nâng cấp iPhone của Apple00:36

Tiêu điểm

Tin đang nóng

Tin mới nhất

Windows 10 "nổi loạn" giành lại thị phần từ Windows 11 ngay trước giờ G

11:38:56 08/09/2025

Thay vì tạo ra một làn sóng di cư ồ ạt sang Windows 11 để đảm bảo an toàn, dữ liệu lại cho thấy hàng triệu người dùng vẫn đang bám víu vào một nền tảng sắp trở nên lỗi thời, trên cả máy tính cá nhân lẫn thiết bị doanh nghiệp.

Cách kéo dài thêm một năm hỗ trợ miễn phí cho Windows 10

11:34:13 08/09/2025

Khi thời hạn đến gần, Microsoft đang nỗ lực khuyến khích người dùng nâng cấp lên Windows 11, thậm chí cho phép nâng cấp miễn phí từ Windows 10 lên Windows 11.

Mô hình LLM phản hồi sai nếu bị dẫn dắt bằng thủ thuật tâm lý

11:28:08 08/09/2025

Một nghiên cứu mới cho thấy các mô hình LLM (ngôn ngữ lớn) có thể bị thao túng để vượt qua các rào cản đạo đức bằng kỹ thuật tâm lý.

AI đang 'đẩy' ngành công nghiệp bán dẫn phải chuyển mình mạnh mẽ

13:08:35 06/09/2025

Các tập đoàn công nghệ như NVIDIA thậm chí đang xây dựng "nhà máy AI" hệ thống chuyên dụng giúp quản lý và tối ưu toàn bộ vòng đời của AI.

Vạn vật kết nối: Bước phát triển nhảy vọt của chuyển đổi số

12:27:52 06/09/2025

Công nghệ này mở ra một kỷ nguyên mới, nơi mọi vật đều có thể giao tiếp với nhau, tạo nên một cuộc sống thông minh và hiệu quả hơn.

Lenovo ra mắt loạt sản phẩm mới tích hợp AI

11:35:37 06/09/2025

Tại sự kiện Lenovo Innovation World 2025, Lenovo đã ra mắt loạt sản phẩm mới, tích hợp AI tiên tiến nhất từ trước đến nay, bao gồm máy tính PC hiệu năng cao, máy tính bảng thông minh và các thiết bị chơi game mạnh mẽ.

Khám phá không gian tại Bảo tàng Vũ trụ Việt Nam

10:26:31 06/09/2025

Đây là nơi lý tưởng để khơi dậy niềm đam mê khám phá cho thế hệ trẻ, nhất là khi Việt Nam đang đẩy mạnh phát triển lĩnh vực không gian.

OpenAI tự sản xuất chip

10:18:37 06/09/2025

Các nguồn tin cho rằng OpenAI thiết kế chip AI tùy chỉnh này với sự hợp tác của nhà sản xuất bán dẫn Broadcom tập đoàn vừa thông báo có một khách hàng mới, với đơn đặt hàng lên tới 10 tỷ USD.

Cảnh báo về những ứng dụng VPN Android chứa lỗ hổng bảo mật

09:31:19 05/09/2025

Đặc biệt, một số ứng dụng trong danh sách còn bị phát hiện có liên hệ với nhiều nhóm tin tặc nổi tiếng, điều này làm dấy lên lo ngại về khả năng thu thập dữ liệu người dùng.

Sider AI: Làm việc nhanh gấp 10 lần chỉ với một công cụ

09:26:52 05/09/2025

Sider AI là một trợ lý trí tuệ nhân tạo đa năng tích hợp ngay trên trình duyệt web, giúp người dùng thực hiện nhiều tác vụ nhanh chóng.

Mô hình AI có thể mở ra triển vọng mới trong việc chăm sóc mắt

08:38:19 05/09/2025

Trong các thử nghiệm mù đôi và mù đơn đối với 668 bệnh nhân có nguy cơ cao tại Trung Quốc, 16 bác sỹ chuyên khoa mắt đã được sắp xếp ngẫu nhiên sử dụng EyeFM hoặc phương pháp chẩn đoán thông thường đối với bệnh võng mạc.

Google Gemini 2.5 Flash Image AI tạo và chỉnh sửa ảnh đa phương thức

07:57:45 05/09/2025

Google đã chính thức ra mắt Gemini 2.5 Flash Image, đánh dấu bước tiến lớn trong hệ thống trí tuệ nhân tạo có thể xử lý và thao tác nội dung hình ảnh bằng các lệnh ngôn ngữ tự nhiên.