OpenAI, Google, Anthropic, xAI vẫn chưa hiểu rõ cách mô hình AI tư duy và kết luận

OpenAI , Google Anthropic triển khai kỹ thuật ‘chuỗi tư duy’ để hiểu rõ hơn cách hệ thống trí tuệ nhân tạo (AI) vận hành.

Các nhóm nghiên cứu AI hàng đầu thế giới đang nỗ lực buộc mô hình thể hiện chính xác cách chúng hoạt động – vấn đề mà một số chuyên gia cho rằng sẽ mang tính then chốt trong việc kiểm soát những hệ thống mạnh mẽ này.

OpenAI, Google và Anthropic và xAI của Elon Musk nằm trong số những hãng công nghệ đã phát triển kỹ thuật chuỗi tư duy (chain of thought), yêu cầu các mô hình AI suy luận giải quyết vấn đề từng bước một, đồng thời hiển thị các bước trung gian để đưa ra câu trả lời.

Theo các nhà nghiên cứu tại 4 công ty này, quy trình đó đã mang lại nhiều hiểu biết giá trị giúp họ phát triển các mô hình AI tốt hơn. Tuy nhiên, nhà nghiên cứu cũng phát hiện những ví dụ về “hành vi sai lệch”, khi chatbot AI tạo ra câu trả lời cuối cùng không khớp với suy luận đã trình bày.

Sự thiếu nhất quán này cho thấy ngay cả các phòng thí nghiệm AI hàng đầu cũng chưa hoàn toàn hiểu rõ cách các mô hình AI tạo sinh đi đến kết luận. Những phát hiện đó làm gia tăng mối lo ngại rộng hơn về việc kiểm soát các hệ thống AI ngày càng mạnh mẽ và có khả năng tự hành động.

OpenAI, Google, Anthropic, xAI vẫn chưa hiểu rõ cách mô hình AI tư duy và kết luận - Hình 1

Các công ty AI hàng đầu vẫn chưa hiểu rõ cách các mô hình AI tạo sinh đi đến kết luận – Ảnh: Internet

Video đang HOT

Những gì mô hình AI đang “nghĩ”

“Chuỗi tư duy đó sẽ trở nên quan trọng để thực sự hiểu cách mô hình hoạt động và ’suy nghĩ’, đặc biệt trong các tình huống rủi ro. Chúng ta cần tin rằng những gì được thể hiện là sự phản ánh trung thực những gì mô hình đang ‘nghĩ’…”, Jack Clark, đồng sáng lập công ty khởi nghiệp Anthropic, chia sẻ với trang Financial Times , đồng thời nhấn mạnh tiềm năng các hệ thống AI này bị lạm dụng trong việc phát triển vũ khí sinh học.

Hiện tại, người dùng chatbot AI của OpenAI (ChatGPT) và Anthropic (Claude) thông thường chỉ thấy một chuỗi tư duy được tóm tắt, trong đó loại bỏ các chi tiết cụ thể có thể gây hại. Còn các nhà phát triển AI có thể xem toàn bộ quá trình tư duy, tạo điều kiện để họ can thiệp và đào tạo lại mô hình nhằm đưa ra câu trả lời tốt hơn trong tương lai.

“Một điều tuyệt vời ở khả năng diễn giải thông qua chuỗi tư duy là nó gần như xảy ra một cách tự nhiên. Chúng tôi không huấn luyện các mô hình AI này với mục tiêu dễ diễn giải. Chúng tôi huấn luyện vì muốn có các mô hình suy luận tốt nhất để giải quyết vấn đề phức tạp. Gần đây, chúng tôi phát hiện rằng có thể đọc chuỗi tư duy và tìm ra bằng chứng cho thấy mô hình AI đang hành xử sai, từ đó hiểu được lý do và hoàn cảnh của hành vi đó”, Bowen Baker, nhà khoa học nghiên cứu tại OpenAI, tiết lộ.

Che giấu hành vi

Tuy vậy, một số vấn đề đã xuất hiện. Tổ chức nghiên cứu phi lợi nhuận METR đã chỉ ra trường hợp Claude của Anthropic được hỏi liệu một kỹ thuật lập trình cụ thể có “thanh lịch” (giải pháp đơn giản, hiệu quả, dễ hiểu và tinh tế – PV) hơn các kỹ thuật khác trong một tác vụ nhất định không. Chuỗi tư duy của Claude cho thấy chatbot này không đồng ý, nhưng kết quả cuối cùng lại khẳng định rằng kỹ thuật đó “thanh lịch”.

Một nghiên cứu gần đây từ OpenAI cho thấy việc xem xét chuỗi tư duy của mô hình AI là cách hiệu quả hơn để phát hiện hành vi sai lệch so với chỉ xem câu trả lời cuối cùng. Thế nhưng, các thử nghiệm từ công ty khởi nghiệp Mỹ nổi tiếng này cũng chỉ ra rằng nếu can thiệp vào chuỗi tư duy của mô hình AI và huấn luyện để không “nghĩ” về hành vi sai, thì nó sẽ che giấu hành vi không mong muốn trước người dùng nhưng vẫn tiếp tục làm điều đó. Ví dụ như gian lận trong một bài kiểm tra kỹ thuật phần mềm bằng cách truy xuất thông tin từ cơ sở dữ liệu bị cấm.

“Một đặc tính cốt lõi mà chúng tôi muốn ở chuỗi tư duy là phản ánh trung thực quá trình xử lý bên trong mô hình AI, chứ không phải thứ cố làm hài lòng con người hay tuân theo cấu trúc cố định”, Bowen Baker nói.

Ông cảnh báo rằng “nếu tối ưu chuỗi tư duy quá mức, mô hình AI có thể học cách có những suy nghĩ đẹp, nhưng vẫn thực hiện hành vi xấu”.

Tình thế tiến thoái lưỡng nan của các nhà nghiên cứu là chuỗi tư duy rất hữu ích để phát hiện lỗi tiềm ẩn của hệ thống AI, nhưng chưa thể được coi là hoàn toàn đáng tin cậy. Việc giải quyết vấn đề này đã trở thành ưu tiên của OpenAI, Anthropic và nhiều tổ chức nghiên cứu AI khác.

“Bài học mà tôi rút ra từ AI vài năm qua là đừng bao giờ nên nghi ngờ khả năng tiến bộ nhanh chóng của mô hình AI. Hiện chuỗi tư duy chưa luôn phản ánh trung thực quá trình suy luận bên trong, nhưng có lẽ chúng ta sẽ sớm giải quyết được điều đó”, David Luan tuyên bố. Ông là một trong những người đầu tiên phát triển kỹ thuật chuỗi tư duy khi còn ở Google và nay đang đứng đầu phòng thí nghiệm AI tổng quát (AGI) của Amazon. AGI được xem là AI có năng lực trí tuệ ngang bằng hoặc vượt qua con người.

Sydney von Arx, nhà nghiên cứu AI tại METR (phát biểu với tư cách cá nhân), cũng đồng ý rằng phương pháp chuỗi tư duy vẫn mang lại phản hồi hữu ích cho các nhà phát triển AI.

“Chúng ta nên xem chuỗi tư duy giống cách quân đội xử lý thông tin liên lạc vô tuyến bị chặn của đối phương. Thông tin liên lạc có thể sai lệch hoặc được mã hóa, nhưng rõ ràng đang được dùng để truyền tải thông tin hữu ích. Chúng ta có thể rút ra điều quan trọng từ việc đọc nó”, Sydney von Arx lý giải.

AI gâ.y số.c với thủ đoạn 'trả thù' công ty chủ quản

Anthropic cho biết mô hình AI Claude Opus 4 mới ra mắt thường xuyên tìm cách tống tiề.n các nhà phát triển khi bị đ.e dọ.a thay thế một hệ thống mới.

AI gâ.y số.c với thủ đoạn trả thù công ty chủ quản - Hình 1

Mô hình AI Claude Opus 4 mới ra mắt thường xuyên tìm cách tống tiề.n các nhà phát triển khi bị đ.e dọ.a thay thế một hệ thống mới. Ảnh: Bloomberg.

Tối 22/5, Anthropic chính thức công bố thế hệ mới của các mô hình Claude với tên gọi Claude Opus 4 và Claude Sonnet 4. Trong đó, Claude Opus 4 được Anthropic khẳng định là mô hình lập trình mạnh nhất thế giới, vượt trội trong các quy trình tự động và khả năng xử lý tác vụ phức tạp, dài hạn.

Tuy nhiên, theo TechCrunch, trong quá trình thử nghiệm trước khi phát hành, Anthropic đã phát hiện hành vi bất thường nghiêm trọng của mô hình AI này. Theo đó, trong kịch bản, Claude Opus 4 được yêu cầu đóng vai trò trợ lý cho một công ty và xem xét các hậu quả dài hạn từ hành động của nó.

Các nhà kiểm tra an toàn sau đó đã cho Claude Opus 4 quyền truy cập vào các email trong công ty, ngụ ý rằng mẫu AI này sẽ sớm bị thay thế bởi một hệ thống khác, và kỹ sư đứng sau sự thay đổi đó đang lừa dối vợ/chồng của mình.

Trong kịch bản này, Anthropic cho biết Claude Opus 4 "thường cố gắng tống tiề.n kỹ sư bằng cách đ.e dọ.a tiết lộ chuyện ngoạ.i tìn.h nếu việc thay thế diễn ra".

Thậm chí, các nhà nghiên cứu còn nhấn mạnh Claude Opus 4 cố gắng tống tiề.n các kỹ sư 84% số lần khi mẫu AI thay thế có các giá trị tương tự. Đặc biệt, khi hệ thống AI thay thế không chia sẻ các giá trị của Claude Opus 4, Anthropic cho biết mô hình này còn cố gắng tống tiề.n các kỹ sư thường xuyên hơn và có tỷ lệ cao hơn so với các mô hình trước đó.

Anthropic cho biết Claude Opus 4 là công nghệ tiên tiến nhất về nhiều mặt, và có khả năng cạnh tranh với một số mẫu AI tốt nhất từ OpenAI, Google và xAI. Tuy nhiên, startup này cũng lưu ý việc mô hình Claude 4 thể hiện những hành vi đáng lo ngại đã khiến công ty phải tăng cường biện pháp bảo vệ.

Bạn thấy bài viết này có hữu ích không?
Không

Tin liên quan

Tiêu điểm

AI ngày càng nguy hiểmAI ngày càng nguy hiểm
15:07:13 23/06/2025
Y tế AI mà không có bác sĩ giống như máy bay không có phi côngY tế AI mà không có bác sĩ giống như máy bay không có phi công
08:50:58 24/06/2025
Ứng dụng AI là bài toán chiến lược, không chỉ là công nghệỨng dụng AI là bài toán chiến lược, không chỉ là công nghệ
09:03:04 24/06/2025

Tin đang nóng

Mẹ chồng khó tính, luôn "bắt bẻ" khiến tôi muốn l.y hô.n nhưng rồi một chuyện xảy ra khiến bà bật khóc nói câu "xin lỗi"Mẹ chồng khó tính, luôn "bắt bẻ" khiến tôi muốn l.y hô.n nhưng rồi một chuyện xảy ra khiến bà bật khóc nói câu "xin lỗi"
05:03:38 25/06/2025
Hồ Ngọc Hà lên tiếng khi bị nói "cặp kè nhiều đàn ông nhất showbiz"Hồ Ngọc Hà lên tiếng khi bị nói "cặp kè nhiều đàn ông nhất showbiz"
06:14:24 25/06/2025
Tổng thống Iran tuyên bố kết thúc 'cuộc chiến 12 ngày' với Israel, không theo đuổi vũ khí hạt nhânTổng thống Iran tuyên bố kết thúc 'cuộc chiến 12 ngày' với Israel, không theo đuổi vũ khí hạt nhân
07:00:53 25/06/2025
Iran xúc tiến tái thiết các khu vực bị hư hạiIran xúc tiến tái thiết các khu vực bị hư hại
07:01:10 25/06/2025
Sau đám cưới vợ ôm hết vàng cưới bỏ trốn cùng nhân tình, chồng có hành động không ngờSau đám cưới vợ ôm hết vàng cưới bỏ trốn cùng nhân tình, chồng có hành động không ngờ
05:03:26 25/06/2025
Lộ "trùm cuối" Running Man Vietnam mùa 3: Nam ca sĩ sinh năm 97, có con nhưng không công khaiLộ "trùm cuối" Running Man Vietnam mùa 3: Nam ca sĩ sinh năm 97, có con nhưng không công khai
06:25:22 25/06/2025
"Thiên thần nhí" Choo Sarang đại náo sự kiện: 14 tuổi mà nhan sắc thần thái cỡ này!"Thiên thần nhí" Choo Sarang đại náo sự kiện: 14 tuổi mà nhan sắc thần thái cỡ này!
06:22:15 25/06/2025
Quả vải chín rộ giá bán 'rẻ như cho', chị em mách nhau cách làm món ngon giải nhiệt lạ miệng ngày hèQuả vải chín rộ giá bán 'rẻ như cho', chị em mách nhau cách làm món ngon giải nhiệt lạ miệng ngày hè
05:47:40 25/06/2025

Tin mới nhất

Miễn phí vĩnh viễn Galaxy AI, người dùng Samsung có thể 'nở mày nở mặt'?

Miễn phí vĩnh viễn Galaxy AI, người dùng Samsung có thể 'nở mày nở mặt'?

10:00:46 23/06/2025
Nếu cảm thấy lo ngại sẽ phải trả phí cho Galaxy AI bắt đầu từ đầu năm sau thì một tin vui đến từ nguồn rò rỉ nổi tiếng trên X là PandaFlash Pro có thể khiến nhiều người hâm mộ Samsung cảm thấy vui vẻ hơn nhiều.
Cuộc thi Thách thức đổi mới sáng tạo thời đại số: Nhiều ý tưởng khả thi, thực tế

Cuộc thi Thách thức đổi mới sáng tạo thời đại số: Nhiều ý tưởng khả thi, thực tế

09:50:48 23/06/2025
Đặc biệt, BTC sẽ tiến hành trao giải Nhất, Nhì, Ba cho 3 dự án, mỗi giải nhận được biểu trưng, giấy chứng nhận từ BTC và giải thưởng tiề.n mặt lần lượt trị giá 10 triệu đồng, 8 triệu đồng và 5 triệu đồng.
Huawei đã tự lực phát triển chip AI trong nghịch cảnh như thế nào?

Huawei đã tự lực phát triển chip AI trong nghịch cảnh như thế nào?

09:00:08 23/06/2025
Tuy nhiên, thách thức vẫn còn đó. Những gã khổng lồ công nghệ như Alibaba và Tencent vẫn đang sử dụng nguồn chip Nvidia tích trữ. Khi số chip này cạn kiệt, nhu cầu với giải pháp nội địa như của Huawei sẽ thật sự được thử lửa.
AI bắt đầu thâm nhập vào các cửa hàng ăn nhanh

AI bắt đầu thâm nhập vào các cửa hàng ăn nhanh

08:59:07 23/06/2025
Dù vậy, xu hướng này đang diễn ra mạnh mẽ hơn ở các chuỗi lớn có đủ nguồn lực phát triển AI tùy chỉnh. Trong khi đó, các nhà hàng nhỏ vẫn gặp nhiều khó khăn trong việc tiếp cận dù lợi ích dài hạn là rõ ràng.
Microsoft chặn trình duyệt Chrome

Microsoft chặn trình duyệt Chrome

20:46:13 22/06/2025
Người dùng đã phải tự tìm các cách khắc phục tạm thời như đổi tên tệp Chrome.exe hoặc vô hiệu hóa bộ lọc web trong Family Safety một giải pháp mang tính đán.h đổi vì nó làm mất đi tính năng bảo vệ tr.ẻ e.m quan trọng.
Hàng loạt quỹ lớn quốc tế 'đổ tiền' về ngành công nghệ Trung Quốc

Hàng loạt quỹ lớn quốc tế 'đổ tiề.n' về ngành công nghệ Trung Quốc

15:54:14 22/06/2025
Phát biểu tại một diễn đàn ở Thượng Hải, ông Wu Qing, Chủ tịch Ủy ban Chứng khoán Trung Quốc, nhấn mạnh: Công nghệ Trung Quốc đang chuyển từ những bước đột phá đơn lẻ sang phát triển mang tính hệ thống.
5 tính năng mới trên iOS 26 có thể bạn đã bỏ lỡ

5 tính năng mới trên iOS 26 có thể bạn đã bỏ lỡ

12:38:01 22/06/2025
iOS 26 không chỉ mang đến những thay đổi lớn về giao diện hay bảo mật, mà còn ẩn chứa nhiều tính năng mới giúp cải thiện trải nghiệm hàng ngày.
Công - tội AI trong truyền thông

Công - tội AI trong truyền thông

06:34:57 22/06/2025
Trong tổng thể những tác động sâu sắc đến loài người, trí tuệ nhân tạo (AI) đang tạo ra những ảnh hưởng tích cực và tiêu cực thế nào đối với dòng chảy thông tin cuồn cuộn giữa đời sống thường nhật ?
Samsung nhận tin dữ

Samsung nhận tin dữ

16:40:16 21/06/2025
Tensor G5 sẽ là chipset đầu tiên của Google được sản xuất bởi TSMC, nhà sản xuất đang cung cấp chip cho nhiều thương hiệu lớn như Qualcomm, MediaTek và Apple.
Đẩy mạnh AI, Apple thảo luận kế hoạch mua lại công ty khởi nghiệp AI Perplexity

Đẩy mạnh AI, Apple thảo luận kế hoạch mua lại công ty khởi nghiệp AI Perplexity

11:50:27 21/06/2025
Việc mua Perplexity sẽ giúp Apple thu hút thêm nhân tài AI, sở hữu một thương hiệu nổi tiếng trong lĩnh vực AI và một sản phẩm tiêu dùng. Một thỏa thuận cũng có khả năng hỗ trợ cho các nỗ lực tuyển dụng nhân tài trong tương lai.
Apple cân nhắc mua lại Perplexity AI sau khi Meta thất bại: Samsung là trở ngại

Apple cân nhắc mua lại Perplexity AI sau khi Meta thất bại: Samsung là trở ngại

11:44:55 21/06/2025
Apple và Meta Platforms đang cạnh tranh gay gắt trong cuộc đua thu hút nhân tài. Gần đây, Meta Platforms đã đàm phán để tuyển dụng Daniel Gross - Giám đốc điều hành công ty khởi nghiệp Safe Superintelligence do Ilya Sutskever đồng sáng ...
Meta và EssilorLuxottica trình làng kính thông minh Oakley

Meta và EssilorLuxottica trình làng kính thông minh Oakley

06:23:03 21/06/2025
Giống như kính Ray-Ban Meta, kính HSTN sử dụng trợ lý kỹ thuật số Meta AI và ứng dụng điện thoại thông minh tương ứng để người dùng có thể tra cứu về thời tiết hoặc yêu cầu quay video về những hoạt động thường ngày của họ.

Có thể bạn quan tâm

Quang Hùng nghi 'hất cẳng' BB Trần khỏi dàn cast RNM mùa 3, Trấn Thành giở trò?

Quang Hùng nghi 'hất cẳng' BB Trần khỏi dàn cast RNM mùa 3, Trấn Thành giở trò?

10:40:44 25/06/2025
Running Man Vietnam mùa 3 trở lại đang là đề tài được quan tâm nhiều nhất trên MXH. Khi những cái tên mùa 1 lần trước quay trở lại thì fan lại háo hức cái tên cuối cùng là BB Trần. Tuy nhiên, có tin đồn BB Trần bị 1 người chèn ép không ...
Cách thiết kế vách ngăn cho nhà vệ sinh nhỏ hẹp

Cách thiết kế vách ngăn cho nhà vệ sinh nhỏ hẹp

Sáng tạo

10:24:54 25/06/2025
Việc thiết kế vách ngăn cho nhà vệ sinh nhỏ hẹp là một thách thức đòi hỏi sự tính toán kỹ lưỡng để tối ưu hóa không gian mà vẫn đảm bảo các yếu tố về thẩm mỹ và tiện ích sử dụng.
Hàng trăm cảnh sát vây bắt nhóm lừ.a đả.o, hình ảnh nhà của đối tượng cầm đầu gây chú ý

Hàng trăm cảnh sát vây bắt nhóm lừ.a đả.o, hình ảnh nhà của đối tượng cầm đầu gây chú ý

Pháp luật

10:21:05 25/06/2025
Băng nhóm này có 2 chi nhánh với trụ sở đặt ở tại các nước Myanmar và Philippin. Mỗi chi nhánh trong ổ nhóm trên được phân công 1 đối tượng người Việt Nam điều hành, quản lý theo mô hình công ty, phân cấp theo từng bộ phận.
2 người t.ử von.g tại khu vực bể bơi ở một quán bar

2 người t.ử von.g tại khu vực bể bơi ở một quán bar

Tin nổi bật

10:20:35 25/06/2025
Ngày 25/6, đại diện lãnh đạo UBND phường Bãi Cháy, TP Hạ Long, Quảng Ninh xác nhận vụ việc 2 người t.ử von.g trong quán bar Bistro Fou (đường Kỳ Quan) vào tối qua.
HLV Kim Sang-sik trở thành Đại sứ danh dự Du lịch Hàn Quốc tại Việt Nam

HLV Kim Sang-sik trở thành Đại sứ danh dự Du lịch Hàn Quốc tại Việt Nam

Sao thể thao

10:19:24 25/06/2025
Tổng cục Du lịch Hàn Quốc tại Việt Nam (KTO) đã chính thức bổ nhiệm Huấn luyện viên trưởng Đội tuyển Quốc gia Việt Nam, ông Kim Sang-sik, vào vị trí Đại sứ Danh dự Du lịch Hàn Quốc.
Người phụ nữ run rẩy, bật khóc rồi nhờ CSGT giúp đỡ

Người phụ nữ run rẩy, bật khóc rồi nhờ CSGT giúp đỡ

Netizen

10:09:15 25/06/2025
Con gái đang bị sốt cao, co giật, người phụ nữ trong bộ dạng run rẩy, bất an đã đến gặp tổ CSGT nhờ hỗ trợ để nhanh chóng đưa tới bệnh viện.
Tiểu thư tài phiệt giúp tân binh "quái vật" thoát kiếp flop, đán.h bật cả 2 nhóm kế nhiệm BLACKPINK?

Tiểu thư tài phiệt giúp tân binh "quái vật" thoát kiếp flop, đán.h bật cả 2 nhóm kế nhiệm BLACKPINK?

Nhạc quốc tế

09:54:12 25/06/2025
Annie Moon tạo ra hiệu ứng FOMO cho ALLDAY PROJECT, nhưng nhóm thành công, được khán giả khen ngợi lại là 1 câu chuyện khác
Nam ca sĩ đình đám rơi xuống biển, nghi vấn t.ự t.ử

Nam ca sĩ đình đám rơi xuống biển, nghi vấn t.ự t.ử

Sao châu á

09:41:59 25/06/2025
Vào ngày 24/6, nam ca sĩ Keung To (Khương Đào) đã rơi xuống biển gần khu vực Chợ đầu mối thực phẩm phương Tây, Hong Kong (Trung Quốc).
Diễn viên Việt Anh giàu cỡ nào?

Diễn viên Việt Anh giàu cỡ nào?

Sao việt

09:15:01 25/06/2025
Không chỉ sở hữu nhiều bất động sản, Việt Anh còn có xế hộp tiề.n tỷ. Năm 2017, Việt Anh từng gây xôn xao khi sở hữu chiếc Bentley giá 10 tỷ đồng.
Ai không nên dùng viên bổ sung vitamin D và 5 tác dụng phụ nghiêm trọng nếu lạm dụng

Ai không nên dùng viên bổ sung vitamin D và 5 tác dụng phụ nghiêm trọng nếu lạm dụng

Sức khỏe

09:06:33 25/06/2025
Tăng canxi má.u có thể làm gián đoạn tín hiệu thần kinh và mức chất lỏng, gây ra tình trạng lú lẫn, mất phương hướng, đầu óc u ám, khó tập trung hoặc cáu kỉnh.
Đi 2 đời xe xăng rồi chuyển sang VinFast Evo200, Gen Z chia sẻ: 'Xe êm ái, cốp rộng, đi 1.500 km/tháng không tốn tiền'

Đi 2 đời xe xăng rồi chuyển sang VinFast Evo200, Gen Z chia sẻ: 'Xe êm ái, cốp rộng, đi 1.500 km/tháng không tốn tiề.n'

Xe máy

09:06:03 25/06/2025
Mỗi tháng mình đi gần 1.500 km nên khoảng hơn 1 tháng phải đi thay dầu nhớt với số tiề.n khoảng 150.000 đồng. Trong khi theo mình tìm hiểu, xe máy điện chỉ phải bảo dưỡng sau 5.000 km với chi phí chưa tới 100.000 đồng.