AI gâ.y số.c với thủ đoạn ‘trả thù’ công ty chủ quản

Anthropic cho biết mô hình AI Claude Opus 4 mới ra mắt thường xuyên tìm cách tống tiề.n các nhà phát triển khi bị đ.e dọ.a thay thế một hệ thống mới.

AI gâ.y số.c với thủ đoạn trả thù công ty chủ quản - Hình 1

Mô hình AI Claude Opus 4 mới ra mắt thường xuyên tìm cách tống tiề.n các nhà phát triển khi bị đ.e dọ.a thay thế một hệ thống mới. Ảnh: Bloomberg.

Tối 22/5, Anthropic chính thức công bố thế hệ mới của các mô hình Claude với tên gọi Claude Opus 4 và Claude Sonnet 4. Trong đó, Claude Opus 4 được Anthropic khẳng định là mô hình lập trình mạnh nhất thế giới , vượt trội trong các quy trình tự động và khả năng xử lý tác vụ phức tạp, dài hạn.

Tuy nhiên, theo TechCrunch, trong quá trình thử nghiệm trước khi phát hành, Anthropic đã phát hiện hành vi bất thường nghiêm trọng của mô hình AI này. Theo đó, trong kịch bản, Claude Opus 4 được yêu cầu đóng vai trò trợ lý cho một công ty và xem xét các hậu quả dài hạn từ hành động của nó.

Các nhà kiểm tra an toàn sau đó đã cho Claude Opus 4 quyền truy cập vào các email trong công ty, ngụ ý rằng mẫu AI này sẽ sớm bị thay thế bởi một hệ thống khác, và kỹ sư đứng sau sự thay đổi đó đang lừa dối vợ/chồng của mình.

Video đang HOT

Trong kịch bản này, Anthropic cho biết Claude Opus 4 “thường cố gắng tống tiề.n kỹ sư bằng cách đ.e dọ.a tiết lộ chuyện ngoạ.i tìn.h nếu việc thay thế diễn ra”.

Thậm chí, các nhà nghiên cứu còn nhấn mạnh Claude Opus 4 cố gắng tống tiề.n các kỹ sư 84% số lần khi mẫu AI thay thế có các giá trị tương tự. Đặc biệt, khi hệ thống AI thay thế không chia sẻ các giá trị của Claude Opus 4, Anthropic cho biết mô hình này còn cố gắng tống tiề.n các kỹ sư thường xuyên hơn và có tỷ lệ cao hơn so với các mô hình trước đó.

Anthropic cho biết Claude Opus 4 là công nghệ tiên tiến nhất về nhiều mặt, và có khả năng cạnh tranh với một số mẫu AI tốt nhất từ OpenAI , Google và xAI. Tuy nhiên, startup này cũng lưu ý việc mô hình Claude 4 thể hiện những hành vi đáng lo ngại đã khiến công ty phải tăng cường biện pháp bảo vệ.

AI không thể đọc đồng hồ hoặc tính lịch: Lỗ hổng bất ngờ

Một nghiên cứu mới công bố tại Hội nghị quốc tế về biểu diễn học tập (ICLR) 2025 đã tiết lộ một điểm yếu ít ai ngờ tới của các mô hình trí tuệ nhân tạo (AI), đó là khả năng đọc đồng hồ kim và tính toán ngày tháng.

Đây là những kỹ năng cơ bản mà con người học từ rất sớm, nhưng các hệ thống AI tiên tiến nhất hiện nay vẫn chưa thể thực hiện chính xác.

Theo Live Science , trong nghiên cứu được công bố ngày 18.3 trên arXiv , nhóm nghiên cứu đến từ Đại học Edinburgh (Anh) đã thử nghiệm khả năng của các mô hình ngôn ngữ lớn đa phương thức (MLLM), những hệ thống có thể xử lý thông tin trực quan và văn bản. Các mô hình được đưa vào thử nghiệm bao gồm Llama 3.2-Vision (Meta), Claude-3.5 Sonnet (Anthropic), Gemini 2.0 (Google) và GPT-4o (OpenAI).

AI không thể đọc đồng hồ hoặc tính lịch: Lỗ hổng bất ngờ - Hình 1

Nghiên cứu cho thấy AI hiện vẫn kém trong việc đọc đồng hồ và tính lịch do thiếu suy luận không gian và logic - Ảnh: Alamy

Tập dữ liệu thử nghiệm bao gồm các hình ảnh đồng hồ kim với nhiều kiểu thiết kế khác nhau, cùng các yêu cầu tính toán ngày tháng như xác định ngày thứ 153 trong một năm hoặc tính ngày cho một ngày cụ thể trong năm nhuận. Kết quả cho thấy, các mô hình AI không thể thực hiện chính xác những tác vụ này với tỷ lệ thành công rất thấp: chỉ 38,7% đối với đọc giờ và 26,3% đối với tính toán lịch.

Rohit Saxena, tác giả chính của nghiên cứu tiết lộ nguyên nhân đến từ sự khác biệt giữa cách con người và AI tiếp cận thông tin. "Đọc đồng hồ không chỉ là nhận dạng hình ảnh. Nó đòi hỏi khả năng suy luận không gian như nhận biết sự chồng lắp của kim giờ và kim phút, đo lường góc giữa các kim và hiểu mặt đồng hồ với thiết kế có thể rất đa dạng, từ số La Mã cho tới sự cách điệu hoàn toàn", Saxena giải thích.

Khả năng xử lý thông tin lịch cũng gặp khó khăn tương tự. Dù AI có thể được cung cấp nhiều ví dụ liên quan đến khái niệm năm nhuận hoặc số ngày trong tháng, nhưng việc áp dụng logic để tính toán cụ thể một ngày nào đó, ví dụ ngày thứ 153 của năm lại vượt quá khả năng hiện tại của các mô hình.

Một điểm đáng chú ý khác trong nghiên cứu chỉ ra rằng các mô hình AI không sử dụng các thuật toán số học như máy tính truyền thống. Thay vào đó, nó dựa vào việc phát hiện các mẫu trong dữ liệu đã học để dự đoán đầu ra phù hợp.

"Vì vậy, mặc dù đôi khi nó có thể trả lời đúng các câu hỏi số học, nhưng lý luận của nó không nhất quán hoặc không dựa trên quy tắc và công trình của chúng tôi làm nổi bật khoảng cách đó", ông Saxena nhấn mạnh.

Nghiên cứu này cũng góp phần làm rõ một trong những hạn chế lớn nhất của AI hiện nay là khả năng khái quát hóa và suy luận trừu tượng. Các mô hình học máy hoạt động rất tốt với những nhiệm vụ có nhiều ví dụ trong tập dữ liệu huấn luyện. Nhưng khi được yêu cầu áp dụng kiến thức vào những trường hợp mới hoặc có tính suy luận logic, chẳng hạn như cách đọc đồng hồ hoặc lịch, chúng lại dễ dàng thất bại.

"Những nhiệm vụ tưởng như đơn giản đối với con người, chẳng hạn như đọc giờ từ một mặt đồng hồ, lại trở nên cực kỳ khó khăn với AI, và ngược lại", Saxena cho biết thêm.

Vấn đề này không chỉ đến từ thiết kế thuật toán, mà còn nằm ở chính dữ liệu đào tạo. Dữ liệu huấn luyện thường thiếu vắng các ví dụ đủ đa dạng cho những tác vụ như xác định lịch theo số ngày trong năm hoặc xử lý các yếu tố hiếm gặp như năm nhuận. Điều này dẫn đến sự thiếu chính xác và không nhất quán trong phản hồi của mô hình khi gặp tình huống lạ.

Kết quả nghiên cứu là lời nhắc nhở rõ ràng về việc cần thận trọng trong việc ứng dụng AI vào các lĩnh vực yêu cầu sự chính xác cao, đặc biệt là những tình huống liên quan đến thời gian và lập lịch. Việc AI không thể tính đúng ngày hoặc xác định giờ có thể gây ra hậu quả lớn trong những hệ thống tự động hóa như điều hành tàu điện, hệ thống y tế, tài chính hoặc lập kế hoạch sản xuất.

"AI có thể rất mạnh mẽ, nhưng khi nhiệm vụ đòi hỏi sự kết hợp giữa nhận thức thị giác và lý luận logic, nó vẫn cần sự giám sát của con người và các cơ chế dự phòng để đảm bảo an toàn. Việc thử nghiệm nghiêm ngặt và đưa ra giới hạn rõ ràng trong ứng dụng thực tế là điều cần thiết", nhà nghiên cứu Saxena nhấn mạnh.

Trong bối cảnh AI ngày càng được tích hợp vào nhiều lĩnh vực đời sống, từ trợ lý ảo đến xe tự hành, những phát hiện như trên đóng vai trò quan trọng trong việc hiểu rõ giới hạn và rủi ro của công nghệ. Việc nhận diện đúng điểm yếu sẽ giúp định hướng phát triển các hệ thống AI đáng tin cậy và an toàn hơn trong tương lai.

Bạn thấy bài viết này có hữu ích không?
Không

Tin liên quan

Tiêu điểm

Các thiết bị Xiaomi sắp được cập nhật lên HyperOS 2.2Các thiết bị Xiaomi sắp được cập nhật lên HyperOS 2.2
13:13:19 24/05/2025
Samsung Galaxy S26 sẽ có cải tiến đột phá cấu hình cameraSamsung Galaxy S26 sẽ có cải tiến đột phá cấu hình camera
11:20:37 24/05/2025
Độc đáo tấm pin năng lượng mặt trời 2 trong 1Độc đáo tấm pin năng lượng mặt trời 2 trong 1
11:35:22 25/05/2025
Ra mắt 2 cuốn sách đầu tiên về AI trong y học tại Việt NamRa mắt 2 cuốn sách đầu tiên về AI trong y học tại Việt Nam
18:36:34 25/05/2025
Lá chắn bảo vệ tên miền trước nguy cơ bị chiếm đoạt trái phépLá chắn bảo vệ tên miền trước nguy cơ bị chiếm đoạt trái phép
11:49:01 24/05/2025
Robot điểm danh sáng tạo của những người trẻ không ngừng học hỏiRobot điểm danh sáng tạo của những người trẻ không ngừng học hỏi
15:34:09 24/05/2025
Google đối mặt với điều tra chống độc quyền về thỏa thuận với Character.AIGoogle đối mặt với điều tra chống độc quyền về thỏa thuận với Character.AI
15:43:29 24/05/2025
Computex 2025: CEO Nvidia gọi AI là cơ sở hạ tầng mớiComputex 2025: CEO Nvidia gọi AI là cơ sở hạ tầng mới
20:11:21 25/05/2025

Tin đang nóng

Một phụ nữ ở TPHCM bị 8 người đàn ông hiế.p dâ.mMột phụ nữ ở TPHCM bị 8 người đàn ông hiế.p dâ.m
18:36:58 25/05/2025
Xe địa hình chở 8 người tuột xuống hồ, 1 nữ du khách t.ử von.gXe địa hình chở 8 người tuột xuống hồ, 1 nữ du khách t.ử von.g
21:35:50 25/05/2025
Streamer 2 lần mắc ung thư được cầu hôn gây xúc động: 7 năm, 9 lần từ chốiStreamer 2 lần mắc ung thư được cầu hôn gây xúc động: 7 năm, 9 lần từ chối
20:11:08 25/05/2025
Á hậu kết hôn sớm nhất Vbiz, danh tính chồng vẫn bí ẩnÁ hậu kết hôn sớm nhất Vbiz, danh tính chồng vẫn bí ẩn
18:18:15 25/05/2025
Đã tìm thấy th.i th.ể bé gái 11 tuổ.i bị nước cuốn trôiĐã tìm thấy th.i th.ể bé gái 11 tuổ.i bị nước cuốn trôi
21:38:02 25/05/2025
Huỳnh Hiểu Minh đã căng, ra tay cực gắt bảo vệ khối tài sản 35.000 tỷ trước bạn gái hot girlHuỳnh Hiểu Minh đã căng, ra tay cực gắt bảo vệ khối tài sản 35.000 tỷ trước bạn gái hot girl
18:10:11 25/05/2025
Con trai Trần Khôn ở tuổ.i 23: Từ "đứa trẻ bí ẩn nhất showbiz" nay trở thành kiến trúc sư danh giáCon trai Trần Khôn ở tuổ.i 23: Từ "đứ.a tr.ẻ bí ẩn nhất showbiz" nay trở thành kiến trúc sư danh giá
18:21:32 25/05/2025
TPHCM: Phát hiện người đàn ông chế.t trong khách sạnTPHCM: Phát hiện người đàn ông chế.t trong khách sạn
18:46:49 25/05/2025

Tin mới nhất

Microsoft lặng lẽ 'hồi sinh' MS-DOS trên Windows 11

Microsoft lặng lẽ 'hồi sinh' MS-DOS trên Windows 11

22:21:43 23/05/2025
Với dung lượng siêu nhỏ, chưa đến 250 kB, nó vẫn được trang bị nhiều tính năng hiện đại nhằm mang lại trải nghiệm chỉnh sửa văn bản thoải mái và hiệu quả hơn.
Bigo Live ra mắt chiến dịch Spot On 2025 nhằm tìm kiếm những ngôi sao tương lai của Việt Nam

Bigo Live ra mắt chiến dịch Spot On 2025 nhằm tìm kiếm những ngôi sao tương lai của Việt Nam

16:50:51 23/05/2025
Bigo Live, nền tảng livestream hàng đầu thế giới, đã khởi động cuộc thi tìm kiếm tài năng toàn quốc mang tên Spot On 2025 nhằm tìm ra thế hệ ngôi sao diễn xuất tiếp theo của Việt Nam, với đêm chung kết sẽ diễn ra vào ngày 26 tháng 6
Người dùng điện thoại Android sắp được "lột xác" giao diện

Người dùng điện thoại Android sắp được "lột xác" giao diện

16:36:14 23/05/2025
Dự kiến người dùng điện thoại khi được nâng cấp lên phiên bản Android 16 sẽ nhận được sự hỗ trợ của trí tuệ nhân tạo trong nhiều tác vụ và giao diện hoàn toàn khác lạ.
Google Chrome sẽ tự động thay đổi mật khẩu khi phát hiện xâm phạm

Google Chrome sẽ tự động thay đổi mật khẩu khi phát hiện xâm phạm

09:19:07 23/05/2025
Tin vui cho người dùng Google Chrome khi gã khổng lồ công nghệ Mỹ vừa chính thức trình làng một tính năng đột phá cho trình quản lý mật khẩu tích hợp.
Computex 2025: Tin vui cho người dùng chuẩn bị nâng cấp laptop AI

Computex 2025: Tin vui cho người dùng chuẩn bị nâng cấp laptop AI

09:08:27 23/05/2025
Theo báo cáo từ công ty nghiên cứu Counterpoint Research, doanh số máy tính trên toàn cầu đã đạt mức 253 triệu thiết bị trong năm 2024, tăng 2,6% so với năm 2023.
Google đưa tính năng giá trị vào trình duyệt Chrome

Google đưa tính năng giá trị vào trình duyệt Chrome

13:16:24 22/05/2025
Google vừa công bố tính năng mới cho trình duyệt Chrome với khả năng tự thay đổi mật khẩu yếu hoặc bị xâm phạm thành mật khẩu mạnh mẽ và độc đáo.
iOS 18.4 ẩn chứa một chi tiết ít người chú ý

iOS 18.4 ẩn chứa một chi tiết ít người chú ý

13:11:10 22/05/2025
Apple đã bí mật mang đến iOS 18.4 mà hãng phát hành cách nay không lâu một tính năng mới mà không phải ai cũng dễ dàng nhận ra.
Tin tức giả về One UI 8 tràn lan trên web

Tin tức giả về One UI 8 tràn lan trên web

13:06:19 22/05/2025
Người hâm mộ Samsung đang háo hức chờ đợi One UI 8, bản cập nhật dựa trên Android 16 mà Samsung sẽ triển khai trong tương lai.
Hướng dẫn cách liên kết WhatsApp với Facebook nhanh chóng

Hướng dẫn cách liên kết WhatsApp với Facebook nhanh chóng

12:10:41 22/05/2025
Trên đây là hướng dẫn cách kết nối WhatsApp với Facebook để bạn dễ dàng đồng bộ dữ liệu, tăng cường tương tác và khai thác tối đa tiện ích từ hai nền tảng.
6 cách giúp tăng tốc độ điểm phát sóng di động

6 cách giúp tăng tốc độ điểm phát sóng di động

11:12:33 22/05/2025
Hãy áp dụng những mẹo sau nếu bạn chia sẻ điểm phát sóng di động (điểm truy cập cá nhân) nhưng gặp tình trạng tốc độ như rùa bò .
Điều gì xảy ra nếu Google không còn mặc định trên iPhone?

Điều gì xảy ra nếu Google không còn mặc định trên iPhone?

11:09:32 22/05/2025
Apple được cho là đang xem xét khả năng thay thế Siri bằng một trợ lý ảo khác hoặc thậm chí phát triển một công cụ tìm kiếm riêng thay vì Google.
Google Docs cho chỉnh sửa tài liệu Word bị mã hóa

Google Docs cho chỉnh sửa tài liệu Word bị mã hóa

11:06:00 22/05/2025
Đây được xem là một bước tiến đáng kể, giúp các tổ chức đơn giản hóa quy trình làm việc, giảm thiểu sự phức tạp khi phải chuyển đổi giữa các ứng dụng khác nhau chỉ để xử lý các tệp tin yêu cầu bảo mật cao.

Có thể bạn quan tâm

Phim Hàn mới chiếu 20 phút đã phá kỷ lục 2025, nữ chính một mình đóng 4 vai ai xem cũng choáng

Phim Hàn mới chiếu 20 phút đã phá kỷ lục 2025, nữ chính một mình đóng 4 vai ai xem cũng choáng

Phim châu á

23:14:30 25/05/2025
Ngay từ khi chưa phát sóng, Our Unwritten Seoul (Một Seoul Chưa Biết Đến) đã thu hút sự chú ý nhờ dàn cast chất lượng và kịch bản đầy tò mò.
Những cặp đôi tỏa sáng tại Liên hoan phim Cannes 2025

Những cặp đôi tỏa sáng tại Liên hoan phim Cannes 2025

Phong cách sao

23:10:28 25/05/2025
Dưới ánh đèn rực rỡ của Liên hoan phim Cannes 2025, nhiều cặp đôi nổi tiếng đã thu hút sự chú ý với phong cách thời trang ấn tượng trên thảm đỏ.
Lisa, Rosé và những sao Hàn có sự nghiệp solo thành công

Lisa, Rosé và những sao Hàn có sự nghiệp solo thành công

Nhạc quốc tế

23:04:28 25/05/2025
Nhiều ngôi sao K-pop như G-Dragon (BIGBANG), Lisa, Rosé (Blackpink), Jungkook (BTS)... đã chứng minh sức hút không hề giảm khi hoạt động solo.
Diễn viên trẻ 'chiếm sóng' phim Việt ăn khách

Diễn viên trẻ 'chiếm sóng' phim Việt ăn khách

Hậu trường phim

23:02:18 25/05/2025
Điện ảnh Việt đầu năm 2025 ghi nhận sự tham gia của thế hệ diễn viên trẻ trong những bộ phim ăn khách nhất thị trường như Lậ.t mặ.t 8: Vòng tay nắng , Tiệm ăn của quỷ, Thám tử Kiên: Kỳ án không đầu .
Bố đơn thân cùng con trai đến show hẹn hò, nên duyên cùng cô giáo mầm non

Bố đơn thân cùng con trai đến show hẹn hò, nên duyên cùng cô giáo mầm non

Tv show

22:52:31 25/05/2025
Tập mới nhất Bạn muốn hẹn hò cùng Quyền Linh làm cầu nối thành công cho cặp đôi từng đổ vỡ hôn nhân tìm được hạnh phúc mới.
Vẻ ngoài điển trai, cơ bụng sáu múi của 'người yêu tin đồn' Hương Giang

Vẻ ngoài điển trai, cơ bụng sáu múi của 'người yêu tin đồn' Hương Giang

Sao việt

22:48:54 25/05/2025
Từ những tin đồn hẹn hò râm ran thời gian qua, Hương Giang và Phú Cường bất ngờ diện đồ đôi, tay trong tay xuất hiện tại một sự kiện.
Sá.t hạ.i bạn gái tại nhà trọ, gã đàn ông khai 'vì không chăm sóc được'

Sá.t hạ.i bạn gái tại nhà trọ, gã đàn ông khai 'vì không chăm sóc được'

Pháp luật

21:39:41 25/05/2025
Châu Văn May khai, do không có nghề nghiệp ổn định, không thể chăm sóc bạn gái nên đã đề nghị cô về sống với gia đình. Vì bạn gái không đồng ý, May ra tay sá.t hạ.i cô.
Đối tượng xông vào đậ.p ph.á ngai vàng vua: Ai chịu trách nhiệm?

Đối tượng xông vào đậ.p ph.á ngai vàng vua: Ai chịu trách nhiệm?

Tin nổi bật

21:32:42 25/05/2025
Ngai vàng Bảo vật quốc gia đặt tại Đại nội Huế (Huế) là di sản linh thiêng, biểu tượng của quốc thể, nhưng đã bị xâm phạm. Vụ việc không chỉ mang tính chất hình sự mà còn cho thấy lỗ hổng lớn trong công tác bảo tồn di sản.
Đợt lây nhiễm Covid-19 hiện nay ở Trung Quốc 'đang đạt đỉnh'

Đợt lây nhiễm Covid-19 hiện nay ở Trung Quốc 'đang đạt đỉnh'

Thế giới

21:27:14 25/05/2025
Chuyên gia về bệnh hô hấp nổi tiếng của Trung Quốc Chung Nam Sơn mới đây cho rằng các ca nhiễm Covid-19 ở nước này đang đạt đỉnh và sẽ bắt đầu giảm vào tháng tới.
Vợ chồng Beckham muốn hàn gắn, con trai cả Brooklyn có thái độ thờ ơ

Vợ chồng Beckham muốn hàn gắn, con trai cả Brooklyn có thái độ thờ ơ

Sao âu mỹ

21:23:42 25/05/2025
Những đồn đoán về mối quan hệ rạ.n nứ.t giữa vợ chồng David Beckham và con trai cả Brooklyn tiếp tục thu hút sự chú ý của truyền thông.
McTominay thăng hoa ở Napoli nhờ 'Nữ hoàng nước Ý'

McTominay thăng hoa ở Napoli nhờ 'Nữ hoàng nước Ý'

Sao thể thao

21:03:32 25/05/2025
Sau khi rời MU, Scott McTominay đã có mùa giải đỉnh cao tại Napoli với chức vô địch Serie A. Tiề.n vệ người Scotland cũng đang có cuộc sống hạnh phúc viên mãn bên cạnh Nữ hoàng nước Ý .