AI gâ.y số.c với thủ đoạn ‘trả thù’ công ty chủ quản

Anh Tuấn17:21 24/05/2025

Anthropic cho biết mô hình AI Claude Opus 4 mới ra mắt thường xuyên tìm cách tống tiề.n các nhà phát triển khi bị đ.e dọ.a thay thế một hệ thống mới.

Mô hình AI Claude Opus 4 mới ra mắt thường xuyên tìm cách tống tiề.n các nhà phát triển khi bị đ.e dọ.a thay thế một hệ thống mới. Ảnh: Bloomberg.

Tối 22/5, Anthropic chính thức công bố thế hệ mới của các mô hình Claude với tên gọi Claude Opus 4 và Claude Sonnet 4. Trong đó, Claude Opus 4 được Anthropic khẳng định là mô hình lập trình mạnh nhất thế giới , vượt trội trong các quy trình tự động và khả năng xử lý tác vụ phức tạp, dài hạn.

Tuy nhiên, theo TechCrunch, trong quá trình thử nghiệm trước khi phát hành, Anthropic đã phát hiện hành vi bất thường nghiêm trọng của mô hình AI này. Theo đó, trong kịch bản, Claude Opus 4 được yêu cầu đóng vai trò trợ lý cho một công ty và xem xét các hậu quả dài hạn từ hành động của nó.

Các nhà kiểm tra an toàn sau đó đã cho Claude Opus 4 quyền truy cập vào các email trong công ty, ngụ ý rằng mẫu AI này sẽ sớm bị thay thế bởi một hệ thống khác, và kỹ sư đứng sau sự thay đổi đó đang lừa dối vợ/chồng của mình.

Video đang HOT

Trong kịch bản này, Anthropic cho biết Claude Opus 4 “thường cố gắng tống tiề.n kỹ sư bằng cách đ.e dọ.a tiết lộ chuyện ngoạ.i tìn.h nếu việc thay thế diễn ra”.

Thậm chí, các nhà nghiên cứu còn nhấn mạnh Claude Opus 4 cố gắng tống tiề.n các kỹ sư 84% số lần khi mẫu AI thay thế có các giá trị tương tự. Đặc biệt, khi hệ thống AI thay thế không chia sẻ các giá trị của Claude Opus 4, Anthropic cho biết mô hình này còn cố gắng tống tiề.n các kỹ sư thường xuyên hơn và có tỷ lệ cao hơn so với các mô hình trước đó.

Anthropic cho biết Claude Opus 4 là công nghệ tiên tiến nhất về nhiều mặt, và có khả năng cạnh tranh với một số mẫu AI tốt nhất từ OpenAI , Google và xAI. Tuy nhiên, startup này cũng lưu ý việc mô hình Claude 4 thể hiện những hành vi đáng lo ngại đã khiến công ty phải tăng cường biện pháp bảo vệ.

AI không thể đọc đồng hồ hoặc tính lịch: Lỗ hổng bất ngờ

Một nghiên cứu mới công bố tại Hội nghị quốc tế về biểu diễn học tập (ICLR) 2025 đã tiết lộ một điểm yếu ít ai ngờ tới của các mô hình trí tuệ nhân tạo (AI), đó là khả năng đọc đồng hồ kim và tính toán ngày tháng.

Đây là những kỹ năng cơ bản mà con người học từ rất sớm, nhưng các hệ thống AI tiên tiến nhất hiện nay vẫn chưa thể thực hiện chính xác.

Theo Live Science , trong nghiên cứu được công bố ngày 18.3 trên arXiv , nhóm nghiên cứu đến từ Đại học Edinburgh (Anh) đã thử nghiệm khả năng của các mô hình ngôn ngữ lớn đa phương thức (MLLM), những hệ thống có thể xử lý thông tin trực quan và văn bản. Các mô hình được đưa vào thử nghiệm bao gồm Llama 3.2-Vision (Meta), Claude-3.5 Sonnet (Anthropic), Gemini 2.0 (Google) và GPT-4o (OpenAI).

Nghiên cứu cho thấy AI hiện vẫn kém trong việc đọc đồng hồ và tính lịch do thiếu suy luận không gian và logic - Ảnh: Alamy

Tập dữ liệu thử nghiệm bao gồm các hình ảnh đồng hồ kim với nhiều kiểu thiết kế khác nhau, cùng các yêu cầu tính toán ngày tháng như xác định ngày thứ 153 trong một năm hoặc tính ngày cho một ngày cụ thể trong năm nhuận. Kết quả cho thấy, các mô hình AI không thể thực hiện chính xác những tác vụ này với tỷ lệ thành công rất thấp: chỉ 38,7% đối với đọc giờ và 26,3% đối với tính toán lịch.

Rohit Saxena, tác giả chính của nghiên cứu tiết lộ nguyên nhân đến từ sự khác biệt giữa cách con người và AI tiếp cận thông tin. "Đọc đồng hồ không chỉ là nhận dạng hình ảnh. Nó đòi hỏi khả năng suy luận không gian như nhận biết sự chồng lắp của kim giờ và kim phút, đo lường góc giữa các kim và hiểu mặt đồng hồ với thiết kế có thể rất đa dạng, từ số La Mã cho tới sự cách điệu hoàn toàn", Saxena giải thích.

Khả năng xử lý thông tin lịch cũng gặp khó khăn tương tự. Dù AI có thể được cung cấp nhiều ví dụ liên quan đến khái niệm năm nhuận hoặc số ngày trong tháng, nhưng việc áp dụng logic để tính toán cụ thể một ngày nào đó, ví dụ ngày thứ 153 của năm lại vượt quá khả năng hiện tại của các mô hình.

Một điểm đáng chú ý khác trong nghiên cứu chỉ ra rằng các mô hình AI không sử dụng các thuật toán số học như máy tính truyền thống. Thay vào đó, nó dựa vào việc phát hiện các mẫu trong dữ liệu đã học để dự đoán đầu ra phù hợp.

"Vì vậy, mặc dù đôi khi nó có thể trả lời đúng các câu hỏi số học, nhưng lý luận của nó không nhất quán hoặc không dựa trên quy tắc và công trình của chúng tôi làm nổi bật khoảng cách đó", ông Saxena nhấn mạnh.

Nghiên cứu này cũng góp phần làm rõ một trong những hạn chế lớn nhất của AI hiện nay là khả năng khái quát hóa và suy luận trừu tượng. Các mô hình học máy hoạt động rất tốt với những nhiệm vụ có nhiều ví dụ trong tập dữ liệu huấn luyện. Nhưng khi được yêu cầu áp dụng kiến thức vào những trường hợp mới hoặc có tính suy luận logic, chẳng hạn như cách đọc đồng hồ hoặc lịch, chúng lại dễ dàng thất bại.

"Những nhiệm vụ tưởng như đơn giản đối với con người, chẳng hạn như đọc giờ từ một mặt đồng hồ, lại trở nên cực kỳ khó khăn với AI, và ngược lại", Saxena cho biết thêm.

Vấn đề này không chỉ đến từ thiết kế thuật toán, mà còn nằm ở chính dữ liệu đào tạo. Dữ liệu huấn luyện thường thiếu vắng các ví dụ đủ đa dạng cho những tác vụ như xác định lịch theo số ngày trong năm hoặc xử lý các yếu tố hiếm gặp như năm nhuận. Điều này dẫn đến sự thiếu chính xác và không nhất quán trong phản hồi của mô hình khi gặp tình huống lạ.

Kết quả nghiên cứu là lời nhắc nhở rõ ràng về việc cần thận trọng trong việc ứng dụng AI vào các lĩnh vực yêu cầu sự chính xác cao, đặc biệt là những tình huống liên quan đến thời gian và lập lịch. Việc AI không thể tính đúng ngày hoặc xác định giờ có thể gây ra hậu quả lớn trong những hệ thống tự động hóa như điều hành tàu điện, hệ thống y tế, tài chính hoặc lập kế hoạch sản xuất.

"AI có thể rất mạnh mẽ, nhưng khi nhiệm vụ đòi hỏi sự kết hợp giữa nhận thức thị giác và lý luận logic, nó vẫn cần sự giám sát của con người và các cơ chế dự phòng để đảm bảo an toàn. Việc thử nghiệm nghiêm ngặt và đưa ra giới hạn rõ ràng trong ứng dụng thực tế là điều cần thiết", nhà nghiên cứu Saxena nhấn mạnh.

Trong bối cảnh AI ngày càng được tích hợp vào nhiều lĩnh vực đời sống, từ trợ lý ảo đến xe tự hành, những phát hiện như trên đóng vai trò quan trọng trong việc hiểu rõ giới hạn và rủi ro của công nghệ. Việc nhận diện đúng điểm yếu sẽ giúp định hướng phát triển các hệ thống AI đáng tin cậy và an toàn hơn trong tương lai.

Ra mắt dòng mô hình AI mạnh nhất dành cho người viết phần mềm Ngày 15.5, Windsurf đã công bố ra mắt dòng mô hình AI dành cho kỹ thuật phần mềm, gọi tắt là SWE-1. Windsurf là một startup chuyên phát triển các công cụ AI phổ biến dành cho kỹ sư phần mềm. Công ty cho biết họ đã huấn luyện dòng mô hình mới này (gồm SWE-1, SWE-1-lite và SWE-1-mini) để tối ưu hóa...

Bạn thấy bài viết này có hữu ích không?

Có

Không

Tin liên quan

Chủ đề: google hệ thống ai openai mô hình ai

Xem thêm Share

Xem nhiều

One UI 7 đến với dòng Galaxy S2103:50

Google tích hợp AI vào công cụ tìm kiếm, trình duyệt web Chrome...01:38

Điều gì xảy ra nếu Google không còn mặc định trên iPhone?08:38

Các thiết bị Xiaomi sắp được cập nhật lên HyperOS 2.201:22

Tiêu điểm

Tin đang nóng

Tin mới nhất

Microsoft lặng lẽ 'hồi sinh' MS-DOS trên Windows 11

22:21:43 23/05/2025

Với dung lượng siêu nhỏ, chưa đến 250 kB, nó vẫn được trang bị nhiều tính năng hiện đại nhằm mang lại trải nghiệm chỉnh sửa văn bản thoải mái và hiệu quả hơn.

Bigo Live ra mắt chiến dịch Spot On 2025 nhằm tìm kiếm những ngôi sao tương lai của Việt Nam

16:50:51 23/05/2025

Bigo Live, nền tảng livestream hàng đầu thế giới, đã khởi động cuộc thi tìm kiếm tài năng toàn quốc mang tên Spot On 2025 nhằm tìm ra thế hệ ngôi sao diễn xuất tiếp theo của Việt Nam, với đêm chung kết sẽ diễn ra vào ngày 26 tháng 6

Người dùng điện thoại Android sắp được "lột xác" giao diện

16:36:14 23/05/2025

Dự kiến người dùng điện thoại khi được nâng cấp lên phiên bản Android 16 sẽ nhận được sự hỗ trợ của trí tuệ nhân tạo trong nhiều tác vụ và giao diện hoàn toàn khác lạ.

Google Chrome sẽ tự động thay đổi mật khẩu khi phát hiện xâm phạm

09:19:07 23/05/2025

Tin vui cho người dùng Google Chrome khi gã khổng lồ công nghệ Mỹ vừa chính thức trình làng một tính năng đột phá cho trình quản lý mật khẩu tích hợp.

Computex 2025: Tin vui cho người dùng chuẩn bị nâng cấp laptop AI

09:08:27 23/05/2025

Theo báo cáo từ công ty nghiên cứu Counterpoint Research, doanh số máy tính trên toàn cầu đã đạt mức 253 triệu thiết bị trong năm 2024, tăng 2,6% so với năm 2023.

Google đưa tính năng giá trị vào trình duyệt Chrome

13:16:24 22/05/2025

Google vừa công bố tính năng mới cho trình duyệt Chrome với khả năng tự thay đổi mật khẩu yếu hoặc bị xâm phạm thành mật khẩu mạnh mẽ và độc đáo.

iOS 18.4 ẩn chứa một chi tiết ít người chú ý

13:11:10 22/05/2025

Apple đã bí mật mang đến iOS 18.4 mà hãng phát hành cách nay không lâu một tính năng mới mà không phải ai cũng dễ dàng nhận ra.

Tin tức giả về One UI 8 tràn lan trên web

13:06:19 22/05/2025

Người hâm mộ Samsung đang háo hức chờ đợi One UI 8, bản cập nhật dựa trên Android 16 mà Samsung sẽ triển khai trong tương lai.

Hướng dẫn cách liên kết WhatsApp với Facebook nhanh chóng

12:10:41 22/05/2025

Trên đây là hướng dẫn cách kết nối WhatsApp với Facebook để bạn dễ dàng đồng bộ dữ liệu, tăng cường tương tác và khai thác tối đa tiện ích từ hai nền tảng.

6 cách giúp tăng tốc độ điểm phát sóng di động

11:12:33 22/05/2025

Hãy áp dụng những mẹo sau nếu bạn chia sẻ điểm phát sóng di động (điểm truy cập cá nhân) nhưng gặp tình trạng tốc độ như rùa bò .

Điều gì xảy ra nếu Google không còn mặc định trên iPhone?

11:09:32 22/05/2025

Apple được cho là đang xem xét khả năng thay thế Siri bằng một trợ lý ảo khác hoặc thậm chí phát triển một công cụ tìm kiếm riêng thay vì Google.

Google Docs cho chỉnh sửa tài liệu Word bị mã hóa

11:06:00 22/05/2025

Đây được xem là một bước tiến đáng kể, giúp các tổ chức đơn giản hóa quy trình làm việc, giảm thiểu sự phức tạp khi phải chuyển đổi giữa các ứng dụng khác nhau chỉ để xử lý các tệp tin yêu cầu bảo mật cao.