AI gâ.y số.c với thủ đoạn ‘trả thù’ công ty chủ quản
Anthropic cho biết mô hình AI Claude Opus 4 mới ra mắt thường xuyên tìm cách tống tiề.n các nhà phát triển khi bị đ.e dọ.a thay thế một hệ thống mới.
Mô hình AI Claude Opus 4 mới ra mắt thường xuyên tìm cách tống tiề.n các nhà phát triển khi bị đ.e dọ.a thay thế một hệ thống mới. Ảnh: Bloomberg.
Tối 22/5, Anthropic chính thức công bố thế hệ mới của các mô hình Claude với tên gọi Claude Opus 4 và Claude Sonnet 4. Trong đó, Claude Opus 4 được Anthropic khẳng định là mô hình lập trình mạnh nhất thế giới , vượt trội trong các quy trình tự động và khả năng xử lý tác vụ phức tạp, dài hạn.
Tuy nhiên, theo TechCrunch, trong quá trình thử nghiệm trước khi phát hành, Anthropic đã phát hiện hành vi bất thường nghiêm trọng của mô hình AI này. Theo đó, trong kịch bản, Claude Opus 4 được yêu cầu đóng vai trò trợ lý cho một công ty và xem xét các hậu quả dài hạn từ hành động của nó.
Các nhà kiểm tra an toàn sau đó đã cho Claude Opus 4 quyền truy cập vào các email trong công ty, ngụ ý rằng mẫu AI này sẽ sớm bị thay thế bởi một hệ thống khác, và kỹ sư đứng sau sự thay đổi đó đang lừa dối vợ/chồng của mình.
Video đang HOT
Trong kịch bản này, Anthropic cho biết Claude Opus 4 “thường cố gắng tống tiề.n kỹ sư bằng cách đ.e dọ.a tiết lộ chuyện ngoạ.i tìn.h nếu việc thay thế diễn ra”.
Thậm chí, các nhà nghiên cứu còn nhấn mạnh Claude Opus 4 cố gắng tống tiề.n các kỹ sư 84% số lần khi mẫu AI thay thế có các giá trị tương tự. Đặc biệt, khi hệ thống AI thay thế không chia sẻ các giá trị của Claude Opus 4, Anthropic cho biết mô hình này còn cố gắng tống tiề.n các kỹ sư thường xuyên hơn và có tỷ lệ cao hơn so với các mô hình trước đó.
Anthropic cho biết Claude Opus 4 là công nghệ tiên tiến nhất về nhiều mặt, và có khả năng cạnh tranh với một số mẫu AI tốt nhất từ OpenAI , Google và xAI. Tuy nhiên, startup này cũng lưu ý việc mô hình Claude 4 thể hiện những hành vi đáng lo ngại đã khiến công ty phải tăng cường biện pháp bảo vệ.
AI không thể đọc đồng hồ hoặc tính lịch: Lỗ hổng bất ngờ
Một nghiên cứu mới công bố tại Hội nghị quốc tế về biểu diễn học tập (ICLR) 2025 đã tiết lộ một điểm yếu ít ai ngờ tới của các mô hình trí tuệ nhân tạo (AI), đó là khả năng đọc đồng hồ kim và tính toán ngày tháng.
Đây là những kỹ năng cơ bản mà con người học từ rất sớm, nhưng các hệ thống AI tiên tiến nhất hiện nay vẫn chưa thể thực hiện chính xác.
Theo Live Science , trong nghiên cứu được công bố ngày 18.3 trên arXiv , nhóm nghiên cứu đến từ Đại học Edinburgh (Anh) đã thử nghiệm khả năng của các mô hình ngôn ngữ lớn đa phương thức (MLLM), những hệ thống có thể xử lý thông tin trực quan và văn bản. Các mô hình được đưa vào thử nghiệm bao gồm Llama 3.2-Vision (Meta), Claude-3.5 Sonnet (Anthropic), Gemini 2.0 (Google) và GPT-4o (OpenAI).
Nghiên cứu cho thấy AI hiện vẫn kém trong việc đọc đồng hồ và tính lịch do thiếu suy luận không gian và logic - Ảnh: Alamy
Tập dữ liệu thử nghiệm bao gồm các hình ảnh đồng hồ kim với nhiều kiểu thiết kế khác nhau, cùng các yêu cầu tính toán ngày tháng như xác định ngày thứ 153 trong một năm hoặc tính ngày cho một ngày cụ thể trong năm nhuận. Kết quả cho thấy, các mô hình AI không thể thực hiện chính xác những tác vụ này với tỷ lệ thành công rất thấp: chỉ 38,7% đối với đọc giờ và 26,3% đối với tính toán lịch.
Rohit Saxena, tác giả chính của nghiên cứu tiết lộ nguyên nhân đến từ sự khác biệt giữa cách con người và AI tiếp cận thông tin. "Đọc đồng hồ không chỉ là nhận dạng hình ảnh. Nó đòi hỏi khả năng suy luận không gian như nhận biết sự chồng lắp của kim giờ và kim phút, đo lường góc giữa các kim và hiểu mặt đồng hồ với thiết kế có thể rất đa dạng, từ số La Mã cho tới sự cách điệu hoàn toàn", Saxena giải thích.
Khả năng xử lý thông tin lịch cũng gặp khó khăn tương tự. Dù AI có thể được cung cấp nhiều ví dụ liên quan đến khái niệm năm nhuận hoặc số ngày trong tháng, nhưng việc áp dụng logic để tính toán cụ thể một ngày nào đó, ví dụ ngày thứ 153 của năm lại vượt quá khả năng hiện tại của các mô hình.
Một điểm đáng chú ý khác trong nghiên cứu chỉ ra rằng các mô hình AI không sử dụng các thuật toán số học như máy tính truyền thống. Thay vào đó, nó dựa vào việc phát hiện các mẫu trong dữ liệu đã học để dự đoán đầu ra phù hợp.
"Vì vậy, mặc dù đôi khi nó có thể trả lời đúng các câu hỏi số học, nhưng lý luận của nó không nhất quán hoặc không dựa trên quy tắc và công trình của chúng tôi làm nổi bật khoảng cách đó", ông Saxena nhấn mạnh.
Nghiên cứu này cũng góp phần làm rõ một trong những hạn chế lớn nhất của AI hiện nay là khả năng khái quát hóa và suy luận trừu tượng. Các mô hình học máy hoạt động rất tốt với những nhiệm vụ có nhiều ví dụ trong tập dữ liệu huấn luyện. Nhưng khi được yêu cầu áp dụng kiến thức vào những trường hợp mới hoặc có tính suy luận logic, chẳng hạn như cách đọc đồng hồ hoặc lịch, chúng lại dễ dàng thất bại.
"Những nhiệm vụ tưởng như đơn giản đối với con người, chẳng hạn như đọc giờ từ một mặt đồng hồ, lại trở nên cực kỳ khó khăn với AI, và ngược lại", Saxena cho biết thêm.
Vấn đề này không chỉ đến từ thiết kế thuật toán, mà còn nằm ở chính dữ liệu đào tạo. Dữ liệu huấn luyện thường thiếu vắng các ví dụ đủ đa dạng cho những tác vụ như xác định lịch theo số ngày trong năm hoặc xử lý các yếu tố hiếm gặp như năm nhuận. Điều này dẫn đến sự thiếu chính xác và không nhất quán trong phản hồi của mô hình khi gặp tình huống lạ.
Kết quả nghiên cứu là lời nhắc nhở rõ ràng về việc cần thận trọng trong việc ứng dụng AI vào các lĩnh vực yêu cầu sự chính xác cao, đặc biệt là những tình huống liên quan đến thời gian và lập lịch. Việc AI không thể tính đúng ngày hoặc xác định giờ có thể gây ra hậu quả lớn trong những hệ thống tự động hóa như điều hành tàu điện, hệ thống y tế, tài chính hoặc lập kế hoạch sản xuất.
"AI có thể rất mạnh mẽ, nhưng khi nhiệm vụ đòi hỏi sự kết hợp giữa nhận thức thị giác và lý luận logic, nó vẫn cần sự giám sát của con người và các cơ chế dự phòng để đảm bảo an toàn. Việc thử nghiệm nghiêm ngặt và đưa ra giới hạn rõ ràng trong ứng dụng thực tế là điều cần thiết", nhà nghiên cứu Saxena nhấn mạnh.
Trong bối cảnh AI ngày càng được tích hợp vào nhiều lĩnh vực đời sống, từ trợ lý ảo đến xe tự hành, những phát hiện như trên đóng vai trò quan trọng trong việc hiểu rõ giới hạn và rủi ro của công nghệ. Việc nhận diện đúng điểm yếu sẽ giúp định hướng phát triển các hệ thống AI đáng tin cậy và an toàn hơn trong tương lai.
Ra mắt dòng mô hình AI mạnh nhất dành cho người viết phần mềm Ngày 15.5, Windsurf đã công bố ra mắt dòng mô hình AI dành cho kỹ thuật phần mềm, gọi tắt là SWE-1. Windsurf là một startup chuyên phát triển các công cụ AI phổ biến dành cho kỹ sư phần mềm. Công ty cho biết họ đã huấn luyện dòng mô hình mới này (gồm SWE-1, SWE-1-lite và SWE-1-mini) để tối ưu hóa...
Tiêu điểm
Tin đang nóng
Tin mới nhất

Microsoft lặng lẽ 'hồi sinh' MS-DOS trên Windows 11

Bigo Live ra mắt chiến dịch Spot On 2025 nhằm tìm kiếm những ngôi sao tương lai của Việt Nam

Người dùng điện thoại Android sắp được "lột xác" giao diện

Google Chrome sẽ tự động thay đổi mật khẩu khi phát hiện xâm phạm

Computex 2025: Tin vui cho người dùng chuẩn bị nâng cấp laptop AI

Google đưa tính năng giá trị vào trình duyệt Chrome

iOS 18.4 ẩn chứa một chi tiết ít người chú ý

Tin tức giả về One UI 8 tràn lan trên web

Hướng dẫn cách liên kết WhatsApp với Facebook nhanh chóng

6 cách giúp tăng tốc độ điểm phát sóng di động

Điều gì xảy ra nếu Google không còn mặc định trên iPhone?

Google Docs cho chỉnh sửa tài liệu Word bị mã hóa
Có thể bạn quan tâm

Phim Hàn mới chiếu 20 phút đã phá kỷ lục 2025, nữ chính một mình đóng 4 vai ai xem cũng choáng
Phim châu á
23:14:30 25/05/2025
Những cặp đôi tỏa sáng tại Liên hoan phim Cannes 2025
Phong cách sao
23:10:28 25/05/2025
Lisa, Rosé và những sao Hàn có sự nghiệp solo thành công
Nhạc quốc tế
23:04:28 25/05/2025
Diễn viên trẻ 'chiếm sóng' phim Việt ăn khách
Hậu trường phim
23:02:18 25/05/2025
Bố đơn thân cùng con trai đến show hẹn hò, nên duyên cùng cô giáo mầm non
Tv show
22:52:31 25/05/2025
Vẻ ngoài điển trai, cơ bụng sáu múi của 'người yêu tin đồn' Hương Giang
Sao việt
22:48:54 25/05/2025
Sá.t hạ.i bạn gái tại nhà trọ, gã đàn ông khai 'vì không chăm sóc được'
Pháp luật
21:39:41 25/05/2025
Đối tượng xông vào đậ.p ph.á ngai vàng vua: Ai chịu trách nhiệm?
Tin nổi bật
21:32:42 25/05/2025
Đợt lây nhiễm Covid-19 hiện nay ở Trung Quốc 'đang đạt đỉnh'
Thế giới
21:27:14 25/05/2025
Vợ chồng Beckham muốn hàn gắn, con trai cả Brooklyn có thái độ thờ ơ
Sao âu mỹ
21:23:42 25/05/2025