Hệ thống dịch tự động của Microsoft đã thông minh như con người
Microsoft đã tạo ra được hệ thống dịch tự động đầu tiên có thể dịch bài báo từ tiếng Trung Quốc sang tiếng Anh với chất lượng và độ chính xác như con người.
Vừa qua, những nhà khoa học tại phòng nghiên cứu ở Mỹ và châu Á của Microsoft đã đạt được thành quả bất ngờ khi đưa hệ thống dịch tự động tham gia chương trình dịch các bài báo newstest2017. Theo đó, hệ thống dịch tự động của Microsoft được xác nhận có khả năng dịch chính xác như con người.
Xuedong Huang, nghiên cứu kỹ thuật phụ trách mảng lời nói, ngôn ngữ tự nhiên và dịch tự động của Microsoft. Ảnh: Scott Eklund/Red Box Pictures
Xuedong Huang, nhà nghiên cứu kỹ thuật phụ trách mảng lời nói, ngôn ngữ tự nhiên và dịch thuật tự động của Microsoft, gọi đây là một cột mốc quan trọng của một trong những quy trình xử lý ngôn ngữ tự nhiên phức tạp nhất. “Đạt được sự tương đồng với con người trong việc dịch tự động là ước mơ của tất cả chúng tôi”, Huang bày tỏ.
Huang cũng là người dẫn đầu nhóm nghiên cứu gần đây đạt được hiệu quả nhận diện giọng nói hội thoại tương đồng như con người. Ông chia sẻ rằng, cột mốc dịch thuật này đặc biệt đáng ghi nhớ vì khả năng giúp con người hiểu nhau tốt hơn. “Giúp xóa bỏ rào cản ngôn ngữ và mang con người lại gần với nhau hơn là điều rất tuyệt,” ông nói.
Dịch tự động là một vấn đề mà các chuyên gia đã nghiên cứu hàng thập kỷ. Trong suốt thời gian qua, nhiều người tin việc dịch tự động tương đương với con người là không bao giờ đạt được. Tuy nhiên, đạt được cột mốc này không có nghĩa là những thách thức của việc dịch tự động đã được giải quyết.
Video đang HOT
Ming Zhou – Phó Giám đốc khối Nghiên cứu Microsoft châu Á và là trưởng bộ phận xử lý ngôn ngữ tự nhiên cùng làm việc trong dự án, nói rằng nhóm rất vui mừng khi đạt được cột mốc dịch tự động tương đồng với con người trên bộ dữ liệu; nhưng vẫn còn nhiều khó khăn phía trước, như thử nghiệm hệ thống trên các tin tức theo thời gian thực.
Arul Menezes, Giám đốc quản lý đối tác nghiên cứu của nhóm dịch tự động của Microsoft. Ảnh: Dan DeLong.
Arul Menezes, Giám đốc Quản lý đối tác nghiên cứu của nhóm dịch tự động tại Microsoft cho biết, nhóm nghiên cứu có thể áp dụng những kỹ thuật mà họ đã làm được trong dự án này cho các sản phẩm thương mại về dịch thuật đa ngôn ngữ. Đây là khởi đầu cho các công cụ dịch thuật chính xác và tự nhiên hơn giữa các ngôn ngữ và những đoạn văn có các từ vựng phức tạp.
Để đạt được sự tương đồng như trên, ba nhóm nghiên cứu của Microsoft Bắc Kinh, Redmond vàWashington đã làm việc cùng nhau, bổ sung các phương pháp đào tạo mới, giúp hệ thống dịch thuật dần trôi chảy và chính xác. Trong nhiều trường hợp, những phương pháp mới bắt chước cách con người học việc bằng cách lặp đi lặp lại, thực hiện nhiều lần đến khi làm được.
Một phương pháp mà họ sử dụng là học kép. Đây là cách kiểm tra thực tế kết quả làm việc của hệ thống: Mỗi lần họ gửi một câu qua hệ thống để dịch từ tiếng Trung sang tiếng Anh, nhóm nghiên cứu cũng dịch ngược lại từ tiếng Anh sang tiếng Trung. Việc này tương tự với những gì người ta hay làm để đảm bảo độ chính xác của việc dịch thuật tự động, đồng thời cho phép hệ thống tái xác định và học hỏi từ lỗi sai.
Một phương pháp khác được gọi là hệ thống cân nhắc, tương tự với cách con người hiệu chỉnh và sửa bài viết của mình bằng cách đọc đi đọc lại nhiều lần. Những nhà nghiên cứu dạy cho hệ thống lặp lại quy trình dịch cùng một câu nhiều lần, từ đó dần hiệu chỉnh và cải thiện dịch thuật.
Những nhà nghiên cứu cũng phát triển hai kỹ thuật mới để cải thiện độ chính xác của việc dịch thuật. Một kỹ thuật gọi là đào tạo kết hợp, được sử dụng để liên tục thúc đẩy các hệ thống dịch tiếng Anh sang Trung và ngược lại. Với phương pháp này, hệ thống dịch Anh – Trung thực hiện dịch câu tiếng Anh sang Trung để có được một cặp câu. Sau đó, chúng được bổ sung vào bộ dữ liệu đào tạo, dịch ngược lại từ tiếng Trung sang Anh. Quy trình giống y sau đó được áp dụng, khi đó, kết quả dịch của hai hệ thống dần được cải thiện hơn.
Một kỹ thuật mới nữa gọi là quy tắc hóa thỏa thuận. Với phương pháp này, dịch thuật được thực hiện từ trái sang phải và phải sang trái. Khi kết quả càng giống nhau thì độ chính xác càng được đ.ánh giá cao. Phương pháp này dùng để khuyến khích hệ thống đưa ra các mẫu dịch tương đồng hơn.
Bộ tài liệu kiểm tra mà nhóm đã dùng để đạt được mốc tương đương với con người này gồm khoảng 2.000 câu, lấy từ các báo mạng đã được dịch chuyên nghiệp. Microsoft thực hiện nhiều vòng đ.ánh giá trên bộ kiểm tra này, ngẫu nhiên chọn hàng trăm đoạn dịch để đ.ánh giá mỗi lần. Mặc dù đã vượt các yêu cầu của bộ kiểm tra, để xác minh chất lượng thực sự của bộ máy dịch thuật tự động, Microsoft còn thuê một nhóm các chuyên gia ngôn ngữ từ bên ngoài để so sánh kết quả của Microsoft với nội dung dịch thủ công bởi con người.
Theo Danviet.vn
Thông tin cá nhân người dùng 'đẻ' ra t.iền cho Facebook
Trên Facebook, dữ liệu người dùng là "sản phẩm", còn nhà quảng cáo là "khách hàng".
Facebook đã cán mốc 2 tỷ người dùng vào tháng 6 năm ngoái và mạng xã hội này vẫn đang "miễn phí" cho mọi người. Thế nhưng sự thật không phải như vậy, bởi mạng xã hội lớn nhất thế giới vẫn đang kinh doanh thứ mà mọi người ít hoặc không để ý đến: thông tin cá nhân.
Sự riêng tư và thông tin cá nhân là thứ mà người dùng đ.ánh đổi để được sử dụng Facebook mỗi ngày. Theo CNN, những thao tác "thích", "bình luận", "chia sẻ" hay đang bạn đang ở đâu, làm gì... thậm chí là các nội dung bạn trao đổi được Facebook ghi lại chi tiết. Cộng thêm các dữ liệu mà bạn đã cung cấp trước đó như tên, ngày sinh, số điện thoại, địa chỉ... Facebook có một kho dữ liệu khổng lồ.
Thông tin cá nhân của người dùng là công cụ hái ra t.iền của Facebook, Google.
Chúng sau đó được lưu trữ tại các trung tâm dữ liệu cực lớn và bán cho các nhà quảng cáo. Với những gì thu thập được, hệ thống của Facebook sẽ phân tích và gợi ý quảng cáo dựa trên thói quen người dùng. Bạn đừng ngạc nhiên khi một món hàng nào đó xuất hiện trên Newsfeed mà bạn từng trao đổi với người khác thông qua tin nhắn hay gọi video bằng Messenger chỉ ít phút trước đó, bởi mọi thứ đã được Facebook theo dõi.
Facebook không đơn độc. Hầu hết các nhà kinh doanh dịch vụ trực tuyến lớn, như Google, Microsoft, Yahoo, AOL, Amazon, Twitter và Yelp cũng làm như vậy, bởi đó là thứ để họ tồn tại và phát triển. Việc trao đổi dữ liệu với bên thứ ba cũng biến Facebook, Google thành những nhà quảng cáo trực tuyến hàng đầu thế giới. Họ đã có trong tay hàng tỷ người dùng và tất nhiên các nhà quảng cáo phải đổ xô đến họ. Theo eMarketer, Facebook và Google kiểm soát 3/4 thị trường quảng cáo kỹ thuật số trị giá 83 tỷ USD chỉ riêng tại Mỹ.
Tất nhiên, các công ty cũng có những quy định riêng, điều khoản riêng để người dùng không cảm thấy mình bị lợi dụng. Nhưng điều đó không đúng 100%.
Cuối tuần qua, công ty dữ liệu công cộng Cambridge Analytica đã tiết lộ thông tin gây hoang mang, khi có tới 50 triệu thông tin cá nhân của người dùng Facebook bị lợi dụng. Thuật toán của mạng xã hội này đã tìm cách tiếp cận, làm nhiễu thông tin và từ đó làm ảnh hưởng đến cuộc bầu cử Mỹ năm 2016.
Lâm Anh
Theo VNE
Tính năng mới này từ Surface Pro sẽ khiến dùng Macbook phát thèm Việc hỗ trợ kết nối LTE, Surface Pro 2018 sẽ thành chiếc laptop di động hoàn hảo nhất hiện nay. Mặc dù Macbook đã một thời gian dài "dậm chân tại chỗ" với thiết kế cũ, tính năng không mấy đổi mới, nhưng dường như chưa bao giờ Surface Book trở thành một đối thủ xứng tầm của nó. Với một phần cứng...