Mô hình AI của OpenAI tự động nhận dạng giọng nói và dịch sang tiếng Anh

Thái Bằng09:47 27/09/2022

Ngày 21/9, OpenAI phát hành một mô hình AI mã nguồn mở mới có tên là Whisper có thể nhận dạng và dịch âm thanh ở cấp độ tiếp cận với khả năng nhận dạng con người qua giọng nói .

Sóng âm thanh. Ảnh minh họa Ars Technica.

Theo nhóm phóng viên của Ars Technica, phần mềm mã nguồn mở Whisper có thể ghi lại các cuộc phỏng vấn, podcast, cuộc trò chuyện, nhận dạng âm thanh của các ngôn ngữ khác nhau, phiên dịch ra Tiếng Anh và lưu thành văn bản. Phần mềm có khả năng tự học và có thể được phát triển để nhận dạng con người qua giọng nói.

OpenAI đã đào tạo Whisper trên 680.000 giờ dữ liệu âm thanh và bảng dịch lại khớp với 98 ngôn ngữ được thu thập từ web. Theo OpenAI, phương pháp tiếp cận tập hợp mở này mang đến “sự tăng cường độ chính xác của các trọng âm, làm rõ tiếng ồn xung quanh và kỹ thuật ngôn ngữ.” Phần mềm cũng có khả năng phát hiện ngôn ngữ nói và dịch sang tiếng Anh.

Video đang HOT

OpenAI mô tả Whisper như một mô hình biến đổi mã hóa-giải mã, một loại mạng thần kinh có thể sử dụng ngữ cảnh thu thập được từ dữ liệu đầu vào, tìm hiểu các liên kết tình huống, sau đó có thể được dịch sang ngôn ngữ cần thiết ở đầu ra của mô hình. OpenAI trình bày tổng quan về phương thức hoạt động của Whisper:

Âm thanh đầu vào được chia thành các đoạn dài 30 giây, chuyển đổi thành biểu đồ quang phổ log-Mel và sau đó chuyển vào bộ mã hóa. Một bộ giải mã được đào tạo để dự đoán văn bản chú thích tương ứng, trộn lẫn với các mã thông báo đặc biệt, chỉ đạo mô hình duy nhất thực hiện các tác vụ như nhận dạng ngôn ngữ, khoảng thời gian của các cụm từ, phiên âm giọng nói đa ngôn ngữ và dịch giọng nói sang tiếng Anh.

Sử dụng mã nguồn mở Whisper, OpenAI hy vọng sẽ giới thiệu một mô hình nền tảng mới mà những chuyên gia công nghệ khác, có thể cùng xây dựng và phát triển trong tương lai để nâng cấp các công cụ hỗ trợ tiếp cận và xử lý giọng nói. OpenAI có một thành tích đáng kể trên lĩnh vực này. Tháng 1/2021, OpenAI phát hành CLIP , một mô hình thị giác máy tính mã nguồn mở, mở đầu cho kỷ nguyên công nghệ tổng hợp hình ảnh đang phát triển nhanh chóng gần đây như DALL-E 2 và Stable Diffusion .Tại Ars Technica, nhóm phóng viên đã thử nghiệm Whisper từ mã có sẵn trên GitHub, cung cấp cho mô hình nhiều mẫu, bao gồm một tệp podcast (tệp âm thanh) và một phần âm thanh đặc biệt khó hiểu, được lấy từ một cuộc phỏng vấn qua điện thoại. Mặc dù phải mất một khoảng thời gian khi chạy qua CPU máy tính để bàn tiêu chuẩn của Intel (công nghệ Whisper chưa hoạt động được trong thời gian thực) nhưng Whisper đã thực hiện tốt việc chuyển âm thanh thành văn bản thông qua chương trình Python trình diễn, tốt hơn nhiều so với một số ứng dụng AI hỗ trợ dịch vụ phiên âm mà Ars Technica đã thử dùng trước đây.

Ví dụ bảng điều khiển đầu ra từ chương trình Whisper của OpenAI khi phiên âm một podcast. Ảnh Ars Technica

Với thiết lập phù hợp, Whisper có thể dễ dàng được sử dụng để phiên âm các cuộc phỏng vấn, podcast và có khả năng dịch các podcast được tạo từ các ngôn ngữ không phải tiếng Anh sang tiếng Anh trên máy tính miễn phí. Đây là sự kết hợp công nghệ mạnh mẽ mà sự phát triển có thể phá vỡ ngành công nghiệp phiên dịch.

Như với hầu hết các mô hình AI hiện nay, Whisper mang lại những lợi thế tích cực và khả năng bị lạm dụng. Trên thẻ mô hình của Whisper (trong phần “Hàm ý rộng hơn”), OpenAI cảnh báo rằng Whisper có thể bị sử dụng để tự động hóa việc giám sát theo điện thoại hoặc xác định từng người nói trong một cuộc trò chuyện, nhưng công ty hy vọng công nghệ sẽ được sử dụng “chủ yếu cho các mục đích có ích cho nhân loại”.

SK Telecom giới thiệu trợ lý ảo đầu tiên làm mô hình minh họa sản phẩm viễn thông

Ngày 26/9, Tập đoàn viễn thông SK Telecom của Hàn Quốc đã giới thiệu mô hình trợ lý ảo mang tên Sua nhằm thúc đẩy nền tảng hỗ trợ dựa trên trí tuệ nhân tạo (AI) do tập đoàn này phát triển.

SK Telecom giới thiệu trợ lý ảo Sua do công ty phát triển đồ họa 3D Onmind Inc tạo nên. Ảnh: sktelecom.com

Theo SK Telecom, nữ trợ lý ảo có tên là Sua này do công ty phát triển đồ họa 3D Onmind Inc tạo nên và sẽ được ra mắt lần đầu tiên dưới dạng mô hình trong quảng cáo cho nền tảng hỗ trợ AI của công ty.

Như vậy, Sua sẽ là trợ lý ảo đầu tiên được sử dụng làm mô hình minh họa sản phẩm trong ngành viễn thông của Hàn Quốc. Dự kiến, Sua sẽ xuất hiện cùng ca sĩ Jang Won-young trong chiến dịch quảng cáo mới nhất của SK Telecom.

Theo tập đoàn này, hình ảnh khuôn mặt của Sua được chuyển đổi bằng đồ họa từ hình ảnh của một nữ diễn viên thực đã thể hiện vai diễn trong buổi quay quảng cáo. Trong khi đó, giọng nói của Sua được tạo ra bằng công nghệ tổng hợp giọng nói dựa trên AI của SK Telecom.

Sua là sản phẩm mới nhất trong các dự án phát triển người ảo gần đây được giới thiệu ở Hàn Quốc, chủ yếu là của các công ty trò chơi. Trong đó, đáng chú ý nhất là Rozy - một người mẫu ảo do công ty công nghệ video Sidus Studio X tạo ra. Rozy đã thu hút sự quan tâm của cộng đồng khi đóng vai chính trong một số quảng cáo sản phẩm nổi tiếng.

SK Telecom cho biết tập đoàn này sẽ tiếp tục ứng dụng nhiều công nghệ đa dạng (như AI) vào các chương trình dịch vụ và quảng cáo.

Doanh nghiệp có mô hình kinh doanh trực tiếp tạo tác động lợi thế cạnh tranh sẽ nhiều hơn Hội nghị Kinh doanh tạo tác động 2022 do Forbes Việt Nam và Trung tâm Hỗ trợ Phát triển cộng đồng LIN tổ chức 22/9 tại TP.HCM quy tụ đông đảo lãnh đạo doanh nghiệp, các tổ chức xã hội trong nước và quốc tế cùng thảo luận về xu hướng chuyển dịch các mô hình kinh doanh truyền thống sang kinh doanh...

Bạn thấy bài viết này có hữu ích không?

Có

Không

Tin liên quan

Xem thêm Share

Xem nhiều

Chàng trai có ca khúc được chọn cho Đại lễ 2/9: "Con tướng" mạnh của Anh Trai mùa 2, chạm tay là có hit01:23:30

Clip HOT: Hoàng Thuỳ Linh bật chế độ "nóc nhà", Đen Vâu răm rắp nghe lời!00:29

Sao nam Vbiz cầu hôn bạn trai ngoài ngành sau 12 năm hẹn hò?02:01

Gần 100 triệu người ùa vào xem Hoắc Kiến Hoa ôm hôn Lâm Tâm Như00:28

Mỹ nhân Mưa Đỏ hát chơi chơi ca khúc hot nhất 2/9 mà được khen tới tấp, visual trời sinh một cặp với nam chính05:43

Puka và Gin Tuấn Kiệt lần đầu hé lộ hình ảnh hiếm của nhóc tỳ01:00

Cục Trưởng Xuân Bắc dặn dò các nghệ sĩ: 80 năm mới có một lần, hãy nghiêm túc hết mình!01:00

Trọn bộ hình như "hình cưới" của Đen Vâu và Hoàng Thuỳ Linh: Ánh mắt nhà trai nhìn "nóc nhà" lạ quá!00:44

Không phải Duyên Quỳnh hay Võ Hạ Trâm, "cha đẻ" chọn đây mới là người hát Viết Tiếp Câu Chuyện Hoà Bình ấn tượng nhất05:11

Cha đẻ của "Gangnam Style": "Gã tâm thần" khác biệt sở hữu MV 5,6 tỷ view04:13

Bắt cận visual Hoàng Thuỳ Linh khi đi tập luyện diễu hành, có 1 hành động ghi điểm mạnh00:49

Tiêu điểm

Tin đang nóng

Tin mới nhất

Microsoft tích hợp AI vào Excel: Giảm tải cho kế toán

13:45:33 01/09/2025

Microsoft vừa thực hiện một bước đột phá trong việc tích hợp trí tuệ nhân tạo vào Excel với tính năng Copilot mới, hứa hẹn biến đổi cách chúng ta làm việc với bảng tính.

Samsung phát hành One UI 8 trên nền Android 16 cho Galaxy S

13:42:34 01/09/2025

Giống như những lần trước, Samsung triển khai chương trình beta One UI 8 đầu tiên trên dòng flagship mới nhất - Galaxy S25. Đây cũng sẽ là thiết bị đầu tiên nhận bản cập nhật ổn định khi hãng chính thức phát hành rộng rãi trong thời gia...

Tin công nghệ nổi bật trong tuần: Malaysia có chip AI, Huawei và Apple 'so găng' smartphone mới

13:28:00 01/09/2025

MAI-1-preview mới chỉ là bản dùng thử. Mô hình đã bắt đầu được thử nghiệm trên nền tảng LMArena, nơi đánh giá hiệu suất các hệ thống AI và sẽ dần được tích hợp vào một số dịch vụ Copilot trong vài tuần tới, theo thông tin từ Microsoft.

Trí tuệ nhân tạo: xAI ra mắt mô hình lập trình thông minh mới

12:36:15 31/08/2025

Kết quả thử nghiệm cũng cho thấy tiềm năng đáng chú ý: mô hình đạt tỷ lệ thành công 70,8% trong bộ kiểm thử SWE-Bench-Verified trên môi trường thử nghiệm nội bộ.

AI Google ngày càng hữu dụng ở Việt Nam

17:03:00 30/08/2025

Thời gian gần đây, Google thường xuyên ra mắt và cập nhật các công cụ AI cho nhiều mục đích khác nhau. Dưới đây là một số công cụ AI được đánh giá cao, vừa được Google cải tiến với loạt tính năng mới.

Dàn robot hình người đang gây sốt tại Triển lãm thành tựu 80 năm

16:57:59 30/08/2025

Điểm đáng chú ý là những chú robot không chỉ hiện diện ở các gian hàng công nghệ mà còn xuất hiện tại nhiều gian trưng bày của các bộ, ngành, địa phương cũng như doanh nghiệp khác, tạo nên dấu ấn hiện đại và sinh động cho triển lãm.

Google ngày càng 'Apple hóa' hệ điều hành Android

10:12:19 30/08/2025

Việc lấy bảo mật làm cái cớ để xây dựng một hệ sinh thái đóng chính là chiến lược mà Apple đã sử dụng trong nhiều năm. Và giờ đây, Google dường như đang đi theo vết xe đổ đó.

8 điện thoại Xiaomi vừa đón tin vui với Android 16

09:47:10 30/08/2025

HyperOS 3 beta hiện chỉ có sẵn cho người dùng đã đăng ký chương trình tại Trung Quốc. Tuy nhiên, Xiaomi dự kiến sẽ mở rộng ra toàn cầu và triển khai chương trình beta tại nhiều quốc gia khác trong thời gian tới.

Trí tuệ nhân tạo đang tạo ra một bước 'nhảy vọt' về năng lực sản xuất

09:40:34 30/08/2025

Sự trỗi dậy của trí tuệ nhân tạo (AI) đang tạo ra một bước nhảy vọt về năng lực sản xuất, buộc các doanh nghiệp phải nhanh chóng thích ứng.

Microsoft khắc phục một trong những sự cố khó chịu nhất của Windows 11

15:23:42 29/08/2025

Tuy nhiên, người dùng sẽ cần tai nghe tương thích với LE Audio và bản cập nhật mới nhất cho Windows 11, trong đó việc triển khai tùy thuộc vào thời điểm nhà sản xuất PC phát hành bản cập nhật trình điều khiển cho LE Audio.

Ứng dụng công nghệ AI, chuyển đổi số giúp doanh nghiệp gia tăng hiệu quả kinh doanh

15:21:49 29/08/2025

Những năm gần đây, Thành phố Hà Nội có triển khai hỗ trợ các doanh nghiệp vừa và nhỏ trên địa bàn các gói chuyển đổi số. Trong đó, phải kể đến các gói Bắt đầu chuyển đổi số, gói Tăng tốc chuyển đổi số và gói Chuyển đổi số hướng đến thị ...

Robot, khí tài và các thành tựu công nghệ Việt tại Triển lãm 2/9

15:19:08 29/08/2025

Khách tham quan triển lãm có thể tương tác với robot hình người do VinMotion, thuộc Vingroup phát triển. Robot có khả năng đi bộ, vẫy tay và giao tiếp bằng cử chỉ.