Thực hư công nghệ làm giả âm thanh khiến đôi tai không còn đáng tin
Các video Deepfake (làm giả bằng công nghệ AI) khiến người ta phải nghi ngờ những gì mình thấy thì việc làm nhái âm thanh bằng kỹ thuật hiện đại khiến đôi tai cũng không còn đáng tin nữa.
Công nghệ nhân bản âm thanh vừa mở ra cơ hội trong nhiều lĩnh vực, vừa mang nỗi sợ hãi khi bị kẻ xấu lợi dụng
Có nhiều mối lo đủ các mức độ khi công nghệ Deepfake có thể bắt chước và làm giả âm thanh giọng nói của một ai đó. Liệu tuyên bố chiến tranh của Thủ tướng Canada mà bạn nghe qua đài phát thanh là thật? Hay đơn giản như người đàn ông đang nói chuyện qua điện thoại hỏi xin mật khẩu email của bố bạn có phải chính là ông?
Những hiểm họa công nghệ trong chiến tranh trước đây chỉ gồm hạt nhân, hóa học hay sinh học, giờ với sự phát triển kỹ thuật hiện đại, Deepfake ra đời tiềm ẩn nhiều nguy cơ hơn vậy.
Audio Deepfake ( Deepfake âm thanh) là gì?
Khoảng một năm trở lại đây, đa phần người dùng đã biết tới các video sử dụng Deepfake để làm giả khuôn mặt của người nổi tiếng thông qua các thuật toán học sâu có khả năng thay thế những đặc điểm nhận dạng của một cá nhân bằng người khác. Deepfake làm xuất sắc tới mức mọi thứ trông giống hệt như thật mà không mấy ai nghi ngờ. Giờ đây tới lượt công nghệ làm giả âm thanh.
Theo HowToGeek, Deepfake âm thanh là khái niệm khi giọng nói nhân bản của hệ thống có khả năng tạo ra tổ hợp phát âm không thể phân biệt được với người thật. “Nghĩ đơn giản thì giống như ứng dụng Photoshop nhưng dành cho giọng nói vậy”, Zohaib Ahmed, CEO của Resemble AI nói về công nghệ nhân bản giọng nói mà công ty đang phát triển.
Tuy nhiên, làm Photoshop dở thì rất dễ bị phát hiện, còn với Deepfake âm thanh, một công ty bảo mật tiết lộ tỷ lệ người thường có thể xác định đoạn âm thanh là giả hay thật chỉ 57%, không khá hơn việc tung đồng xu may rủi là bao. Bên cạnh đó, nhiều bản ghi giọng nói lấy từ ghi âm cuộc gọi với chất lượng thấp (hoặc ghi trong môi trường nhiều tiếng ồn) nên Audio Deepfake càng dễ khiến người nghe nhầm lẫn. Chất lượng âm thanh càng kém thì càng khó để phát hiện bản ghi là giả.
Ứng dụng của âm thanh tổng hợp
Nghe nguy hiểm nhưng các dạng âm thanh tổng hợp này vẫn được sinh ra để đáp ứng nhu cầu sử dụng ngày càng cao hiện nay.
Điều này đặc biệt đúng khi nói đến lĩnh vực game. Trước đây, lời nói là một thành phần trong trò chơi không thể tạo ra theo yêu cầu tại từng thời điểm. Với sự trợ giúp của công nghệ, các xưởng sản xuất đã có thể nhân bản giọng của diễn viên lồng tiếng và sử dụng công cụ đọc văn bản để nhân vật nói bất kỳ thứ gì trong thời gian thực.
Quảng cáo, y tế, chăm sóc khách hàng… đều nhìn thấy tiềm năng sử dụng âm thanh nhân bản
Lĩnh vực quảng cáo, công nghệ và chăm sóc khách hàng cũng sử dụng âm thanh tổng hợp. Trong đó, việc sử dụng âm thanh chuẩn của con người và phản hồi từng cá nhân với ngữ cảnh hợp lý mà không cần nhân lực là điều quan trọng. Nhiều công ty chuyên nhân bản giọng nói cũng tỏ ra hào hứng với khả năng ứng dụng công nghệ này vào lĩnh vực y tế.
Thực tế, việc dùng công nghệ thay giọng nói của con người không phải điều mới trong ngành này. Thiên tài vật lý Stephen Hawking mất khả năng phát âm từ năm 1985 và kể từ đó tới cuối đời, ông phải sử dụng hệ thống máy móc tổng hợp để tạo ra giọng nói nhằm biểu đạt suy nghĩ của mình. Tất nhiên công nghệ nhân bản giọng nói hiện đại hứa hẹn nhiều điều hơn so với thời điểm năm 1985.
Năm 2008, công ty tổng hợp âm thanh CereProc đã “trả lại” giọng nói cho nhà phê bình phim Roger Ebert sau khi căn bệnh ung thư cướp mất khả năng phát âm của ông. CereProc phát hành một website cho phép người dùng gõ nội dung họ muốn nói vào đó và phát âm sử dụng giọng của cựu Tổng thống Mỹ George Bush.
“Ebert biết tới trang web và đã nghĩ rằng nếu họ có thể sao chép giọng của Bush thì sẽ làm được điều tương tự với giọng của mình”, Giám đốc Khoa học Matthew Aylett của CereProc chia sẻ. Sau đó Ebert đã liên hệ công ty để yêu cầu giúp ông thay thế giọng nói đã mất.
Video đang HOT
Vài năm trở lại đây, một số doanh nghiệp đã hợp tác cùng tổ chức phi lợi nhuận ALS trong dự án Project Revoice để mang tới giọng nói tổng hợp cho bệnh nhân mắc chứng xơ cứng teo cơ một bên (ảnh hưởng đến hệ thần kinh, gây khó khăn khi phát âm).
Cách hoạt động của âm thanh tổng hợp
Nhân bản giọng nói đã được nghiên cứu một thời gian dài và trên thế giới có vài công ty đang phát triển công cụ để ứng dụng công nghệ này. Cốt lõi nhờ có trí tuệ nhân tạo (AI), mà cụ thể hơn là các thuật toán học sâu bắt đầu có khả năng ghép nối các đoạn âm thanh ghi âm với văn bản để hiểu được âm vị thành phần tạo nên giọng nói của người. Hệ thống sau đó sử dụng các khối xây dựng ngôn ngữ để mô phỏng gần đúng từ chưa được nghe trong phần ghi âm.
Dù vậy, để có thể phát triển và ứng dụng hơn nữa, theo Aylett vẫn cần thêm nỗ lực. “Sao chép giọng nói khá khó để hoàn thành và vẫn có nhiều vấn đề phải xử lý bằng tay mới mong hoạt động được”, ông nói.
Các nhà phát triển cần lượng cực lớn dữ liệu ghi âm giọng nói để có thể thu được kết quả khả quan. Cách đây vài năm, “nút thắt” được gỡ khi các nhà khoa học phát triển mạng đối nghịch tổng hợp (GAN), lần đầu tiên có thể ngoại suy và đưa ra dự đoán dựa trên dữ liệu hiện có.
“Máy tính khi nhìn thấy tấm hình con ngựa thay vì nói ‘Đây là con ngựa’ thì mô hình của chúng tôi đã có thể nói đó là con ngựa vằn. Có thể nói sự bùng nổ trong tổng hợp âm thanh giờ đây là nhờ có những nghiên cứu trong lĩnh vực tầm nhìn máy tính”, Aylett nói.
Một trong những tiến bộ lớn nhất của nhân bản giọng nói đã giúp giảm rất nhiều lượng dữ liệu thô đầu vào cần thiết để tạo nên âm thanh. Trong quá khứ, hệ thống cần hàng tá, thậm chí hàng trăm giờ ghi âm thì nay giọng nói nhân bản có thể tạo ra chỉ với vài phút nội dung được nhập vào.
Nỗi sợ hãi hiện hữu về sự tin tưởng
Giống như năng lượng hạt nhân, in 3D…, công nghệ nhân bản giọng nói là sự giao thoa giữa tính hấp dẫn cùng nỗi sợ hãi. Trên thực tế đã có trường hợp báo cáo về việc bị giọng nói nhân bản lừa gạt. Năm 2019, một công ty tại Anh tuyên bố hãng bị cuộc gọi sử dụng Deepfake âm thanh cài bẫy lừa chuyển tiền cho tội phạm.
Không đâu xa, ngay mạng xã hội YouTube cũng có các kênh chứa video với nội dung những người nổi tiếng nói điều mà họ chưa từng nói. Ví dụ, cựu Tổng thống George W.Bush hát “In Da Club” – một bài nhạc Rap do 50 Cent thể hiện. Nhiều cựu đồng nghiệp của ông Bush như Obama, Clinton, Reagan cũng… đọc rap trên YouTube. Âm nhạc và âm thanh nền giúp các nội dung này che giấu được phần nào lỗi của máy móc tạo ra, nhưng dù vậy cũng cho thấy tiềm năng rất lớn.
Trong khi tỷ lệ nhận ra giọng nói giả của con người chỉ 57%, máy tính lại có thể xử lý vấn đề mà không gặp giới hạn nào
Khi thử nghiệm hay được chỉ dẫn, người dùng biết trước kết quả là máy móc. Còn trong các tính huống hằng ngày, đa phần con người sẽ chẳng có lý do gì để tin đoạn nói chuyện mình nghe được là giả mạo.
Các chuyên gia bảo mật để mắt
Tội phạm đã vận dụng điện thoại để lừa tiền từ rất lâu trước khi nhân bản giọng nói ra đời và các chuyên gia bảo mật đã luôn cảnh giác với những cuộc gọi nhằm phát hiện và ngăn chặn kẻ xấu. Công ty bảo mật Pindrop từng ngăn vụ lừa đảo giao dịch ngân hàng bằng cách xác thực kẻ gọi tới có thực là người mà họ mạo nhận thông qua âm thanh. Pindrop tuyên bố chỉ tính trong năm 2019, hãng đã phân tích 1,2 tỉ cuộc gọi và ngăn chặn nhiều giao dịch giả mạo với tổng trị giá khoảng 470 triệu USD.
Một số tên tội phạm chuyên dùng âm thanh nền khi liên hệ với ngân hàng. “Có một kẻ lừa đảo mà chúng tôi tạm gọi là Chicken Man vì luôn có tiếng gà trống khi gọi điện. Hay một phụ nữ thường dùng tiếng trẻ em khóc trong lúc gọi điện để tăng tính thuyết phục với nhân viên tổng đài, kiểu tăng thương cảm với tình huống ‘Tôi đang trải qua giai đoạn khó khăn”, CEO Pindrop Vijay Balasubramaniyan chia sẻ.
Cũng có cả trường hợp tội phạm nam giới nhưng tìm cách lừa tiền từ tài khoản của nữ. “Chúng sử dụng công nghệ để tăng tần số giọng nói nghe cho giống nữ giới. Cách này có thể thành công, nhưng trong đa phần trường hợp, phần mềm tạo ra thứ âm thanh nghe như đám sóc chuột trong phim ‘Alvin and the Chipmunks’ vậy”, Vijay nói thêm.
Liệu có thể nhận biết giọng nói nào là giả?
Khi bàn tới vấn đề phân biệt giọng nói có bị giả hay không, điều này cho thấy công nghệ nhân bản giọng nói đang tốt lên mỗi ngày. Hệ thống học sâu đang trở nên thông minh hơn, tạo ra giọng nói giống thật hơn trong khi yêu cầu ít dữ liệu gốc để tạo ra.
Nhiều đoạn Deepfake được tạo ra nghe đầy thuyết phục đối với tai con người. Nhưng đoạn âm thanh càng dài thì càng có khả năng người nghe phát hiện ra điều bất thường. Chính vì thế, các clip âm thanh ngắn sẽ ít bị chú ý hơn, đặc biệt khi người nghe không có lý do gì để nghi ngờ.
Chất lượng âm thanh rõ ràng cũng giúp người nghe nhận biết được các dấu hiệu đoạn âm thanh bị làm giả bởi công nghệ Deepfake. Nếu người nói phát âm trực tiếp vào microphone có chất lượng phòng thu, bạn sẽ nghe được rất dễ. Nhưng nếu một bản ghi âm cuộc điện thoại với chất lượng tín hiệu kém hoặc hội thoại ghi được trong thiết bị cầm tay ở môi trường nhiều tiếng ồn sẽ rất khó để đánh giá.
Tin vui là ngay cả khi con người gặp rắc rối trong việc phân biệt âm thanh thật hay giả thì máy tính lại không bị giới hạn này. Hiện có công cụ xác minh giọng nói hoạt động. Tùy thuộc vào chất lượng âm thanh, mỗi giây của lời nói chứa từ 8.000 tới 50.000 mẫu dữ liệu có thể sử dụng để phân tích.
Sợ bị AI vượt mặt, Elon Musk muốn dùng Neuralink để nâng cấp khả năng con người
Với con chip của Neuralink, dữ liệu có thể được truyền trực tiếp vào não bộ không cần qua giác quan.
Elon Musk lại một lần nữa làm công chúng phải hết sức tò mò và phấn khích về một công nghệ của Neurallink, công ty được vị tỷ phú sáng lập vào năm 2016 nhằm tập trung phát triển các công nghệ giao diện não-máy tính.
Trên một bài báo của Independent, Elon Musk tiết lộ Neuralink đang phát triển một con chip không chỉ giúp bạn có thể truyền trực tiếp nhạc vào trong não bộ, mà nó còn có thể tăng cường thính giác cho người đeo.
Con chip có một bộ vi xử lý 256 kênh (A) được gắn trên vỏ titan (C) và có đầu nối USB-C để cấp nguồn và truyền dữ liệu.
Theo đó, những người đeo con chip này vào não có thể nghe thấy những gì mà người thường không thể nghe được, vượt ra tần số và biên độ âm thanh mà tai người có thể cảm nhận.
Những gì mà Neuralink đang làm phục vụ cho nỗi bứt rứt trong lòng Elon Musk, một người luôn bị ám ảnh rằng các công cụ trí tuệ nhân tạo và robot sẽ sớm vượt mặt con người. Nếu không muốn bị tụt lại phía sau, con người phải tìm cách tự nâng cấp bản thân mình trước khi điều đó xảy ra.
Con chip thần kinh của Neuralink là một giao diện não-máy tính băng thông cao. Nó gồm một mảng với hơn 3.000 điện cực phân bố trên 96 luồng. Mảng điện cực sẽ được đặt bên ngoài não, với một cổng USB-C để tải dữ liệu.
Sau đó, nó được liên kết vào não bộ bằng các "mũi khâu thần kinh". Các luồng tải dữ liệu thực chất là các dây dẫn siêu mỏng có thể được "khâu" trực tiếp lên bề mặt não.
Thử nghiệm khâu con chip vào não bộ chuột đã cho thấy mức độ xâm lấn và chảy máu tối thiểu.
Neuralink phát triển những cách tay robot phẫu thuật thần kinh bằng laser độ chính xác cao để làm điều này. Các cách tay robot bề ngoài nhìn có vẻ to lớn và nặng nề, nhưng chúng có thể chèn tới 6 luồng với 192 điện cực vào bề mặt não mỗi phút với độ chính xác đạt tới cỡ phần nghìn milimet - điều mà không một bác sĩ phẫu thuật thần kinh nào hiện có thể làm được.
Cánh tay robot phẫu thuật thần kinh được Neuralink phát triển riêng cho việc cấy chip.
Điện cực và các luồng dẫn tạo ra một giao diện não-máy tính băng thông cao để truyền các tín hiệu điện từ ngoài vào não bộ. Nguyên lý là nếu bạn có thể kích thích đúng vùng não bằng các tín hiệu điện giống với điện sinh mà các nơ ron thần kinh vẫn dùng để giao tiếp, thì khi đó bạn có thể truyền trực tiếp thông tin vào não bộ mà không cần thông qua bất kỳ giác quan nào.
Tháng trước, Elon Musk từng nói người sử dụng giao diện não-máy tình này có thể stream nhạc trực tiếp từ internet hay bất kỳ thiết bị nào vào não bộ. Điều này sẽ giúp khử nhiễu trong quá trình truyền tải âm thanh. Người nghe sẽ không còn bị phụ thuộc vào các thiết bị tái tạo âm từ dòng điện như DAC, loa và tai nghe để có thể thưởng thức âm nhạc chất lượng nhất.
Các tín hiệu được truyền trực tiếp vào não bộ, không qua các giác quan.
Ngoài ra, con chip thần kinh của Neuralink còn có rất nhiều tiềm năng dựa trên việc tạo ra một giao diện não-máy tính. Chẳng hạn, nó có thể giúp khôi phục khả năng vận động cho những người bị gãy tủy sống, điều khiển hooc-môn trong cơ thể, giúp đỡ những người có vấn đề về thần kinh và rối loạn não như bệnh Parkinson hoặc trầm cảm, lo âu.
Tuy nhiên, đứng ở trái tim của dự án Neuralink, các giao diện não-máy tính mà họ đang phát triển đều nhằm giải quyết một nỗi ám ảnh của Elon Musk. Ông ấy sợ rằng công nghệ trí tuệ nhân tạo và robot có thể sớm vượt mặt con người trong tương lai.
Các dây dẫn siêu nhỏ này sẽ được "khâu" vào não bộ.
" Tôi thấy những con người thông minh nhất bây giờ vẫn chưa coi AI ra gì, bởi vì họ không nghĩa rằng một ngày nào đó máy tính có thể thông minh được như họ", Elon Musk trả lời tờ New York Times.
" Đây thực sự là một sự kiêu ngạo sai lầm. Chúng ta đang hướng đến một tương lai mà AI sẽ thông minh hơn nhiều so với con người. Và tôi nghĩ rằng khung thời gian đó nằm trong khoảng chưa đầy năm năm kể từ bây giờ".
Chính vì vậy, nâng cấp con người là một mục tiêu quan trọng mà vị tỷ phú công nghệ đang hướng tới. Thông qua các con chip giao diện não-máy tính, Neuralink muốn giúp người sử dụng có thể làm được những gì mà máy móc có thể làm được.
Một đầu vi kim phẫu thuật đang gắn dây dẫn lên bề mặt não.
Chẳng hạn, nếu có được một con chip kết nối với phần não phụ trách cảm nhận thính giác có thể giúp chúng ta cảm nhận được các âm thanh ngoài vùng nghe được của tai người, hiện nằm trong ngưỡng 20 Hz đến 20000 Hz.
Một con chip có khả năng kết nối với vùng não thị giác có thể giúp chúng ta nhìn thấy cả các bước sóng từng vô hình dưới thị giác con người. Tương tự, một con chip kết nối vào vùng não phụ trách khả năng tư duy, lập luận có thể giúp chúng ta suy nghĩ nhanh và chính xác hơn.
Thông qua Neuralink và các công nghệ họ đang phát triển, Elon Musk thể hiện niềm tin của ông rằng loài người có thể vượt qua AI, nhưng chúng ta phải làm gì đó chứ không thể ngồi yên và đợi bị trí tuệ nhân tạo đánh bại, thậm chí xóa sổ trong một lý thuyết được gọi là Singularity.
Công nghệ đáng sợ có thể gây ảnh hưởng nửa sau 2020 Nhiều chuyên gia lo ngại deepfake, công nghệ dùng AI để ghép khuôn mặt vào video sẽ gây ảnh hưởng lớn tới Internet và bầu cử Tổng thống Mỹ cuối năm nay. Deepfake, thuật ngữ dùng để chỉ kỹ thuật tổng hợp hình ảnh con người dựa trên trí tuệ nhân tạo là thứ vô cùng đáng sợ. Thậm chí, nó có thể...