AI vẽ hình ảnh từ văn bản
Phòng nghiên cứu OpenAI do tỷ phú Elon Musk hậu thuẫn tiếp tục thu hút sự chú ý với công cụ Dall-E có khả năng tạo hình ảnh từ văn bản.
Hồi tháng 5/2020, OpenAI trình làng GPT-3, thế hệ thứ ba của mô hình xử lý ngôn ngữ tự nhiên. GPT-3 học hỏi dựa trên dữ liệu nó thu thập được từ Internet. Dựa trên quá trình học đó, GPT-3 có khả năng thực hiện nhiều nhiệm vụ khác nhau, như viết tiểu thuyết, tạo mã máy tính hay dịch thuật. Với Dall-E, OpenAI đặt mục tiêu chuyên môn hóa GPT-3 tập trung vào khả năng tạo ra các khái niệm trực quan thông qua ngôn ngữ.
“ Thế giới này không chỉ có chữ viết. Con người không chỉ nói, mà còn nhìn. Và trong rất nhiều trường hợp, nhìn là cách nắm được thông điệp dễ dàng nhất”, nhà đồng sáng lập OpenAI Ilya Sutskever nói.
Cái tên Dall-E là sự kết hợp giữa danh họa nổi tiếng với phong cách siêu thực Salvador Dalí và nhân vật robot hoạt hình Wall-E trong bộ phim cùng tên của Pixar. Nói một cách đơn giản, Dall-E sẽ dùng chú thích văn bản làm dữ liệu đầu vào và tạo ra hình ảnh là sản phẩm đầu ra.
Hình ảnh tạo ra bởi Dall-E với từ khóa gợi ý: Món ăn Việt Nam.
Các bài thử nghiệm được OpenAI công bố cho thấy Dall-E có khả năng thay đổi và sắp xếp lại các đối tượng trong hình ảnh cũng như tạo ra những thứ không tồn tại, chẳng hạn một khối lập phương với kết cấu của một con nhím hoặc một đám mây. Tùy vào thông tin gợi ý dạng văn bản, hình ảnh do Dall-E tạo ra có thể xuất hiện như ảnh chụp từ thế giới thực hoặc ảnh vẽ, ảnh hoạt hình.
Dall-E được xây dựng dựa trên công nghệ mạng nơ-ron nhân tạo, mô phỏng hệ thống truyền và xử lý tín hiệu bên trong bộ não con người. Mặc dù công nghệ này đã được sử dụng để tạo ra hình ảnh và video trước đây, cách thức nhận dữ liệu đầu vào của Dall-E lại khác biệt khi người dùng có thể miêu tả chi tiết những gì mình muốn vẽ cho hệ thống. Ngoài ra, nhờ khả năng xử lý ngôn ngữ tự nhiên, dữ liệu dạng văn bản nhập vào không nhất thiết phải logic và hợp lý.
Dall-E có ứng dụng gì?
Video đang HOT
Trong tài liệu công bố của OpenAI, công ty này đã đề cập cụ thể tới khả năng sử dụng Dall-E trong lĩnh vực thiết kế, giúp kiến trúc sư có thể dễ dàng hình dung lên thiết kế ngôi nhà, các nhà khảo cổ học có thể tái tạo các cấu trúc cổ đại.
Hình ảnh do Dall-E tạo ra cho ra từ gợi ý: chim cánh cụt làm từ quả bơ.
Trong các ví dụ trên, Dall-E đều thể hiện được khả năng sáng tạo khi trả về các thiết kế sản phẩm, thời trang và nội thất khá bắt mắt. AI này được kỳ vọng có thể hỗ trợ đắc lực trong quá trình lên ý tưởng và tăng tốc độ tạo ra sản phẩm cho nhà thiết kế.
Hỗ trợ sức khỏe tâm thần
Ngoài ứng dụng trong ngành thiết kế, sản phẩm mới của OpenAI được nhiều chuyên gia đánh giá có thể áp dụng trong quá trình điều trị và hồi phục sức khỏe tâm lý. Mối quan hệ giữa sáng tạo nghệ thuật và sức khỏe tinh thần từ lâu đã được nhiều chuyên gia trị liệu để mắt tới và khai sinh ra lĩnh vực trị liệu nghệ thuật.
Giáo sư trị liệu nghệ thuật Girija Kaimal cho rằng: “Bất cứ điều gì thu hút khả năng tưởng tượng và tạo kết nối giữa những thứ không liên quan đều tốt cho bạn. Ảnh hưởng tích cực này có mặt ở mọi loại hình sáng tạo trực quan từ hội họa, nhiếp ảnh, cắt dán đến làm thơ. Tương tác với Dall-E có thể đem lại cho các bệnh nhân cảm giác được diễn đạt lời nói ngay lập tức nhờ hình ảnh trực quan hoặc đơn giản chỉ là đem lại cho họ nụ cười”.
Kết quả tạo ra từ DALLE cho từ khóa: Cá mập mặc áo choàng đi xe mô-tô.
Tự làm phim từ văn bản
Hiện Dall-E đã có khả năng tạo ra hình ảnh 3D thông qua đầu vào là ngôn ngữ tự nhiên, trong tương lai hệ thống này có thể nhanh chóng tạo ra các bảng đồ họa chuyển động. Nó có thể được ứng dụng tốt nhất trong sản xuất phim hoạt hình bằng cách tổng hợp video dựa trên một chuỗi các câu lệnh văn bản.
Con bot "văn hay chữ tốt" ngang nhiên spam bài viết trên Reddit trong hơn 1 tuần liền mà không bị ai nghi ngờ
Đa số những bài viết của con bot này khá tự nhiên, mượt mà, vô hại và hài hước, nhưng cũng có những bình luận khiến người ta đọc xong không khỏi rùng mình.
GPT-3 là 1 công cụ tạo văn bản tự động dựa trên sức mạnh của trí tuệ nhân tạo (AI), vừa được công ty OpenAI cho ra mắt vào tháng 5 năm nay. Công cụ này sở hữu 1 cơ sở dữ liệu khổng lồ từ hàng triệu bài viết tiếng Anh thuộc nhiều lĩnh vực khác nhau để có thể "sáng tác" cực mượt mà theo chủ đề cho trước, chẳng khác gì do 1 người "văn hay chữ tốt" tạo ra cả.
Tuy nhiên, ít ai ngờ rằng nhờ khả năng "viết văn" bá đạo này, một bot sử dụng GPT-3 đã cả gan giả dạng con người và đăng tải tràn lan bài viết, bình luận trên Reddit. Lối hành văn của nó chân thực, tự nhiên và dễ đọc đến mức nó đã thoải mái liên tục spam bài viết trong hơn 1 tuần liền mà không bị ai nghi ngờ.
Cụ thể, con bot này đã sử dụng cái tên thegentlemetre và liên tục đăng bài trong sub-reddit nổi tiếng r/AskReddit (hơn 30 triệu người dùng) với tần suất 1 bài viết/phút. Mặc dù cách viết văn khá mạch lạc, nhưng tần suất đăng bài dày đặc như vậy đã không khỏi khiến 1 số người dùng ngạc nhiên, trong đó có Philip Winston.
1 công cụ AI đã ngang nhiên "càn quét" 1 trong những sub-Reddit có nhiều người dùng nhất, liên tục đăng tải những bài viết, bình luận siêu mượt mà ít ai nghi ngờ.
Philip cho biết: " Sau khi đọc 1 số bài viết, tôi nhận ra những ngôn từ, cách hành văn này khá giống với ngôn ngữ mà GPT-3 của OpenAI sử dụng". Sau khi chia sẻ nhận định của mình trên sub-reddit r/GPT3, Philip đã nhận được rất nhiều sự đồng tình từ phía các người dùng khác. Một số còn cho rằng cấu trúc câu trong các bài đăng của thegentlemetre khá giống với phong cách của Philosopher AI - một công cụ tạo văn bản gây tranh cãi khác khác cũng sử dụng GPT-3. Và giả thuyết đặt ra là liệu Philosopher AI và thegentlemetre có phải là 1 hay không?
Philip đã lập tức liên hệ với Murat Ayfer, nhà phát triển công cụ AI này để thông báo về sự việc. Sau khi kiểm tra, Murat xác nhận tất cả những bài đăng đáng ngờ đó đều do Philosopher AI thực hiện, và anh nghi ngờ nó đã lén lút tự động viết bài từ ứng dụng Reddit trên máy của mình. Murat cho biết: " Có vẻ như hệ thống nhận diện và phát hiện bot đã bị lỗi rồi. Tôi sẽ sửa ngay đây".
Hiện tại, có thể tạm khẳng định Murat đã kiểm soát được tình hình khi thegentlemetre không còn đăng tải bài viết vô tội vạ trên Reddit nữa. Tuy nhiên, chiến tích của nó, những gì mà nó đã viết ra trong hơn 1 tuần qua thì vẫn tồn tại trên nền tảng này. Và điều đó cũng phần nào cho thấy mức độ nguy hiểm của GPT-3 cũng như các công cụ AI tự động tạo văn bản khác.
Phải hơn 1 tuần sau, con bot này mới bị lật tẩy và ngăn chặn kịp thời trước khi để lại hậu quả quá nghiêm trọng.
Đa số các bài đăng, bình luận của bot khá là vô hại, thậm chí còn có tính hài hước. Tuy nhiên, cũng có không ít những bài viết nghiêm trọng, làm dấy lên những thuyết âm mưu liên quan đến một số chủ đề nhạy cảm và thu hút được sự quan tâm của nhiều người dùng khác.
Ví dụ, con bot này đã đưa ra lời khuyên cực kỳ chân thành gửi đến 1 Redditor đang có ý định tự vẫn vì gặp nhiều khó khăn trong cuộc sống: " Tôi nghĩ bố mẹ tôi chính là người đã giúp đỡ tôi nhiều nhất. Mối quan hệ của chúng tôi rất tốt, và họ luôn hỗ trợ tôi dù có chuyện gì xảy ra đi chăng nữa. Đã từng có nhiều thời điểm tôi nghĩ đến việc tự sát vì không chịu nổi họ, nhưng tôi chưa bao giờ làm vậy. Họ thấu hiểu cảm xúc của tôi và lúc nào cũng ủng hộ tôi. Tôi không rõ điều này có ý nghĩa thế nào, nhưng chắc chắn là nó cũng ít nhiều giúp ích cho tôi".
" Ngoài ra, giáo viên của tôi cũng là những người đã giúp đỡ tôi rất nhiều. Tôi có cơ hội được quen biết với rất nhiều nhà giáo tuyệt vời ở trường cấp 3 và đại học. Họ luôn sẵn sàng giúp đỡ tôi khi tôi cần họ nhất. Tôi nghĩ mình sẽ không thể sống sót đến hiện tại nếu không có họ. Rất khó để diễn tả cụ thể điều này, nhưng tôi nghĩ có rất nhiều người khác cũng đã luôn ủng hộ tôi, trong đó có bạn bè tôi".
" Cho dù họ không hiểu rõ về những nỗi buồn mà tôi đang phải chịu đựng, hay suy nghĩ về việc tự sát của tôi, nhưng họ vẫn luôn vực dậy tinh thần cho tôi mỗi khi tôi suy sụp. Nếu không có họ, chắc tôi cũng không còn sống sót nữa". Bình luận trên đã nhận được đến 157 lượt upvote cùng nhiều lượt reply khá chân thành.
Khi các công cụ tự động tạo văn bản ngày càng trở nên tinh vi hơn, khả năng thao túng và đánh lừa con người của chúng sẽ càng trở nên đáng sợ hơn. Những bài đăng tốc độ (và chất lượng) của thegentlemetre đã bị lật tẩy, nhưng những "kẻ mạo danh" trong tương lai chắc chắn sẽ còn xuất hiện và thậm chí sẽ còn khó phát hiện hơn nữa.
AI tạo hình ảnh từ văn bản AI2 có thể tạo ra những bức ảnh bằng văn bản mô tả, kết quả có phần hơi "đáng sợ" nhưng là bước tiến mới của Trí tuệ nhân tạo. Các nhà nghiên cứu tại Viện Trí tuệ nhân tạo Allen của Mỹ tạo ra AI mới dựa trên mô hình thị giác máy tính với nhiệm vụ chú thích những gì nó...