google

Google AI 靈魂繪師 「Parti」 來了!迷因梗圖要更瘋狂了嗎?


近期,在網上掀起了一場 AI 畫畫大戰,各式 AI 繪手紛紛加入戰場,包含了由 NVIDIA 提出的 GauGAN、OpenAI 提出的 Dall-E 以及 VQ-GAN+CLIP 和 Latent Diffusion Models ,甚至在 5 月時,GOOGLE 也推出過 Imagen 來應戰。其實這是一種透過簡單文字描述輸入,即可快速生成擬真影像的技術。

然而僅過了一個月,Google 再度派出最新的 AI 靈魂繪師「Parti」上場,Parti 全名為「Pathways Autoregressive Text-to-Image」,這次與 Imagen 使用的是不同的技術路線,Imagen 所採用的是由文字到圖像的產生,而 Parti 是一個自回歸模型,它的方法首先將一組圖像轉換為一系列代碼,類似於拼圖。然後將給定的文本提示轉換為這些代碼並「拼成」一個新圖像,也就是轉化成 「序列到序列」,類似於機器翻譯。這使得它能夠受益於大型語言模型(如PaLM),這對於處理長而復雜的文本提示和生成高質量的圖像至關重要。

 

而且本次的 Parti 可透過 200 億組輸入資料進行訓練,另外在訓練過程中,Google 表示會加入一些干擾,讓人工智慧在訓練過程產生不同的訓練效果,這也是為了避免生成結果千篇一律,同時也能讓生成結果精度提高。但目前 Google 並未透過公眾內容訓練 Parti,避免產生潛在偏見風險,不過相信未來公開後會出有很多梗圖、迷音圖的問世。

↑ Parti 製作出來的圖像會隨著訓練資料數量的增加,產生更精準、細緻的圖像。

 

Google 也分享了一些 Parti 所繪製出來的圖像,像是照著梵谷的《星夜》並以 67 個單詞來敘述,而 Parti 果然是個 AI 靈魂繪師,不負眾望的把各種風格都繪製出來。

但也不是沒有出錯的時候,Parti 目前對否定句的判定還不足夠強大,下面提供一些失敗案例:「一個沒有香蕉的盤子,和一旁沒有橙汁的玻璃杯」,結果給出的畫面是「我全都要」。另外由於需要訓練的關係,在還沒有接觸過的項目中,常常會犯一些常識性的錯誤,包括縮放、比例等問題。

而其實據 Parti 表示,這類的創作其實滿簡單的,下面就分享一些例子給大家看吧!


↑ 一隻浣熊穿正裝,頭戴禮帽,拄著枴杖,拿著個垃圾袋、一隻老虎戴著列車長的帽子,手裡拿著一塊滑板,上面有一個陰陽符號。


消息來源

延伸影片閱讀:  
Previous post

iPhone上市15周年,它是如何一步步改變世界的?

Next post

ARCTIS NOVA PRO | Probably the best headphone of the year?

The Author

Mangoray

Mangoray