AI 生成技術最近繼續不斷進步,最近阿里巴巴就發表全新的人像動畫生成模型 EMO,輸入人像照片和聲音後,就可以自動生成生動的影片,口型甚至表情也會隨着聲音自然調節。
阿里巴巴的「智慧運算研究所」最近發表論文介紹其 EMO (Emote Portrait Alive) 模型,這個模型可以透過分析照片和聲音,將靜態人像照片變成配合聲音的說話或者唱歌影片。從嘴巴的動作到表情和眨眼等,都可以配合內容調整,展現一定的情緒表現,使其更加自然。
據論文表示,今次 EMO 的開發使用了 Audio2Video Diffusion 模型配合超過 250 小時的談話影片來訓練,除了普通話之外也支援其他的語言,在提取臉部特徵之後處理聲音的變化。目前 Nvidia 也有類似的工具 Audio2Face,不過今次 EMO 的示範影片就更加自然,特別是日本動畫風格的應用確實效果不錯,在日後的發展下可能很快會有更強勁的工具面世。不過 EMO 並沒有公開試用,因此實際是否直接生成,還是需要調節才有這樣的效果仍然是個謎。
來源:阿里巴巴