除了近期大熱的 ChatGPT,Microsoft 還有其他具潛質的人工智能項目,當中包括文字生成語音模型 VALL-E,它的最大賣點是只要輸入目標網址和 3 秒的聲音樣本,模型就能製作出相似度極高的語音內容。現時 VALL-E 還處於初期訓練階段,但開發團隊提供的英語語音訓練資料已達 6 萬小時。
Microsoft 的開發團隊表示利用現有神經音檔編解碼模型的離散碼,去訓練 VALL-E 神經編解碼器語言模型,將文字轉語音視作條件式語言建立模型任務。VALL-E 會根據文字輸入和 3 秒的語音提示,然後產生跟文字和目標聲音相應的離散音檔編解碼。
在語音自然度和相似度方面,Microsoft 指 VALL-E 的表現比現有的 SOTA 模型好,而且能保持情緒和聲音環境,不過還有需要改善的地方,例如部份單字發音不清晰,而且未能模仿帶有口音的聲音等。開發團隊認為 VALL-E 未來可以在各種語音合成方案直接使用,包括零樣本文字轉語音、語音編輯,或搭配 GPT-3 等人工智能模型去產生更多內容。
資料及圖片來源:arstechnica
unwire.hk Mewe 專頁: https://mewe.com/p/unwirehk