2018-12-23 17:00:00

AI合成歌聲難辨真假　日英中文歌手隨意扮

Techno-Speech推出的聲音創作軟件《CeVIO Creative Studio》使用舊技術，合成出來的聲音難免有「電子感」。

初音未來發表多年，相信大家也聽過合成歌聲，只要輸入樂譜和歌詞便可以讓電腦歌手唱歌。不過，至今合成歌聲仍無法擺脫其人工感覺。早前日本名古屋工業大學與一所開發合成語音技術公司Techno-Speech合作，發表一套運用人工智能學習真人歌聲的技術，令合成歌聲與真人歌聲難分真假。

名古屋工業大學的團隊過去早已開發不少人工合成語音技術，如Open JTalk，他們運用一套被稱為「隱藏式馬可夫模型」的統計模型，從真人聲音資料中學習。Techno-Speech曾利用該團隊所開發的技術來製作出《CeVIO Creative Studio》等聲音創作軟件。虛擬偶像如「IA -ARIA ON THE PLANETES(源聲是歌手Lia)」和「佐藤莎莎拉(源聲是聲優水瀨祈)」，至2016年利用已故歌手三波春夫的資料製作虛擬藝人「HAL-O-ROID」，皆使用這套技術。

今次發表的高精密度歌聲合成技術，將深層學習等人工智能技術應用在特定歌手約兩小時的歌聲資料庫上，讓電腦學習到歌手的聲質、習性和歌唱方法。在使用時，只要輸入任何附有歌詞的樂譜，即可合成出仿如真人的歌聲。

在Techno-Speech的發表網站上，貼出多首運用新舊兩代技術合成的歌曲作比對，當中包括日語及英語，還有陳奕迅《富士山下》的國語版《愛情轉移》，聲音資料庫則是《CeVIO Creative Studio》裡提供的IA和佐藤莎莎拉，可以聽得出新技術有明顯進步，搭上配樂的話，實在難分真假。