如何看待具有人工智能调音技术的虚拟歌手 SV(Synthesizer V)10月30日初次亮相?

Dreamtonics 开发的歌声合成软件 Synthesizer V Studio 于10月30日发布了DEMO;将于2021年初迎来免费的合成引擎…
关注者
71
被浏览
32,561

9 个回答

其实这个问题表述应该是「带人工智能调音技术的虚拟歌手」。

该来的总会来。这一在音乐科技上的突破,意味着从 Autotune 和 Vocaloid 时期的刻意追求“机器化效果”的时代全面被“回归真实”取代,而且是全自动的。这说明了未来已来,或很快要来,很快歌手的饭碗就要保不住了,一切都只是时间的问题。作曲成了音乐中的唯一一片没收到人工智能冲击的领域;然而我也不抱太大侥幸。毕竟AI生来就是要给未来生产力和社会的发展洗个大牌的。

十七张牌你能秒我?就是能秒。喜大普奔。

目前歌聲合成對AI的追尋有兩個主要層次。

"自動調教"指的是在GUI與可調參數層級上透過資料導向的手法來學習、並且給予人可操作層級的參數。這個是在拼接合成現有的基礎上試圖去導入資料導向手法。所以會有從歌唱導入音量與音高甚至曾經有過音色面的自動變化,但是音色面畢竟沒有物理量可以輕易抽出,這造成的問題後續會討論到。

目前的機械學習類AI音源則是對取樣層級的資訊密度,以不考慮輸入層次與操作手法先行學習後,直接產生VOCODER所需的參數然後進行波形合成。好處是這直接可以達到VOCODER的表現能力上限,壞處則是它的輸入本身是各種不是"平直",而是各種音樂表現都包含在內的,所以它只能做減法調教,不能做加法調教。

加法調教指的是,VOCALOID那樣,各種參數一開始都是平的,然後去堆砌操作。
加的過程包含了音庫的差異,所以VSQ file不能沿用到其他聲庫否則會有問題。

減法調教指的是,它一開始生成的波形就包含了聲庫自己的音樂表現已經包含在內,你的調教是去掉你不中意的部分,抵銷掉那些高高低低。(而且隱藏在平直底下看不到)

所以無調整的樂譜可以輕易延用到其他聲庫上,但是進行減法調教之後仍然會有聲庫的差異所以最好還是去掉。

加減法調教的哲學是完全相反的,所以有著互相難以共通,難以沿用的問題。

這件事情會直接對SynthesizerV AI發表內容的其中一點產生質疑:同一個人的兩種不同聲庫到底可不可以無縫切換?

基本上SVR2產品線提供了單一音軌混合使用多個聲庫的能力,和SVR1單一音軌只能使用單一聲庫相比有進步,你可以每個音符單位都採用不同的聲庫;但是你說一個長音中間切換傳統與AI聲庫時聽感能無縫嗎?這原理上是很困難的。

因為傳統聲庫與AI聲庫之間沒有參數互換,你沒辦法讓AI生庫輔助傳統聲庫生成一段類似的聲音來補足,只有音高與音量可以從AI聲庫借鏡,但沒有張嘴差異與聲帶張力差異帶來的音色變化,於是造成這兩個聲庫之間是不能輕易地互相幫助、互相扶持的,而是完全執掌不同的音樂表現。我不清楚目前這部分的問題有什麼解決方法。(*:後來想到morphing可能有點幫助)

對採用方而言,傳統聲庫與AI聲庫是兩個完全不同的存在,即使是同一個人也會有不同的聽感,在平直的傳統聲庫表現的音色與AI聲庫非常接近本人之間有很大的差異。

但是唯有兼顧兩種不同的聲庫,我們才能夠覆蓋足夠多的音樂表現,因為VOCALOID開創的時代,讓我們知道了很多虛擬歌手與實際歌手有著不同的擅場,已經不能無視。

而且真實的歌手有很多可行的行銷手法,都與現場直播生態有相當的關係,我個人認為AI表現能力與真人難分難解,並不是一種AI可以取代真人歌手的保證,拼圖還有許多欠缺的殘片;而且AI與本人的互相衝突基本上是存在的,但只有本人與AI能夠相輔相成而非互扯後腿,才能得到超過其他競爭者的快速成長。

話說接下來的部分是一些推測,因為我們還沒有得到解釋:

SynthV AI相對於CeVIO AI有另一個主要的特色,就是SynthV在R2的時候導入了Neural Post filter類神經網路自動後製過濾,對聲庫進行學習之後補強LLSM的輸出波形。

在傳統聲庫方面SVR2 LLSM v2.1進行了非週期成分的伸縮品質補足,並且解封了氣音的預設上限,讓SV在類ASMR的表現能力高過其餘VOCODER;預期SynthV AI對這部分進行進一步強化的結果,讓SV AI的demo曲明顯地沒有CeVIO AI在使用WORLD VOCODER的場合仍然會有的劣化感,並且預期這個音質不需要使用GPU就可以達成,我覺得是值得注意的特出之處。(*:CeVIO AI目前研發中的NN vocoder有很大的可能性需要GPU)

最後是標題實際上所謂的"看待",這一串的回答目前看起來是AI萬歲的論調較多,但即使有著事前的準備與想法的醞釀,SynthV的AI開發實質間隔不足兩個月,這個工作量實在不算大。對有AI lab籌備的大規模企業而言開發類似的東西真的不是難事,我會覺得最後的勝負還是在數據取得上。

同時我對鼓吹AI取代人類的語調是不以為然的,因為"取代"這件事情本身的定義根本沒有好好地解釋過。何謂取代?高過人類的歌聲表現?還是佔有更多的商業資源?

我們最可能遇到的是,AI產生的內容像洪水一般地掩蓋了所有觀眾的目光,並且對每個聽眾進行自訂,但是這個場合的內容有可能收費嗎?我們有可能因此找到更多嶄新的表現嗎?對音樂表現到底能夠帶來什麼幫助?我們有amplifing到imaginations嗎?

如果不去好好想這些事情,只怕最後是一把火把田燒光而已。
當然對不碰內容的Dreamtonics而言我認為是不會產生這個問題,大企業對AI內容產生的追尋目標如果都在佔有SNS用戶的眼球這種觀點來做,那就非常有可能造成燒田農法。

在日本VOCALOID的現況其實已經走入了觀眾數量不足創作者數量的問題,再加入更多自動功能只是把創作的價值再打到更低而已。所以輔助人的追尋並且與作者相輔相成,才是歌聲合成技術的正道。