如何看待具有人工智能调音技术的虚拟歌手 SV（Synthesizer V）10月30日初次亮相？

Question

如何看待具有人工智能调音技术的虚拟歌手 SV（Synthesizer V）10月30日初次亮相？

Dreamtonics 开发的歌声合成软件 Synthesizer V Studio 于10月30日发布了DEMO；将于2021年初迎来免费的合成引擎…

关注者

71

被浏览

32,561

9 个回答

目前歌聲合成對AI的追尋有兩個主要層次。

"自動調教"指的是在GUI與可調參數層級上透過資料導向的手法來學習、並且給予人可操作層級的參數。這個是在拼接合成現有的基礎上試圖去導入資料導向手法。所以會有從歌唱導入音量與音高甚至曾經有過音色面的自動變化，但是音色面畢竟沒有物理量可以輕易抽出，這造成的問題後續會討論到。

目前的機械學習類AI音源則是對取樣層級的資訊密度，以不考慮輸入層次與操作手法先行學習後，直接產生VOCODER所需的參數然後進行波形合成。好處是這直接可以達到VOCODER的表現能力上限，壞處則是它的輸入本身是各種不是"平直"，而是各種音樂表現都包含在內的，所以它只能做減法調教，不能做加法調教。

加法調教指的是，VOCALOID那樣，各種參數一開始都是平的，然後去堆砌操作。
加的過程包含了音庫的差異，所以VSQ file不能沿用到其他聲庫否則會有問題。

減法調教指的是，它一開始生成的波形就包含了聲庫自己的音樂表現已經包含在內，你的調教是去掉你不中意的部分，抵銷掉那些高高低低。(而且隱藏在平直底下看不到)

所以無調整的樂譜可以輕易延用到其他聲庫上，但是進行減法調教之後仍然會有聲庫的差異所以最好還是去掉。

加減法調教的哲學是完全相反的，所以有著互相難以共通，難以沿用的問題。

這件事情會直接對SynthesizerV AI發表內容的其中一點產生質疑：同一個人的兩種不同聲庫到底可不可以無縫切換？

基本上SVR2產品線提供了單一音軌混合使用多個聲庫的能力，和SVR1單一音軌只能使用單一聲庫相比有進步，你可以每個音符單位都採用不同的聲庫；但是你說一個長音中間切換傳統與AI聲庫時聽感能無縫嗎？這原理上是很困難的。

因為傳統聲庫與AI聲庫之間沒有參數互換，你沒辦法讓AI生庫輔助傳統聲庫生成一段類似的聲音來補足，只有音高與音量可以從AI聲庫借鏡，但沒有張嘴差異與聲帶張力差異帶來的音色變化，於是造成這兩個聲庫之間是不能輕易地互相幫助、互相扶持的，而是完全執掌不同的音樂表現。我不清楚目前這部分的問題有什麼解決方法。(*:後來想到morphing可能有點幫助)

對採用方而言，傳統聲庫與AI聲庫是兩個完全不同的存在，即使是同一個人也會有不同的聽感，在平直的傳統聲庫表現的音色與AI聲庫非常接近本人之間有很大的差異。

但是唯有兼顧兩種不同的聲庫，我們才能夠覆蓋足夠多的音樂表現，因為VOCALOID開創的時代，讓我們知道了很多虛擬歌手與實際歌手有著不同的擅場，已經不能無視。

而且真實的歌手有很多可行的行銷手法，都與現場直播生態有相當的關係，我個人認為AI表現能力與真人難分難解，並不是一種AI可以取代真人歌手的保證，拼圖還有許多欠缺的殘片；而且AI與本人的互相衝突基本上是存在的，但只有本人與AI能夠相輔相成而非互扯後腿，才能得到超過其他競爭者的快速成長。

話說接下來的部分是一些推測，因為我們還沒有得到解釋：

SynthV AI相對於CeVIO AI有另一個主要的特色，就是SynthV在R2的時候導入了Neural Post filter類神經網路自動後製過濾，對聲庫進行學習之後補強LLSM的輸出波形。

在傳統聲庫方面SVR2 LLSM v2.1進行了非週期成分的伸縮品質補足，並且解封了氣音的預設上限，讓SV在類ASMR的表現能力高過其餘VOCODER；預期SynthV AI對這部分進行進一步強化的結果，讓SV AI的demo曲明顯地沒有CeVIO AI在使用WORLD VOCODER的場合仍然會有的劣化感，並且預期這個音質不需要使用GPU就可以達成，我覺得是值得注意的特出之處。(*:CeVIO AI目前研發中的NN vocoder有很大的可能性需要GPU)

最後是標題實際上所謂的"看待"，這一串的回答目前看起來是AI萬歲的論調較多，但即使有著事前的準備與想法的醞釀，SynthV的AI開發實質間隔不足兩個月，這個工作量實在不算大。對有AI lab籌備的大規模企業而言開發類似的東西真的不是難事，我會覺得最後的勝負還是在數據取得上。

同時我對鼓吹AI取代人類的語調是不以為然的，因為"取代"這件事情本身的定義根本沒有好好地解釋過。何謂取代？高過人類的歌聲表現？還是佔有更多的商業資源？

我們最可能遇到的是，AI產生的內容像洪水一般地掩蓋了所有觀眾的目光，並且對每個聽眾進行自訂，但是這個場合的內容有可能收費嗎？我們有可能因此找到更多嶄新的表現嗎？對音樂表現到底能夠帶來什麼幫助？我們有amplifing到imaginations嗎？

如果不去好好想這些事情，只怕最後是一把火把田燒光而已。
當然對不碰內容的Dreamtonics而言我認為是不會產生這個問題，大企業對AI內容產生的追尋目標如果都在佔有SNS用戶的眼球這種觀點來做，那就非常有可能造成燒田農法。

在日本VOCALOID的現況其實已經走入了觀眾數量不足創作者數量的問題，再加入更多自動功能只是把創作的價值再打到更低而已。所以輔助人的追尋並且與作者相輔相成，才是歌聲合成技術的正道。

编辑于 2020-11-01 17:22

Raymond 音乐话题下的优秀答主 · Accepted Answer

其实这个问题表述应该是「带人工智能调音技术的虚拟歌手」。

该来的总会来。这一在音乐科技上的突破，意味着从 Autotune 和 Vocaloid 时期的刻意追求“机器化效果”的时代全面被“回归真实”取代，而且是全自动的。这说明了未来已来，或很快要来，很快歌手的饭碗就要保不住了，一切都只是时间的问题。作曲成了音乐中的唯一一片没收到人工智能冲击的领域；然而我也不抱太大侥幸。毕竟ＡＩ生来就是要给未来生产力和社会的发展洗个大牌的。

十七张牌你能秒我？就是能秒。喜大普奔。

编辑于 2020-11-10 00:37