关于一些声音合成技术的体验

发布于 2021-12-30  1017 次阅读


挺久没有关注人声合成这一块了。今天发现了一些新技术。相关链接在文章末尾。

文中所提到的项目或基于深度学习,可能需要合适的CPU/GPU

Neutrino在2020年2月的时候的时候我就了解到了。这是一个利用深度学习模型合成歌声的软件。详见奶茶p的视频:【NEUTRINO AI合成歌声】回忆箱 【 東北きりたん ンチャP】_哔哩哔哩_bilibili
我接触到的第一位AI歌姬就是东北切蒲英(東北きりたん),2020年的时候,这个引擎的合成质量就相当不错,给我留下了很深的印象。

今天关注了一下最新的动态,Neutrino已经当时使用的0.420迭代到了现在的0.510,并且推出了更多的声库。由于Neutrino本身并无图形界面,Github上有相应的项目作为本体的辅助GUI或可视化调音修正工具。同时,作者加入了高bpm曲子的训练样本,使得引擎在高bpm合成中发挥的更加稳定(有一个GUI项目好像已经是archived,是不是已经过气了)
新出的声库里有一个No.7(让我姑且叫做七酱,这样叫很可爱不是吗),是最新的研究成果。立绘很可爱,然后声音确实也挺不错的。希望能够以后听到她在更多地方歌唱。

Synthesizer系列在今天已经不算少见了,但是我囊中羞涩,没法买,所以就没得体验了()

上面说的是歌声合成,下面说的是语音合成。可以免费直接用来制作实况的语音合成技术还是很香的。

第一个是CoeFont Studio。提供了多种免费角色给用户,而且,合成全部在网上进行。2022年1月开始,CoeFont Studio将与CoeFont Cloud合并,届时,原来的免费声库将依然可用,暂时不用担心收费。但是网站同时也提供了其他的收费声库和计划选项。
角色画师是凪白みと,很香(各种意义上)。
但是试用之后觉得合成的效果不尽如人意。电子音有些重,声音感情也缺少抑扬。可以单字调整发音。(因为没有试着输入大段的文字,不排除文字量增多后效果变好的可能)

第二个是VOICEVOX。有软件,可以将软件下载到本地,并且可以选择CPU/GPU模式。
合成质量很好,各位角色的声音也很好听。作为训练模型的成果,这个软件还在Github开源了。最先放出的两个角色的声音还可以选择不同的模式,比如激动、高兴等。可以单字调整发音。

链接下午再放,困死了。

Netrino官网可能不能在日本以外的地区打开(即使使用了日本地址的代理),原因未知。

文中项目相关链接,相关角色声音试听可以在上面找到。
Neutrino官网
No.7 -Seven セブン
CoeFont STUDIO
VOICEVOX

好困,想睡觉喵~
最后更新于 2021-12-30