关于一些声音合成技术的体验

挺久没有关注人声合成这一块了。今天发现了一些新技术。相关链接在文章末尾。

⚠️ 文中所提到的项目或基于深度学习,可能需要合适的 CPU / GPU

Neutrino 在 2020 年 2 月的时候的时候我就了解到了。这是一个利用深度学习模型合成歌声的软件。详见奶茶p的视频:

我接触到的第一位 AI 歌姬就是东北切蒲英(東北きりたん), 2020 年的时候,这个引擎的合成质量就相当不错,给我留下了很深的印象。

今天关注了一下最新的动态, Neutrino 已经当时使用的 0.420 迭代到了现在的 0.510 ,并且推出了更多的声库。由于 Neutrino 本身并无图形界面, Github 上有相应的项目作为本体的辅助GUI或可视化调音修正工具。同时,作者加入了高 bpm 曲子的训练样本,使得引擎在高 bpm 合成中发挥的更加稳定(有一个 GUI 项目好像已经是 archived ,是不是已经过气了) 新出的声库里有一个 No.7 (让我姑且叫做七酱,这样叫很可爱不是吗),是最新的研究成果。立绘很可爱,然后声音确实也挺不错的。希望能够以后听到她在更多地方歌唱。

Synthesizer 系列在今天已经不算少见了,但是我囊中羞涩,没法买,所以就没得体验了()

上面说的是歌声合成,下面说的是语音合成。可以免费直接用来制作实况的语音合成技术还是很香的。

第一个是 CoeFont Studio 。提供了多种免费角色给用户,而且,合成全部在网上进行。 2022 年 1 月开始, CoeFont Studio 将与 CoeFont Cloud 合并,届时,原来的免费声库将依然可用,暂时不用担心收费。但是网站同时也提供了其他的收费声库和计划选项。 角色画师是凪白みと,很香(各种意义上)。 但是试用之后觉得合成的效果不尽如人意。电子音有些重,声音感情也缺少抑扬。可以单字调整发音。(因为没有试着输入大段的文字,不排除文字量增多后效果变好的可能)

第二个是 VOICEVOX 。有软件,可以将软件下载到本地,并且可以选择 CPU / GPU 模式。 合成质量很好,各位角色的声音也很好听。作为训练模型的成果,这个软件还在 Github 开源了。最先放出的两个角色的声音还可以选择不同的模式,比如激动、高兴等。可以单字调整发音。

~~链接下午再放,困死了。 ~~

文中项目相关链接,相关角色声音试听可以在上面找到。

Neutrino No.7 -Seven セブン CoeFont STUDIO VOICEVOX

关于一些声音合成技术的体验

作者

白音

发布日期

2021 - 12 - 30