关于一些声音合成技术的体验

挺久没有关注人声合成这一块了。今天发现了一些新技术。相关链接在文章末尾。

⚠️ 文中所提到的项目或基于深度学习，可能需要合适的 CPU / GPU

Neutrino 在 2020 年 2 月的时候的时候我就了解到了。这是一个利用深度学习模型合成歌声的软件。详见奶茶p的视频：

我接触到的第一位 AI 歌姬就是东北切蒲英（東北きりたん）， 2020 年的时候，这个引擎的合成质量就相当不错，给我留下了很深的印象。

今天关注了一下最新的动态， Neutrino 已经当时使用的 0.420 迭代到了现在的 0.510 ，并且推出了更多的声库。由于 Neutrino 本身并无图形界面， Github 上有相应的项目作为本体的辅助GUI或可视化调音修正工具。同时，作者加入了高 bpm 曲子的训练样本，使得引擎在高 bpm 合成中发挥的更加稳定（有一个 GUI 项目好像已经是 archived ，~~是不是已经过气了~~) 新出的声库里有一个 No.7 （让我姑且叫做七酱，这样叫很可爱不是吗），是最新的研究成果。立绘很可爱，然后声音确实也挺不错的。希望能够以后听到她在更多地方歌唱。

Synthesizer 系列在今天已经不算少见了，~~但是我囊中羞涩，没法买，所以就没得体验了（）~~

上面说的是歌声合成，下面说的是语音合成。可以免费直接用来制作实况的语音合成技术还是很香的。

第一个是 CoeFont Studio 。提供了多种免费角色给用户，而且，合成全部在网上进行。 2022 年 1 月开始， CoeFont Studio 将与 CoeFont Cloud 合并，届时，原来的免费声库将依然可用，暂时不用担心收费。但是网站同时也提供了其他的收费声库和计划选项。角色画师是凪白みと，很香（各种意义上）。但是试用之后觉得合成的效果不尽如人意。电子音有些重，声音感情也缺少抑扬。可以单字调整发音。（因为没有试着输入大段的文字，不排除文字量增多后效果变好的可能）

第二个是 VOICEVOX 。有软件，可以将软件下载到本地，并且可以选择 CPU / GPU 模式。合成质量很好，各位角色的声音也很好听。作为训练模型的成果，这个软件还在 Github 开源了。最先放出的两个角色的声音还可以选择不同的模式，比如激动、高兴等。可以单字调整发音。

~~链接下午再放，困死了。 ~~

文中项目相关链接，相关角色声音试听可以在上面找到。

Neutrino No.7 -Seven セブン CoeFont STUDIO VOICEVOX

关于一些声音合成技术的体验

（可能是）最新最热的声音合成技术

关于一些声音合成技术的体验