摘要

简介: 使用 GPT-SoVITS 项目克隆声音
环境: Windows 11 / 13th i9-13900HX / RTX4060 / Python 3.11.4
原项目: https://github.com/RVC-Boss/GPT-SoVITS

 

步骤

下载安装

对于 Windows 10 及以上的用户, 建议通过整合包的形式安装.

PS. 请合理使用魔法上网

下载后解压至D:\GPT-SoVITS\GPT-SoVITS-beta

 

启动!

运行...\go-webui.bat, 在端口 9874 打开 Web UI

PS. 第一次启动可能会等待一段时间以进行环境配置

 

准备训练源

准备一段中文音频, 时长在 1~2 分钟为宜, 音频质量尽可能高

如果音频自带难以去除的背景声, 可以在0a-UVR5人声伴奏分离&去混响去延迟工具中勾选是否开启UVR5-WebUI以进行人声伴奏分离 / 去混响 / 去延迟. 勾选后等待一段时间, 会自动在端口 9873 打开新的页面

去除背景声的音频文件默认保存在...\output\uvr5_opt\目录下

注意: 转换后的文件一般包括instrument-开头的非人声文件和vocal-开头的人声文件, 我们应选取人声文件进行之后的操作

PS. 跑太慢了不是软件问题, 是你的硬件问题, 建议氪服困难哦

 

音频切割

回到localhose:9874, 在0b-语音切分工具中按照提示将转换好的音频进行切割

切割后的音频文件默认保存在...\output\slicer_opt\目录下, 注意切割前清理该文件夹或保存在指定路径下

如果发现切割出来的音频文件时长超过 20s, 建议修改min_length参数以减短文件时长

 

打标

0c-中文批量离线ASR工具中按照提示打标, 等待一段时间直到出现ASR任务完成提示, 打标后的文本文件默认保存在...\output\asr_opt\目录下

接下来根据文意, 人工修正词语和停顿

PS. 可以使用0d-语音文本校对标注工具辅助打标

 

模型训练

切换到1-GPT-SoVITS-TTS标签页按照文字提示填写模型名字, 之后开启一键三连

点击1B-微调训练, 依次进行 SoVITS 训练和 GPT 训练

PS. 该步骤容易爆显存, 特征是在命令行看到RuntimeError: CUDA out of memory报错提示字样, 建议减少batch_size参数, 再次尝试哦

 

推理

点击1C-推理, 选择刚才保存的模型, 勾选是否开启TTS推理WebUI, 等待一段时间后自动打开新的标签页

上传参考音频(建议直接使用切割出来的音频文件中, 吐字最为清晰的一段), 要注意的是, 参考音频对于结果的影响是很大的, 结果的情绪, 效果等很大程度依赖于参考音频

最后输入合成的目标文本, 点击合成语音即可