拿来吧你, 声音
摘要
简介: 使用 GPT-SoVITS 项目克隆声音
环境: Windows 11 / 13th i9-13900HX / RTX4060 / Python 3.11.4
原项目: https://github.com/RVC-Boss/GPT-SoVITS
步骤
下载安装
对于 Windows 10 及以上的用户, 建议通过整合包的形式安装.
PS. 请合理使用魔法上网
下载后解压至D:\GPT-SoVITS\GPT-SoVITS-beta
启动!
运行...\go-webui.bat
, 在端口 9874 打开 Web UI
PS. 第一次启动可能会等待一段时间以进行环境配置
准备训练源
准备一段中文音频, 时长在 1~2 分钟为宜, 音频质量尽可能高
如果音频自带难以去除的背景声, 可以在0a-UVR5人声伴奏分离&去混响去延迟工具
中勾选是否开启UVR5-WebUI
以进行人声伴奏分离 / 去混响 / 去延迟. 勾选后等待一段时间, 会自动在端口 9873 打开新的页面
去除背景声的音频文件默认保存在...\output\uvr5_opt\
目录下
注意: 转换后的文件一般包括instrument-
开头的非人声文件和vocal-
开头的人声文件, 我们应选取人声文件进行之后的操作
PS. 跑太慢了不是软件问题, 是你的硬件问题, 建议氪服困难哦
音频切割
回到localhose:9874
, 在0b-语音切分工具
中按照提示将转换好的音频进行切割
切割后的音频文件默认保存在...\output\slicer_opt\
目录下, 注意切割前清理该文件夹或保存在指定路径下
如果发现切割出来的音频文件时长超过 20s, 建议修改min_length
参数以减短文件时长
打标
在0c-中文批量离线ASR工具
中按照提示打标, 等待一段时间直到出现ASR任务完成
提示, 打标后的文本文件默认保存在...\output\asr_opt\
目录下
接下来根据文意, 人工修正词语和停顿
PS. 可以使用0d-语音文本校对标注工具
辅助打标
模型训练
切换到1-GPT-SoVITS-TTS
标签页按照文字提示填写模型名字, 之后开启一键三连
点击1B-微调训练
, 依次进行 SoVITS 训练和 GPT 训练
PS. 该步骤容易爆显存, 特征是在命令行看到RuntimeError: CUDA out of memory
报错提示字样, 建议减少batch_size
参数, 再次尝试哦
推理
点击1C-推理
, 选择刚才保存的模型, 勾选是否开启TTS推理WebUI
, 等待一段时间后自动打开新的标签页
上传参考音频(建议直接使用切割出来的音频文件中, 吐字最为清晰的一段), 要注意的是, 参考音频对于结果的影响是很大的, 结果的情绪, 效果等很大程度依赖于参考音频
最后输入合成的目标文本, 点击合成语音
即可