Update README.md
Browse files
README.md
CHANGED
@@ -3,18 +3,30 @@ license: apache-2.0
|
|
3 |
language:
|
4 |
- zh
|
5 |
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
6 |
这是一个基于vits_chinese和aishell3 175人中文训练的预训练模型,可以直接用于微调语音克隆,大大缩短微调训练的时间。
|
7 |
|
8 |
该模型使用tesla T4 16G训练了大概2个周,单人语音数据微调1-3小时,即可达到非常逼真的效果,是MOS值最接近真实值的一个模型。
|
9 |
|
10 |
该模型包含了两个模型文件,一个是D_AISHELL.pth,另外一个是G_AISHELL.pth,共同构成了预训练模型。
|
11 |
|
12 |
-
|
|
|
|
|
13 |
|
14 |
utils.save_checkpoint(net_g, optim_g, hps.train.learning_rate, epoch, os.path.join(hps.model_dir, "G_{}.pth".format(global_step)))
|
15 |
|
16 |
utils.save_checkpoint(net_d, optim_d, hps.train.learning_rate, epoch, os.path.join(hps.model_dir, "D_{}.pth".format(global_step)))
|
17 |
|
18 |
-
|
|
|
|
|
19 |
|
20 |
utils.load_checkpoint("G_pretrained.pth", net_g, None)
|
|
|
3 |
language:
|
4 |
- zh
|
5 |
---
|
6 |
+
aishell3数据介绍:
|
7 |
+
|
8 |
+
希尔贝壳中文普通话语音数据库AISHELL-3的语音时长为85小时88035句,可做为多说话人合成系统。录制过程在安静室内环境中, 使用高保真麦克风(44.1kHz,16bit)。
|
9 |
+
|
10 |
+
218名来自中国不同口音区域的发言人参与录制。专业语音校对人员进行拼音和韵律标注,并通过严格质量检验,此数据库音字确率在98%以上。
|
11 |
+
|
12 |
+
vits模型介绍:
|
13 |
+
|
14 |
这是一个基于vits_chinese和aishell3 175人中文训练的预训练模型,可以直接用于微调语音克隆,大大缩短微调训练的时间。
|
15 |
|
16 |
该模型使用tesla T4 16G训练了大概2个周,单人语音数据微调1-3小时,即可达到非常逼真的效果,是MOS值最接近真实值的一个模型。
|
17 |
|
18 |
该模型包含了两个模型文件,一个是D_AISHELL.pth,另外一个是G_AISHELL.pth,共同构成了预训练模型。
|
19 |
|
20 |
+
微调:
|
21 |
+
|
22 |
+
需要将这个两个模型文件放到utils.save_checkpoint目录下:
|
23 |
|
24 |
utils.save_checkpoint(net_g, optim_g, hps.train.learning_rate, epoch, os.path.join(hps.model_dir, "G_{}.pth".format(global_step)))
|
25 |
|
26 |
utils.save_checkpoint(net_d, optim_d, hps.train.learning_rate, epoch, os.path.join(hps.model_dir, "D_{}.pth".format(global_step)))
|
27 |
|
28 |
+
推理:
|
29 |
+
|
30 |
+
使用通过个人语音数据微调后的G_AISHELL.pth即可。
|
31 |
|
32 |
utils.load_checkpoint("G_pretrained.pth", net_g, None)
|