File size: 3,714 Bytes
66fe55b
 
 
 
 
 
 
 
48547e5
66fe55b
39ff555
 
 
 
66fe55b
 
 
 
 
 
 
 
39ff555
66fe55b
 
5765808
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
66fe55b
 
b58b665
 
66fe55b
 
 
b235023
aed39e9
b235023
d0799ea
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
---
license: other
language:
- ja
tags:
- Style-Bert-VITS2
---

# Style-Bert-VITS2向けの事前学習モデル

[Style-Bert-VITS2](https://github.com/litagin02/Style-Bert-VITS2)で使用できる以下の学習データで学習を行ったクリーンな(*1)事前学習データになります

(*1)
ここでいうクリーンは事前学習に使用した学習データが明記されていることを指しています

## 学習データセット
* [つくよみちゃんコーパス│声優統計コーパス(JVSコーパス準拠)](https://tyc.rei-yumesaki.net/material/corpus/) 
* [みんなで作るJSUTコーパスbasic5000 BASIC5000_0001~BASIC5000_0600](https://tyc.rei-yumesaki.net/material/minnade-jsut/) (夢前黎担当部分を許可を得て使用)
* [黄鏡博人さん](https://twitter.com/KikyoHiloto) からボイスデータをご提供いただきました
* [あみたろの声素材工房](https://amitaro.net/)

## 学習パラメータ
* 学習ステップ数 : 600k step
* bfloat16 : false

**config.json**

```json
{
  "model_name": "pretraing",
  "train": {
    "log_interval": 200,
    "eval_interval": 2000,
    "seed": 42,
    "epochs": 2100,
    "learning_rate": 0.0001,
    "betas": [
      0.8,
      0.99
    ],
    "eps": 1e-09,
    "batch_size": 8,
    "bf16_run": false,
    "fp16_run": false,
    "lr_decay": 0.99996,
    "segment_size": 16384,
    "init_lr_ratio": 1,
    "warmup_epochs": 0,
    "c_mel": 45,
    "c_kl": 1.0,
    "c_commit": 100,
    "skip_optimizer": false,
    "freeze_ZH_bert": false,
    "freeze_JP_bert": false,
    "freeze_EN_bert": false,
    "freeze_emo": false,
    "freeze_style": false,
    "freeze_decoder": false
  },
  "data": {
    "use_jp_extra": true,
    "training_files": "Data/pretraing/train.list",
    "validation_files": "Data/pretraing/val.list",
    "max_wav_value": 32768.0,
    "sampling_rate": 44100,
    "filter_length": 2048,
    "hop_length": 512,
    "win_length": 2048,
    "n_mel_channels": 128,
    "mel_fmin": 0.0,
    "mel_fmax": null,
    "add_blank": true,
    "n_speakers": 1,
    "cleaned_text": true,
    "spk2id": {
      "pretraing": 0
    }
  },
  "model": {
    "use_spk_conditioned_encoder": true,
    "use_noise_scaled_mas": true,
    "use_mel_posterior_encoder": false,
    "use_duration_discriminator": false,
    "use_wavlm_discriminator": true,
    "inter_channels": 192,
    "hidden_channels": 192,
    "filter_channels": 768,
    "n_heads": 2,
    "n_layers": 6,
    "kernel_size": 3,
    "p_dropout": 0.1,
    "resblock": "1",
    "resblock_kernel_sizes": [
      3,
      7,
      11
    ],
    "resblock_dilation_sizes": [
      [
        1,
        3,
        5
      ],
      [
        1,
        3,
        5
      ],
      [
        1,
        3,
        5
      ]
    ],
    "upsample_rates": [
      8,
      8,
      2,
      2,
      2
    ],
    "upsample_initial_channel": 512,
    "upsample_kernel_sizes": [
      16,
      16,
      8,
      2,
      2
    ],
    "n_layers_q": 3,
    "use_spectral_norm": false,
    "gin_channels": 512,
    "slm": {
      "model": "./slm/wavlm-base-plus",
      "sr": 16000,
      "hidden": 768,
      "nlayers": 13,
      "initial_channel": 64
    }
  },
  "version": "2.4.1-JP-Extra"
}
```

## SpeechMOSによる自然性評価

mos_pretraing.csvも同封しています

![](mos_pretraing.png)

# ライセンス

ライセンスは、以下に準じます
* [つくよみちゃんコーパス│声優統計コーパス(JVSコーパス準拠)](https://tyc.rei-yumesaki.net/material/corpus/)
* [あみたろの声素材工房(https://amitaro.net/) フリー声素材ご利用規約](https://amitaro.net/voice/faq/#index_id6)