metadata
license: cc-by-sa-4.0
language:
- ja
pipeline_tag: text-to-speech
Rinne_Style-Bert-VITS2
litagin さんの Style-Bert-VITS2 で利用できる Rinne の音声モデルです。
- Style-Bert-VITS2 をインストールします。
- Style-Bert-VITS2 は bat ファイルを実行するだけで、簡単にインストールできます。
- Rinne の音声モデルを配置します。
- Style-Bert-VITS2 インストール先の
model_assets/Rinne/
フォルダにconfig.json
,Rinne.safetensors
,style_vectors.npy
の 3ファイルを置きます。 - 3ファイルを zip でまとめたものは こちら です。
- Style-Bert-VITS2 インストール先の
- Style-Bert-VITS WebUI の
モデル一覧
の更新
でRinne
を選んでロード
します。テキスト
を入力して音声合成
をすると、文脈に応じた感情付きで音声が生成されます。- WebUI が立ち上がっていない場合は、Style-Bert-VITS2 の
App.bat
を実行してください。
- WebUI が立ち上がっていない場合は、Style-Bert-VITS2 の
技術情報
- JVNV コーパス のみ(428音声、約 1 時間)バッチ 3 で 1000 エポック(138,000ステップ) 回し、96,000ステップを採用しています。
- 他の設定は Style-Bert-VITS2 のデフォルトのままです。
- ITA コーパスや Mana コーパスを混ぜないほうが、感情表現が豊かに聞こえました。
- スタイルは
Style.bat
で良い結果を得られなかったので用意していません。- 自動判別では感情別の音声が混じってしまいました。
- 代表音声は代表をうまく選べませんでした。
Style.bat
で代表音声ではなく、clustering.ipynb
のようにファイル名のプレフィックスからスタイルを設定できると良いのかもしれません。