metadata

license: cc-by-sa-4.0
language:
  - ja
pipeline_tag: text-to-speech

Rinne_Style-Bert-VITS2

litagin さんの Style-Bert-VITS2 で利用できる Rinne の音声モデルです。

Style-Bert-VITS2 をインストールします。
- Style-Bert-VITS2 は bat ファイルを実行するだけで、簡単にインストールできます。
Rinne の音声モデルを配置します。
- Style-Bert-VITS2 インストール先の model_assets/Rinne/ フォルダに config.json, Rinne.safetensors, style_vectors.npy の 3ファイルを置きます。
- 3ファイルを zip でまとめたものはこちらです。
Style-Bert-VITS WebUI の モデル一覧 の 更新 で Rinne を選んで ロード します。
テキスト を入力して 音声合成 をすると、文脈に応じた感情付きで音声が生成されます。
- WebUI が立ち上がっていない場合は、Style-Bert-VITS2 の App.bat を実行してください。

技術情報

JVNV コーパスのみ（428音声、約 1 時間）バッチ 3 で 1000 エポック(138,000ステップ) 回し、96,000ステップを採用しています。
- 他の設定は Style-Bert-VITS2 のデフォルトのままです。
- ITA コーパスや Mana コーパスを混ぜないほうが、感情表現が豊かに聞こえました。
スタイルは Style.bat で良い結果を得られなかったので用意していません。
- 自動判別では感情別の音声が混じってしまいました。
- 代表音声は代表をうまく選べませんでした。
  - Style.bat で代表音声ではなく、clustering.ipynb のようにファイル名のプレフィックスからスタイルを設定できると良いのかもしれません。