RinneAi's picture
Update README.md
aef0726 verified
|
raw
history blame
2.66 kB
metadata
license: cc-by-sa-4.0
language:
  - ja
pipeline_tag: text-to-speech

Rinne_Style-Bert-VITS2

image/jpeg

litagin さんの Style-Bert-VITS2 で利用できる Rinne の音声モデルです。

  1. Style-Bert-VITS2 をインストールします。
    • Style-Bert-VITS2 は bat ファイルを実行するだけで、簡単にインストールできます。
  2. Rinne の音声モデルを配置します。
  3. Style-Bert-VITS WebUI の モデル一覧更新Rinne を選んで ロード します。
    テキスト を入力して 音声合成 をすると、文脈に応じた感情付きで音声が生成されます。
    • WebUI が立ち上がっていない場合は、Style-Bert-VITS2 の App.bat を実行してください。

技術情報

  • JVNV コーパス のみ(428音声、約 1 時間)バッチ 3 で 1000 エポック(138,000ステップ) 回し、96,000ステップを採用しています。
    • 他の設定は Style-Bert-VITS2 のデフォルトのままです。
    • ITA コーパスや Mana コーパスを混ぜないほうが、感情表現が豊かに聞こえました。
  • スタイルは Style.bat で良い結果を得られなかったので用意していません。
    • 自動判別では感情別の音声が混じってしまいました。
    • 代表音声は代表をうまく選べませんでした。
      • Style.bat で代表音声ではなく、clustering.ipynb のようにファイル名のプレフィックスからスタイルを設定できると良いのかもしれません。