pflowtts_ukr_demo-3

Runtime error

App Files Files Community

Serhiy Stetskovych commited on Jun 16, 2024

Commit

3d2700d

•

1 Parent(s): 9cb2738

New multispeaker model

Browse files

Files changed (31) hide show

.gitattributes +24 -0
app.py +49 -77
pflow/data/text_mel_datamodule.py +7 -2
pflow/models/pflow_tts.py +5 -3
pflow/text/cleaners.py +2 -2
pflow/text/symbols.py +28 -2
pflow/utils/model.py +5 -2
pflow/utils/utils.py +0 -1
prompts/speaker_1.wav +3 -0
prompts/speaker_10.wav +3 -0
prompts/speaker_11.wav +3 -0
prompts/speaker_12.wav +3 -0
prompts/speaker_13.wav +3 -0
prompts/speaker_14.wav +3 -0
prompts/speaker_15.wav +3 -0
prompts/speaker_16.wav +3 -0
prompts/speaker_17.wav +3 -0
prompts/speaker_18.wav +3 -0
prompts/speaker_19.wav +3 -0
prompts/speaker_2.wav +3 -0
prompts/speaker_20.wav +3 -0
prompts/speaker_21.wav +3 -0
prompts/speaker_22.wav +3 -0
prompts/speaker_23.wav +3 -0
prompts/speaker_24.wav +3 -0
prompts/speaker_3.wav +3 -0
prompts/speaker_5.wav +3 -0
prompts/speaker_6.wav +3 -0
prompts/speaker_7.wav +3 -0
prompts/speaker_8.wav +3 -0
prompts/speaker_9.wav +3 -0

.gitattributes CHANGED Viewed

@@ -40,3 +40,27 @@ checkpoint_epoch=599.ckpt filter=lfs diff=lfs merge=lfs -text
 checkpoint_epoch=649.ckpt filter=lfs diff=lfs merge=lfs -text
 g_00140000_m filter=lfs diff=lfs merge=lfs -text
 checkpoints/g_00120000 filter=lfs diff=lfs merge=lfs -text

 checkpoint_epoch=649.ckpt filter=lfs diff=lfs merge=lfs -text
 g_00140000_m filter=lfs diff=lfs merge=lfs -text
 checkpoints/g_00120000 filter=lfs diff=lfs merge=lfs -text
+checkpoints/checkpoint_epoch=100.ckpt filter=lfs diff=lfs merge=lfs -text
+prompts/speaker_16.wav filter=lfs diff=lfs merge=lfs -text
+prompts/speaker_23.wav filter=lfs diff=lfs merge=lfs -text
+prompts/speaker_7.wav filter=lfs diff=lfs merge=lfs -text
+prompts/speaker_22.wav filter=lfs diff=lfs merge=lfs -text
+prompts/speaker_3.wav filter=lfs diff=lfs merge=lfs -text
+prompts/speaker_5.wav filter=lfs diff=lfs merge=lfs -text
+prompts/speaker_9.wav filter=lfs diff=lfs merge=lfs -text
+prompts/speaker_13.wav filter=lfs diff=lfs merge=lfs -text
+prompts/speaker_14.wav filter=lfs diff=lfs merge=lfs -text
+prompts/speaker_15.wav filter=lfs diff=lfs merge=lfs -text
+prompts/speaker_17.wav filter=lfs diff=lfs merge=lfs -text
+prompts/speaker_1.wav filter=lfs diff=lfs merge=lfs -text
+prompts/speaker_12.wav filter=lfs diff=lfs merge=lfs -text
+prompts/speaker_19.wav filter=lfs diff=lfs merge=lfs -text
+prompts/speaker_21.wav filter=lfs diff=lfs merge=lfs -text
+prompts/speaker_20.wav filter=lfs diff=lfs merge=lfs -text
+prompts/speaker_24.wav filter=lfs diff=lfs merge=lfs -text
+prompts/speaker_6.wav filter=lfs diff=lfs merge=lfs -text
+prompts/speaker_8.wav filter=lfs diff=lfs merge=lfs -text
+prompts/speaker_10.wav filter=lfs diff=lfs merge=lfs -text
+prompts/speaker_11.wav filter=lfs diff=lfs merge=lfs -text
+prompts/speaker_18.wav filter=lfs diff=lfs merge=lfs -text
+prompts/speaker_2.wav filter=lfs diff=lfs merge=lfs -text

app.py CHANGED Viewed

@@ -1,49 +1,34 @@
 import os
-from pathlib import Path
 import torchaudio
-import gradio as gr
-import numpy as np
 import torch
-import json
-from hifigan.config import v1
-from hifigan.denoiser import Denoiser
-from hifigan.env import AttrDict
-from hifigan.models import Generator as HiFiGAN
 from pflow.models.pflow_tts import pflowTTS
-from pflow.text import  text_to_sequence, sequence_to_text
 from pflow.utils.utils import intersperse
 from pflow.data.text_mel_datamodule import mel_spectrogram
 from pflow.utils.model import normalize
 from vocos import Vocos
-PFLOW_MODEL_PATH = 'checkpoints/checkpoint_epoch=649.ckpt'
-#PFLOW_MODEL_PATH = 'checkpoint_m_epoch=054.ckpt'
 VOCODER22_MODEL_PATH = 'BSC-LT/vocos-mel-22khz'
 VOCODER44_MODEL_PATH = 'patriotyk/vocos-mel-hifigan-compat-44100khz'
-HIFIGAN_MODEL_PATH = 'checkpoints/g_00120000'
-volnorm = torchaudio.transforms.Vol(gain=-32, gain_type="db")
 prompts_dir = 'prompts'
-print(os.listdir(prompts_dir))
 prompts_list = sorted(os.listdir(prompts_dir), key=lambda x: x.split('.')[0])
-def process_text(text: str, device: torch.device):
     x = torch.tensor(
-        intersperse(text_to_sequence(text, ["ukr_cleaners"]), 0),
         dtype=torch.long,
         device=device,
     )[None]
@@ -53,18 +38,6 @@ def process_text(text: str, device: torch.device):
-def load_hifigan(checkpoint_path, device):
-    h = AttrDict(v1)
-    hifigan = HiFiGAN(h).to(device)
-    hifigan.load_state_dict(torch.load(checkpoint_path, map_location=device)["generator"])
-    _ = hifigan.eval()
-    hifigan.remove_weight_norm()
-    return hifigan
 def load_vocos(checkpoint_path, config_path, device):
     model = Vocos.from_hparams(config_path).to(device)
@@ -75,9 +48,6 @@ def load_vocos(checkpoint_path, config_path, device):
     return model
-def to_waveform(mel, vocoder, denoiser=None):
-    return  vocoder.decode(mel).clamp(-1, 1).cpu().squeeze()
 def get_device():
     if torch.cuda.is_available():
@@ -93,51 +63,54 @@ device = get_device()
 model = pflowTTS.load_from_checkpoint(PFLOW_MODEL_PATH, map_location=device)
 _ = model.eval()
-hifigan = load_hifigan(HIFIGAN_MODEL_PATH, device)
-vocos_22050 = Vocos.from_pretrained(VOCODER22_MODEL_PATH).to(device)
-#vocos_44100 = load_vocos('checkpoints/vocos_checkpoint_epoch=209_step=3924480_val_loss=3.7036_44100_11.ckpt', 'vocos.yaml', device)
 vocos_44100 = Vocos.from_pretrained(VOCODER44_MODEL_PATH).to(device)
-denoiser = None#Denoiser(vocoder, mode="zeros")
 @torch.inference_mode()
-def synthesise(text, prompt_selection, speed):
     if len(text) > 1000:
         raise gr.Error("Текст повинен бути коротшим за 1000 символів.")
-    text_processed = process_text(text.strip(), device)
-    prompt_audio_path = os.path.join(prompts_dir, prompt_selection)
-    wav, sr = torchaudio.load(prompt_audio_path)
-    prompt = mel_spectrogram(volnorm(wav), 1024, 80, 22050, 256, 1024, 0, 8000, center=False)[:,:,:264]
     output = model.synthesise(
         text_processed["x"].to(device),
         text_processed["x_lengths"].to(device),
         n_timesteps=40,
-        temperature=0.0,
         length_scale=1/speed,
         prompt=normalize(prompt, model.mel_mean, model.mel_std).to(device),
-        guidance_scale=2.0
     )
-    waveform_vocos = vocos_22050.decode(output["mel"]).cpu().squeeze()
     waveform_vocos_44100 = vocos_44100.decode(output["mel"]).cpu().squeeze()
-    waveform_hifigan = hifigan(output["mel"]).clamp(-1, 1).cpu().squeeze()
-    transform = torchaudio.transforms.Vol(gain=-18, gain_type="db")
-    return text_processed['x_phones'][1::2], (44100, waveform_vocos_44100.numpy()), (22050, waveform_vocos.numpy()), (22050, transform(waveform_hifigan).numpy())
 description = f'''
-# Експериментальна апка для генерації аудіо з тексту.
-    pflow checkpoint {PFLOW_MODEL_PATH}
-    Vocos 44100 аудіо - {VOCODER44_MODEL_PATH}
-    Vocos 22050 аудіо - {VOCODER22_MODEL_PATH}
-    HIFIGAN 22050 аудіо - {HIFIGAN_MODEL_PATH}
 '''
@@ -147,7 +120,10 @@ if __name__ == "__main__":
         description=description,
         inputs=[
             gr.Text(label='Текст для синтезу:', lines=5, max_lines=10),
-            gr.Dropdown(label="Prompt audio", choices=prompts_list, value=prompts_list[0]),
             gr.Slider(minimum=0.6, maximum=2.0, label="Швидкість", value=1.1)
         ],
         outputs=[
@@ -164,21 +140,17 @@ if __name__ == "__main__":
                         streaming=False,
                         type="numpy",
                     ),
-            gr.Audio(
-                        label="HIFIGAN 22050 аудіо:",
-                        autoplay=False,
-                        streaming=False,
-                        type="numpy",
-                    )
         ],
         allow_flagging ='manual',
-        #flagging_options=[("Якщо дуже погоне аудіо, тисни цю кнопку.", "negative")],
         cache_examples=True,
-        title='',
-        # description=description,
-        # article=article,
-        # examples=examples,
     )
     i.queue(max_size=20, default_concurrency_limit=4)
     i.launch(share=False, server_name="0.0.0.0")

 import os
 import torchaudio
 import torch
+import gradio as gr
 from pflow.models.pflow_tts import pflowTTS
+from pflow.text import  text_to_sequence, sequence_to_text, cleaned_text_to_sequence
 from pflow.utils.utils import intersperse
 from pflow.data.text_mel_datamodule import mel_spectrogram
 from pflow.utils.model import normalize
 from vocos import Vocos
+PFLOW_MODEL_PATH = 'checkpoints/checkpoint_epoch=100.ckpt'
 VOCODER22_MODEL_PATH = 'BSC-LT/vocos-mel-22khz'
 VOCODER44_MODEL_PATH = 'patriotyk/vocos-mel-hifigan-compat-44100khz'
+volnorm = torchaudio.transforms.Vol(gain=-15, gain_type="db")
 prompts_dir = 'prompts'
 prompts_list = sorted(os.listdir(prompts_dir), key=lambda x: x.split('.')[0])
+def process_text(text: str, device: torch.device, ipa=False):
+    if ipa:
+        seq = cleaned_text_to_sequence(text)
+    else:
+        seq = text_to_sequence(text, ["ukr_cleaners"])
     x = torch.tensor(
+        intersperse(seq, 0),
         dtype=torch.long,
         device=device,
     )[None]
 def load_vocos(checkpoint_path, config_path, device):
     model = Vocos.from_hparams(config_path).to(device)
     return model
 def get_device():
     if torch.cuda.is_available():
 model = pflowTTS.load_from_checkpoint(PFLOW_MODEL_PATH, map_location=device)
 _ = model.eval()
 vocos_44100 = Vocos.from_pretrained(VOCODER44_MODEL_PATH).to(device)
+vocos_22050 = Vocos.from_pretrained(VOCODER22_MODEL_PATH).to(device)
 @torch.inference_mode()
+def synthesise(text, ipa, prompt_selection, audio_prompt, temperature, speed):
+    print(text, prompt_selection, temperature, speed)
     if len(text) > 1000:
         raise gr.Error("Текст повинен бути коротшим за 1000 символів.")
+    if audio_prompt:
+        wav, sr = torchaudio.load(audio_prompt)
+        wav = torchaudio.functional.resample(wav, orig_freq=sr, new_freq=44100)
+    else:
+        prompt_audio_path = os.path.join(prompts_dir, prompt_selection)
+        wav, _ = torchaudio.load(prompt_audio_path)
+    if ipa:
+        text_processed = process_text(ipa, device, ipa=True)
+    else:
+        text_processed = process_text(text.strip(), device, ipa=False)
+    prompt = mel_spectrogram(volnorm(wav), 2048, 80, 44100, 512, 2048, 0, 8000, center=False)[:,:,:264]
     output = model.synthesise(
         text_processed["x"].to(device),
         text_processed["x_lengths"].to(device),
         n_timesteps=40,
+        temperature=temperature,
         length_scale=1/speed,
         prompt=normalize(prompt, model.mel_mean, model.mel_std).to(device),
+        guidance_scale=1.8
     )
     waveform_vocos_44100 = vocos_44100.decode(output["mel"]).cpu().squeeze()
+    waveform_vocos = vocos_22050.decode(output["mel"]).cpu().squeeze()
+    return text_processed['x_phones'][1::2], (44100, waveform_vocos_44100.numpy()), (22050, waveform_vocos.numpy())
 description = f'''
+Модель натренована на приватному датасеті з аудіо книжок створненому за допомогою програми
+[narizaka](https://github.com/patriotyk/narizaka).
+Програма може не коректно визначати деякі наголоси і не дуже добре перетворює цифри, акроніми і різні скорочення в словесну форму.
+На даний момент, відкритого рішення для української мови для цих проблем нема, тому якщо у вас є запитання,
+чи ви хочете допомогти їх вирішити приєднуйтесь до нашого чату в [телеграм](https://t.me/speech_synthesis_uk) або [discord](https://discord.gg/yVAjkBgmt4)
 '''
         description=description,
         inputs=[
             gr.Text(label='Текст для синтезу:', lines=5, max_lines=10),
+            gr.Text(label='Aбо IPA:', lines=5, max_lines=10),
+            gr.Dropdown(label="Виберіть промт", choices=prompts_list, value=prompts_list[0]),
+            gr.Audio(label="Або завантажте свій:", interactive=True, type='filepath', max_length=300, waveform_options={'waveform_progress_color': '#3C82F6'}),
+            gr.Slider(minimum=0.0, maximum=1.0, label="Шум", value=0.7),
             gr.Slider(minimum=0.6, maximum=2.0, label="Швидкість", value=1.1)
         ],
         outputs=[
                         streaming=False,
                         type="numpy",
                     ),
         ],
         allow_flagging ='manual',
         cache_examples=True,
+        title='Генерація української мови за допомогою pflowtts.',
+        examples=[
+            ['Мені тринадцятий минало. Я пас ягнята за селом. Чи то так сонечко сіяло, Чи так мені чого було? Мені так любо, любо стало, Неначе в бога. Уже прокликали до паю, А я собі у бур\'яні Молюся богу І не знаю, Чого маленькому мені Тоді так приязно молилось, Чого так весело було?', "meˈnʲi trɪˈnad͡zʲt͡sʲɐtɪi̯ mɪˈnaɫɔ. jɐ pɐs jɐɦˈnʲatɐ zɐ seˈɫɔm. t͡ʃɪ tɔ tɐk ˈsɔnet͡ʃkɔ sʲiˈjɐɫɔ, t͡ʃɪ tɐk meˈnʲi t͡ʃɔˈɦɔ bʊˈɫɔ? meˈnʲi tɐk ˈlʲubɔ, ˈlʲubɔ ˈstaɫɔ, neˈnat͡ʃe ʋ ˈbɔɦɐ.  ʊˈʒɛ prɔkɫɪkɐɫɪ dɔ ˈpajʊ, ɐ jɐ soˈbʲi ʊ bur-jɐˈnʲi moˈlʲusʲɐ ˈbɔɦʊ i ne ˈznajʊ, t͡ʃɔˈɦɔ mɐˈɫɛnʲkɔmʊ meˈnʲi toˈdʲi tɐk ˈprɪjɐznɔ mɔˈɫɪɫɔsʲ, t͡ʃɔˈɦɔ tɐk ˈʋɛseɫɔ bʊˈɫɔ?", '', 'prompts/speaker_22.wav', 0.6, 1.1],
+            ['Ти, малий, скажи малому, хай малий малому скаже, хай малий теля прив\'яже.', '',  '', 'prompts/speaker_11.wav', 0.4, 1.1 ],
+            ['По мірі розвитку клубу зростатиме і кількість його членів, а отже, команда менеджменту теж буде пропорційно збільшуватись. Яка ж команда потрібна клубу, що налічує, скажімо, сто осіб, і які компетенції повинна мати?', '',  '', 'prompts/speaker_20.wav', 0.7, 1.1],
+            ['Да ти дєтка гоніш! один рік? І що? Як ви задрали нити, рік вона не може, в когось діти мруть в день народження, викидні, а вона, бляха, рік не може, купи собі рожеве поні і реви побільше, дурепа.', 'dɐ tɪ dʲetkɐ ɦ��nʲiʃ! ɔˈdɪn rʲik? i ʃt͡ʃɔ? jɐk ʋɪ zɐˈdraɫɪ ˈnɪtɪ, rʲik wɔˈna ne ˈmɔʒe, ʋ kɔɦɔsʲ ˈdʲitɪ mrʊtʲ ʋ denʲ nɐˈrɔd͡ʒenʲːɐ, ˈʋɪkɪdʲnʲi, ɐ wɔˈna, ˈblʲaxɐ, rʲik ne ˈmɔʒe, kʊpɪ soˈbʲi rɔˈʒɛʋe ˈpɔnʲi i reʋɪ poˈbʲilʲʃe, dʊˈrɛpɐ.', '', 'prompts/speaker_5.wav', 0.7, 1.2]
+        ],
     )
     i.queue(max_size=20, default_concurrency_limit=4)
     i.launch(share=False, server_name="0.0.0.0")

pflow/data/text_mel_datamodule.py CHANGED Viewed

@@ -39,6 +39,7 @@ class TextMelDataModule(LightningDataModule):
         f_max,
         data_statistics,
         seed,
     ):
         super().__init__()
@@ -68,6 +69,7 @@ class TextMelDataModule(LightningDataModule):
             self.hparams.f_max,
             self.hparams.data_statistics,
             self.hparams.seed,
         )
         self.validset = TextMelDataset(  # pylint: disable=attribute-defined-outside-init
             self.hparams.valid_filelist_path,
@@ -83,6 +85,7 @@ class TextMelDataModule(LightningDataModule):
             self.hparams.f_max,
             self.hparams.data_statistics,
             self.hparams.seed,
         )
     def train_dataloader(self):
@@ -134,6 +137,7 @@ class TextMelDataset(torch.utils.data.Dataset):
         f_max=8000,
         data_parameters=None,
         seed=None,
     ):
         self.filepaths_and_text = parse_filelist(filelist_path)
         self.n_spks = n_spks
@@ -146,6 +150,7 @@ class TextMelDataset(torch.utils.data.Dataset):
         self.win_length = win_length
         self.f_min = f_min
         self.f_max = f_max
         if data_parameters is not None:
             self.data_parameters = data_parameters
         else:
@@ -196,9 +201,9 @@ class TextMelDataset(torch.utils.data.Dataset):
     def __getitem__(self, index):
         datapoint = self.get_datapoint(self.filepaths_and_text[index])
-        if datapoint["wav"].shape[1] <= 66150:
             '''
-            skip datapoint if too short (3s)
             TODO To not waste data, we can concatenate wavs less than 3s and use them
             TODO as a hyperparameter; multispeaker dataset can use another wav of same speaker
             '''

         f_max,
         data_statistics,
         seed,
+        min_sample_size,
     ):
         super().__init__()
             self.hparams.f_max,
             self.hparams.data_statistics,
             self.hparams.seed,
+            self.hparams.min_sample_size,
         )
         self.validset = TextMelDataset(  # pylint: disable=attribute-defined-outside-init
             self.hparams.valid_filelist_path,
             self.hparams.f_max,
             self.hparams.data_statistics,
             self.hparams.seed,
+            self.hparams.min_sample_size,
         )
     def train_dataloader(self):
         f_max=8000,
         data_parameters=None,
         seed=None,
+        min_sample_size=4,
     ):
         self.filepaths_and_text = parse_filelist(filelist_path)
         self.n_spks = n_spks
         self.win_length = win_length
         self.f_min = f_min
         self.f_max = f_max
+        self.min_sample_size = min_sample_size
         if data_parameters is not None:
             self.data_parameters = data_parameters
         else:
     def __getitem__(self, index):
         datapoint = self.get_datapoint(self.filepaths_and_text[index])
+        if datapoint["wav"].shape[1] <= self.min_sample_size * self.sample_rate:
             '''
+            skip datapoint if too short (<4s , prompt is 3s)
             TODO To not waste data, we can concatenate wavs less than 3s and use them
             TODO as a hyperparameter; multispeaker dataset can use another wav of same speaker
             '''

pflow/models/pflow_tts.py CHANGED Viewed

@@ -5,7 +5,7 @@ import random
 import torch
 import torch.nn.functional as F
 from pflow.models.baselightningmodule import BaseLightningClass
 from pflow.models.components.flow_matching import CFM
 from pflow.models.components.speech_prompt_encoder import TextEncoder
@@ -19,7 +19,7 @@ from pflow.utils.model import (
 from pflow.models.components import commons
 from pflow.models.components.aligner import Aligner, ForwardSumLoss, BinLoss
 class pflowTTS(BaseLightningClass):  #
     def __init__(
@@ -31,6 +31,7 @@ class pflowTTS(BaseLightningClass):  #
         cfm,
         data_statistics,
         prompt_size=264,
         optimizer=None,
         scheduler=None,
         **kwargs,
@@ -42,6 +43,7 @@ class pflowTTS(BaseLightningClass):  #
         self.n_vocab = n_vocab
         self.n_feats = n_feats
         self.prompt_size = prompt_size
         speech_in_channels = n_feats
         self.encoder = TextEncoder(
@@ -151,7 +153,7 @@ class pflowTTS(BaseLightningClass):  #
             )
         logw_ = torch.log(1e-8 + attn.sum(2)) * x_mask
-        dur_loss = duration_loss(logw, logw_, x_lengths)
         # aln_hard, aln_soft, aln_log, aln_mask = self.aligner(
         #     mu_x.transpose(1,2), x_mask, y, y_mask

 import torch
 import torch.nn.functional as F
+from pflow import utils
 from pflow.models.baselightningmodule import BaseLightningClass
 from pflow.models.components.flow_matching import CFM
 from pflow.models.components.speech_prompt_encoder import TextEncoder
 from pflow.models.components import commons
 from pflow.models.components.aligner import Aligner, ForwardSumLoss, BinLoss
+log = utils.get_pylogger(__name__)
 class pflowTTS(BaseLightningClass):  #
     def __init__(
         cfm,
         data_statistics,
         prompt_size=264,
+        dur_p_use_log=False,
         optimizer=None,
         scheduler=None,
         **kwargs,
         self.n_vocab = n_vocab
         self.n_feats = n_feats
         self.prompt_size = prompt_size
+        self.dur_p_use_log = dur_p_use_log
         speech_in_channels = n_feats
         self.encoder = TextEncoder(
             )
         logw_ = torch.log(1e-8 + attn.sum(2)) * x_mask
+        dur_loss = duration_loss(logw, logw_, x_lengths, use_log=self.dur_p_use_log)
         # aln_hard, aln_soft, aln_log, aln_mask = self.aligner(
         #     mu_x.transpose(1,2), x_mask, y, y_mask

pflow/text/cleaners.py CHANGED Viewed

@@ -3,7 +3,7 @@ from ukrainian_word_stress import Stressifier
 import regex
 import re
 from ipa_uk import ipa
-stressify = Stressifier()
 _whitespace_re = re.compile(r"\s+")
@@ -15,5 +15,5 @@ def ukr_cleaners(text):
     text = collapse_whitespace(text)
     text = norm(text).lower()
-    text = regex.sub(r'[^\p{L}\p{N}\?\!\,\.\-\: ]', '', text)
     return ipa(stressify(text), False)

 import regex
 import re
 from ipa_uk import ipa
+stressify = Stressifier(stress_symbol="ˈ")
 _whitespace_re = re.compile(r"\s+")
     text = collapse_whitespace(text)
     text = norm(text).lower()
+    text = regex.sub(r'[^\ˈ\p{L}\p{N}\?\!\,\.\-\: ]', '', text)
     return ipa(stressify(text), False)

pflow/text/symbols.py CHANGED Viewed

@@ -2,14 +2,40 @@
 Defines the set of symbols used in text input to the model.
 """
 _pad = "_"
 _punctuation = '-´;:,.!?¡¿—…"«»“” '
 _letters = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz"
 _letters_ipa = (
-    "éýíó'̯'͡ɑɐɒæɓʙβɔɕçɗɖðʤəɘɚɛɜɝɞɟʄɡɠɢʛɦɧħɥʜɨɪʝɭɬɫɮʟɱɯɰŋɳɲɴøɵɸθœɶʘɹɺɾɻʀʁɽʂʃʈʧʉʊʋⱱʌɣɤʍχʎʏʑʐʒʔʡʕʢǀǁǂǃˈˌːˑʼʴʰʱʲʷˠˤ˞↓↑→↗↘'̩'ᵻ"
 )
 # Export all symbols:
 symbols = [_pad] + list(_punctuation) + list(_letters) + list(_letters_ipa)

 Defines the set of symbols used in text input to the model.
 """
+# _pad = "_"
+# _punctuation = '-´;:,.!?¡¿—…"«»“” '
+# _letters = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz"
+# _letters_ipa = (
+#     "éýíó'̯'͡ɑɐɒæɓʙβɔɕçɗɖðʤəɘɚɛɜɝɞɟʄɡɠɢʛɦɧħɥʜɨɪʝɭɬɫɮʟɱɯɰŋɳɲɴøɵɸθœɶʘɹɺɾɻʀʁɽʂʃʈʧʉʊʋⱱʌɣɤʍχʎʏʑʐʒʔʡʕʢǀǁǂǃˈˌːˑʼʴʰʱʲʷˠˤ˞↓↑→↗↘'̩'ᵻ"
+# )
+# # Export all symbols:
+# symbols = [_pad] + list(_punctuation) + list(_letters) + list(_letters_ipa)
+# # Special symbol ids
+# SPACE_ID = symbols.index(" ")
+# _pad = "_"
+# _punctuation = '()-;:,.!?¡¿—…"«»“” '
+# _letters = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyzАБВГҐДЕЄЖЗИІЇЙКЛМНОПРСТУФХЦЧШЩЬЮЯабвгґдеєжзиіїйклмнопрстуфхцчшщьюя"
+# _letters_ipa = (
+#     "ɑɐɒæɓʙβɔɕçɗɖðʤəɘɚɛɜɝɞɟʄɡɠɢʛɦɧħɥʜɨɪʝɭɬɫɮʟɱɯɰŋɳɲɴøɵɸθœɶʘɹɺɾɻʀʁɽʂʃʈʧʉʊʋⱱʌɣɤʍχʎʏʑʐʒʔʡʕʢǀǁǂǃˈˌːˑʼʴʰʱʲʷˠˤ˞↓↑→↗↘'̩'ᵻ̯͡"
+# )
+# # Export all symbols:
+# symbols = [_pad] + list(_punctuation) + list(_letters) + list(_letters_ipa)
+# # Special symbol ids
+# SPACE_ID = symbols.index(" ")
 _pad = "_"
 _punctuation = '-´;:,.!?¡¿—…"«»“” '
 _letters = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz"
 _letters_ipa = (
+    "éýíó'̯'͡ɑɐɒæɓʙβɔɕçɗɖðʤəɘɚɛɜɝɞɟʄɡɠɢʛɦɧħɥʜɨɪʝɭɬɫɮʟɱɯɰŋɳɲɴøɵɸθœɶʘɹɺɾɻʀʁɽʂʃʈʧʉʊʋⱱʌɣɤʍχʎʏʑʐʒʔʡʕʢǀǁǂǃˈˌːˑʼʴʰʱʲ'̩'ᵻ"
 )
 # Export all symbols:
 symbols = [_pad] + list(_punctuation) + list(_letters) + list(_letters_ipa)

pflow/utils/model.py CHANGED Viewed

@@ -41,8 +41,11 @@ def generate_path(duration, mask):
     return path
-def duration_loss(logw, logw_, lengths):
-    loss = torch.sum((logw - logw_) ** 2) / torch.sum(lengths)
     return loss

     return path
+def duration_loss(logw, logw_, lengths, use_log=False):
+    if use_log:
+        loss = torch.sum((logw - logw_) ** 2) / torch.sum(lengths)
+    else:
+        loss = torch.sum((torch.exp(logw) - torch.exp(logw_)) ** 2) / torch.sum(lengths)
     return loss

pflow/utils/utils.py CHANGED Viewed

@@ -206,7 +206,6 @@ def get_user_data_dir(appname="pflow_tts"):
 def assert_model_downloaded(checkpoint_path, url, use_wget=False):
-    print(checkpoint_path)
     if Path(checkpoint_path).exists():
         log.debug(f"[+] Model already present at {checkpoint_path}!")
         return

 def assert_model_downloaded(checkpoint_path, url, use_wget=False):
     if Path(checkpoint_path).exists():
         log.debug(f"[+] Model already present at {checkpoint_path}!")
         return

prompts/speaker_1.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e0dd649f417994c06fa40481eb41f7356eeb401881f567668c4526dd58567e10
+size 344026

prompts/speaker_10.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:686e88155eef9caac215f4a538be47656d4b992a3ae59f33e026b6f547bef1e8
+size 379046

prompts/speaker_11.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d86982b3e7dba7704088f8459e90c8aacfb9b27a011372c05746c3b906aa88fb
+size 396946

prompts/speaker_12.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1521a2400b70de8ab89dd7083ea7b2d69547dfa0fd44ba98d42c1c16ba959438
+size 458686

prompts/speaker_13.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e2ce78bb8e505ad6687139c3fb6ff8ca0d649a139d65e58c0cbfff1b9095efc7
+size 458426

prompts/speaker_14.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:397b9e44669ead0f6baac314ad2f0b32218db9054b20a9c371474b5d49525ef9
+size 480736

prompts/speaker_15.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d614a13acf2f999a715194c3efb4f74a30f33b98823e6bf693bf26bf79d6f653
+size 573086

prompts/speaker_16.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c90db783c7be686c70d1b2d15400f414bc6ede6f59952b9a1b5c6bb1a96a16c7
+size 511346

prompts/speaker_17.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d2ce2df72aa34de17f0e833c903a561e650b35d3b03b142c0bd6d0f1d7d4d4e2
+size 635086

prompts/speaker_18.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f0212146531c97752dbdf5615950298518748e655c9cf0d8f07f57e571eaf9a
+size 445198

prompts/speaker_19.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b6e3e9226de668b70ab0c61e79b9ab42f3a5fb933fe874565b0a6daea1f0e570
+size 427556

prompts/speaker_2.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:22b38f05add585086e84aa5b1ad5cc60902e97d911c7f5c25efa9907e3a3bd32
+size 674514

prompts/speaker_20.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b27c473712a82d638acfba3a1ea54bde3f0efefe111452101f3798c3aaa46f05
+size 485146

prompts/speaker_21.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f24e374c7ffcc4a2ceee696d6ee21996300997bf56a437212455780d2feab34
+size 379046

prompts/speaker_22.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3ad69e9dd8c7c4886319730811920c0e4f56f486203b4ef76acab9f145cd9168
+size 1300738

prompts/speaker_23.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e97404bfd2b086ccb387ec5dff7ab5285dcb68ff789be361b03b0f368425ccf1
+size 1243406

prompts/speaker_24.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a8dbbf87ac7a9c229ef8ab0cdc446c1e2408eeb7c0dab56784c221313fe2ffb7
+size 626266

prompts/speaker_3.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aef97ae48b0aac98ac3b3eb01494546d3a39fa1d864361efb01878f21b933fc7
+size 582166

prompts/speaker_5.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a2430689318110e4730db7d9f83ad404535a1ac6c632b59483c0693d4804b6f9
+size 418738

prompts/speaker_6.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc9155a46c023af54cd0c1154a2d7fbc0a9f91d7aa1a43fef44d8726439d7c77
+size 388126

prompts/speaker_7.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db46d1910a8fe98d6d8e9b8cb680d732a1800cd8241eb7aa7690d30a2d46931d
+size 462836

prompts/speaker_8.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2895ab68d8d8093a3b51aac1202b0eb68e2d97082f399a09332ccd8df31377e0
+size 418736

prompts/speaker_9.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:52555d2474f8d67237e11ef4c329c89388743a826767fb8a9431c196c2a5a021
+size 551036