pflowtts_ukr_demo-3

Runtime error

App Files Files Community

Serhiy Stetskovych commited on May 14, 2024

Commit

9cb2738

•

1 Parent(s): 5db46b8

Add list of prompts

Browse files

Files changed (2) hide show

app.py +11 -28
prompt22050.wav +0 -0

app.py CHANGED Viewed

@@ -1,4 +1,4 @@
 from pathlib import Path
 import torchaudio
 import gradio as gr
@@ -34,23 +34,12 @@ VOCODER44_MODEL_PATH = 'patriotyk/vocos-mel-hifigan-compat-44100khz'
 HIFIGAN_MODEL_PATH = 'checkpoints/g_00120000'
-transform = torchaudio.transforms.Vol(gain=-32, gain_type="db")
-wav, sr = torchaudio.load('prompt22050.wav')
-prompt = mel_spectrogram(
-            transform(wav),
-            1024,
-            80,
-            22050,
-            256,
-            1024,
-            0,
-            8000,
-            center=False,
-        )[:,:,:264]
 def process_text(text: str, device: torch.device):
     x = torch.tensor(
@@ -89,16 +78,6 @@ def load_vocos(checkpoint_path, config_path, device):
 def to_waveform(mel, vocoder, denoiser=None):
     return  vocoder.decode(mel).clamp(-1, 1).cpu().squeeze()
-    # audio = vocoder(mel).clamp(-1, 1)
-    # if denoiser is not None:
-    #     audio = denoiser(audio.squeeze(), strength=0.00025).cpu().squeeze()
-    # return audio.cpu().squeeze()
 def get_device():
     if torch.cuda.is_available():
@@ -123,11 +102,14 @@ denoiser = None#Denoiser(vocoder, mode="zeros")
 @torch.inference_mode()
-def synthesise(text, speed):
     if len(text) > 1000:
         raise gr.Error("Текст повинен бути коротшим за 1000 символів.")
     text_processed = process_text(text.strip(), device)
     output = model.synthesise(
         text_processed["x"].to(device),
@@ -165,7 +147,8 @@ if __name__ == "__main__":
         description=description,
         inputs=[
             gr.Text(label='Текст для синтезу:', lines=5, max_lines=10),
-            gr.Slider(minimum=0.6, maximum=2.0, label="Швидкість", value=1.0)
         ],
         outputs=[
             gr.Text(label='Фонемізований текст:', lines=5),

+import os
 from pathlib import Path
 import torchaudio
 import gradio as gr
 HIFIGAN_MODEL_PATH = 'checkpoints/g_00120000'
+volnorm = torchaudio.transforms.Vol(gain=-32, gain_type="db")
+prompts_dir = 'prompts'
+print(os.listdir(prompts_dir))
+prompts_list = sorted(os.listdir(prompts_dir), key=lambda x: x.split('.')[0])
 def process_text(text: str, device: torch.device):
     x = torch.tensor(
 def to_waveform(mel, vocoder, denoiser=None):
     return  vocoder.decode(mel).clamp(-1, 1).cpu().squeeze()
 def get_device():
     if torch.cuda.is_available():
 @torch.inference_mode()
+def synthesise(text, prompt_selection, speed):
     if len(text) > 1000:
         raise gr.Error("Текст повинен бути коротшим за 1000 символів.")
     text_processed = process_text(text.strip(), device)
+    prompt_audio_path = os.path.join(prompts_dir, prompt_selection)
+    wav, sr = torchaudio.load(prompt_audio_path)
+    prompt = mel_spectrogram(volnorm(wav), 1024, 80, 22050, 256, 1024, 0, 8000, center=False)[:,:,:264]
     output = model.synthesise(
         text_processed["x"].to(device),
         description=description,
         inputs=[
             gr.Text(label='Текст для синтезу:', lines=5, max_lines=10),
+            gr.Dropdown(label="Prompt audio", choices=prompts_list, value=prompts_list[0]),
+            gr.Slider(minimum=0.6, maximum=2.0, label="Швидкість", value=1.1)
         ],
         outputs=[
             gr.Text(label='Фонемізований текст:', lines=5),

prompt22050.wav DELETED Viewed

Binary file (655 kB)