Spaces:

Shanuka01
/

Tortoise_TTS

Running

App Files Files Community

Shanuka01 commited on Oct 19, 2023

Commit

048d6c5

1 Parent(s): 138a10c

update the app

Browse files

Files changed (1) hide show

app.py +55 -17

app.py CHANGED Viewed

@@ -3,13 +3,45 @@ import torch
 import gradio as gr
 import torchaudio
 import time
-import numpy as np
 from datetime import datetime
-from tortoise.api import TextToSpeech, MODELS_DIR
 from tortoise.utils.text import split_and_recombine_text
 from tortoise.utils.audio import load_audio, load_voice, load_voices
-VOICE_OPTIONS = []
 def inference(
     text,
@@ -41,21 +73,27 @@ def inference(
     start_time = time.time()
-    gen, dbg_state = tts.tts_with_preset(text=text, k=1, voice_samples=voice_samples, conditioning_latents=conditioning_latents,
-                                  preset='fast', use_deterministic_seed=None, return_deterministic_state=True, cvvp_amount=.0)
-    sep_segment = gen.squeeze(0).squeeze(0).data.cpu().numpy()
-    return 24000, np.round(sep_segment * 32767).astype(np.int16)
 def main():
     title = "Tortoise TTS"
     description = """
     """
-    for root, dirs, files in os.walk("tortoise/voices"):
-        for folder in dirs:
-            VOICE_OPTIONS.append(folder)
     text = gr.Textbox(
         lines=4,
         label="Text (Provide either text, or upload a newline separated text file below):",
@@ -78,7 +116,7 @@ def main():
         value="No",
     )
-    output_audio = gr.Audio(label="streaming audio:", scale=10)
     # download_audio = gr.Audio(label="dowanload audio:")
     interface = gr.Interface(
         fn=inference,
@@ -93,11 +131,11 @@ def main():
         description=description,
         outputs=[output_audio],
     )
-    interface.queue().launch(inbrowser=True)
 if __name__ == "__main__":
-    #tts = TextToSpeech(kv_cache=True, use_deepspeed=False, half=True)
-    tts = TextToSpeech(models_dir=MODELS_DIR, use_deepspeed=False, kv_cache=True, half=True)
     with open("Tortoise_TTS_Runs_Scripts.log", "a") as f:
         f.write(

 import gradio as gr
 import torchaudio
 import time
 from datetime import datetime
+from tortoise.api import TextToSpeech
 from tortoise.utils.text import split_and_recombine_text
 from tortoise.utils.audio import load_audio, load_voice, load_voices
+VOICE_OPTIONS = [
+    "angie",
+    "deniro",
+    "freeman",
+    "halle",
+    "lj",
+    "myself",
+    "pat2",
+    "snakes",
+    "tom",
+    "daws",
+    "dreams",
+    "grace",
+    "lescault",
+    "weaver",
+    "applejack",
+    "daniel",
+    "emma",
+    "geralt",
+    "jlaw",
+    "mol",
+    "pat",
+    "rainbow",
+    "tim_reynolds",
+    "atkins",
+    "dortice",
+    "empire",
+    "kennard",
+    "mouse",
+    "william",
+    "jane_eyre",
+    "random",  # special option for random voice
+]
 def inference(
     text,
     start_time = time.time()
+    # all_parts = []
+    for j, text in enumerate(texts):
+        for audio_frame in tts.tts_with_preset(
+            text,
+            voice_samples=voice_samples,
+            conditioning_latents=conditioning_latents,
+            preset="ultra_fast",
+            k=1
+        ):
+            # print("Time taken: ", time.time() - start_time)
+            # all_parts.append(audio_frame)
+            yield (24000, audio_frame.cpu().detach().numpy())
+    # wav = torch.cat(all_parts, dim=0).unsqueeze(0)
+    # print(wav.shape)
+    # torchaudio.save("output.wav", wav.cpu(), 24000)
+    # yield (None, gr.make_waveform(audio="output.wav",))
 def main():
     title = "Tortoise TTS"
     description = """
     """
     text = gr.Textbox(
         lines=4,
         label="Text (Provide either text, or upload a newline separated text file below):",
         value="No",
     )
+    output_audio = gr.Audio(label="streaming audio:", streaming=True, autoplay=True)
     # download_audio = gr.Audio(label="dowanload audio:")
     interface = gr.Interface(
         fn=inference,
         description=description,
         outputs=[output_audio],
     )
+    interface.queue().launch()
 if __name__ == "__main__":
+    tts = TextToSpeech(kv_cache=True, use_deepspeed=True, half=True)
     with open("Tortoise_TTS_Runs_Scripts.log", "a") as f:
         f.write(