Spaces:

Pendrokar
/

xVASynth-TTS

Running on CPU Upgrade

App Files Files Community

Pendrokar commited on Feb 28

Commit

fd48aa5

•

1 Parent(s): a485023

voice reorder & emojis; flag switch to nation with most speakers

Browse files

Files changed (1) hide show

app.py +15 -13

app.py CHANGED Viewed

@@ -19,29 +19,31 @@ latest_commit_sha = commits[0].commit_id
 hf_cache_models_path = f'/home/user/.cache/huggingface/hub/models--Pendrokar--xvapitch_nvidia/snapshots/{latest_commit_sha}/'
 models_path = hf_cache_models_path
 voice_models = [
-	("Male #6671", "ccby_nvidia_hifi_6671_M"),
-	("Male #6670", "ccby_nvidia_hifi_6670_M"),
 	("Male #9017", "ccby_nvidia_hifi_9017_M"),
 	("Male #6097", "ccby_nvidia_hifi_6097_M"),
-	("Female #92", "ccby_nvidia_hifi_92_F"),
-	("Female #11697", "ccby_nvidia_hifi_11697_F"),
-	("Female #12787", "ccby_nvidia_hifi_12787_F"),
-	("Female #11614", "ccby_nv_hifi_11614_F"),
 	("Female #8051", "ccby_nvidia_hifi_8051_F"),
 	("Female #9136", "ccby_nvidia_hifi_9136_F"),
 ]
 current_voice_model = None
 base_speaker_emb = ''
 # order ranked by similarity to English due to the xVASynth's use of ARPAbet instead of IPA
 languages = [
-	("🇬🇧 EN", "en"),
 	("🇩🇪 DE", "de"),
 	("🇪🇸 ES", "es"),
 	("🇮🇹 IT", "it"),
 	("🇳🇱 NL", "nl"),
-	("🇵🇹 PT", "pt"),
 	("🇵🇱 PL", "pl"),
 	("🇷🇴 RO", "ro"),
 	("🇸🇪 SV", "sv"),
@@ -51,7 +53,7 @@ languages = [
 	("🇬🇷 EL", "el"),
 	("🇫🇷 FR", "fr"),
 	("🇷🇺 RU", "ru"),
-	("🇺🇦 UK", "uk"),
 	("🇹🇷 TR", "tr"),
 	("🇸🇦 AR", "ar"),
 	("🇮🇳 HI", "hi"),
@@ -60,10 +62,10 @@ languages = [
 	("🇨🇳 ZH", "zh"),
 	("🇻🇳 VI", "vi"),
 	("🇻🇦 LA", "la"),
-	("HA", "ha"),
-	("SW", "sw"),
 	("🇳🇬 YO", "yo"),
-	("WO", "wo"),
 ]
 # Translated from English by DeepMind's Gemini Pro
@@ -89,7 +91,7 @@ default_text = {
 	"ro": "Așa sună vocea mea.",
 	"ru": "Вот как звучит мой голос.",
 	"sv": "Såhär låter min röst.",
-	"sw": "Sauti yangu inasikika hivi.",
 	"tr": "Benim sesimin sesi böyle.",
 	"uk": "Ось як звучить мій голос.",
 	"vi": "Đây là giọng nói của tôi.",

 hf_cache_models_path = f'/home/user/.cache/huggingface/hub/models--Pendrokar--xvapitch_nvidia/snapshots/{latest_commit_sha}/'
 models_path = hf_cache_models_path
+# ordered from most emotional and respects pauses to ones that do the least
 voice_models = [
+	("👨‍🦳 #6671", "ccby_nvidia_hifi_6671_M"),
+	("👱‍♀️ 🇬🇧 #92", "ccby_nvidia_hifi_92_F"),
+	("🧔 #6670", "ccby_nvidia_hifi_6670_M"),
 	("Male #9017", "ccby_nvidia_hifi_9017_M"),
 	("Male #6097", "ccby_nvidia_hifi_6097_M"),
+	("👩‍🦱 #12787", "ccby_nvidia_hifi_12787_F"),
+	("👵 #11614", "ccby_nv_hifi_11614_F"),
 	("Female #8051", "ccby_nvidia_hifi_8051_F"),
+	("👩‍🦳 #11697", "ccby_nvidia_hifi_11697_F"),
 	("Female #9136", "ccby_nvidia_hifi_9136_F"),
 ]
 current_voice_model = None
 base_speaker_emb = ''
 # order ranked by similarity to English due to the xVASynth's use of ARPAbet instead of IPA
 languages = [
+	("🇺🇸 EN", "en"),
 	("🇩🇪 DE", "de"),
 	("🇪🇸 ES", "es"),
 	("🇮🇹 IT", "it"),
 	("🇳🇱 NL", "nl"),
+	("🇧🇷 PT", "pt"),
 	("🇵🇱 PL", "pl"),
 	("🇷🇴 RO", "ro"),
 	("🇸🇪 SV", "sv"),
 	("🇬🇷 EL", "el"),
 	("🇫🇷 FR", "fr"),
 	("🇷🇺 RU", "ru"),
+	("🇺🇦 UA", "uk"),
 	("🇹🇷 TR", "tr"),
 	("🇸🇦 AR", "ar"),
 	("🇮🇳 HI", "hi"),
 	("🇨🇳 ZH", "zh"),
 	("🇻🇳 VI", "vi"),
 	("🇻🇦 LA", "la"),
 	("🇳🇬 YO", "yo"),
+	("Swahili", "sw"),
+	("Hausa", "ha"),
+	("Wolof", "wo"),
 ]
 # Translated from English by DeepMind's Gemini Pro
 	"ro": "Așa sună vocea mea.",
 	"ru": "Вот как звучит мой голос.",
 	"sv": "Såhär låter min röst.",
+	"sw": "Baba, yetu, yetu, uliye. Mbinguni, yetu, yetu. Amiiinaa!!", #civ4
 	"tr": "Benim sesimin sesi böyle.",
 	"uk": "Ось як звучить мій голос.",
 	"vi": "Đây là giọng nói của tôi.",