Spaces:

aryanxxvii
/

test

Sleeping

Aryan Wadhawan commited on Jul 18, 2023

Commit

a7fd32e

•

1 Parent(s): 1d71412

lotta changes

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,13 +3,13 @@ from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
 import torch
 import phonemizer
 import librosa
 import base64
 def lark(audioAsB64):
-    # convert b64 audio to wav
-    with open("audio.wav", "wb") as preWaveform:
-        preWaveform.write(base64.b64encode(audioAsB64))
     # processing
     processor = Wav2Vec2Processor.from_pretrained(
@@ -18,7 +18,7 @@ def lark(audioAsB64):
     model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-xlsr-53-espeak-cv-ft")
     waveform, sample_rate = librosa.load(
-        "audio.wav", sr=16000
     )  # Downsample 44.1kHz to 8kHz
     input_values = processor(

 import torch
 import phonemizer
 import librosa
+import io
 import base64
 def lark(audioAsB64):
+    # base64 to wav data conversion
+    wav_data = base64.b64decode(audioAsB64.encode("utf-8"))
     # processing
     processor = Wav2Vec2Processor.from_pretrained(
     model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-xlsr-53-espeak-cv-ft")
     waveform, sample_rate = librosa.load(
+        io.BytesIO(wav_data), sr=16000
     )  # Downsample 44.1kHz to 8kHz
     input_values = processor(