Spaces:

sanchit-gandhi
/

whisper-jax-diarization

Runtime error

App Files Files Community

sanchit-gandhi HF staff commited on Jul 25, 2023

Commit

5247fcf

•

1 Parent(s): fcd9ad1

Update app.py

Browse files

Files changed (1) hide show

app.py +8 -0

app.py CHANGED Viewed

@@ -200,13 +200,16 @@ def transcribe(audio_path, task="transcribe", group_by_speaker=True, progress=gr
     )
     # run diarization while we wait for Whisper JAX
     diarization = diarization_pipeline(audio_path)
     segments = diarization.for_json()["content"]
     # only fetch the transcription result after performing diarization
     transcription, _ = job.result()
     # align the ASR transcriptions and diarization timestamps
     transcription = align(transcription, segments, group_by_speaker=group_by_speaker)
     return transcription
@@ -222,6 +225,7 @@ def transcribe_yt(yt_url, task="transcribe", group_by_speaker=True, progress=gr.
     )
     html_embed_str = _return_yt_html_embed(yt_url)
     with tempfile.TemporaryDirectory() as tmpdirname:
         filepath = os.path.join(tmpdirname, "video.mp4")
         download_yt_audio(yt_url, filepath)
@@ -232,15 +236,19 @@ def transcribe_yt(yt_url, task="transcribe", group_by_speaker=True, progress=gr.
     inputs = torch.from_numpy(inputs).float()
     inputs = inputs.unsqueeze(0)
     diarization = diarization_pipeline(
         {"waveform": inputs, "sample_rate": SAMPLING_RATE},
     )
     segments = diarization.for_json()["content"]
     # only fetch the transcription result after performing diarization
     _, transcription, _ = job.result()
     # align the ASR transcriptions and diarization timestamps
     transcription = align(transcription, segments, group_by_speaker=group_by_speaker)
     return html_embed_str, transcription

     )
     # run diarization while we wait for Whisper JAX
+    progress(0, desc="Diarizing...")
     diarization = diarization_pipeline(audio_path)
     segments = diarization.for_json()["content"]
     # only fetch the transcription result after performing diarization
+    progress(0.33, desc="Transcribing...")
     transcription, _ = job.result()
     # align the ASR transcriptions and diarization timestamps
+    progress(0.66, desc="Aligning...")
     transcription = align(transcription, segments, group_by_speaker=group_by_speaker)
     return transcription
     )
     html_embed_str = _return_yt_html_embed(yt_url)
+    progress(0, desc="Downloading YouTube video...")
     with tempfile.TemporaryDirectory() as tmpdirname:
         filepath = os.path.join(tmpdirname, "video.mp4")
         download_yt_audio(yt_url, filepath)
     inputs = torch.from_numpy(inputs).float()
     inputs = inputs.unsqueeze(0)
+    # run diarization while we wait for Whisper JAX
+    progress(0.25, desc="Diarizing...")
     diarization = diarization_pipeline(
         {"waveform": inputs, "sample_rate": SAMPLING_RATE},
     )
     segments = diarization.for_json()["content"]
     # only fetch the transcription result after performing diarization
+    progress(0.50, desc="Transcribing...")
     _, transcription, _ = job.result()
     # align the ASR transcriptions and diarization timestamps
+    progress(0.75, desc="Aligning...")
     transcription = align(transcription, segments, group_by_speaker=group_by_speaker)
     return html_embed_str, transcription