Spaces:

distil-whisper
/

hallucination-analysis

Running

App Files Files Community

sanchit-gandhi HF staff commited on Oct 6, 2023

Commit

3155f54

•

1 Parent(s): e676bd8

single tab

Browse files

Files changed (1) hide show

app.py +47 -77

app.py CHANGED Viewed

@@ -1,5 +1,4 @@
 import os
-from functools import partial
 import numpy as np
 import unicodedata
@@ -64,30 +63,40 @@ target_dtype = np.int16
 max_range = np.iinfo(target_dtype).max
-def get_visualisation(idx, model="v2"):
     idx -= 1
     audio = dataset[idx]["audio"]
     array = (audio["array"] * max_range).astype(np.int16)
     sampling_rate = audio["sampling_rate"]
     text1 = norm_target[idx]
-    text2 = norm_pred_v2[idx] if model == "v2" else norm_pred_32_2[idx]
     wer_output = process_words(text1, text2, wer_default, wer_default)
-    wer_percentage = round(100 * wer_output.wer, 2)
-    ier_percentage = round(100 *  wer_output.insertions / len(wer_output.references[0]), 2)
-    rel_length = round(len(text2.split()) / len(text1.split()), 2)
     diff = compare_string(text1, text2)
     full_text = style_text(diff)
     return (sampling_rate, array), wer_percentage, ier_percentage, rel_length, full_text
 def get_side_by_side_visualisation(idx):
-    large_v2 = get_visualisation(idx, model="v2")
-    large_32_2 = get_visualisation(idx, model="32-2")
     table = [large_v2[1:-1], large_32_2[1:-1]]
     table[0] = ["large-v2", *table[0]]
     table[1] = ["large-32-2", *table[1]]
     return large_v2[0], table, large_v2[-1], large_32_2[-1]
@@ -95,76 +104,37 @@ def get_side_by_side_visualisation(idx):
 if __name__ == "__main__":
     with gr.Blocks() as demo:
-        with gr.Tab("large-v2"):
-            gr.Markdown(
-                "Analyse the transcriptions generated by the Whisper large-v2 model on the TEDLIUM dev set."
-            )
-            slider = gr.Slider(
-                minimum=1, maximum=len(norm_target), step=1, label="Dataset sample"
             )
-            btn = gr.Button("Analyse")
-            audio_out = gr.Audio(label="Audio input")
             with gr.Row():
-                wer = gr.Number(label="Word Error Rate (WER)")
-                ier = gr.Number(
-                    label="Insertion Error Rate (IER)"
-                )
-                relative_length = gr.Number(
-                    label="Relative length (reference length / target length)"
-                )
-            text_out = gr.Markdown(label="Text difference")
-            btn.click(
-                fn=partial(get_visualisation, model="v2"),
-                inputs=slider,
-                outputs=[audio_out, wer, ier, relative_length, text_out],
-            )
-        with gr.Tab("large-32-2"):
-            gr.Markdown(
-                "Analyse the transcriptions generated by the Whisper large-32-2 model on the TEDLIUM dev set."
-            )
-            slider = gr.Slider(
-                minimum=1, maximum=len(norm_target), step=1, label="Dataset sample"
-            )
-            btn = gr.Button("Analyse")
-            audio_out = gr.Audio(label="Audio input")
             with gr.Row():
-                wer = gr.Number(label="Word Error Rate (WER)")
-                ier = gr.Number(
-                    label="Insertion Error Rate (IER)"
-                )
-                relative_length = gr.Number(
-                    label="Relative length (reference length / target length)"
-                )
-            text_out = gr.Markdown(label="Text difference")
-            btn.click(
-                fn=partial(get_visualisation, model="32-2"),
-                inputs=slider,
-                outputs=[audio_out, wer, ier, relative_length, text_out],
-            )
-        with gr.Tab("side-by-side"):
-            gr.Markdown(
-                "Analyse the transcriptions generated by the Whisper large-32-2 model on the TEDLIUM dev set."
-            )
-            slider = gr.Slider(
-                minimum=1, maximum=len(norm_target), step=1, label="Dataset sample"
-            )
-            btn = gr.Button("Analyse")
-            audio_out = gr.Audio(label="Audio input")
-            with gr.Column():
-                table = gr.Dataframe(headers=["Model", "Word Error Rate (WER)", "Insertion Error Rate (IER)", "Rel length (ref length / tgt length)"], height=1000)
-                with gr.Row():
-                    gr.Markdown("large-v2 text diff")
-                    gr.Markdown("large-32-2 text diff")
-                with gr.Row():
-                    text_out_v2 = gr.Markdown(label="Text difference")
-                    text_out_32_2 = gr.Markdown(label="Text difference")
-            btn.click(
-                fn=get_side_by_side_visualisation,
-                inputs=slider,
-                outputs=[audio_out, table, text_out_v2, text_out_32_2],
-            )
     demo.launch()

 import os
 import numpy as np
 import unicodedata
 max_range = np.iinfo(target_dtype).max
+def get_visualisation(idx, model="large-v2", round_dp=2):
     idx -= 1
     audio = dataset[idx]["audio"]
     array = (audio["array"] * max_range).astype(np.int16)
     sampling_rate = audio["sampling_rate"]
     text1 = norm_target[idx]
+    if model == "large-v2":
+        text2 = norm_pred_v2[idx]
+    elif model == "large-32-2":
+        text2 =  norm_pred_32_2[idx]
+    else:
+        raise ValueError(f"Got unknown model {model}, should be one of `'large-v2'` or `'large-32-2'`.")
     wer_output = process_words(text1, text2, wer_default, wer_default)
+    wer_percentage = round(100 * wer_output.wer, round_dp)
+    ier_percentage = round(
+        100 * wer_output.insertions / len(wer_output.references[0]), round_dp
+    )
+    rel_length = round(len(text2.split()) / len(text1.split()), round_dp)
     diff = compare_string(text1, text2)
     full_text = style_text(diff)
     return (sampling_rate, array), wer_percentage, ier_percentage, rel_length, full_text
 def get_side_by_side_visualisation(idx):
+    large_v2 = get_visualisation(idx, model="large-v2")
+    large_32_2 = get_visualisation(idx, model="large-32-2")
+    # format the rows
     table = [large_v2[1:-1], large_32_2[1:-1]]
+    # format the model names
     table[0] = ["large-v2", *table[0]]
     table[1] = ["large-32-2", *table[1]]
     return large_v2[0], table, large_v2[-1], large_32_2[-1]
 if __name__ == "__main__":
     with gr.Blocks() as demo:
+        gr.Markdown(
+            "Analyse the transcriptions generated by the Whisper large-v2 and large-32-2 models on the TEDLIUM dev set."
+            "The transcriptions for both models are shown at the bottom of the demo. The text diff for each is computed "
+            "relative to the target transcriptions. Insertions are displayed in <span style='background-color:Lightgreen'>green</span>, and "
+            "deletions in <span style='background-color:#FFCCCB'><s>red</s></span>."
+        )
+        slider = gr.Slider(
+            minimum=1, maximum=len(norm_target), step=1, label="Dataset sample"
+        )
+        btn = gr.Button("Analyse")
+        audio_out = gr.Audio(label="Audio input")
+        with gr.Column():
+            table = gr.Dataframe(
+                headers=[
+                    "Model",
+                    "Word Error Rate (WER)",
+                    "Insertion Error Rate (IER)",
+                    "Rel length (ref length / tgt length)",
+                ],
+                height=1000,
             )
             with gr.Row():
+                gr.Markdown("**large-v2 text diff**")
+                gr.Markdown("**large-32-2 text diff**")
             with gr.Row():
+                text_out_v2 = gr.Markdown(label="Text difference")
+                text_out_32_2 = gr.Markdown(label="Text difference")
+        btn.click(
+            fn=get_side_by_side_visualisation,
+            inputs=slider,
+            outputs=[audio_out, table, text_out_v2, text_out_32_2],
+        )
     demo.launch()