Spaces:

camparchimedes
/

nb

Build error

App Files Files

camparchimedes commited on Aug 7

Commit

14c8f51

•

1 Parent(s): fbecba6

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -15

app.py CHANGED Viewed

@@ -7,9 +7,11 @@ from transformers import WhisperTokenizer, WhisperForConditionalGeneration, Whis
 import soundfile as sf
 import ffmpeg
 import os
 from huggingface_hub import InferenceClient
 from gradio_client import Client, file
 import spaces
 warnings.filterwarnings("ignore")
@@ -30,9 +32,9 @@ def convert_audio_format(audio_path):
     ffmpeg.input(audio_path).output(output_path, format='wav', ar='16000').run(overwrite_output=True)
     return output_path
 @spaces.GPU(duration=120, queue=False)
 def transcribe_audio(audio_file, batch_size=4):
     audio_path = convert_audio_format(audio_file)
     audio_input, sample_rate = sf.read(audio_path)
     chunk_size = 16000 * 28  # 28 seconds chunks
@@ -47,40 +49,38 @@ def transcribe_audio(audio_file, batch_size=4):
         with torch.no_grad():
             output = model.generate(
                 inputs.input_features,
-                max_length=1024,
                 num_beams=7,
                 attention_mask=attention_mask
             )
         transcription += " ".join(processor.batch_decode(output, skip_special_tokens=True)) + " "
-    return transcription.strip()
 # HTML
 banner_html = """
 <div style="text-align: center;">
     <img src="https://huggingface.co/spaces/camparchimedes/ola_s-audioshop/raw/main/Olas%20AudioSwitch%20Shop.png" alt="Banner" width="87%" height="auto">
 </div>
 <div style="text-align: center; margin-top: 20px;">
-    <img src="https://huggingface.co/spaces/camparchimedes/ola_s-audioshop/raw/main/picture.jpg" alt="picture" width="50%" height="auto">
 </div>
 """
-images_path = os.path.dirname(__file__)
-IMAGES = [
-    [
-        {
-            "text": "What usual stuff happens in this image? :)",
-            "files": [f"{images_path}/500x_picture.png"],
-        }
-    ]
-]
 # Gradio interface
 iface = gr.Blocks()
 with iface:
     gr.HTML(banner_html)
-    gr.Markdown("# 𝐍𝐯𝐢𝐝𝐢𝐚 𝐀𝟏𝟎𝟎 👋🏼👾🦾⚡ @{NbAiLab/whisper-norwegian-medium}\nUpload audio file:☕")
     audio_input = gr.Audio(type="filepath")
     batch_size_input = gr.Slider(minimum=1, maximum=16, step=1, label="Batch Size")
     transcription_output = gr.Textbox()

 import soundfile as sf
 import ffmpeg
 import os
+from PIL import Image
 from huggingface_hub import InferenceClient
 from gradio_client import Client, file
 import spaces
+import time
 warnings.filterwarnings("ignore")
     ffmpeg.input(audio_path).output(output_path, format='wav', ar='16000').run(overwrite_output=True)
     return output_path
 @spaces.GPU(duration=120, queue=False)
 def transcribe_audio(audio_file, batch_size=4):
+    start_time = time.time()
     audio_path = convert_audio_format(audio_file)
     audio_input, sample_rate = sf.read(audio_path)
     chunk_size = 16000 * 28  # 28 seconds chunks
         with torch.no_grad():
             output = model.generate(
                 inputs.input_features,
+                max_length=2048,
                 num_beams=7,
                 attention_mask=attention_mask
             )
         transcription += " ".join(processor.batch_decode(output, skip_special_tokens=True)) + " "
+    end_time = time.time()
+    transcription_time = end_time - start_time
+    word_count = len(transcription.split())
+    result = f"Transcription: {transcription.strip()}\n\nTime taken: {transcription_time:.2f} seconds\nNumber of words: {word_count}"
+    return result
 # HTML
 banner_html = """
 <div style="text-align: center;">
     <img src="https://huggingface.co/spaces/camparchimedes/ola_s-audioshop/raw/main/Olas%20AudioSwitch%20Shop.png" alt="Banner" width="87%" height="auto">
 </div>
+"""
+image_html = """
 <div style="text-align: center; margin-top: 20px;">
+    <img src="https://huggingface.co/spaces/camparchimedes/ola_s-audioshop/blob/main/500x_picture.png" alt="picture" width="50%" height="auto">
 </div>
 """
 # Gradio interface
 iface = gr.Blocks()
 with iface:
     gr.HTML(banner_html)
+    gr.Markdown("# 𝐍𝐯𝐢𝐝𝐢𝐚 𝐀𝟏𝟎𝟎 👋🏼👾🦾⚡ @{NbAiLab/whisper-norwegian-medium}\nUpload audio file: ☕")
     audio_input = gr.Audio(type="filepath")
     batch_size_input = gr.Slider(minimum=1, maximum=16, step=1, label="Batch Size")
     transcription_output = gr.Textbox()