Spaces:

camparchimedes
/

nb

Build error

App Files Files

camparchimedes commited on Aug 7, 2024

Commit

aea18b3

•

1 Parent(s): 930fb43

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -6

app.py CHANGED Viewed

@@ -23,7 +23,7 @@ model.to(device)
 def transcribe_audio(audio_file):
     audio_input, sample_rate = sf.read(audio_file)
-    chunk_size = 16000 * 28  # 28 seconds chunks (seems to work best)
     chunks = [audio_input[i:i + chunk_size] for i in range(0, len(audio_input), chunk_size)]
     transcription = ""
@@ -33,8 +33,8 @@ def transcribe_audio(audio_file):
         with torch.no_grad():
             output = model.generate(
                 inputs.input_features,
-                max_length=2048,  # Increase max_length for longer outputs
-                num_beams=10,
                 task="transcribe",
                 language="no"
             )
@@ -42,7 +42,7 @@ def transcribe_audio(audio_file):
     return transcription.strip()
-# HTML for banner image
 banner_html = """
 <div style="text-align: center;">
     <img src="https://huggingface.co/spaces/camparchimedes/ola_s-audioshop/raw/main/Olas%20AudioSwitch%20Shop.png" alt="Banner" width="87%; height:auto;">
@@ -54,12 +54,12 @@ iface = gr.Blocks()
 with iface:
     gr.HTML(banner_html)
-    gr.Markdown("# Ola's AudioSwitch2Go 🔊🎧☕🧑🏼‍🏫@{NbAiLab/whisper-norwegian-medium}\nUpload audio file (if .ma4 ~simply rename it to .mp3 before upload)")
     audio_input = gr.Audio(type="filepath")
     transcription_output = gr.Textbox()
     transcribe_button = gr.Button("Transcribe")
     transcribe_button.click(fn=transcribe_audio, inputs=audio_input, outputs=transcription_output)
-# Launch the interface
 iface.launch(share=True, debug=True)

 def transcribe_audio(audio_file):
     audio_input, sample_rate = sf.read(audio_file)
+    chunk_size = 16000 * 28  # 28 seconds chunks, seems to work best
     chunks = [audio_input[i:i + chunk_size] for i in range(0, len(audio_input), chunk_size)]
     transcription = ""
         with torch.no_grad():
             output = model.generate(
                 inputs.input_features,
+                max_length=1024,  # Increase max_length@longer outputs
+                num_beams=5,
                 task="transcribe",
                 language="no"
             )
     return transcription.strip()
+# HTML |banner image
 banner_html = """
 <div style="text-align: center;">
     <img src="https://huggingface.co/spaces/camparchimedes/ola_s-audioshop/raw/main/Olas%20AudioSwitch%20Shop.png" alt="Banner" width="87%; height:auto;">
 with iface:
     gr.HTML(banner_html)
+    gr.Markdown("# Nvidia A100👋🏼👾🦾⚡☕🧑🏼‍🏫@{NbAiLab/whisper-norwegian-medium}\nUpload audio file (*needs to be in .mp3 format before upload*)")
     audio_input = gr.Audio(type="filepath")
     transcription_output = gr.Textbox()
     transcribe_button = gr.Button("Transcribe")
     transcribe_button.click(fn=transcribe_audio, inputs=audio_input, outputs=transcription_output)
+# Launch interface
 iface.launch(share=True, debug=True)