Spaces:

camparchimedes
/

nb

Sleeping

App Files Files

camparchimedes commited on Aug 25

Commit

ad6d7c2

•

1 Parent(s): 071df52

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -30

app.py CHANGED Viewed

@@ -13,27 +13,26 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 #---------------------------------------------------------------------------------------------------------------------------------------------
 import gradio as gr
 from PIL import Image
 from pydub import AudioSegment
 import os
 import re
-import warnings
 import time
-import datetime
 import subprocess
 from pathlib import Path
 from fpdf import FPDF
 from gpuinfo import GPUInfo
-import pandas as pd
 import numpy as np
 import torch
-import torchaudio
-import torchaudio.transforms as transforms
 from transformers import pipeline, AutoTokenizer, AutoModelForSeq2SeqLM
@@ -41,21 +40,20 @@ import spacy
 import networkx as nx
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.metrics.pairwise import cosine_similarity
 HEADER_INFO = """
     # WEB APP ✨| Norwegian WHISPER Model
 Switch Work [Transkribering av lydfiler til norsk skrift]
 """.strip()
-LOGO = "https://huggingface.co/spaces/camparchimedes/transcription_app/blob/main/pic09w9678yhit.png"
 SIDEBAR_INFO = f"""
-<div align=center>
-<img src="{LOGO}" style="width: 99%; height: auto;"/>"""
-warnings.filterwarnings("ignore")
 def convert_to_wav(filepath):
     _,file_ending = os.path.splitext(f'{filepath}')
@@ -63,13 +61,6 @@ def convert_to_wav(filepath):
     os.system(f'ffmpeg -i "{filepath}" -ar 16000 -ac 1 -c:a pcm_s16le "{audio_file}"')
     return audio_file
-#:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
-#def convert_to_wav(audio_file):
-    #audio = AudioSegment.from_file(audio_file, format="m4a")
-    #wav_file = "temp.wav"
-    #audio.export(wav_file, format="wav")
-    #return wav_file
 device = "cuda" if torch.cuda.is_available() else "cpu"
 pipe = pipeline(
@@ -86,16 +77,12 @@ def transcribe_audio(audio_file, batch_size=10):
     start_time = time.time()
     outputs = pipe(audio_file, batch_size=batch_size, return_timestamps=False, generate_kwargs={'task': 'transcribe', 'language': 'no'}) # skip_special_tokens=True
-    #options = dict(language=selected_source_lang, beam_size=3, best_of=3)
-    #transcribe_options = dict(task="transcribe", **options)
-    #result = model.transcribe(file, **transcribe_options)
     text = outputs["text"]
     end_time = time.time()
     output_time = end_time - start_time
     word_count = len(text.split())
     memory = psutil.virtual_memory()
     gpu_utilization, gpu_memory = GPUInfo.gpu_usage()
     gpu_utilization = gpu_utilization[0] if len(gpu_utilization) > 0 else 0
@@ -106,7 +93,6 @@ def transcribe_audio(audio_file, batch_size=10):
     *Number of words: {word_count}*
     *GPU Utilization: {gpu_utilization}%, GPU Memory: {gpu_memory}*"""
     return text.strip(), system_info
 #:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
@@ -223,7 +209,7 @@ iface = gr.Blocks()
 with iface:
-    gr.Image(LOGO) # LOGO variable as string to gr.Image constructor
     gr.Markdown(HEADER_INFO)
     with gr.Tabs():

 # See the License for the specific language governing permissions and
 # limitations under the License.
 #---------------------------------------------------------------------------------------------------------------------------------------------
 import gradio as gr
 from PIL import Image
 from pydub import AudioSegment
 import os
 import re
 import time
+import warnings
+#import datetime
 import subprocess
 from pathlib import Path
 from fpdf import FPDF
+import psutil
 from gpuinfo import GPUInfo
+#import pandas as pd
+#import csv
 import numpy as np
 import torch
+#import torchaudio
+#import torchaudio.transforms as transforms
 from transformers import pipeline, AutoTokenizer, AutoModelForSeq2SeqLM
 import networkx as nx
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.metrics.pairwise import cosine_similarity
+#---------------------------------------------------------------------------------------------------------------------------------------------
+warnings.filterwarnings("ignore")
 HEADER_INFO = """
     # WEB APP ✨| Norwegian WHISPER Model
 Switch Work [Transkribering av lydfiler til norsk skrift]
 """.strip()
+LOGO = "https://huggingface.co/spaces/camparchimedes/transcription_app/resolve/main/pic09w9678yhit.png"
 SIDEBAR_INFO = f"""
+<div align="center">
+    <img src="{LOGO}" style="width: 100%; height: auto;"/>
+</div>
+"""
 def convert_to_wav(filepath):
     _,file_ending = os.path.splitext(f'{filepath}')
     os.system(f'ffmpeg -i "{filepath}" -ar 16000 -ac 1 -c:a pcm_s16le "{audio_file}"')
     return audio_file
 device = "cuda" if torch.cuda.is_available() else "cpu"
 pipe = pipeline(
     start_time = time.time()
     outputs = pipe(audio_file, batch_size=batch_size, return_timestamps=False, generate_kwargs={'task': 'transcribe', 'language': 'no'}) # skip_special_tokens=True
     text = outputs["text"]
     end_time = time.time()
     output_time = end_time - start_time
     word_count = len(text.split())
     memory = psutil.virtual_memory()
     gpu_utilization, gpu_memory = GPUInfo.gpu_usage()
     gpu_utilization = gpu_utilization[0] if len(gpu_utilization) > 0 else 0
     *Number of words: {word_count}*
     *GPU Utilization: {gpu_utilization}%, GPU Memory: {gpu_memory}*"""
     return text.strip(), system_info
 #:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
 with iface:
+    gr.HTML(SIDEBAR_INFO)
     gr.Markdown(HEADER_INFO)
     with gr.Tabs():