Spaces:

varl42
/

audio_abstract42

Sleeping

App Files Files Community

varl42 commited on Dec 4, 2023

Commit

8260580

•

1 Parent(s): 6f6ee6e

model and comments

Browse files

1. modified model # Load BART model & tokenizer
2. added comments to the code

Files changed (1) hide show

app.py +34 -8

app.py CHANGED Viewed

@@ -1,3 +1,5 @@
 import gradio as gr
 import torch
 import PyPDF2
@@ -6,14 +8,18 @@ import numpy
 import scipy
 from gtts import gTTS
 from io import BytesIO
-from transformers import BartTokenizer
 def extract_text(pdf_file):
     pdfReader = PyPDF2.PdfReader(pdf_file)
     pageObj = pdfReader.pages[0]
     return pageObj.extract_text()
 def summarize_text(text):
     sentences = text.split(". ")
     for i, sentence in enumerate(sentences):
@@ -23,12 +29,26 @@ def summarize_text(text):
             break
     abstract = ". ".join(sentences[start:end+1])
-    tokenizer = BartTokenizer.from_pretrained("facebook/bart-large-cnn")
-    summarizer = pipeline("summarization", model="facebook/bart-large-cnn", tokenizer=tokenizer)
-    summary = summarizer(abstract, max_length=50, min_length=50,
-                         do_sample=False)
-    return summary[0]['summary_text']
 def text_to_audio(text):
     tts = gTTS(text, lang='en')
     buffer = BytesIO()
@@ -36,12 +56,18 @@ def text_to_audio(text):
     buffer.seek(0)
     return buffer.read()
 def audio_pdf(pdf_file):
     text = extract_text(pdf_file)
     summary = summarize_text(text)
     audio = text_to_audio(summary)
     return summary, audio
 inputs = gr.File()
 summary_text = gr.Text()
 audio_summary = gr.Audio()
@@ -59,4 +85,4 @@ iface = gr.Interface(
              ]
 )
-iface.launch()

+# Import  libraries
 import gradio as gr
 import torch
 import PyPDF2
 import scipy
 from gtts import gTTS
 from io import BytesIO
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+# Function to extract text from PDF
+# Defines a function to extract raw text from a PDF file
 def extract_text(pdf_file):
     pdfReader = PyPDF2.PdfReader(pdf_file)
     pageObj = pdfReader.pages[0]
     return pageObj.extract_text()
+# Function to summarize text
+# Defines a function to summarize the extracted text using facebook/bart-large-cnn
 def summarize_text(text):
     sentences = text.split(". ")
     for i, sentence in enumerate(sentences):
             break
     abstract = ". ".join(sentences[start:end+1])
+  # Load BART model & tokenizer
+    tokenizer = AutoTokenizer.from_pretrained("facebook/bart-large-cnn")
+    model = AutoModelForSeq2SeqLM.from_pretrained("facebook/bart-large-cnn")
+    # Tokenize abstract
+    inputs = tokenizer(abstract, return_tensors="pt", truncation=True)
+    # Generate summary
+    summary_ids = model.generate(inputs['input_ids'],
+                                 num_beams=3,
+                                 max_length=50,
+                                 min_length=30,
+                                 do_sample=False,
+                                 early_stopping=True)
+    summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
+    return summary
+# Function to convert text to audio
+# Defines a function to convert text to an audio file using Google Text-to-Speech
 def text_to_audio(text):
     tts = gTTS(text, lang='en')
     buffer = BytesIO()
     buffer.seek(0)
     return buffer.read()
+### Main function
+### The main function that ties everything together:
+### extracts text, summarizes, and converts to audio.
 def audio_pdf(pdf_file):
     text = extract_text(pdf_file)
     summary = summarize_text(text)
     audio = text_to_audio(summary)
     return summary, audio
+# Define Gradio interface
+# Gradio web interface with a file input, text output to display the summary
+# and audio output to play the audio file. # Launches the interface
 inputs = gr.File()
 summary_text = gr.Text()
 audio_summary = gr.Audio()
              ]
 )
+iface.launch() # Launch the interface