Spaces:

NicolasGaudemet
/

LongDocumentSummarizer

Runtime error

File size: 3,054 Bytes

import os
import json
import openai
from langchain.document_loaders import PDFMinerLoader, UnstructuredURLLoader
from langchain.chat_models import ChatOpenAI
from langchain import PromptTemplate, LLMChain
from langchain.text_splitter import CharacterTextSplitter
from langchain.prompts import PromptTemplate
from langchain.chains.summarize import load_summarize_chain
import gradio as gr

#chargement des paramètres
with open("parametres.json", "r") as p:
    params = json.load(p)
    max_pages = params["max_pages"]

def summarize(taille_resume, Document, url):

    # loads a PDF document
    if not Document and not url:
            return "Merci de fournir un document PDF ou lien vers un site web"
    elif not Document:
        loader = UnstructuredURLLoader(urls = [url])
    elif not Document.name.endswith('.pdf'):
            return ("Merci de fournir un document PDF")
    else:
        loader = PDFMinerLoader(Document.name) #PyPDFLoader créerait des pages trop petites (ex : 1 mot par page si ca vient d'un Ppt)

    docs = loader.load()
    
    #préparation du texte 
    text_splitter = CharacterTextSplitter(separator = "\n", chunk_size=5000)
    docs = text_splitter.split_documents(docs)
    print(str(len(docs)) + " pages pour un maximum de " + str(max_pages))
    
    chunked_docs = docs[:int(max_pages/3)]
    
    #définition du LLM 
    llm = ChatOpenAI(model_name="gpt-3.5-turbo", max_tokens = taille_resume*2.2, temperature=0, openai_api_key = os.environ['OpenaiKey'])

    #résumé 
    prompt_template = f"""Écris un résumé structuré et détaillé du document délimité par des triples accents graves.
    ASSURE-TOI que la longueur de ce résumé soit supérieure à {int(taille_resume/1.5)} mots et inférieure à {int(taille_resume*1.5)} mots.
    ASSURE-TOI AUSSI, C'EST LE PLUS IMPORTANT que la dernière phrase de ton résumé soit complète et se termine par un point.
    AJOUTE ENFIN le signe " |" après ce point final.
    """ + """DOCUMENT : ```{text}```"""
    summary_langage_prompt = PromptTemplate(template=prompt_template, input_variables=['text'])
    chain = load_summarize_chain(llm, chain_type="map_reduce", return_intermediate_steps=True, map_prompt=summary_langage_prompt, combine_prompt = summary_langage_prompt)
    steps = chain({"input_documents": chunked_docs}, return_only_outputs=True)
    
    summary = steps['output_text']
    summary = summary + " " + str(len(summary.split())) + " mots"

    return summary

# Création de l'interface Gradio

iface = gr.Interface(
    fn=summarize,
    inputs=[gr.Slider(
                    minimum=100,
                    maximum=500,
                    label="Taille indicative en mots",
                    value=100,
                    step=50),
            "file",
            gr.Textbox(label="Ou copier le lien")
            ],
    outputs=[gr.Textbox(label="Résumé")],
    title="Document Summarizer",
    description="par Nicolas \nRésume un PDF ou un site web",
    allow_flagging = "never")

# Lancer l'interface
iface.launch()