Spaces:

NicolasGaudemet
/

LongDocumentSummarizer

Runtime error

App Files Files Community

LongDocumentSummarizer / summarizer_app.py

NicolasGaudemet

Update summarizer_app.py

9a98211 over 1 year ago

raw

history blame contribute delete

3.05 kB

	import os
	import json
	import openai
	from langchain.document_loaders import PDFMinerLoader, UnstructuredURLLoader
	from langchain.chat_models import ChatOpenAI
	from langchain import PromptTemplate, LLMChain
	from langchain.text_splitter import CharacterTextSplitter
	from langchain.prompts import PromptTemplate
	from langchain.chains.summarize import load_summarize_chain
	import gradio as gr

	#chargement des paramètres
	with open("parametres.json", "r") as p:
	params = json.load(p)
	max_pages = params["max_pages"]

	def summarize(taille_resume, Document, url):

	# loads a PDF document
	if not Document and not url:
	return "Merci de fournir un document PDF ou lien vers un site web"
	elif not Document:
	loader = UnstructuredURLLoader(urls = [url])
	elif not Document.name.endswith('.pdf'):
	return ("Merci de fournir un document PDF")
	else:
	loader = PDFMinerLoader(Document.name) #PyPDFLoader créerait des pages trop petites (ex : 1 mot par page si ca vient d'un Ppt)

	docs = loader.load()

	#préparation du texte
	text_splitter = CharacterTextSplitter(separator = "\n", chunk_size=5000)
	docs = text_splitter.split_documents(docs)
	print(str(len(docs)) + " pages pour un maximum de " + str(max_pages))

	chunked_docs = docs[:int(max_pages/3)]

	#définition du LLM
	llm = ChatOpenAI(model_name="gpt-3.5-turbo", max_tokens = taille_resume*2.2, temperature=0, openai_api_key = os.environ['OpenaiKey'])

	#résumé
	prompt_template = f"""Écris un résumé structuré et détaillé du document délimité par des triples accents graves.
	ASSURE-TOI que la longueur de ce résumé soit supérieure à {int(taille_resume/1.5)} mots et inférieure à {int(taille_resume*1.5)} mots.
	ASSURE-TOI AUSSI, C'EST LE PLUS IMPORTANT que la dernière phrase de ton résumé soit complète et se termine par un point.
	AJOUTE ENFIN le signe " \|" après ce point final.
	""" + """DOCUMENT : ```{text}```"""
	summary_langage_prompt = PromptTemplate(template=prompt_template, input_variables=['text'])
	chain = load_summarize_chain(llm, chain_type="map_reduce", return_intermediate_steps=True, map_prompt=summary_langage_prompt, combine_prompt = summary_langage_prompt)
	steps = chain({"input_documents": chunked_docs}, return_only_outputs=True)

	summary = steps['output_text']
	summary = summary + " " + str(len(summary.split())) + " mots"

	return summary

	# Création de l'interface Gradio

	iface = gr.Interface(
	fn=summarize,
	inputs=[gr.Slider(
	minimum=100,
	maximum=500,
	label="Taille indicative en mots",
	value=100,
	step=50),
	"file",
	gr.Textbox(label="Ou copier le lien")
	],
	outputs=[gr.Textbox(label="Résumé")],
	title="Document Summarizer",
	description="par Nicolas \nRésume un PDF ou un site web",
	allow_flagging = "never")

	# Lancer l'interface
	iface.launch()