Spaces:
Runtime error
Runtime error
| import os | |
| import json | |
| import openai | |
| from langchain.document_loaders import PDFMinerLoader, UnstructuredURLLoader | |
| from langchain.chat_models import ChatOpenAI | |
| from langchain import PromptTemplate, LLMChain | |
| from langchain.text_splitter import CharacterTextSplitter | |
| from langchain.prompts import PromptTemplate | |
| from langchain.chains.summarize import load_summarize_chain | |
| import gradio as gr | |
| #chargement des paramètres | |
| with open("parametres.json", "r") as p: | |
| params = json.load(p) | |
| max_pages = params["max_pages"] | |
| def summarize(taille_resume, Document, url): | |
| # loads a PDF document | |
| if not Document and not url: | |
| return "Merci de fournir un document PDF ou lien vers un site web" | |
| elif not Document: | |
| loader = UnstructuredURLLoader(urls = [url]) | |
| elif not Document.name.endswith('.pdf'): | |
| return ("Merci de fournir un document PDF") | |
| else: | |
| loader = PDFMinerLoader(Document.name) #PyPDFLoader créerait des pages trop petites (ex : 1 mot par page si ca vient d'un Ppt) | |
| docs = loader.load() | |
| #préparation du texte | |
| text_splitter = CharacterTextSplitter(separator = "\n", chunk_size=5000) | |
| docs = text_splitter.split_documents(docs) | |
| print(str(len(docs)) + " pages pour un maximum de " + str(max_pages)) | |
| chunked_docs = docs[:int(max_pages/3)] | |
| #définition du LLM | |
| llm = ChatOpenAI(model_name="gpt-3.5-turbo", max_tokens = taille_resume*2.2, temperature=0, openai_api_key = os.environ['OpenaiKey']) | |
| #résumé | |
| prompt_template = f"""Écris un résumé structuré et détaillé du document délimité par des triples accents graves. | |
| ASSURE-TOI que la longueur de ce résumé soit supérieure à {int(taille_resume/1.5)} mots et inférieure à {int(taille_resume*1.5)} mots. | |
| ASSURE-TOI AUSSI, C'EST LE PLUS IMPORTANT que la dernière phrase de ton résumé soit complète et se termine par un point. | |
| AJOUTE ENFIN le signe " |" après ce point final. | |
| """ + """DOCUMENT : ```{text}```""" | |
| summary_langage_prompt = PromptTemplate(template=prompt_template, input_variables=['text']) | |
| chain = load_summarize_chain(llm, chain_type="map_reduce", return_intermediate_steps=True, map_prompt=summary_langage_prompt, combine_prompt = summary_langage_prompt) | |
| steps = chain({"input_documents": chunked_docs}, return_only_outputs=True) | |
| summary = steps['output_text'] | |
| summary = summary + " " + str(len(summary.split())) + " mots" | |
| return summary | |
| # Création de l'interface Gradio | |
| iface = gr.Interface( | |
| fn=summarize, | |
| inputs=[gr.Slider( | |
| minimum=100, | |
| maximum=500, | |
| label="Taille indicative en mots", | |
| value=100, | |
| step=50), | |
| "file", | |
| gr.Textbox(label="Ou copier le lien") | |
| ], | |
| outputs=[gr.Textbox(label="Résumé")], | |
| title="Document Summarizer", | |
| description="par Nicolas \nRésume un PDF ou un site web", | |
| allow_flagging = "never") | |
| # Lancer l'interface | |
| iface.launch() |