PDF2SLIDE / app.py
newoz's picture
Update app.py
bf73bc6
raw
history blame
1.08 kB
import streamlit as st
import fitz # Utilisation de PyMuPDF (PdfReader) pour extraire le texte depuis le PDF
def split_into_paragraphs(text):
paragraphs = [p.strip() for p in text.split('\n') if p.strip()]
return paragraphs
# Titre de l'application
st.title("Afficher le texte d'un fichier PDF")
# Section d'upload de fichier PDF
uploaded_file = st.file_uploader("Sélectionnez un fichier PDF", type=["pdf"])
if uploaded_file is not None:
# Lecture du contenu du fichier PDF
pdf_document = fitz.open(stream=uploaded_file.read(), filetype="pdf")
# Créez une liste pour stocker les paragraphes
paragraphs = []
# Parcourez toutes les pages et extrayez le texte
for page_number in range(pdf_document.page_count):
page = pdf_document.load_page(page_number)
page_text = page.get_text()
page_paragraphs = split_into_paragraphs(page_text)
paragraphs.extend(page_paragraphs)
# Affichez les paragraphes du PDF
st.subheader("Paragraphes du PDF:")
for paragraph in paragraphs:
st.text(paragraph)