PDF2SLIDE2

Runtime error

newoz commited on Sep 18, 2023

Commit

b5abbc4

1 Parent(s): bf73bc6

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,12 +1,14 @@
 import streamlit as st
 import fitz  # Utilisation de PyMuPDF (PdfReader) pour extraire le texte depuis le PDF
-def split_into_paragraphs(text):
-    paragraphs = [p.strip() for p in text.split('\n') if p.strip()]
-    return paragraphs
 # Titre de l'application
-st.title("Afficher le texte d'un fichier PDF")
 # Section d'upload de fichier PDF
 uploaded_file = st.file_uploader("Sélectionnez un fichier PDF", type=["pdf"])
@@ -22,10 +24,15 @@ if uploaded_file is not None:
     for page_number in range(pdf_document.page_count):
         page = pdf_document.load_page(page_number)
         page_text = page.get_text()
-        page_paragraphs = split_into_paragraphs(page_text)
         paragraphs.extend(page_paragraphs)
-    # Affichez les paragraphes du PDF
-    st.subheader("Paragraphes du PDF:")
-    for paragraph in paragraphs:
-        st.text(paragraph)

 import streamlit as st
 import fitz  # Utilisation de PyMuPDF (PdfReader) pour extraire le texte depuis le PDF
+# Fonction pour extraire les longs paragraphes à partir du texte
+def extraire_long_paragraphes(texte, longueur_minimale=100):
+    paragraphes = texte.split("\n\n")  # Divise le texte en paragraphes en utilisant des doubles sauts de ligne
+    longs_paragraphes = [paragraphe.strip() for paragraphe in paragraphes if len(paragraphe) >= longueur_minimale]
+    return "\n\n".join(longs_paragraphes)
 # Titre de l'application
+st.title("Afficher les longs paragraphes d'un fichier PDF")
 # Section d'upload de fichier PDF
 uploaded_file = st.file_uploader("Sélectionnez un fichier PDF", type=["pdf"])
     for page_number in range(pdf_document.page_count):
         page = pdf_document.load_page(page_number)
         page_text = page.get_text()
+        page_paragraphs = page_text.split("\n\n")  # Divisez en paragraphes
         paragraphs.extend(page_paragraphs)
+    # Concaténez les paragraphes en un seul texte
+    full_text = "\n\n".join(paragraphs)
+    # Utilisez la fonction pour extraire les longs paragraphes
+    longs_paragraphes = extraire_long_paragraphes(full_text, longueur_minimale=200)
+    # Affichez les longs paragraphes extraits
+    st.subheader("Longs paragraphes du PDF:")
+    st.text(longs_paragraphes)