newoz commited on
Commit
47e8ef0
·
1 Parent(s): 078e600

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +5 -7
app.py CHANGED
@@ -5,7 +5,7 @@ import fitz # Utilisation de PyMuPDF (PdfReader) pour extraire le texte depuis
5
  def extraire_long_paragraphes(texte, longueur_minimale=200):
6
  paragraphes = texte.split("\n\n") # Divise le texte en paragraphes en utilisant des doubles sauts de ligne
7
  longs_paragraphes = [paragraphe.strip() for paragraphe in paragraphes if len(paragraphe) >= longueur_minimale]
8
- return "\n\n".join(longs_paragraphes)
9
 
10
  # Titre de l'application
11
  st.title("Afficher les longs paragraphes d'un fichier PDF")
@@ -27,12 +27,10 @@ if uploaded_file is not None:
27
  page_paragraphs = page_text.split("\n\n") # Divisez en paragraphes
28
  paragraphs.extend(page_paragraphs)
29
 
30
- # Concaténez les paragraphes en un seul texte
31
- full_text = "\n\n".join(paragraphs)
32
-
33
  # Utilisez la fonction pour extraire les longs paragraphes
34
- longs_paragraphes = extraire_long_paragraphes(full_text, longueur_minimale=200)
35
 
36
- # Affichez les longs paragraphes extraits
37
  st.subheader("Longs paragraphes du PDF:")
38
- st.text(longs_paragraphes)
 
 
5
  def extraire_long_paragraphes(texte, longueur_minimale=200):
6
  paragraphes = texte.split("\n\n") # Divise le texte en paragraphes en utilisant des doubles sauts de ligne
7
  longs_paragraphes = [paragraphe.strip() for paragraphe in paragraphes if len(paragraphe) >= longueur_minimale]
8
+ return longs_paragraphes
9
 
10
  # Titre de l'application
11
  st.title("Afficher les longs paragraphes d'un fichier PDF")
 
27
  page_paragraphs = page_text.split("\n\n") # Divisez en paragraphes
28
  paragraphs.extend(page_paragraphs)
29
 
 
 
 
30
  # Utilisez la fonction pour extraire les longs paragraphes
31
+ longs_paragraphes = extraire_long_paragraphes("\n\n".join(paragraphs), longueur_minimale=200)
32
 
33
+ # Affichez les longs paragraphes extraits avec des numéros
34
  st.subheader("Longs paragraphes du PDF:")
35
+ for i, paragraphe in enumerate(longs_paragraphes, start=1):
36
+ st.text(f"Paragraphe {i}: {paragraphe}")