Spaces:

yannESGI
/

test_fitz

Runtime error

yannESGI commited on Sep 20, 2023

Commit

df3a05c

1 Parent(s): b3633d6

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,4 +1,4 @@
-import PyPDF2
 import re
 import streamlit as st
 #import fitz
@@ -21,16 +21,29 @@ st.title("PDF2SLIDE")
 uploaded_file = st.file_uploader("Selectionnez un PDF", type=["pdf"])
 if uploaded_file is not None:
-    pdf_reader = PyPDF2.PdfReader(uploaded_file)
-    paragraphs = []
     for page_number in range(len(pdf_reader.pages)):
         page = pdf_reader.pages[page_number]
         page_text = page.extract_text()
-        paragraph_list = re.split(r'\n{2,}', page_text)
-        paragraphs.extend(paragraph_list)
-        for paragraph in paragraphs:
-            print(paragraph)
-            print(424242)

+from PyPDF2 import PdfReader
 import re
 import streamlit as st
 #import fitz
 uploaded_file = st.file_uploader("Selectionnez un PDF", type=["pdf"])
 if uploaded_file is not None:
+    pdf_reader = PdfReader(uploaded_file)
+    unique_characters = set()  # Utiliser un ensemble pour stocker les caractères uniques
     for page_number in range(len(pdf_reader.pages)):
         page = pdf_reader.pages[page_number]
         page_text = page.extract_text()
+        unique_characters.update(set(page_text))  # Ajouter les caractères de cette page à l'ensemble
+    # Afficher les caractères uniques
+    st.write("Caractères uniques présents dans le PDF :")
+    st.write(''.join(unique_characters))
+#    pdf_reader = PyPDF2.PdfReader(uploaded_file)
+#    paragraphs = []
+#    for page_number in range(len(pdf_reader.pages)):
+#        page = pdf_reader.pages[page_number]
+#        page_text = page.extract_text()
+#        paragraph_list = re.split(r'\n{2,}', page_text)
+#        paragraphs.extend(paragraph_list)
+#        for paragraph in paragraphs:
+#            print(paragraph)
+#           print(424242)