Spaces:

omarbajouk
/

PDF_Rename_FolderClass2

Sleeping

App Files Files Community

omarbajouk commited on Apr 13, 2025

Commit

e75ca13

verified ·

1 Parent(s): 6c927e5

Update app.py

Browse files

Files changed (1) hide show

app.py +196 -2

app.py CHANGED Viewed

@@ -1,4 +1,198 @@
 ...
-if __name__ == "__main__":
-    app.run(host="0.0.0.0", port=7860)

 ...
+import gradio as gr
+import os
+import shutil
+import zipfile
+import pytesseract
+from pdf2image import convert_from_path
+from PIL import Image
+import re
+from datetime import datetime
+# Chemins des dossiers
+UPLOAD_FOLDER = 'uploads'
+RESULT_FOLDER = 'results'
+# Créer les dossiers si nécessaire
+os.makedirs(UPLOAD_FOLDER, exist_ok=True)
+os.makedirs(RESULT_FOLDER, exist_ok=True)
+# Fonction pour afficher la documentation directement dans l'interface
+def afficher_doc():
+    return """
+    # 📄 Documentation - Traitement des Notifications du Comité de l’Action Sociale
+    Cet outil vous permet de :
+    - 🧠 Extraire automatiquement **nom**, **référence**, et **date de séance** des notifications PDF
+    - 🗂️ Renommer les fichiers selon le format : `NOM_PRENOM_ANNÉE-RÉF.pdf`
+    - 📆 Classer les fichiers dans des dossiers par **date de séance** (AAAAMMJJ)
+    - 🔁 Gérer les **doublons intelligemment**
+    - 🧾 Générer un **fichier log CSV** de suivi
+    👤 *Conçu pour les collaborateurs du CPAS et les secrétariats du CPAS Bruxelles*
+    📬 Contact : omar.bajouk@cpasbxl.brussels
+    """
+def process_pdfs(zip_file):
+    # Configuration des dossiers
+    pdf_folder = "pdf_folder"
+    output_log = "rename_log.csv"
+    # Nettoyage des dossiers existants
+    if os.path.exists(pdf_folder):
+        shutil.rmtree(pdf_folder)
+    os.makedirs(pdf_folder, exist_ok=True)
+    # Extraction du ZIP
+    with zipfile.ZipFile(zip_file.name, 'r') as zip_ref:
+        zip_ref.extractall(pdf_folder)
+    # Patterns Regex
+    title_pattern = re.compile(
+        r"(?:Monsieur|Madame|Morveuwer|De heer)\s+((?:[\w\-éèêëàâäîïôöùûüç']+\s+){1,3}[\w\-éèêëàâäîïôöùûüç']+)",
+        re.IGNORECASE
+    )
+    seance_pattern = re.compile(r"SEANCE\s+du\s+(\d{2})[\/\-](\d{2})[\/\-](\d{4})", re.IGNORECASE)
+    ref_pattern = re.compile(r"n\.réf\s*[:\-]?\s*das\/(?:[\w]+\/)*(\d{4})\/(\d+)", re.IGNORECASE)
+    log_lines = ["original_filename,new_filename,date_folder"]
+    processed_files = []
+    for filename in os.listdir(pdf_folder):
+        if not filename.lower().endswith(".pdf"):
+            continue
+        filepath = os.path.join(pdf_folder, filename)
+        try:
+            # Conversion PDF -> Image -> Texte
+            images = convert_from_path(filepath, first_page=1, last_page=1)
+            image = images[0]
+            # Recadrer l'image pour ne traiter que la moitié supérieure de la page entière
+            width, height = image.size
+            half_height = height // 2  # Diviser la hauteur par 2 pour obtenir la moitié supérieure
+            cropped_image = image.crop((0, 0, width, half_height))  # Recadrage pour la moitié supérieure
+            # Appliquer OCR sur la moitié supérieure
+            text = pytesseract.image_to_string(cropped_image, lang='fra+eng')
+            # Extraction des informations
+            name_match = title_pattern.search(text)
+            safe_name = "NO_NAME"
+            if name_match:
+                name = name_match.group(1).strip()
+                safe_name = re.sub(r"[^\w]", "_", name)
+                safe_name = re.sub(r"_+", "_", safe_name)
+                safe_name = re.sub(r"(_?DEPARTEMENT|_?ACTION|_?DIRECTION|_?SERVICE|_?UNITE|_?DIVISION)+", "", safe_name, flags=re.IGNORECASE)
+                safe_name = safe_name.strip("_")
+            # Date
+            date_match = seance_pattern.search(text)
+            date_str = "NO_DATE"
+            if date_match:
+                day, month, year = date_match.groups()
+                date_str = f"{year}{month}{day}"
+                folder_path = os.path.join(pdf_folder, date_str)
+                os.makedirs(folder_path, exist_ok=True)
+            else:
+                folder_path = pdf_folder
+            # Référence
+            ref_match = ref_pattern.search(text)
+            ref_code = f"{ref_match.group(1)}-{ref_match.group(2)}" if ref_match else "NO_REF"
+            # Nouveau nom de fichier
+            new_filename = f"{safe_name}_{ref_code}.pdf"
+            new_path = os.path.join(folder_path, new_filename)
+            # STEP 2: Remove '_D' and 'NO_REF' from the filename
+            final_filename = re.sub(r"_D_", "_", new_filename)  # Remove '_D' from the filename
+            final_filename = re.sub(r"NO_REF", "", final_filename)  # Remove 'NO_REF' if present
+            # Optionally, you can also clean up any extra underscores left after removal
+            final_filename = re.sub(r"_{2,}", "_", final_filename)  # Replace multiple underscores with a single one
+            final_filename = final_filename.strip("_")  # Remove underscores at the start or end of the filename
+            # Gestion des doublons : Vérifier si le fichier existe déjà et ajouter un suffixe si nécessaire
+            base_filename, ext = os.path.splitext(final_filename)
+            counter = 1
+            while os.path.exists(os.path.join(folder_path, final_filename)):
+                final_filename = f"{base_filename}_{counter}{ext}"
+                counter += 1
+            # Renommer
+            if not os.path.exists(new_path):
+                os.rename(filepath, new_path)
+                final_path = os.path.join(folder_path, final_filename)
+                if final_path != new_path:
+                    os.rename(new_path, final_path)
+                    new_filename = final_filename
+                log_lines.append(f"{filename},{new_filename},{date_str}")
+                processed_files.append(f"- {filename} → {new_filename}")
+            else:
+                log_lines.append(f"{filename},DUPLICATE_SKIPPED,{date_str}")
+        except Exception as e:
+            log_lines.append(f"{filename},ERROR,NO_DATE")
+            processed_files.append(f"❌ {filename} (Erreur: {str(e)})")
+    # Génération des fichiers de sortie
+    with open(output_log, "w", encoding="utf-8") as f:
+        f.write("\n".join(log_lines))
+    shutil.make_archive("renamed_pdfs", 'zip', pdf_folder)
+    # Préparation du rapport
+    last_files = "\n".join(processed_files[-5:]) if processed_files else "Aucun fichier traité"
+    report = f"""
+    **Traitement terminé !**
+    - Fichiers traités : {len(log_lines)-1}
+    - Derniers fichiers :
+    {last_files}
+    """
+    return "renamed_pdfs.zip", output_log, report
+# Interface Gradio
+with gr.Blocks(title="Assistant de Traitement des Notifications PDF") as demo:
+    gr.Markdown("""
+    # 📄 Assistant – Traitement des Notifications du Conseil de l’Action Sociale
+    Téléchargez un fichier ZIP avec des PDFs pour traiter et organiser les notifications.
+    """)
+    # Ajouter un bouton pour afficher la documentation
+    btn_doc = gr.Button("📘 Voir la documentation")
+    # Zone où la documentation sera affichée
+    output_doc = gr.Markdown()
+    # Fonction pour afficher la documentation lorsque le bouton est cliqué
+    btn_doc.click(
+        fn=afficher_doc,
+        outputs=output_doc
+    )
+    with gr.Row():
+        input_zip = gr.File(label="1. Fichier ZIP contenant les PDF", file_types=[".zip"])
+        btn_process = gr.Button("🚀 Traiter les fichiers")
+    with gr.Row():
+        output_zip = gr.File(label="2. PDFs Renommés (ZIP)")
+        output_log = gr.File(label="3. Fichier Log (CSV)")
+    output_report = gr.Markdown()
+    btn_process.click(
+        fn=process_pdfs,
+        inputs=input_zip,
+        outputs=[output_zip, output_log, output_report]
+    )
+demo.launch(share=True)