Spaces:

MMOON
/

CODEXMONITEUR

Sleeping

App Files Files Community

MMOON commited on Aug 19, 2025

Commit

d553d20

verified ·

1 Parent(s): dd18a20

Update src/streamlit_app.py

Browse files

Files changed (1) hide show

src/streamlit_app.py +40 -78

src/streamlit_app.py CHANGED Viewed

@@ -1,11 +1,11 @@
-# streamlit_app_cxc_with_pdf_fixed.py
 import streamlit as st
 import requests
 from bs4 import BeautifulSoup
 import re
-import time
 import pandas as pd
 from datetime import datetime
 # --- Configuration ---
 CODEX_URL = "https://www.fao.org/fao-who-codexalimentarius/codex-texts/codes-of-practice/fr/"
@@ -21,7 +21,7 @@ st.set_page_config(page_title="Codex CXC Viewer", page_icon="📋", layout="wide
 @st.cache_data(ttl=3600)
 def extract_cxc_documents():
     """
-    Fonction pour extraire les Codes de Pratique (CXC) avec leurs liens PDF correctement décodés.
     """
     st.info("Extraction des documents depuis le site Codex...")
     documents = []
@@ -41,10 +41,12 @@ def extract_cxc_documents():
             rows = table.find_all('tr')
             for row in rows:
                 cells = row.find_all(['td', 'th'])
-                if len(cells) >= 4:
-                    # Extraire les données de base
-                    cell_texts = [cell.get_text(strip=True) for cell in cells]
                     code_candidate = cell_texts[0] if cell_texts else ""
                     code_match = re.match(r'^(CXC)\s+([\w\-R]*\d+(?:-\d+)?[R]?)$', code_candidate)
                     if code_match:
@@ -63,98 +65,57 @@ def extract_cxc_documents():
                             except ValueError:
                                 year = 0
-                            # --- EXTRACTION DES LIENS PDF CORRECTEMENT DECODÉS ---
-                            # Le lien PDF est dans la dernière cellule (<td class="alignCenter">)
-                            pdf_cell = cells[4] if len(cells) > 4 else None
                             pdf_url = None
-                            if pdf_cell:
-                                # Trouver tous les liens <a> dans cette cellule
-                                links = pdf_cell.find_all('a')
-                                for link in links:
-                                    href = link.get('href')
-                                    if href and 'pdf' in href.lower():
-                                        # Décoder l'URL encodée
-                                        decoded_href = requests.utils.unquote(href)
-                                        # L'URL décrite commence par /fao-who-codexalimentarius/sh-proxy/fr/?lnk=1&url=...
-                                        # On extrait la partie après url=
-                                        # Exemple: https://www.fao.org/fao-who-codexalimentarius/sh-proxy/fr/?lnk=1&url=https%3A%2F%2Fworkspace.fao.org%2Fsites%2Fcodex%2FStandards%2FCXC%2B1-1969%2FCXC_001c.pdf
-                                        # Il faut extraire: https://workspace.fao.org/sites/codex/Standards/CXC%2B1-1969/CXC_001c.pdf
-                                        # Puis décoder encore une fois si nécessaire
-                                        if 'url=' in decoded_href:
-                                            # Extraire la partie après 'url='
-                                            url_part = decoded_href.split('url=', 1)[1]
-                                            # Décoder à nouveau
-                                            final_pdf_url = requests.utils.unquote(url_part)
-                                            # Vérifier que c'est bien un lien HTTPS
-                                            if final_pdf_url.startswith('https://'):
-                                                pdf_url = final_pdf_url
-                                                break
-                                        else:
-                                            # Si pas de 'url=', on utilise directement le lien
-                                            pdf_url = decoded_href
-                                            break
-                            # Si on n'a pas trouvé de lien PDF valide, générer un lien plausible
                             if not pdf_url:
-                                pdf_url = generate_pdf_link_simple(full_code, year)
                             documents.append({
                                 'code': full_code,
                                 'title': title,
                                 'committee': committee,
                                 'year': year,
-                                'pdf_url': pdf_url
                             })
         st.success(f"Extraction terminée. {len(documents)} documents trouvés.")
         return documents
     except Exception as e:
         st.error(f"Erreur lors de l'extraction : {e}")
         return []
-def generate_pdf_link_simple(code, year):
-    """
-    Génère un lien PDF plausible basé sur le code et l'année.
-    Utilisé comme fallback si aucun lien n'est trouvé dans le HTML.
-    """
-    try:
-        parts = code.split()
-        prefix = parts[0]
-        number_part = parts[1]
-        if '-' in number_part:
-            num_year_parts = number_part.split('-', 1)
-            main_num_str = num_year_parts[0]
-            suffix_year = num_year_parts[1]
-            # Pad le numéro principal
-            main_num = int(main_num_str.rstrip('R'))
-            padded_main_num = f"{main_num:03d}"
-            if main_num_str.endswith('R'):
-                padded_main_num += 'R'
-            clean_code_for_url = f"{prefix}_{padded_main_num}-{suffix_year}"
-        else:
-            # Pas de tiret
-            main_num = int(number_part.rstrip('R'))
-            padded_main_num = f"{main_num:03d}"
-            if number_part.endswith('R'):
-                padded_main_num += 'R'
-            clean_code_for_url = f"{prefix}_{padded_main_num}"
-        # URL de base la plus courante
-        return f"https://www.fao.org/fileadmin/templates/codexalimentarius/pdf/CODEX_STANDARDS/{clean_code_for_url}.pdf"
-    except:
-        # En cas d'erreur, lien de recherche
-        search_term = code.replace(' ', '%20')
-        return f"https://www.fao.org/fao-who-codexalimentarius/search/en/?q={search_term}"
 # Initialisation de l'état de session
 if 'documents' not in st.session_state:
     st.session_state.documents = []
 # --- Interface Utilisateur ---
 st.title("📋 Visualiseur de Codes de Pratique Codex (CXC)")
-st.markdown("Extraction et affichage des documents CXC avec liens de téléchargement.")
 # Bouton de chargement
 col1, col2 = st.columns([1, 3])
@@ -189,7 +150,8 @@ if st.session_state.documents:
                 st.link_button("📄 Télécharger le PDF", doc['pdf_url'], type="primary", use_container_width=True)
             # Afficher l'URL du PDF en petit (optionnel, pour débogage)
-            # st.caption(f"PDF: {doc['pdf_url']}")
             st.divider() # Ligne de séparation entre les documents
@@ -198,7 +160,7 @@ if st.session_state.documents:
     st.subheader("💾 Exporter les données")
     col1, col2 = st.columns(2)
     with col1:
-        csv = df.to_csv(index=False)
         st.download_button(
             label="📄 Télécharger en CSV",
             data=csv,
@@ -215,4 +177,4 @@ if st.session_state.documents:
         )
 else:
-    st.info("Cliquez sur le bouton 'Charger/Recharger les Documents' pour démarrer l'extraction.")

+# streamlit_app_cxc_final.py
 import streamlit as st
 import requests
 from bs4 import BeautifulSoup
 import re
 import pandas as pd
 from datetime import datetime
+import urllib.parse # Pour le décodage d'URL
 # --- Configuration ---
 CODEX_URL = "https://www.fao.org/fao-who-codexalimentarius/codex-texts/codes-of-practice/fr/"
 @st.cache_data(ttl=3600)
 def extract_cxc_documents():
     """
+    Fonction pour extraire les Codes de Pratique (CXC) avec leurs liens PDF directs depuis le HTML.
     """
     st.info("Extraction des documents depuis le site Codex...")
     documents = []
             rows = table.find_all('tr')
             for row in rows:
                 cells = row.find_all(['td', 'th'])
+                # Vérifier s'il y a au moins 5 cellules (données + cellule PDF)
+                if len(cells) >= 5:
+                    # Extraire les données de base (cellules 1 à 4)
+                    cell_texts = [cell.get_text(strip=True) for cell in cells[:4]]
                     code_candidate = cell_texts[0] if cell_texts else ""
+                    # Pattern pour CXC
                     code_match = re.match(r'^(CXC)\s+([\w\-R]*\d+(?:-\d+)?[R]?)$', code_candidate)
                     if code_match:
                             except ValueError:
                                 year = 0
+                            # --- EXTRACTION DU LIEN PDF DIRECT ---
+                            # Le lien PDF est dans la 5ème cellule (index 4)
+                            pdf_cell = cells[4]
                             pdf_url = None
+                            # Trouver le premier lien <a> dans cette cellule qui contient 'pdf'
+                            link_tag = pdf_cell.find('a', href=re.compile(r'.*\.pdf', re.IGNORECASE))
+                            if link_tag:
+                                href = link_tag.get('href')
+                                if href:
+                                    # 1. Décoder l'URL encodée (ex: &amp; -> &)
+                                    decoded_href = urllib.parse.unquote(href)
+                                    # 2. Extraire l'URL réelle après 'url='
+                                    if 'url=' in decoded_href:
+                                        # Extraire la partie après 'url='
+                                        url_part = decoded_href.split('url=', 1)[1]
+                                        # 3. Décoder à nouveau l'URL extraite
+                                        final_pdf_url = urllib.parse.unquote(url_part)
+                                        pdf_url = final_pdf_url
+                                    else:
+                                        # Si pas de 'url=', utiliser le href décodé directement
+                                        pdf_url = decoded_href
+                            # Si aucun lien PDF n'a été trouvé, on met un placeholder
                             if not pdf_url:
+                                pdf_url = "https://www.fao.org/fao-who-codexalimentarius/search/en/?q=" + full_code.replace(' ', '%20')
                             documents.append({
                                 'code': full_code,
                                 'title': title,
                                 'committee': committee,
                                 'year': year,
+                                'pdf_url': pdf_url # Lien PDF extrait et nettoyé, ou lien de recherche
                             })
         st.success(f"Extraction terminée. {len(documents)} documents trouvés.")
         return documents
     except Exception as e:
         st.error(f"Erreur lors de l'extraction : {e}")
+        import traceback
+        st.text_area("Traceback", traceback.format_exc(), height=200) # Pour aider au débogage
         return []
 # Initialisation de l'état de session
 if 'documents' not in st.session_state:
     st.session_state.documents = []
 # --- Interface Utilisateur ---
 st.title("📋 Visualiseur de Codes de Pratique Codex (CXC)")
+st.markdown("Extraction et affichage des documents CXC avec liens de téléchargement directs.")
 # Bouton de chargement
 col1, col2 = st.columns([1, 3])
                 st.link_button("📄 Télécharger le PDF", doc['pdf_url'], type="primary", use_container_width=True)
             # Afficher l'URL du PDF en petit (optionnel, pour débogage)
+            # with st.expander("Voir l'URL du PDF"):
+            #     st.code(doc['pdf_url'])
             st.divider() # Ligne de séparation entre les documents
     st.subheader("💾 Exporter les données")
     col1, col2 = st.columns(2)
     with col1:
+        csv = df.to_csv(index=False, sep=';') # ';' pour compatibilité Excel FR
         st.download_button(
             label="📄 Télécharger en CSV",
             data=csv,
         )
 else:
+    st.info("Cliquez sur le bouton 'Charger/Recharger les Documents' pour démarrer l'extraction.")