Spaces:

MMOON
/

CODEXMONITEUR

Sleeping

App Files Files Community

MMOON commited on Aug 19, 2025

Commit

dd18a20

verified ·

1 Parent(s): f413fe0

Update src/streamlit_app.py

Browse files

Files changed (1) hide show

src/streamlit_app.py +34 -26

src/streamlit_app.py CHANGED Viewed

@@ -1,4 +1,4 @@
-# streamlit_app_cxc_with_pdf.py
 import streamlit as st
 import requests
 from bs4 import BeautifulSoup
@@ -21,7 +21,7 @@ st.set_page_config(page_title="Codex CXC Viewer", page_icon="📋", layout="wide
 @st.cache_data(ttl=3600)
 def extract_cxc_documents():
     """
-    Fonction pour extraire les Codes de Pratique (CXC) avec leurs liens PDF.
     """
     st.info("Extraction des documents depuis le site Codex...")
     documents = []
@@ -63,32 +63,41 @@ def extract_cxc_documents():
                             except ValueError:
                                 year = 0
-                            # --- EXTRACTION DES LIENS PDF ---
                             # Le lien PDF est dans la dernière cellule (<td class="alignCenter">)
-                            # Cette cellule contient un sous-tableau avec les liens
                             pdf_cell = cells[4] if len(cells) > 4 else None
-                            # Récupérer les liens PDF du sous-tableau
-                            pdf_links = []
                             if pdf_cell:
-                                # Trouver le sous-tableau dans cette cellule
-                                sub_table = pdf_cell.find('table')
-                                if sub_table:
-                                    # Trouver toutes les lignes du sous-tableau
-                                    sub_rows = sub_table.find_all('tr')
-                                    for sub_row in sub_rows:
-                                        # Trouver tous les liens <a> dans cette ligne
-                                        links = sub_row.find_all('a')
-                                        for link in links:
-                                            href = link.get('href')
-                                            if href and 'pdf' in href.lower():
-                                                # Décoder l'URL encodée en %XX
-                                                decoded_url = requests.utils.unquote(href)
-                                                # Ajouter le lien au tableau
-                                                pdf_links.append(decoded_url)
-                            # Si on a trouvé un lien, l'utiliser, sinon générer un lien plausible
-                            pdf_url = pdf_links[0] if pdf_links else generate_pdf_link_simple(full_code, year)
                             documents.append({
                                 'code': full_code,
@@ -109,7 +118,6 @@ def generate_pdf_link_simple(code, year):
     Génère un lien PDF plausible basé sur le code et l'année.
     Utilisé comme fallback si aucun lien n'est trouvé dans le HTML.
     """
-    # Ex: CXC 80-2020 -> CXC_080-2020
     try:
         parts = code.split()
         prefix = parts[0]

+# streamlit_app_cxc_with_pdf_fixed.py
 import streamlit as st
 import requests
 from bs4 import BeautifulSoup
 @st.cache_data(ttl=3600)
 def extract_cxc_documents():
     """
+    Fonction pour extraire les Codes de Pratique (CXC) avec leurs liens PDF correctement décodés.
     """
     st.info("Extraction des documents depuis le site Codex...")
     documents = []
                             except ValueError:
                                 year = 0
+                            # --- EXTRACTION DES LIENS PDF CORRECTEMENT DECODÉS ---
                             # Le lien PDF est dans la dernière cellule (<td class="alignCenter">)
                             pdf_cell = cells[4] if len(cells) > 4 else None
+                            pdf_url = None
                             if pdf_cell:
+                                # Trouver tous les liens <a> dans cette cellule
+                                links = pdf_cell.find_all('a')
+                                for link in links:
+                                    href = link.get('href')
+                                    if href and 'pdf' in href.lower():
+                                        # Décoder l'URL encodée
+                                        decoded_href = requests.utils.unquote(href)
+                                        # L'URL décrite commence par /fao-who-codexalimentarius/sh-proxy/fr/?lnk=1&url=...
+                                        # On extrait la partie après url=
+                                        # Exemple: https://www.fao.org/fao-who-codexalimentarius/sh-proxy/fr/?lnk=1&url=https%3A%2F%2Fworkspace.fao.org%2Fsites%2Fcodex%2FStandards%2FCXC%2B1-1969%2FCXC_001c.pdf
+                                        # Il faut extraire: https://workspace.fao.org/sites/codex/Standards/CXC%2B1-1969/CXC_001c.pdf
+                                        # Puis décoder encore une fois si nécessaire
+                                        if 'url=' in decoded_href:
+                                            # Extraire la partie après 'url='
+                                            url_part = decoded_href.split('url=', 1)[1]
+                                            # Décoder à nouveau
+                                            final_pdf_url = requests.utils.unquote(url_part)
+                                            # Vérifier que c'est bien un lien HTTPS
+                                            if final_pdf_url.startswith('https://'):
+                                                pdf_url = final_pdf_url
+                                                break
+                                        else:
+                                            # Si pas de 'url=', on utilise directement le lien
+                                            pdf_url = decoded_href
+                                            break
+                            # Si on n'a pas trouvé de lien PDF valide, générer un lien plausible
+                            if not pdf_url:
+                                pdf_url = generate_pdf_link_simple(full_code, year)
                             documents.append({
                                 'code': full_code,
     Génère un lien PDF plausible basé sur le code et l'année.
     Utilisé comme fallback si aucun lien n'est trouvé dans le HTML.
     """
     try:
         parts = code.split()
         prefix = parts[0]