Spaces:

MMOON
/

CODEXMONITEUR

Sleeping

App Files Files Community

MMOON commited on Aug 19, 2025

Commit

e569caa

verified ·

1 Parent(s): d553d20

Update src/streamlit_app.py

Browse files

Files changed (1) hide show

src/streamlit_app.py +11 -15

src/streamlit_app.py CHANGED Viewed

@@ -1,4 +1,4 @@
-# streamlit_app_cxc_final.py
 import streamlit as st
 import requests
 from bs4 import BeautifulSoup
@@ -13,6 +13,7 @@ HEADERS = {
     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36'
 }
 TIMEOUT = 30
 # --- Fin Configuration ---
 # Configuration de la page
@@ -21,7 +22,8 @@ st.set_page_config(page_title="Codex CXC Viewer", page_icon="📋", layout="wide
 @st.cache_data(ttl=3600)
 def extract_cxc_documents():
     """
-    Fonction pour extraire les Codes de Pratique (CXC) avec leurs liens PDF directs depuis le HTML.
     """
     st.info("Extraction des documents depuis le site Codex...")
     documents = []
@@ -65,7 +67,7 @@ def extract_cxc_documents():
                             except ValueError:
                                 year = 0
-                            # --- EXTRACTION DU LIEN PDF DIRECT ---
                             # Le lien PDF est dans la 5ème cellule (index 4)
                             pdf_cell = cells[4]
                             pdf_url = None
@@ -75,19 +77,13 @@ def extract_cxc_documents():
                             if link_tag:
                                 href = link_tag.get('href')
                                 if href:
-                                    # 1. Décoder l'URL encodée (ex: &amp; -> &)
-                                    decoded_href = urllib.parse.unquote(href)
-                                    # 2. Extraire l'URL réelle après 'url='
-                                    if 'url=' in decoded_href:
-                                        # Extraire la partie après 'url='
-                                        url_part = decoded_href.split('url=', 1)[1]
-                                        # 3. Décoder à nouveau l'URL extraite
-                                        final_pdf_url = urllib.parse.unquote(url_part)
-                                        pdf_url = final_pdf_url
-                                    else:
-                                        # Si pas de 'url=', utiliser le href décodé directement
-                                        pdf_url = decoded_href
                             # Si aucun lien PDF n'a été trouvé, on met un placeholder
                             if not pdf_url:

+# streamlit_app_cxc_href_final.py
 import streamlit as st
 import requests
 from bs4 import BeautifulSoup
     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36'
 }
 TIMEOUT = 30
+BASE_URL = "https://www.fao.org" # Pour construire l'URL absolue
 # --- Fin Configuration ---
 # Configuration de la page
 @st.cache_data(ttl=3600)
 def extract_cxc_documents():
     """
+    Fonction pour extraire les Codes de Pratique (CXC) avec leurs liens PDF.
+    Utilise le href brut trouvé dans le HTML, le décode et construit l'URL absolue.
     """
     st.info("Extraction des documents depuis le site Codex...")
     documents = []
                             except ValueError:
                                 year = 0
+                            # --- EXTRACTION DU LIEN PDF DIRECTEMENT DU HREF ---
                             # Le lien PDF est dans la 5ème cellule (index 4)
                             pdf_cell = cells[4]
                             pdf_url = None
                             if link_tag:
                                 href = link_tag.get('href')
                                 if href:
+                                    # 1. Décoder les entités HTML (&amp; -> &)
+                                    # BeautifulSoup le fait déjà lors de l'analyse, mais on s'assure
+                                    decoded_href = urllib.parse.unquote(href) # Utile si des %XX sont présents
+                                    # 2. Construire l'URL absolue
+                                    # href="/fao-who-codexalimentarius/..." -> "https://www.fao.org/fao-who-codexalimentarius/..."
+                                    pdf_url = urllib.parse.urljoin(BASE_URL, decoded_href)
                             # Si aucun lien PDF n'a été trouvé, on met un placeholder
                             if not pdf_url: