Spaces:

Loren
/

api_search_articles

Sleeping

App Files Files Community

Loren commited on Oct 8, 2025

Commit

70ca2a3

verified ·

1 Parent(s): 753fe36

Upload 6 files

Browse files

Files changed (6) hide show

Dockerfile +17 -15
app/database.py +80 -80
app/main.py +1 -1
requirements.txt +5 -5
script/create_dataset.py +10 -4
script/test_api.py +4 -3

Dockerfile CHANGED Viewed

@@ -1,15 +1,17 @@
-# Utiliser Python 3.11 slim
-FROM python:3.11-slim
-WORKDIR /app
-# Copier le code et la base SQLite
-COPY requirements.txt .
-COPY app ./app
-# Installer les dépendances
-RUN pip install --no-cache-dir -r requirements.txt
-# Lancer FastAPI
-CMD ["uvicorn", "app.main:app", "--host", "0.0.0.0", "--port", "7860"]

+# Utiliser Python 3.11 slim
+FROM python:3.11-slim
+WORKDIR /app
+# Copier le code et la base SQLite
+COPY requirements.txt .
+COPY app ./app
+# Installer les dépendances
+RUN pip install --no-cache-dir -r requirements.txt
+# Exposer port (Hugging Face Spaces utilise 7860 par d�faut)
+EXPOSE 7860
+# Lancer FastAPI
+CMD ["uvicorn", "app.main:app", "--host", "0.0.0.0", "--port", "7860"]

app/database.py CHANGED Viewed

@@ -1,81 +1,81 @@
-import os
-from typing import List, Dict
-import duckdb
-from huggingface_hub import hf_hub_download
-# Initialisations
-REPO_ID = "Loren/articles_database"
-cache_dir = "/tmp"
-os.makedirs(cache_dir, exist_ok=True)
-# Rediriger le cache HF globalement
-os.environ["HF_HOME"] = cache_dir
-os.environ["HF_DATASETS_CACHE"] = cache_dir
-os.environ["TRANSFORMERS_CACHE"] = cache_dir
-# Téléchargement des fichiers Parquet depuis Hugging Face
-articles_parquet = hf_hub_download(
-    repo_id=REPO_ID,
-    filename="articles.parquet",
-    repo_type="dataset",
-    cache_dir=cache_dir)
-tags_parquet = hf_hub_download(
-    repo_id=REPO_ID,
-    filename="tags.parquet",
-    repo_type="dataset",
-    cache_dir=cache_dir)
-tag_article_parquet = hf_hub_download(
-    repo_id=REPO_ID,
-    filename="tag_article.parquet",
-    repo_type="dataset",
-    cache_dir=cache_dir)
-# Connexion DuckDB en mémoire
-con = duckdb.connect()
-# Créer des tables DuckDB directement à partir des fichiers Parquet
-con.execute(f"CREATE VIEW articles AS SELECT * FROM parquet_scan('{articles_parquet}')")
-con.execute(f"CREATE VIEW tags AS SELECT * FROM parquet_scan('{tags_parquet}')")
-con.execute(f"CREATE VIEW tag_article AS SELECT * FROM parquet_scan('{tag_article_parquet}')")
-# Fonctions d'accès aux données
-def fetch_tags() -> List[str]:
-    """
-    Récupère la liste de tous les tags disponibles dans la base de données.
-    Returns:
-        List[str]: Une liste de chaînes de caractères correspondant aux noms des tags, triés par ordre alphabétique.
-    """
-    query = "SELECT tag_name FROM tags ORDER BY tag_name"
-    result = con.execute(query).fetchall()
-    return [row[0] for row in result]
-def fetch_articles_by_tags(tags: List[str]) -> List[Dict]:
-    """
-    Récupère les articles associés à un ou plusieurs tags.
-    Args:
-        tags (List[str]): Une liste de noms de tags pour filtrer les articles.
-    Returns:
-        List[Dict]: Une liste de dictionnaires, chacun représentant un article avec les clés:
-                    - 'article_id': ID de l'article
-                    - 'article_title': Titre de l'article
-                    - 'article_url': URL de l'article
-    Notes:
-        - Si la liste `tags` est vide, la fonction retourne une liste vide.
-        - Les résultats incluent uniquement les articles correspondant à au moins un des tags fournis.
-    """
-    if not tags:
-        return []
-    placeholders = ",".join(["?"] * len(tags))
-    query = f"""SELECT distinct a.article_id, a.article_title, a.article_url
-                  FROM tags t, tag_article ta, articles a
-                 WHERE t.tag_id = ta.tag_id
-                   AND ta.article_id = a.article_id
-                   AND t.tag_name IN ({placeholders})
-             """
-    result = con.execute(query, tags).fetchdf()
     return result.to_dict(orient="records")

+import os
+from typing import List, Dict
+import duckdb
+from huggingface_hub import hf_hub_download
+# Initialisations
+REPO_ID = "Loren/articles_database"
+cache_dir = "/tmp"
+os.makedirs(cache_dir, exist_ok=True)
+# Rediriger le cache HF globalement
+os.environ["HF_HOME"] = cache_dir
+os.environ["HF_DATASETS_CACHE"] = cache_dir
+os.environ["TRANSFORMERS_CACHE"] = cache_dir
+# Téléchargement des fichiers Parquet depuis Hugging Face
+articles_parquet = hf_hub_download(
+    repo_id=REPO_ID,
+    filename="articles.parquet",
+    repo_type="dataset",
+    cache_dir=cache_dir)
+tags_parquet = hf_hub_download(
+    repo_id=REPO_ID,
+    filename="tags.parquet",
+    repo_type="dataset",
+    cache_dir=cache_dir)
+tag_article_parquet = hf_hub_download(
+    repo_id=REPO_ID,
+    filename="tag_article.parquet",
+    repo_type="dataset",
+    cache_dir=cache_dir)
+# Connexion DuckDB en mémoire
+con = duckdb.connect()
+# Créer des tables DuckDB directement à partir des fichiers Parquet
+con.execute(f"CREATE VIEW articles AS SELECT * FROM parquet_scan('{articles_parquet}')")
+con.execute(f"CREATE VIEW tags AS SELECT * FROM parquet_scan('{tags_parquet}')")
+con.execute(f"CREATE VIEW tag_article AS SELECT * FROM parquet_scan('{tag_article_parquet}')")
+# Fonctions d'accès aux données
+def fetch_tags() -> List[str]:
+    """
+    Récupère la liste de tous les tags disponibles dans la base de données.
+    Returns:
+        List[str]: Une liste de chaînes de caractères correspondant aux noms des tags, triés par ordre alphabétique.
+    """
+    query = "SELECT tag_name FROM tags ORDER BY tag_name"
+    result = con.execute(query).fetchall()
+    return [row[0] for row in result]
+def fetch_articles_by_tags(tags: List[str]) -> List[Dict]:
+    """
+    Récupère les articles associés à un ou plusieurs tags.
+    Args:
+        tags (List[str]): Une liste de noms de tags pour filtrer les articles.
+    Returns:
+        List[Dict]: Une liste de dictionnaires, chacun représentant un article avec les clés:
+                    - 'article_id': ID de l'article
+                    - 'article_title': Titre de l'article
+                    - 'article_url': URL de l'article
+    Notes:
+        - Si la liste `tags` est vide, la fonction retourne une liste vide.
+        - Les résultats incluent uniquement les articles correspondant à au moins un des tags fournis.
+    """
+    if not tags:
+        return []
+    placeholders = ",".join(["?"] * len(tags))
+    query = f"""SELECT distinct a.article_id, a.article_title, a.article_url
+                  FROM tags t, tag_article ta, articles a
+                 WHERE t.tag_id = ta.tag_id
+                   AND ta.article_id = a.article_id
+                   AND t.tag_name IN ({placeholders})
+             """
+    result = con.execute(query, tags).fetchdf()
     return result.to_dict(orient="records")

app/main.py CHANGED Viewed

@@ -34,6 +34,6 @@ def get_articles_with_tags(
     """
     Retourne les articles correspondant aux tags donnés
     """
-    articles = database.fetch_articles_by_tags(tags, mode)
     return {"tags": tags,
             "articles": articles}

     """
     Retourne les articles correspondant aux tags donnés
     """
+    articles = database.fetch_articles_by_tags(tags)
     return {"tags": tags,
             "articles": articles}

requirements.txt CHANGED Viewed

@@ -1,6 +1,6 @@
-fastapi==0.109.2
-uvicorn[standard]==0.23.2
-pandas==2.1.1
-pyarrow==12.0.1
-huggingface_hub==0.35.3
 duckdb==1.4.0

+fastapi==0.109.2
+uvicorn[standard]==0.23.2
+pandas==2.1.1
+pyarrow==12.0.1
+huggingface_hub==0.35.3
 duckdb==1.4.0

script/create_dataset.py CHANGED Viewed

@@ -86,11 +86,11 @@ CREATE TABLE tag_article (
     FOREIGN KEY(tag_id) REFERENCES tags(tag_id)
 )""")
-# Extraction des tags en une liste unique
-print("Extraction des tags en une liste unique ...")
 df['list_tags'] = df['tags'].apply(lambda x: ast.literal_eval(x) if isinstance(x, str) else [])
 # Extraire tous les tags uniques
-all_tags = list(set(itertools.chain.from_iterable(df['list_tags'])))
 # Comptage du nombre d'occurrences de chaque tag
 tag_counts = Counter(all_tags)
 # On ne va conserver que les tags avec au moins 100 occurrences
@@ -134,7 +134,13 @@ for _, row in df.iterrows():
         except:
             pass
-# Commit et fermeture de la connexion
 print("Commit ...")
 conn.commit()

     FOREIGN KEY(tag_id) REFERENCES tags(tag_id)
 )""")
+# Extraction des tags en une liste
+print("Extraction des tags en une liste  ...")
 df['list_tags'] = df['tags'].apply(lambda x: ast.literal_eval(x) if isinstance(x, str) else [])
 # Extraire tous les tags uniques
+all_tags = list(itertools.chain.from_iterable(df['list_tags']))
 # Comptage du nombre d'occurrences de chaque tag
 tag_counts = Counter(all_tags)
 # On ne va conserver que les tags avec au moins 100 occurrences
         except:
             pass
+print("-> ", len(list_tags), " tags")
+cur.execute("SELECT COUNT(*) FROM ma_table")
+nb_lignes = cur.fetchone()[0]
+print("-> ", nb_lignes, " associations articles <-> tags")
+print("-> ", len(df), " articles")
+# Commit
 print("Commit ...")
 conn.commit()

script/test_api.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import requests
-BASE_URL = "http://localhost:8000"  # ⚠️ changer en URL HF Space si déployé
 def test_get_tags():
     print("🔍 Test: /get_tags")
@@ -9,7 +9,7 @@ def test_get_tags():
         print("❌ Erreur", resp.status_code, resp.text)
         return
     tags = resp.json().get("tags", [])
-    print(f"✅ {len(tags)} tags récupérés : {tags[:10]}...")  # affiche 10 premiers
     return tags
@@ -29,7 +29,8 @@ def test_get_articles_with_tags(tags):
 def main():
     tags = test_get_tags()
-    test_get_articles_with_tags(tags)
 if __name__ == "__main__":
     main()

 import requests
+BASE_URL = "https://loren-api-search-articles.hf.space"
 def test_get_tags():
     print("🔍 Test: /get_tags")
         print("❌ Erreur", resp.status_code, resp.text)
         return
     tags = resp.json().get("tags", [])
+    print(f"✅ {len(tags)} tags récupérés : {tags[:3]}...")  # affiche 3 premiers
     return tags
 def main():
     tags = test_get_tags()
+    print(tags[0:1])
+    test_get_articles_with_tags(tags[0:1])
 if __name__ == "__main__":
     main()