Spaces:

Vincentran
/

ecommerce-intelligence

Runtime error

App Files Files Community

Vincentran commited on about 19 hours ago

Commit

03da54f

1 Parent(s): 03b47cd

Upload E-Commerce Product Intelligence Dashboard

Browse files

Files changed (2) hide show

app.py +21 -20
backend/scraper.py +1 -27

app.py CHANGED Viewed

@@ -4,63 +4,60 @@ from fastapi import FastAPI
 from fastapi.staticfiles import StaticFiles
 from fastapi.responses import HTMLResponse, JSONResponse
 from pathlib import Path
-from huggingface_hub import hf_hub_download
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
 app = FastAPI(title="E-Commerce Product Intelligence Platform")
-HF_DATASET_REPO = "Vincentran/ecommerce-dataset"
-HF_CSV_FILENAME = "ecommerce_products.csv"
 LOCAL_CSV_PATH = Path("data/ecommerce_products.csv")
-def load_data():
-    """Load CSV từ HF Dataset."""
-    data_dir = Path("data")
-    data_dir.mkdir(parents=True, exist_ok=True)
     if not LOCAL_CSV_PATH.exists():
-        logger.info(f"Downloading CSV from HF Dataset: {HF_DATASET_REPO}")
-        local_path = hf_hub_download(
-            repo_id=HF_DATASET_REPO,
-            filename=HF_CSV_FILENAME,
-            repo_type="dataset",
-            cache_dir=str(data_dir)
-        )
-        logger.info(f"Downloaded to: {local_path}")
     logger.info(f"Loading CSV from: {LOCAL_CSV_PATH}")
     return pd.read_csv(LOCAL_CSV_PATH)
 @app.get("/")
 def root():
     return {"status": "E-Commerce Product Intelligence API is running"}
 @app.get("/data")
 def get_data():
     df = load_data()
     return df.head(200).to_dict("records")
 @app.get("/stats/categories")
 def stats_categories():
     df = load_data()
     return df["category"].value_counts().head(10).to_dict()
 @app.get("/stats/brands")
 def stats_brands():
     df = load_data()
     return df["brand"].value_counts().head(10).to_dict()
 @app.get("/stats/price")
 def stats_price():
     df = load_data()
-    return df.groupby("category")["price"].agg(["mean", "median", "min", "max", "count"]).reset_index().to_dict("records")
 @app.get("/stats/rating")
 def stats_rating():
     df = load_data()
-    return df.groupby("category")["rating"].agg(["mean", "median", "min", "max", "count"]).reset_index().to_dict("records")
 @app.get("/insights")
 def insights():
@@ -73,25 +70,28 @@ def insights():
         "avg_rating": df["rating"].mean(),
     })
 @app.get("/search")
 def search(query: str):
     df = load_data()
     q = query.lower()
     mask = (
-        df["title"].str.contains(q, case=False, na=False) |
-        df["description"].str.contains(q, case=False, na=False)
     )
     return df[mask].head(100).to_dict("records")
 @app.get("/recommend")
 def recommend(category: str):
     df = load_data()
     subset = df[df["category"] == category]
     return subset.sort_values("rating", ascending=False).head(10).to_dict("records")
 @app.post("/run-scraper")
 def trigger_scraper():
-    """Trigger upload CSV lên HF Dataset."""
     import subprocess
     result = subprocess.run(["python", "backend/scraper.py"], capture_output=True, text=True)
     if result.returncode == 0:
@@ -99,6 +99,7 @@ def trigger_scraper():
     else:
         return {"status": "Scraper failed", "error": result.stderr}
 frontend_dir = Path("frontend")
 if frontend_dir.exists():
     app.mount("/", StaticFiles(directory=str(frontend), html=True), name="frontend")

 from fastapi.staticfiles import StaticFiles
 from fastapi.responses import HTMLResponse, JSONResponse
 from pathlib import Path
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
 app = FastAPI(title="E-Commerce Product Intelligence Platform")
 LOCAL_CSV_PATH = Path("data/ecommerce_products.csv")
+def load_data():
+    """Load CSV từ local."""
     if not LOCAL_CSV_PATH.exists():
+        raise FileNotFoundError(f"CSV not found: {LOCAL_CSV_PATH}")
     logger.info(f"Loading CSV from: {LOCAL_CSV_PATH}")
     return pd.read_csv(LOCAL_CSV_PATH)
 @app.get("/")
 def root():
     return {"status": "E-Commerce Product Intelligence API is running"}
 @app.get("/data")
 def get_data():
     df = load_data()
     return df.head(200).to_dict("records")
 @app.get("/stats/categories")
 def stats_categories():
     df = load_data()
     return df["category"].value_counts().head(10).to_dict()
 @app.get("/stats/brands")
 def stats_brands():
     df = load_data()
     return df["brand"].value_counts().head(10).to_dict()
 @app.get("/stats/price")
 def stats_price():
     df = load_data()
+    return df.groupby("category")["price"].agg(["mean", "median", "min", "max", "count"]).reset_index().to_dict(
+        "records")
 @app.get("/stats/rating")
 def stats_rating():
     df = load_data()
+    return df.groupby("category")["rating"].agg(["mean", "median", "min", "max", "count"]).reset_index().to_dict(
+        "records")
 @app.get("/insights")
 def insights():
         "avg_rating": df["rating"].mean(),
     })
 @app.get("/search")
 def search(query: str):
     df = load_data()
     q = query.lower()
     mask = (
+            df["title"].str.contains(q, case=False, na=False) |
+            df["description"].str.contains(q, case=False, na=False)
     )
     return df[mask].head(100).to_dict("records")
 @app.get("/recommend")
 def recommend(category: str):
     df = load_data()
     subset = df[df["category"] == category]
     return subset.sort_values("rating", ascending=False).head(10).to_dict("records")
 @app.post("/run-scraper")
 def trigger_scraper():
+    """Trigger download Kaggle → save CSV."""
     import subprocess
     result = subprocess.run(["python", "backend/scraper.py"], capture_output=True, text=True)
     if result.returncode == 0:
     else:
         return {"status": "Scraper failed", "error": result.stderr}
 frontend_dir = Path("frontend")
 if frontend_dir.exists():
     app.mount("/", StaticFiles(directory=str(frontend), html=True), name="frontend")

backend/scraper.py CHANGED Viewed

@@ -3,7 +3,6 @@ import logging
 import pandas as pd
 from pathlib import Path
 import shutil
-from huggingface_hub import upload_file
 # Set Kaggle env vars TRƯỚC khi import Kaggle
 token = os.getenv("KAGGLE_API_TOKEN")
@@ -12,17 +11,12 @@ if token:
     os.environ['KAGGLE_KEY'] = token_value
     os.environ['KAGGLE_USERNAME'] = 'johnsontrann'
-# Lấy HF_TOKEN từ Space (mặc định có sẵn)
-HF_TOKEN = os.getenv("HF_TOKEN")
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
 DATASET_SLUG = "anujsaha0123456789/e-commerce-product-intelligence-dataset"
 TEMP_DIR = Path("data/temp_kaggle")
 OUTPUT_CSV = Path("data/ecommerce_products.csv")
-HF_DATASET_REPO = "Vincentran/ecommerce-dataset"
-HF_CSV_FILENAME = "ecommerce_products.csv"
 os.makedirs("data", exist_ok=True)
@@ -71,33 +65,13 @@ def save_csv(df: pd.DataFrame):
     logger.info(f"Saved to: {OUTPUT_CSV}")
-def upload_to_hf():
-    """Upload CSV lên HF Dataset."""
-    if not OUTPUT_CSV.exists():
-        raise FileNotFoundError(f"CSV not found: {OUTPUT_CSV}")
-    if not HF_TOKEN:
-        logger.warning("HF_TOKEN not found, trying without authentication...")
-    logger.info(f"Uploading CSV to HF Dataset: {HF_DATASET_REPO}")
-    upload_file(
-        path_or_fileobj=str(OUTPUT_CSV),
-        path_in_repo=HF_CSV_FILENAME,
-        repo_id=HF_DATASET_REPO,
-        repo_type="dataset",
-        token=HF_TOKEN if HF_TOKEN else None
-    )
-    logger.info("Upload completed successfully.")
 def run_scraper():
-    """Full pipeline: download Kaggle → save CSV → upload HF Dataset."""
     try:
         download_dataset()
         csv_files = find_csv_files(TEMP_DIR)
         df = load_and_concatenate(csv_files)
         save_csv(df)
-        upload_to_hf()
     finally:
         shutil.rmtree(TEMP_DIR, ignore_errors=True)

 import pandas as pd
 from pathlib import Path
 import shutil
 # Set Kaggle env vars TRƯỚC khi import Kaggle
 token = os.getenv("KAGGLE_API_TOKEN")
     os.environ['KAGGLE_KEY'] = token_value
     os.environ['KAGGLE_USERNAME'] = 'johnsontrann'
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
 DATASET_SLUG = "anujsaha0123456789/e-commerce-product-intelligence-dataset"
 TEMP_DIR = Path("data/temp_kaggle")
 OUTPUT_CSV = Path("data/ecommerce_products.csv")
 os.makedirs("data", exist_ok=True)
     logger.info(f"Saved to: {OUTPUT_CSV}")
 def run_scraper():
+    """Full pipeline: download Kaggle → save CSV (không upload HF)."""
     try:
         download_dataset()
         csv_files = find_csv_files(TEMP_DIR)
         df = load_and_concatenate(csv_files)
         save_csv(df)
     finally:
         shutil.rmtree(TEMP_DIR, ignore_errors=True)