Spaces:

Vincentran
/

ecommerce-intelligence

Runtime error

App Files Files Community

Vincentran commited on 1 day ago

Commit

2c7b3a2

1 Parent(s): 95adcbf

Upload E-Commerce Product Intelligence Dashboard

Browse files

Files changed (5) hide show

app.py +67 -13
backend/__init__.py +0 -0
backend/api.py +0 -50
backend/scheduler.py +0 -35
backend/scraper.py +0 -7

app.py CHANGED Viewed

@@ -1,27 +1,81 @@
 import logging
-from contextlib import asynccontextmanager
 from fastapi import FastAPI
 from fastapi.staticfiles import StaticFiles
-from fastapi.responses import HTMLResponse
 from pathlib import Path
-from backend.api import app as api_app
-from backend.scheduler import init_scheduler, shutdown_scheduler
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
-@asynccontextmanager
-async def lifespan(app: FastAPI):
-    logger.info("Starting app...")
-    init_scheduler()
-    yield
-    logger.info("Shutting down app...")
-    shutdown_scheduler()
-app = FastAPI(title="E-Commerce Product Intelligence Platform", lifespan=lifespan)
-app.include_router(api_app)
 frontend_dir = Path("frontend")
 if frontend_dir.exists():
     app.mount("/", StaticFiles(directory=str(frontend), html=True), name="frontend")

 import logging
+import pandas as pd
 from fastapi import FastAPI
 from fastapi.staticfiles import StaticFiles
+from fastapi.responses import HTMLResponse, JSONResponse
 from pathlib import Path
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
+app = FastAPI(title="E-Commerce Product Intelligence Platform")
+# ==================== Load data ====================
+def load_data():
+    """Load parquet."""
+    parquet_path = Path("data/ecommerce_products.parquet")
+    if not parquet_path.exists():
+        raise FileNotFoundError(f"Parquet not found: {parquet_path}")
+    return pd.read_parquet(parquet_path)
+# ==================== API Routes ====================
+@app.get("/")
+def root():
+    return {"status": "E-Commerce Product Intelligence API is running"}
+@app.get("/data")
+def get_data():
+    df = load_data()
+    return df.head(200).to_dict("records")
+@app.get("/stats/categories")
+def stats_categories():
+    df = load_data()
+    return df["category"].value_counts().head(10).to_dict()
+@app.get("/stats/brands")
+def stats_brands():
+    df = load_data()
+    return df["brand"].value_counts().head(10).to_dict()
+@app.get("/stats/price")
+def stats_price():
+    df = load_data()
+    return df.groupby("category")["price"].agg(["mean", "median", "min", "max", "count"]).reset_index().to_dict("records")
+@app.get("/stats/rating")
+def stats_rating():
+    df = load_data()
+    return df.groupby("category")["rating"].agg(["mean", "median", "min", "max", "count"]).reset_index().to_dict("records")
+@app.get("/insights")
+def insights():
+    df = load_data()
+    return JSONResponse(content={
+        "total_products": len(df),
+        "categories": df["category"].nunique(),
+        "brands": df["brand"].nunique(),
+        "avg_price": df["price"].mean(),
+        "avg_rating": df["rating"].mean(),
+    })
+@app.get("/search")
+def search(query: str):
+    df = load_data()
+    q = query.lower()
+    mask = (
+        df["title"].str.contains(q, case=False, na=False) |
+        df["description"].str.contains(q, case=False, na=False)
+    )
+    return df[mask].head(100).to_dict("records")
+@app.get("/recommend")
+def recommend(category: str):
+    df = load_data()
+    subset = df[df["category"] == category]
+    return subset.sort_values("rating", ascending=False).head(10).to_dict("records")
+# ==================== Frontend ====================
 frontend_dir = Path("frontend")
 if frontend_dir.exists():
     app.mount("/", StaticFiles(directory=str(frontend), html=True), name="frontend")

backend/__init__.py ADDED Viewed

File without changes

backend/api.py DELETED Viewed

@@ -1,50 +0,0 @@
-from fastapi import FastAPI, HTTPException
-from fastapi.responses import JSONResponse
-from backend.services import load_data, get_top_categories, get_top_brands, get_price_stats, get_rating_stats
-from backend.agent import generate_insights, semantic_search, recommend_by_category
-app = FastAPI(title="E-Commerce Product Intelligence API")
-@app.get("/")
-def root():
-    return {"status": "E-Commerce Product Intelligence API is running"}
-@app.get("/data")
-def get_data():
-    df = load_data()
-    return df.head(200).to_dict("records")
-@app.get("/stats/categories")
-def stats_categories():
-    df = load_data()
-    return get_top_categories(df, n=10).to_dict()
-@app.get("/stats/brands")
-def stats_brands():
-    df = load_data()
-    return get_top_brands(df, n=10).to_dict()
-@app.get("/stats/price")
-def stats_price():
-    df = load_data()
-    return get_price_stats(df).to_dict("records")
-@app.get("/stats/rating")
-def stats_rating():
-    df = load_data()
-    return get_rating_stats(df).to_dict("records")
-@app.get("/insights")
-def insights():
-    df = load_data()
-    return JSONResponse(content=generate_insights(df))
-@app.get("/search")
-def search(query: str):
-    df = load_data()
-    return semantic_search(query, df).head(100).to_dict("records")
-@app.get("/recommend")
-def recommend(category: str):
-    df = load_data()
-    return recommend_by_category(df, category).to_dict("records")

backend/scheduler.py DELETED Viewed

@@ -1,35 +0,0 @@
-from apscheduler.schedulers.background import BackgroundScheduler
-from apscheduler.triggers.cron import CronTrigger
-import logging
-logger = logging.getLogger("scheduler")
-scheduler = BackgroundScheduler()
-def scheduled_scraper_job():
-    """Chạy scraper trong job."""
-    logger.info("Running scheduled scraper job...")
-    try:
-        # Import dynamic khi cần
-        from backend.scraper import run_scraper
-        run_scraper()
-        logger.info("Scheduled scraper job completed.")
-    except Exception as e:
-        logger.error(f"Scheduled scraper job failed: {e}")
-def init_scheduler():
-    """Schedule scraper to run daily at 02:00 AM."""
-    scheduler.add_job(
-        scheduled_scraper_job,
-        CronTrigger(hour=2, minute=0),
-        id="daily_scraper",
-        replace_existing=True
-    )
-    logger.info("Scheduled scraper job added: daily at 02:00 AM")
-    scheduler.start()
-def shutdown_scheduler():
-    scheduler.shutdown()

backend/scraper.py CHANGED Viewed

@@ -4,9 +4,6 @@ from pathlib import Path
 import pandas as pd
 import shutil
-# Không import KaggleApi ở đây!
-# Sẽ import và authenticate khi cần
 DATASET_SLUG = "anujsaha0123456789/e-commerce-product-intelligence-dataset"
 TEMP_DIR = Path("data/temp_kaggle")
 OUTPUT_PARQUET = Path("data/ecommerce_products.parquet")
@@ -23,10 +20,6 @@ def setup_kaggle_api():
         raise ValueError("KAGGLE_API_TOKEN environment variable not set!")
     api = KaggleApi()
-    # Tự authenticate từ token
-    # Token format: KGAT_xxxxx
-    # Kaggle cần: username + key
     api.api_token = token
     return api

 import pandas as pd
 import shutil
 DATASET_SLUG = "anujsaha0123456789/e-commerce-product-intelligence-dataset"
 TEMP_DIR = Path("data/temp_kaggle")
 OUTPUT_PARQUET = Path("data/ecommerce_products.parquet")
         raise ValueError("KAGGLE_API_TOKEN environment variable not set!")
     api = KaggleApi()
     api.api_token = token
     return api