Spaces:

n2d
/

worldcup-pulse-dataops

Running

App Files Files Community

worldcup-pulse-dataops / data_access.py

n2d

deploy dataops space

56c382a 3 days ago

Raw

History Blame Contribute Delete

11.7 kB

	from __future__ import annotations

	import os
	from datetime import datetime, timedelta, timezone

	import duckdb
	import numpy as np
	import pandas as pd
	import streamlit as st
	from huggingface_hub import hf_hub_download

	HF_DATASET_REPO = os.environ.get("HF_DATASET_REPO", "your-username/worldcup-pulse-data")
	HF_TOKEN = os.environ.get("HF_TOKEN")

	TEAMS = [
	("CAN", "Canada", "🇨🇦", 31, "A"), ("MEX", "Mexico", "🇲🇽", 15, "A"), ("USA", "United States", "🇺🇸", 11, "B"),
	("BRA", "Brazil", "🇧🇷", 5, "C"), ("FRA", "France", "🇫🇷", 2, "D"), ("ARG", "Argentina", "🇦🇷", 1, "E"),
	("ENG", "England", "🏴", 4, "F"), ("ESP", "Spain", "🇪🇸", 8, "G"), ("GER", "Germany", "🇩🇪", 10, "H"),
	("POR", "Portugal", "🇵🇹", 6, "I"), ("JPN", "Japan", "🇯🇵", 18, "J"), ("URU", "Uruguay", "🇺🇾", 14, "K"),
	]


	def _download(path_in_repo: str) -> str:
	return hf_hub_download(repo_id=HF_DATASET_REPO, repo_type="dataset", filename=path_in_repo, token=HF_TOKEN)


	@st.cache_data(ttl=300, show_spinner=False)
	def load_gold_table(filename: str) -> pd.DataFrame:
	try:
	path = _download(f"gold/{filename}")
	return duckdb.sql(f"SELECT * FROM '{path}'").df()
	except Exception:
	return _mock_fallback(filename)


	@st.cache_data(ttl=300, show_spinner=False)
	def load_log_table(filename: str) -> pd.DataFrame:
	try:
	path = _download(f"logs/{filename}")
	return pd.read_csv(path)
	except Exception:
	if filename == "pipeline_runs.csv":
	now = datetime.now(timezone.utc).isoformat()
	return pd.DataFrame([
	{"run_id": "mock_002", "started_at": now, "finished_at": now, "status": "Success", "rows_bronze": 408, "rows_silver": 312, "rows_gold": 256, "error_message": "mock fallback"},
	{"run_id": "mock_001", "started_at": (datetime.now(timezone.utc) - timedelta(minutes=35)).isoformat(), "finished_at": now, "status": "QualityFailed", "rows_bronze": 390, "rows_silver": 310, "rows_gold": 240, "error_message": "sample warning"},
	])
	return _mock_quality()


	@st.cache_data(ttl=300, show_spinner=False)
	def download_gold_path(filename: str) -> str \| None:
	try:
	return _download(f"gold/{filename}")
	except Exception:
	return None


	def _teams() -> pd.DataFrame:
	return pd.DataFrame([{"team_id": a, "team": b, "flag": c, "fifa_rank": d, "group_name": e} for a, b, c, d, e in TEAMS])


	def _rng(seed: int = 2026) -> np.random.Generator:
	return np.random.default_rng(seed)


	def _mock_matches() -> pd.DataFrame:
	teams = _teams()
	rows = []
	start = datetime(2026, 6, 11)
	pairs = [(0, 1), (2, 3), (4, 5), (6, 7), (8, 9), (10, 11), (0, 3), (1, 2), (4, 7), (5, 6), (8, 11), (9, 10)]
	stadiums = _mock_fallback("host_cities.parquet")
	for idx, (h, a) in enumerate(pairs, start=1):
	home = teams.iloc[h]
	away = teams.iloc[a]
	st_row = stadiums.iloc[(idx - 1) % len(stadiums)]
	hs = int((idx * 2 + h) % 4)
	aw = int((idx + a) % 3)
	rows.append({
	"match_id": f"M{idx:03d}", "matchday": (idx - 1) // 4 + 1, "stage": "Group", "group": home.group_name,
	"match_date": (start + timedelta(days=(idx - 1) // 4)).date().isoformat(), "kickoff_local": "20:00",
	"venue": st_row.stadium, "city": st_row.city,
	"home_team": home.team, "home_flag": home.flag, "away_team": away.team, "away_flag": away.flag,
	"home_score": hs, "away_score": aw, "home_xg": round(max(0.2, hs * .75 + .6), 2), "away_xg": round(max(0.2, aw * .75 + .4), 2),
	"attendance": 48000 + idx * 1200, "status": "completed" if idx <= 10 else "scheduled",
	})
	return pd.DataFrame(rows)


	def _mock_fallback(filename: str) -> pd.DataFrame:
	teams = _teams()
	rng = _rng()
	if filename == "kpi_summary.parquet":
	return pd.DataFrame([{"matches_played": 48, "total_goals": 142, "avg_goals_per_match": 2.96, "biggest_win": "Brazil 4-0 Canada", "most_offensive_team": "Brazil", "most_defensive_team": "France", "avg_possession": 53.4, "cards_per_match": 3.1, "matches_remaining": 56, "total_yellow_cards": 166, "total_red_cards": 8, "penalties_awarded": 17, "var_goals": 11}])
	if filename == "goals_by_matchday.parquet":
	return pd.DataFrame({"matchday": list(range(1, 13)), "goals": [8, 11, 13, 9, 15, 12, 14, 10, 16, 13, 11, 10], "matches": [4] * 12})
	if filename == "goals_by_minute_bucket.parquet":
	return pd.DataFrame({"minute_bucket": ["0-15'", "16-30'", "31-45'(+45)", "46-60'", "61-75'", "76-90'(+90)"], "goals": [18, 22, 26, 19, 24, 33]})
	if filename == "host_cities.parquet":
	return pd.DataFrame([
	{"city": "New York/New Jersey", "stadium": "MetLife Stadium", "country": "USA", "matches": 8, "lat": 40.8135, "lon": -74.0745},
	{"city": "Mexico City", "stadium": "Estadio Azteca", "country": "Mexico", "matches": 5, "lat": 19.3029, "lon": -99.1505},
	{"city": "Vancouver", "stadium": "BC Place", "country": "Canada", "matches": 7, "lat": 49.2768, "lon": -123.1119},
	{"city": "Los Angeles", "stadium": "SoFi Stadium", "country": "USA", "matches": 8, "lat": 33.9535, "lon": -118.3392},
	{"city": "Toronto", "stadium": "BMO Field", "country": "Canada", "matches": 6, "lat": 43.6332, "lon": -79.4186},
	{"city": "Guadalajara", "stadium": "Estadio Akron", "country": "Mexico", "matches": 4, "lat": 20.6818, "lon": -103.4626},
	])
	if filename == "team_radar_stats.parquet":
	out = teams.copy()
	for col in ["attack", "defense", "possession", "passing", "discipline"]:
	out[col] = rng.integers(55, 96, size=len(out))
	return out
	if filename == "team_key_metrics.parquet":
	out = teams.copy()
	out["xg"] = np.round(rng.uniform(1.1, 2.8, len(out)), 2)
	out["shots_per_match"] = np.round(rng.uniform(8, 18, len(out)), 1)
	out["possession_pct"] = rng.integers(43, 66, len(out))
	out["pass_accuracy_pct"] = rng.integers(76, 92, len(out))
	out["goals_for"] = rng.integers(3, 14, len(out))
	out["goals_against"] = rng.integers(1, 8, len(out))
	out["cards"] = rng.integers(3, 14, len(out))
	out["clean_sheets"] = rng.integers(0, 4, len(out))
	out["setpiece_goals"] = rng.integers(0, 5, len(out))
	return out
	if filename == "top_players.parquet":
	rows = []
	for _, t in teams.iterrows():
	for idx in range(1, 6):
	seed = sum(ord(c) for c in f"{t.team}{idx}")
	rows.append({"player": f"{t.team} Player {idx}", "team_id": t.team_id, "team": t.team, "position": ["FW", "MF", "FW", "DF", "MF"][idx - 1], "goals": max(0, 6 - idx), "assists": max(0, 4 - idx), "xg": round(3.2 - idx * 0.35, 2), "rating": round(6.4 + (seed % 20) / 10, 2), "distance_km": round(8.7 + (seed % 30) / 10, 1), "sprint_speed_kmh": round(29 + (seed % 55) / 10, 1), "pass_accuracy_pct": 72 + seed % 24, "tackles": seed % 9, "interceptions": (seed // 3) % 8})
	return pd.DataFrame(rows)
	if filename == "team_table.parquet":
	return _mock_fallback("team_key_metrics.parquet")
	if filename == "matches.parquet":
	return _mock_matches()
	if filename == "group_standings.parquet":
	rows = []
	for _, t in teams.iterrows():
	seed = sum(ord(c) for c in t.team_id)
	won = seed % 3
	drawn = (seed // 3) % 2
	lost = max(0, 3 - won - drawn)
	gf = 2 + seed % 8
	ga = seed % 5
	rows.append({"group": t.group_name, "team": t.team, "flag": t.flag, "played": 3, "won": won, "drawn": drawn, "lost": lost, "goals_for": gf, "goals_against": ga, "goal_diff": gf - ga, "points": won * 3 + drawn, "qualification_status": "qualified" if won * 3 + drawn >= 6 else "in_contention"})
	return pd.DataFrame(rows).sort_values(["group", "points", "goal_diff"], ascending=[True, False, False])
	if filename == "match_events.parquet":
	matches = _mock_matches()
	rows = []
	for _, m in matches.iterrows():
	for team_col, score_col in [("home_team", "home_score"), ("away_team", "away_score")]:
	score = int(m[score_col]) if pd.notna(m[score_col]) else 0
	for g in range(score):
	minute = 12 + ((g * 17 + int(m.matchday) * 5) % 78)
	seed = sum(ord(c) for c in f"{m.match_id}{team_col}{g}")
	rows.append({"event_id": f"{m.match_id}_{team_col}_{g+1}", "match_id": m.match_id, "minute": minute, "half": 1 if minute <= 45 else 2, "event_type": "goal", "team": m[team_col], "team_id": str(m[team_col])[:3].upper(), "player": f"{m[team_col]} Player {g+1}", "assist_player": f"{m[team_col]} Creator {g+1}", "shot_x": 68 + seed % 24, "shot_y": 18 + seed % 64})
	return pd.DataFrame(rows)
	if filename == "substitutions.parquet":
	rows = []
	for _, m in _mock_matches().iterrows():
	for team in [m.home_team, m.away_team]:
	for minute, idx in [(62, 12), (76, 13), (84, 14)]:
	rows.append({"match_id": m.match_id, "team": team, "minute": minute, "player_off": f"{team} Player {idx-5}", "player_on": f"{team} Player {idx}"})
	return pd.DataFrame(rows)
	if filename == "lineups.parquet":
	rows = []
	for _, m in _mock_matches().iterrows():
	for team in [m.home_team, m.away_team]:
	for n in range(1, 12):
	pos = ["GK", "DF", "DF", "DF", "DF", "MF", "MF", "MF", "FW", "FW", "FW"][n-1]
	rows.append({"match_id": m.match_id, "team": team, "player": f"{team} {pos} {n}", "position": pos, "shirt_number": n, "is_starting": True})
	return pd.DataFrame(rows)
	if filename == "goalkeepers.parquet":
	rows = []
	for _, t in teams.iterrows():
	seed = sum(ord(c) for c in t.team)
	saves = 8 + seed % 18
	conceded = seed % 6
	rows.append({"player": f"{t.team} Goalkeeper 1", "team": t.team, "saves": saves, "save_pct": round(100 * saves / max(1, saves + conceded), 1), "penalties_saved": seed % 2, "clean_sheets": seed % 4, "goals_conceded": conceded})
	return pd.DataFrame(rows)
	if filename == "match_player_stats.parquet":
	rows = []
	for _, m in _mock_matches().iterrows():
	for team in [m.home_team, m.away_team]:
	for n in range(1, 12):
	player = f"{team} Player {n}"
	seed = sum(ord(c) for c in f"{m.match_id}{player}")
	rows.append({"match_id": m.match_id, "player": player, "team": team, "stage": m.stage, "matchday": m.matchday, "minutes_played": 90 if n <= 8 else 68 + seed % 22, "goals": 1 if (n >= 9 and seed % 5 == 0) else 0, "assists": 1 if (n >= 6 and seed % 7 == 0) else 0, "rating": round(6.0 + (seed % 28) / 10, 2), "distance_km": round(7.5 + (seed % 45) / 10, 1), "sprint_speed_kmh": round(27.5 + (seed % 60) / 10, 1), "pass_accuracy_pct": round(72 + (seed % 24), 1), "tackles": seed % 7, "interceptions": (seed // 4) % 7})
	return pd.DataFrame(rows)
	return pd.DataFrame()


	def _mock_quality() -> pd.DataFrame:
	rows = []
	for layer in ["Bronze", "Silver", "Gold"]:
	for table in ["teams", "matches", "events", "kpi_summary", "match_events", "group_standings"]:
	rows.append({"checked_at": datetime.now(timezone.utc).isoformat(), "layer": layer, "table": table, "check_name": "not_empty", "status": "Pass", "message": "mock fallback pass"})
	return pd.DataFrame(rows)