Spaces:

itaykadosh
/

AA-EPPS-Data-Challenge

Sleeping

App Files Files Community

AA-EPPS-Data-Challenge / src /cascade_chain_features.py

itaykadosh

Initial upload: AA EPPS Data Challenge app

bef09da verified about 2 months ago

raw

history blame contribute delete

11 kB

	"""
	Full downstream cascade chain analysis: A→DFW→B→C→D→...

	For each A→DFW→B sequence (tail-matched), follows the SAME aircraft forward
	through any subsequent legs on the same day: B→C→D→E→...
	Measures how far and how severely the delay cascade propagates downstream.

	Requires:
	- data/raw/bts_full_{year}.parquet (from download_bts_full.py)
	- data/raw/bts_all_dfw_{year}.parquet (existing, to identify A→DFW→B seed sequences)

	Output: data/processed/cascade_chain_features.parquet

	Features per (airport_A, airport_B, Month, Year):
	cc_chain_depth_mean — avg downstream legs observed after DFW→B
	cc_chain_depth_max — max downstream chain depth observed
	cc_total_delay_mean — avg total LateAircraftDelay across ALL downstream legs (min)
	cc_total_delay_p75 — p75 total downstream delay
	cc_cascade_rate — fraction of sequences where ≥1 downstream leg is late-aircraft
	cc_recovery_rate — fraction where delay fully recovers (downstream leg has 0 delay)
	cc_amplification_mean — total_downstream_delay / B_arr_delay (>1 = amplified)
	cc_affected_airports_mean — avg unique airports hit downstream per cascade
	cc_max_single_leg_delay — avg of worst single downstream leg delay

	Run:
	conda run -n aadata python src/cascade_chain_features.py
	conda run -n aadata python src/cascade_chain_features.py --max-depth 6
	"""

	import os
	import glob
	import argparse
	import numpy as np
	import pandas as pd

	RAW_DIR = os.path.join(os.path.dirname(__file__), "..", "data", "raw")
	PROC_DIR = os.path.join(os.path.dirname(__file__), "..", "data", "processed")

	TURNAROUND_MIN = 30 # min gap inbound arr → outbound dep (minutes)
	TURNAROUND_MAX = 240 # max gap A→DFW (4 hrs)
	LEG_GAP_MIN = 15 # min gap between any two legs in cascade chain
	LEG_GAP_MAX = 360 # max gap between cascade legs (6 hrs)
	LATE_THRESHOLD = 15 # minutes to count as a late aircraft delay event


	def _parse_hhmm_to_min(series: pd.Series) -> pd.Series:
	s = series.fillna(-1).astype(int)
	valid = s >= 0
	h = (s // 100).clip(0, 23)
	m = (s % 100).clip(0, 59)
	return (h * 60 + m).where(valid, other=np.nan)


	def _resolve_files() -> dict:
	"""Map year → (dfw_file, full_file). Only years with both files are processed."""
	dfw_files = {}
	full_files = {}

	for f in glob.glob(os.path.join(RAW_DIR, "bts_all_dfw_*.parquet")):
	yr = int(os.path.basename(f).split("_")[-1].replace(".parquet", ""))
	dfw_files[yr] = f
	for f in glob.glob(os.path.join(RAW_DIR, "bts_full_*.parquet")):
	yr = int(os.path.basename(f).split("_")[-1].replace(".parquet", ""))
	full_files[yr] = f

	common = sorted(set(dfw_files) & set(full_files))
	if not common:
	print("No years with both bts_all_dfw_* and bts_full_* files found.")
	print("Run download_bts_full.py first.")
	return {}

	return {yr: (dfw_files[yr], full_files[yr]) for yr in common}


	def build_year_cascade(year: int, dfw_path: str, full_path: str,
	max_depth: int = 8) -> pd.DataFrame:
	print(f" {year}: loading data...")

	# --- Load DFW data: find A→DFW→B seed sequences (tail-matched) ---
	dfw = pd.read_parquet(dfw_path)
	dfw = dfw[dfw["Cancelled"] != 1].copy()
	dfw["dep_min"] = _parse_hhmm_to_min(dfw["DepTime"])
	dfw["block"] = dfw["ActualElapsedTime"].fillna(dfw["CRSElapsedTime"]).fillna(0)
	dfw["arr_min"] = dfw["dep_min"] + dfw["block"]
	dfw = dfw.dropna(subset=["dep_min", "Tail_Number"])
	dfw = dfw[dfw["Tail_Number"].str.strip() != ""]

	# Inbound A→DFW
	ib = dfw[dfw["Dest"] == "DFW"][
	["Tail_Number", "FlightDate", "Month", "Origin", "arr_min", "dep_min"]
	].rename(columns={"Origin": "airport_A", "arr_min": "arr_min_A", "dep_min": "dep_min_A"})

	# Outbound DFW→B
	ob = dfw[dfw["Origin"] == "DFW"][
	["Tail_Number", "FlightDate", "ArrDelay", "Dest", "dep_min", "arr_min"]
	].rename(columns={"Dest": "airport_B", "dep_min": "dep_min_B",
	"arr_min": "arr_min_B", "ArrDelay": "arr_delay_B"})
	ob["arr_delay_B"] = ob["arr_delay_B"].fillna(0)

	# Match A→DFW + DFW→B by tail × date with turnaround window
	seeds = ib.merge(ob, on=["Tail_Number", "FlightDate"])
	ta = seeds["dep_min_B"] - seeds["arr_min_A"]
	seeds = seeds[(ta >= TURNAROUND_MIN) & (ta <= TURNAROUND_MAX)].copy()

	if seeds.empty:
	print(f" No seed sequences for {year}")
	return pd.DataFrame()

	print(f" {year}: {len(seeds):,} seed sequences \| loading full BTS...")

	# --- Load full national BTS: all flights for cascade tracking ---
	full = pd.read_parquet(full_path)
	full = full[full["Cancelled"] != 1].copy()
	full["dep_min"] = _parse_hhmm_to_min(full["DepTime"])
	full["block"] = full["ActualElapsedTime"].fillna(full["CRSElapsedTime"]).fillna(0)
	full["arr_min"] = full["dep_min"] + full["block"]
	full["late_aircraft_min"] = full["LateAircraftDelay"].fillna(0)
	full["late_flag"] = (full["late_aircraft_min"] >= LATE_THRESHOLD).astype(int)
	full["arr_delay"] = full["ArrDelay"].fillna(0)
	full = full.dropna(subset=["dep_min", "Tail_Number"])
	full = full[full["Tail_Number"].str.strip() != ""]

	# Keep only tails that appear in our seed sequences (massive memory saving)
	seed_tails = set(seeds["Tail_Number"].unique())
	full = full[full["Tail_Number"].isin(seed_tails)].copy()
	print(f" Full BTS filtered to {len(seed_tails):,} seed tails: {len(full):,} flights")

	# Sort for chain building
	full = full.sort_values(["Tail_Number", "FlightDate", "dep_min"])

	# Build per-tail×date lookup: list of (dep_min, arr_min, dest, late_aircraft_min, arr_delay)
	# We'll use this to walk forward from the DFW→B arrival
	full_grp = full.groupby(["Tail_Number", "FlightDate"])

	# --- Walk the cascade chain for each seed sequence ---
	records = []

	for _, seed in seeds.iterrows():
	tail = seed["Tail_Number"]
	date = seed["FlightDate"]
	arr_B = seed["arr_min_B"]
	arr_dly = seed["arr_delay_B"]

	try:
	tail_day = full_grp.get_group((tail, date))
	except KeyError:
	# Tail not in full data for this date (rare)
	continue

	# Find all legs AFTER the DFW→B arrival
	downstream = tail_day[tail_day["dep_min"] >= arr_B + LEG_GAP_MIN].sort_values("dep_min")

	# Walk the chain leg by leg
	chain_airports = []
	chain_delays = [] # LateAircraftDelay on each leg
	chain_arr_delays = [] # ArrDelay on each leg
	current_arr = arr_B

	for _, leg in downstream.iterrows():
	gap = leg["dep_min"] - current_arr
	if gap < LEG_GAP_MIN or gap > LEG_GAP_MAX:
	break # too short (overlap) or too long (crew rest / new duty)
	if len(chain_delays) >= max_depth:
	break

	chain_airports.append(leg["Dest"])
	chain_delays.append(leg["late_aircraft_min"])
	chain_arr_delays.append(leg["arr_delay"])
	current_arr = leg["arr_min"]

	depth = len(chain_delays)
	total_delay = sum(chain_delays)
	any_late = any(d >= LATE_THRESHOLD for d in chain_delays)
	recovered = any(d == 0 for d in chain_delays) if chain_delays else False
	n_airports = len(set(chain_airports))
	max_leg_delay = max(chain_delays) if chain_delays else 0
	amplif = (total_delay / max(arr_dly, 1)) if arr_dly > 5 else np.nan

	records.append({
	"Tail_Number": tail,
	"FlightDate": date,
	"airport_A": seed["airport_A"],
	"airport_B": seed["airport_B"],
	"Month": seed["Month"],
	"Year": year,
	"depth": depth,
	"total_delay": total_delay,
	"any_late": int(any_late),
	"recovered": int(recovered),
	"n_airports": n_airports,
	"max_leg_delay": max_leg_delay,
	"amplification": amplif,
	})

	if not records:
	print(f" No cascade chains built for {year}")
	return pd.DataFrame()

	chains = pd.DataFrame(records)
	n_cascaded = chains["any_late"].sum()
	print(f" {year}: {len(chains):,} chains \| "
	f"{n_cascaded/len(chains):.1%} with downstream cascade \| "
	f"avg depth {chains['depth'].mean():.1f}")

	# --- Aggregate to (airport_A, airport_B, Month, Year) ---
	agg = (
	chains.groupby(["airport_A", "airport_B", "Month", "Year"])
	.agg(
	cc_n_chains = ("depth", "count"),
	cc_chain_depth_mean = ("depth", "mean"),
	cc_chain_depth_max = ("depth", "max"),
	cc_total_delay_mean = ("total_delay", "mean"),
	cc_total_delay_p75 = ("total_delay", lambda x: x.quantile(0.75)),
	cc_cascade_rate = ("any_late", "mean"),
	cc_recovery_rate = ("recovered", "mean"),
	cc_amplification_mean = ("amplification", "mean"),
	cc_affected_airports_mean= ("n_airports", "mean"),
	cc_max_single_leg_delay = ("max_leg_delay", "mean"),
	)
	.reset_index()
	)

	print(f" → {len(agg):,} pair×month rows")
	return agg


	def main(max_depth: int = 8):
	year_files = _resolve_files()
	if not year_files:
	return

	print(f"Building cascade chain features for years: {sorted(year_files)}")
	print(f"Max cascade depth: {max_depth} legs\n")

	frames = []
	for year, (dfw_path, full_path) in year_files.items():
	try:
	agg = build_year_cascade(year, dfw_path, full_path, max_depth)
	if not agg.empty:
	frames.append(agg)
	except Exception as e:
	print(f" ERROR {year}: {e}")

	if not frames:
	print("No cascade features produced.")
	return

	result = pd.concat(frames, ignore_index=True)
	out = os.path.join(PROC_DIR, "cascade_chain_features.parquet")
	result.to_parquet(out, index=False)

	print(f"\nTotal: {len(result):,} pair×month×year rows → {out}")
	print("\nFeature summary:")
	cc_cols = [c for c in result.columns if c.startswith("cc_")]
	print(result[cc_cols].describe().T[["mean", "50%", "max"]].round(3).to_string())
	print("\nNext: add CC_FEATURES to model_lgbm.py TAIL_CHAIN_FEATURES list and retrain.")


	if __name__ == "__main__":
	parser = argparse.ArgumentParser()
	parser.add_argument("--max-depth", type=int, default=8,
	help="Max number of downstream legs to track (default: 8)")
	args = parser.parse_args()
	main(args.max_depth)