Spaces:

roshcheeku
/

major

Paused

App Files Files Community

roshcheeku commited on Sep 20, 2025

Commit

678df22

verified ·

1 Parent(s): eb13113

Update app.py

Browse files

Files changed (1) hide show

app.py +5 -7

app.py CHANGED Viewed

@@ -5,6 +5,7 @@ from dateutil.parser import parse
 import tempfile
 import io
 CACHE_DIR = os.path.join(tempfile.gettempdir(), "cache")
 os.makedirs(CACHE_DIR, exist_ok=True)
@@ -32,6 +33,7 @@ def _first_existing(df, cols):
             return df_cols[c.lower()]
     return None
 def normalize_claims(df, source_name="uploaded_file"):
     bene_col = _first_existing(df, ["DESYNPUF_ID", "BENE_ID", "BENEFICIARY_ID"])
     clm_col  = _first_existing(df, ["CLM_ID", "CLAIM_ID"])
@@ -91,17 +93,14 @@ def rule_B_too_frequent_billing(claims, days=7):
     return df[(df["prev_service_date"].notna()) & (df["days_since_prev"] >= 0) & (df["days_since_prev"] <= days)]
 def rule_C_overlapping_fast(claims):
-    """Faster interval overlap using line sweep per beneficiary/procedure"""
     df = claims.dropna(subset=["beneficiary_id","procedure_code","start_date","end_date"]).copy()
     results = []
     for (bene, proc), group in df.groupby(["beneficiary_id", "procedure_code"]):
         group = group.sort_values("start_date")
         active = []
-        for idx, row in group.iterrows():
-            # remove intervals that ended before current starts
             active = [a for a in active if a["end_date"] >= row["start_date"]]
-            # current overlaps with all active intervals
             for a in active:
                 results.append({
                     "claim_id_a": a["claim_id"], "claim_id_b": row["claim_id"],
@@ -111,7 +110,6 @@ def rule_C_overlapping_fast(claims):
                     "provider_id_a": a["provider_id"], "provider_id_b": row["provider_id"]
                 })
             active.append(row.to_dict())
     return pd.DataFrame(results)
 # -------- API ROUTES --------
@@ -137,14 +135,14 @@ def process_claims():
         claims["procedure_code"] = claims["procedure_code"].replace(["", "NAN"], pd.NA)
         claims.to_parquet(NORMALIZED_CACHE, index=False)
-        # Compute rules only once & cache
         rule_A_exact_duplicates(claims).to_parquet(RULE_A_CACHE, index=False)
         rule_B_too_frequent_billing(claims, days=SHORT_WINDOW_DAYS).to_parquet(RULE_B_CACHE, index=False)
         rule_C_overlapping_fast(claims).to_parquet(RULE_C_CACHE, index=False)
     else:  # Load from cache
         if not os.path.exists(NORMALIZED_CACHE):
-            return jsonify({"error": "No cached data available. Please upload CSVs first."}), 400
         claims = pd.read_parquet(NORMALIZED_CACHE)
     # Summaries from cache

 import tempfile
 import io
+# -------- CACHE SETUP --------
 CACHE_DIR = os.path.join(tempfile.gettempdir(), "cache")
 os.makedirs(CACHE_DIR, exist_ok=True)
             return df_cols[c.lower()]
     return None
+# -------- NORMALIZATION --------
 def normalize_claims(df, source_name="uploaded_file"):
     bene_col = _first_existing(df, ["DESYNPUF_ID", "BENE_ID", "BENEFICIARY_ID"])
     clm_col  = _first_existing(df, ["CLM_ID", "CLAIM_ID"])
     return df[(df["prev_service_date"].notna()) & (df["days_since_prev"] >= 0) & (df["days_since_prev"] <= days)]
 def rule_C_overlapping_fast(claims):
     df = claims.dropna(subset=["beneficiary_id","procedure_code","start_date","end_date"]).copy()
     results = []
     for (bene, proc), group in df.groupby(["beneficiary_id", "procedure_code"]):
         group = group.sort_values("start_date")
         active = []
+        for _, row in group.iterrows():
             active = [a for a in active if a["end_date"] >= row["start_date"]]
             for a in active:
                 results.append({
                     "claim_id_a": a["claim_id"], "claim_id_b": row["claim_id"],
                     "provider_id_a": a["provider_id"], "provider_id_b": row["provider_id"]
                 })
             active.append(row.to_dict())
     return pd.DataFrame(results)
 # -------- API ROUTES --------
         claims["procedure_code"] = claims["procedure_code"].replace(["", "NAN"], pd.NA)
         claims.to_parquet(NORMALIZED_CACHE, index=False)
+        # Compute rules once & cache
         rule_A_exact_duplicates(claims).to_parquet(RULE_A_CACHE, index=False)
         rule_B_too_frequent_billing(claims, days=SHORT_WINDOW_DAYS).to_parquet(RULE_B_CACHE, index=False)
         rule_C_overlapping_fast(claims).to_parquet(RULE_C_CACHE, index=False)
     else:  # Load from cache
         if not os.path.exists(NORMALIZED_CACHE):
+            return jsonify({"error": "No cached data available. Upload CSVs first."}), 400
         claims = pd.read_parquet(NORMALIZED_CACHE)
     # Summaries from cache