Spaces:

DataEyond
/

Agentic-Service-Data-Eyond

Paused

Rifqi Hafizuddin commited on Apr 14

Commit

9b59334

1 Parent(s): 7f3bb97

[KM-441] add mean and median

Files changed (1) hide show

src/pipeline/db_pipeline/extractor.py CHANGED Viewed

@@ -94,6 +94,12 @@ def profile_column(
     if is_numeric:
         select_cols.append(f"MIN({qc}) AS min_val")
         select_cols.append(f"MAX({qc}) AS max_val")
     stats = pd.read_sql(f"SELECT {', '.join(select_cols)} FROM {qt}", engine)
     null_count = int(stats.iloc[0]["nulls"])
@@ -109,6 +115,8 @@ def profile_column(
     if is_numeric:
         profile["min"] = stats.iloc[0]["min_val"]
         profile["max"] = stats.iloc[0]["max_val"]
     if 0 < distinct_ratio <= TOP_VALUES_THRESHOLD:
         top = pd.read_sql(
@@ -170,6 +178,7 @@ def build_text(table_name: str, row_count: int, col: dict, profile: dict) -> str
     text += f"Distinct count: {profile['distinct_count']} ({profile['distinct_ratio']:.1%})\n"
     if "min" in profile:
         text += f"Min: {profile['min']}, Max: {profile['max']}\n"
     if "top_values" in profile:
         top_str = ", ".join(f"{v} ({c})" for v, c in profile["top_values"])
         text += f"Top values: {top_str}\n"

     if is_numeric:
         select_cols.append(f"MIN({qc}) AS min_val")
         select_cols.append(f"MAX({qc}) AS max_val")
+        select_cols.append(f"AVG({qc}) AS mean_val")
+        # PERCENTILE_CONT is supported by Postgres and SQL Server; MySQL would need
+        # a dialect-specific fallback when that connector is added.
+        select_cols.append(
+            f"PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY {qc}) AS median_val"
+        )
     stats = pd.read_sql(f"SELECT {', '.join(select_cols)} FROM {qt}", engine)
     null_count = int(stats.iloc[0]["nulls"])
     if is_numeric:
         profile["min"] = stats.iloc[0]["min_val"]
         profile["max"] = stats.iloc[0]["max_val"]
+        profile["mean"] = stats.iloc[0]["mean_val"]
+        profile["median"] = stats.iloc[0]["median_val"]
     if 0 < distinct_ratio <= TOP_VALUES_THRESHOLD:
         top = pd.read_sql(
     text += f"Distinct count: {profile['distinct_count']} ({profile['distinct_ratio']:.1%})\n"
     if "min" in profile:
         text += f"Min: {profile['min']}, Max: {profile['max']}\n"
+        text += f"Mean: {profile['mean']}, Median: {profile['median']}\n"
     if "top_values" in profile:
         top_str = ", ".join(f"{v} ({c})" for v, c in profile["top_values"])
         text += f"Top values: {top_str}\n"