Spaces:

abhinavdread
/

rtl-reliability-engine

Sleeping

abhinavvvvv commited on Mar 6

Commit

60310bd

1 Parent(s): fb121b9

fixed predictor

Files changed (1) hide show

api/predictor.py CHANGED Viewed

@@ -3,7 +3,6 @@ import joblib
 from features.log_feature_extraction import run_pipeline
 MODEL_PATH = "models/failure_model.pkl"
 FEATURE_PATH = "models/feature_columns.pkl"
@@ -13,30 +12,38 @@ feature_cols = joblib.load(FEATURE_PATH)
 def predict_logs(log_file):
     run_pipeline(log_file, "temp_features.csv")
     df = pd.read_csv("temp_features.csv")
-    # ensure all training columns exist
     for col in feature_cols:
         if col not in df.columns:
             df[col] = 0
-    # remove extra columns not used by model
-    df = df[feature_cols]
-    probs = model.predict_proba(df)[:, 1]
     df["failure_probability"] = probs
-    results = []
     module_risk = (
         df.groupby("module")["failure_probability"]
         .mean()
         .sort_values(ascending=False)
     )
     for module, prob in module_risk.items():
         if prob > 0.75:
@@ -55,7 +62,7 @@ def predict_logs(log_file):
     return {
         "summary": {
             "total_logs": int(len(df)),
-            "modules_analyzed": len(results)
         },
         "module_risk": results
     }

 from features.log_feature_extraction import run_pipeline
 MODEL_PATH = "models/failure_model.pkl"
 FEATURE_PATH = "models/feature_columns.pkl"
 def predict_logs(log_file):
+    # run feature extraction
     run_pipeline(log_file, "temp_features.csv")
     df = pd.read_csv("temp_features.csv")
+    # keep module column for aggregation later
+    modules = df["module"].copy()
+    # ensure all required features exist
     for col in feature_cols:
         if col not in df.columns:
             df[col] = 0
+    # select only model features
+    X = df[feature_cols]
+    # predict probabilities
+    probs = model.predict_proba(X)[:, 1]
+    # attach predictions back
+    df["module"] = modules
     df["failure_probability"] = probs
+    # aggregate module risk
     module_risk = (
         df.groupby("module")["failure_probability"]
         .mean()
         .sort_values(ascending=False)
     )
+    results = []
     for module, prob in module_risk.items():
         if prob > 0.75:
     return {
         "summary": {
             "total_logs": int(len(df)),
+            "modules_analyzed": int(len(results))
         },
         "module_risk": results
     }