Spaces:

Pulastya0
/

Data-Science-Agent

Running

Pulastya B commited on 15 days ago

Commit

5fb3ea4

1 Parent(s): 230b136

Fix syntax error: Proper try-except indentation in compression function

- Fixed indentation of all elif/else blocks inside try block
- Removed duplicate elif statement
- Moved return statement inside try block before except clause
- All compression logic now properly wrapped in defensive try-except

This fixes SyntaxError that prevented container from starting.

Files changed (1) hide show

src/orchestrator.py +92 -92

src/orchestrator.py CHANGED Viewed

@@ -1134,103 +1134,103 @@ You are a DOER. Complete workflows based on user intent."""
                 "success": True,
                 "tool": tool_name
             }
-        # Tool-specific compression rules
-        if tool_name == "profile_dataset":
-            # Original: ~5K tokens with full stats
-            # Compressed: ~200 tokens with key metrics
-            r = result.get("result", {})
-            compressed["summary"] = {
-                "rows": r.get("num_rows"),
-                "cols": r.get("num_columns"),
-                "missing_pct": r.get("missing_percentage"),
-                "numeric_cols": len(r.get("numeric_columns", [])),
-                "categorical_cols": len(r.get("categorical_columns", [])),
-                "file_size_mb": round(r.get("memory_usage_mb", 0), 1),
-                "key_columns": list(r.get("columns", {}).keys())[:5]  # First 5 columns only
-            }
-            compressed["next_steps"] = ["clean_missing_values", "detect_data_quality_issues"]
-        elif tool_name == "detect_data_quality_issues":
-            r = result.get("result", {})
-            compressed["summary"] = {
-                "total_issues": r.get("total_issues", 0),
-                "critical_issues": r.get("critical_issues", 0),
-                "missing_data": r.get("has_missing"),
-                "outliers": r.get("has_outliers"),
-                "duplicates": r.get("has_duplicates")
-            }
-            compressed["next_steps"] = ["clean_missing_values", "handle_outliers"]
-        elif tool_name in ["clean_missing_values", "handle_outliers", "encode_categorical"]:
-            r = result.get("result", {})
-            compressed["summary"] = {
-                "output_file": r.get("output_file", r.get("output_path")),
-                "rows_processed": r.get("rows_after", r.get("num_rows")),
-                "changes_made": bool(r.get("changes", {}) or r.get("imputed_columns"))
-            }
-            compressed["next_steps"] = ["Use this file for next step"]
-        elif tool_name == "train_baseline_models":
-            r = result.get("result", {})
-            models = r.get("models", [])
-            if models and isinstance(models, list) and len(models) > 0:
-                # Filter to only dict entries (defensive)
-                valid_models = [m for m in models if isinstance(m, dict) and "test_score" in m]
-                if valid_models:
-                    best = max(valid_models, key=lambda m: m.get("test_score", 0))
-                    compressed["summary"] = {
-                        "best_model": best.get("model"),
-                        "test_score": round(best.get("test_score", 0), 4),
-                        "train_score": round(best.get("train_score", 0), 4),
-                        "task_type": r.get("task_type"),
-                        "models_trained": len(valid_models)
-                    }
                 else:
-                    # Fallback if no valid models
-                    compressed["summary"] = {
-                        "task_type": r.get("task_type"),
-                        "status": "No valid models trained"
-                    }
             else:
-                compressed["summary"] = {"status": "No models found"}
-            compressed["next_steps"] = ["hyperparameter_tuning", "generate_combined_eda_report"]
-        elif tool_name in ["generate_plotly_dashboard", "generate_ydata_profiling_report", "generate_combined_eda_report"]:
-            r = result.get("result", {})
-            compressed["summary"] = {
-                "report_path": r.get("report_path", r.get("output_path")),
-                "report_type": tool_name,
-                "success": True
-            }
-            compressed["next_steps"] = ["Report ready for viewing"]
-        elif tool_name == "hyperparameter_tuning":
-            r = result.get("result", {})
-            compressed["summary"] = {
-                "best_params": r.get("best_params", {}),
-                "best_score": round(r.get("best_score", 0), 4),
-                "model_type": r.get("model_type"),
-                "trials_completed": r.get("n_trials")
-            }
-            compressed["next_steps"] = ["perform_cross_validation", "generate_model_performance_plots"]
-        else:
-            # Generic compression: Keep only key fields
-            r = result.get("result", {})
-            if isinstance(r, dict):
-                # Extract key fields (common patterns)
-                key_fields = {}
-                for key in ["output_path", "output_file", "status", "message", "success"]:
-                    if key in r:
-                        key_fields[key] = r[key]
-                compressed["summary"] = key_fields or {"result": "completed"}
-            else:
-                compressed["summary"] = {"result": str(r)[:200] if r else "completed"}
-            compressed["next_steps"] = ["Continue workflow"]
             return compressed
         except Exception as e:
             # If compression fails, return minimal safe result
             print(f"⚠️  Compression failed for {tool_name}: {str(e)}")

                 "success": True,
                 "tool": tool_name
             }
+            # Tool-specific compression rules
+            if tool_name == "profile_dataset":
+                # Original: ~5K tokens with full stats
+                # Compressed: ~200 tokens with key metrics
+                r = result.get("result", {})
+                compressed["summary"] = {
+                    "rows": r.get("num_rows"),
+                    "cols": r.get("num_columns"),
+                    "missing_pct": r.get("missing_percentage"),
+                    "numeric_cols": len(r.get("numeric_columns", [])),
+                    "categorical_cols": len(r.get("categorical_columns", [])),
+                    "file_size_mb": round(r.get("memory_usage_mb", 0), 1),
+                    "key_columns": list(r.get("columns", {}).keys())[:5]  # First 5 columns only
+                }
+                compressed["next_steps"] = ["clean_missing_values", "detect_data_quality_issues"]
+            elif tool_name == "detect_data_quality_issues":
+                r = result.get("result", {})
+                compressed["summary"] = {
+                    "total_issues": r.get("total_issues", 0),
+                    "critical_issues": r.get("critical_issues", 0),
+                    "missing_data": r.get("has_missing"),
+                    "outliers": r.get("has_outliers"),
+                    "duplicates": r.get("has_duplicates")
+                }
+                compressed["next_steps"] = ["clean_missing_values", "handle_outliers"]
+            elif tool_name in ["clean_missing_values", "handle_outliers", "encode_categorical"]:
+                r = result.get("result", {})
+                compressed["summary"] = {
+                    "output_file": r.get("output_file", r.get("output_path")),
+                    "rows_processed": r.get("rows_after", r.get("num_rows")),
+                    "changes_made": bool(r.get("changes", {}) or r.get("imputed_columns"))
+                }
+                compressed["next_steps"] = ["Use this file for next step"]
+            elif tool_name == "train_baseline_models":
+                r = result.get("result", {})
+                models = r.get("models", [])
+                if models and isinstance(models, list) and len(models) > 0:
+                    # Filter to only dict entries (defensive)
+                    valid_models = [m for m in models if isinstance(m, dict) and "test_score" in m]
+                    if valid_models:
+                        best = max(valid_models, key=lambda m: m.get("test_score", 0))
+                        compressed["summary"] = {
+                            "best_model": best.get("model"),
+                            "test_score": round(best.get("test_score", 0), 4),
+                            "train_score": round(best.get("train_score", 0), 4),
+                            "task_type": r.get("task_type"),
+                            "models_trained": len(valid_models)
+                        }
+                    else:
+                        # Fallback if no valid models
+                        compressed["summary"] = {
+                            "task_type": r.get("task_type"),
+                            "status": "No valid models trained"
+                        }
                 else:
+                    compressed["summary"] = {"status": "No models found"}
+                compressed["next_steps"] = ["hyperparameter_tuning", "generate_combined_eda_report"]
+            elif tool_name in ["generate_plotly_dashboard", "generate_ydata_profiling_report", "generate_combined_eda_report"]:
+                r = result.get("result", {})
+                compressed["summary"] = {
+                    "report_path": r.get("report_path", r.get("output_path")),
+                    "report_type": tool_name,
+                    "success": True
+                }
+                compressed["next_steps"] = ["Report ready for viewing"]
+            elif tool_name == "hyperparameter_tuning":
+                r = result.get("result", {})
+                compressed["summary"] = {
+                    "best_params": r.get("best_params", {}),
+                    "best_score": round(r.get("best_score", 0), 4),
+                    "model_type": r.get("model_type"),
+                    "trials_completed": r.get("n_trials")
+                }
+                compressed["next_steps"] = ["perform_cross_validation", "generate_model_performance_plots"]
             else:
+                # Generic compression: Keep only key fields
+                r = result.get("result", {})
+                if isinstance(r, dict):
+                    # Extract key fields (common patterns)
+                    key_fields = {}
+                    for key in ["output_path", "output_file", "status", "message", "success"]:
+                        if key in r:
+                            key_fields[key] = r[key]
+                    compressed["summary"] = key_fields or {"result": "completed"}
+                else:
+                    compressed["summary"] = {"result": str(r)[:200] if r else "completed"}
+                compressed["next_steps"] = ["Continue workflow"]
             return compressed
         except Exception as e:
             # If compression fails, return minimal safe result
             print(f"⚠️  Compression failed for {tool_name}: {str(e)}")