Spaces:

Che237
/

cyberforge

Sleeping

App Files Files Community

Che237 commited on 18 days ago

Commit

f12e058

verified ·

1 Parent(s): a022514

Fix: Use per-dataset scalers to avoid feature mismatch

Browse files

Files changed (1) hide show

notebooks/03_model_training.ipynb +23 -12

notebooks/03_model_training.ipynb CHANGED Viewed

@@ -221,14 +221,15 @@
     "    \"\"\"\n",
     "    \n",
     "    def __init__(self):\n",
-    "        self.scaler = StandardScaler()\n",
-    "        self.label_encoder = LabelEncoder()\n",
     "        self.trained_models = {}\n",
     "        self.training_metrics = {}\n",
     "    \n",
-    "    def prepare_data(self, df: pd.DataFrame, label_col: str = 'label', \n",
     "                     test_size: float = 0.2) -> Tuple:\n",
-    "        \"\"\"Prepare data for training\"\"\"\n",
     "        # Separate features and labels\n",
     "        y = df[label_col]\n",
     "        X = df.drop(columns=[label_col])\n",
@@ -236,12 +237,20 @@
     "        # Keep only numeric columns\n",
     "        X = X.select_dtypes(include=[np.number]).fillna(0)\n",
     "        \n",
     "        # Encode labels if needed\n",
     "        if y.dtype == 'object':\n",
-    "            y = self.label_encoder.fit_transform(y)\n",
     "        \n",
     "        # Scale features\n",
-    "        X_scaled = self.scaler.fit_transform(X)\n",
     "        \n",
     "        # Split\n",
     "        X_train, X_test, y_train, y_test = train_test_split(\n",
@@ -295,8 +304,8 @@
     "        print(f\"Training models for: {dataset_name}\")\n",
     "        print(f\"{'='*50}\")\n",
     "        \n",
-    "        # Prepare data\n",
-    "        X_train, X_test, y_train, y_test, feature_names = self.prepare_data(df)\n",
     "        print(f\"  Data: {len(X_train)} train, {len(X_test)} test samples\")\n",
     "        print(f\"  Features: {len(feature_names)}\")\n",
     "        \n",
@@ -334,18 +343,20 @@
     "        \n",
     "        print(f\"\\n  \u2713 Best model: {best_model} (F1: {best_score:.4f})\")\n",
     "        \n",
-    "        # Store results\n",
     "        self.trained_models[dataset_name] = {\n",
     "            'models': results,\n",
     "            'best_model': best_model,\n",
-    "            'scaler': self.scaler,\n",
-    "            'label_encoder': self.label_encoder if hasattr(self.label_encoder, 'classes_') else None\n",
     "        }\n",
     "        \n",
     "        return results\n",
     "\n",
     "trainer = CyberForgeTrainer()\n",
-    "print(\"\u2713 CyberForge Trainer initialized\")"
    ]
   },
   {

     "    \"\"\"\n",
     "    \n",
     "    def __init__(self):\n",
     "        self.trained_models = {}\n",
     "        self.training_metrics = {}\n",
+    "        # Store scalers and encoders per dataset\n",
+    "        self.scalers = {}\n",
+    "        self.label_encoders = {}\n",
     "    \n",
+    "    def prepare_data(self, df: pd.DataFrame, dataset_name: str, label_col: str = 'label', \n",
     "                     test_size: float = 0.2) -> Tuple:\n",
+    "        \"\"\"Prepare data for training - creates a new scaler per dataset\"\"\"\n",
     "        # Separate features and labels\n",
     "        y = df[label_col]\n",
     "        X = df.drop(columns=[label_col])\n",
     "        # Keep only numeric columns\n",
     "        X = X.select_dtypes(include=[np.number]).fillna(0)\n",
     "        \n",
+    "        # Create NEW scaler and encoder for THIS dataset\n",
+    "        scaler = StandardScaler()\n",
+    "        label_encoder = LabelEncoder()\n",
+    "        \n",
     "        # Encode labels if needed\n",
     "        if y.dtype == 'object':\n",
+    "            y = label_encoder.fit_transform(y)\n",
+    "            self.label_encoders[dataset_name] = label_encoder\n",
+    "        else:\n",
+    "            y = y.values\n",
     "        \n",
     "        # Scale features\n",
+    "        X_scaled = scaler.fit_transform(X)\n",
+    "        self.scalers[dataset_name] = scaler\n",
     "        \n",
     "        # Split\n",
     "        X_train, X_test, y_train, y_test = train_test_split(\n",
     "        print(f\"Training models for: {dataset_name}\")\n",
     "        print(f\"{'='*50}\")\n",
     "        \n",
+    "        # Prepare data - pass dataset_name to create per-dataset scaler\n",
+    "        X_train, X_test, y_train, y_test, feature_names = self.prepare_data(df, dataset_name)\n",
     "        print(f\"  Data: {len(X_train)} train, {len(X_test)} test samples\")\n",
     "        print(f\"  Features: {len(feature_names)}\")\n",
     "        \n",
     "        \n",
     "        print(f\"\\n  \u2713 Best model: {best_model} (F1: {best_score:.4f})\")\n",
     "        \n",
+    "        # Store results with PER-DATASET scaler\n",
     "        self.trained_models[dataset_name] = {\n",
     "            'models': results,\n",
     "            'best_model': best_model,\n",
+    "            'scaler': self.scalers.get(dataset_name),\n",
+    "            'label_encoder': self.label_encoders.get(dataset_name),\n",
+    "            'n_features': len(feature_names)\n",
     "        }\n",
     "        \n",
     "        return results\n",
     "\n",
     "trainer = CyberForgeTrainer()\n",
+    "print(\"\u2713 CyberForge Trainer initialized\")\n",
+    "\n"
    ]
   },
   {