vidyasagar786
/

document-classifier-xgb

+import time
+import joblib
+import pandas as pd
+import numpy as np
+import xgboost as xgb
+import matplotlib.pyplot as plt
+from tqdm.auto import tqdm
+from sklearn.feature_extraction.text import TfidfVectorizer
+from sklearn.metrics import classification_report
+from sklearn.preprocessing import StandardScaler
+from sklearn.metrics import confusion_matrix
+from scipy.sparse import hstack, csr_matrix
+# ===============================
+# PATHS
+# ===============================
+TRAIN_PATH = "/Users/vidyasagarkaruturi/Downloads/machine learning/src/data/processed/train.csv"
+VAL_PATH   = "/Users/vidyasagarkaruturi/Downloads/machine learning/src/data/processed/val.csv"
+TEST_PATH  = "/Users/vidyasagarkaruturi/Downloads/machine learning/src/data/processed/test.csv"
+MODEL_SAVE_PATH = "document_classifier_xgb.pkl"
+# ===============================
+# LOAD DATA
+# ===============================
+print("📂 Loading data...")
+train_df = pd.read_csv(TRAIN_PATH)
+val_df = pd.read_csv(VAL_PATH)
+test_df = pd.read_csv(TEST_PATH)
+X_train_text = train_df["text"].fillna("")
+X_val_text = val_df["text"].fillna("")
+X_test_text = test_df["text"].fillna("")
+y_train = train_df["label"]
+y_val = val_df["label"]
+y_test = test_df["label"]
+print("✅ Data loaded successfully")
+# ===============================
+# TF-IDF FEATURES
+# ===============================
+print("🧠 Creating TF-IDF features...")
+word_vectorizer = TfidfVectorizer(
+    max_features=40000,
+    ngram_range=(1, 2),
+    stop_words="english"
+)
+char_vectorizer = TfidfVectorizer(
+    analyzer="char",
+    ngram_range=(3, 5),
+    max_features=20000
+)
+X_train_word = word_vectorizer.fit_transform(X_train_text)
+X_val_word = word_vectorizer.transform(X_val_text)
+X_test_word = word_vectorizer.transform(X_test_text)
+X_train_char = char_vectorizer.fit_transform(X_train_text)
+X_val_char = char_vectorizer.transform(X_val_text)
+X_test_char = char_vectorizer.transform(X_test_text)
+X_train_text_features = hstack([X_train_word, X_train_char])
+X_val_text_features = hstack([X_val_word, X_val_char])
+X_test_text_features = hstack([X_test_word, X_test_char])
+print("✅ Text features ready")
+# ===============================
+# NUMERIC FEATURES
+# ===============================
+print("🔢 Adding numeric features...")
+numeric_cols = [
+    "char_count",
+    "digit_count",
+    "uppercase_count",
+    "currency_count",
+    "line_count"
+]
+scaler = StandardScaler()
+X_train_num = scaler.fit_transform(train_df[numeric_cols])
+X_val_num = scaler.transform(val_df[numeric_cols])
+X_test_num = scaler.transform(test_df[numeric_cols])
+X_train_num = csr_matrix(X_train_num)
+X_val_num = csr_matrix(X_val_num)
+X_test_num = csr_matrix(X_test_num)
+# Combine text + numeric
+X_train = hstack([X_train_text_features, X_train_num])
+X_val = hstack([X_val_text_features, X_val_num])
+X_test = hstack([X_test_text_features, X_test_num])
+print("✅ Feature matrix ready")
+# ===============================
+# MODEL
+# ===============================
+print("🚀 Starting training...")
+N_ESTIMATORS = 400
+class TqdmCallback(xgb.callback.TrainingCallback):
+    def __init__(self, total):
+        self.pbar = tqdm(total=total, desc="Training Progress", unit="trees")
+    def after_iteration(self, model, epoch, evals_log):
+        self.pbar.update(1)
+        return False
+    def after_training(self, model):
+        self.pbar.close()
+        return model
+model = xgb.XGBClassifier(
+    n_estimators=N_ESTIMATORS,
+    max_depth=6,
+    learning_rate=0.1,
+    tree_method="hist",
+    eval_metric="mlogloss",
+    early_stopping_rounds=30,
+    callbacks=[TqdmCallback(N_ESTIMATORS)]
+)
+start_time = time.time()
+model.fit(
+    X_train,
+    y_train,
+    eval_set=[(X_train, y_train), (X_val, y_val)],
+    verbose=False
+)
+print(f"\n⏱ Training completed in {round(time.time() - start_time, 2)} seconds")
+# ===============================
+# EVALUATION
+# ===============================
+print("\n📊 Validation Performance:")
+val_preds = model.predict(X_val)
+print(classification_report(y_val, val_preds))
+print("\n📊 Test Performance:")
+test_preds = model.predict(X_test)
+print(classification_report(y_test, test_preds))
+# ===============================
+# TRAINING CURVE
+# ===============================
+results = model.evals_result()
+train_loss = results["validation_0"]["mlogloss"]
+val_loss = results["validation_1"]["mlogloss"]
+plt.figure(figsize=(8,5))
+plt.plot(train_loss, label="Train Loss")
+plt.plot(val_loss, label="Validation Loss")
+plt.xlabel("Boosting Rounds")
+plt.ylabel("Log Loss")
+plt.title("Training Curve")
+plt.legend()
+plt.savefig("training_curve.png", dpi=150, bbox_inches="tight")
+plt.close()
+print("📈 Training curve saved to training_curve.png")
+# ===============================
+# FEATURE IMPORTANCE
+# ===============================
+plt.figure(figsize=(10,8))
+xgb.plot_importance(model, max_num_features=20)
+plt.title("Top 20 Important Features")
+plt.savefig("feature_importance.png", dpi=150, bbox_inches="tight")
+plt.close()
+print("📊 Feature importance saved to feature_importance.png")
+# ===============================
+# SAVE MODEL
+# ===============================
+# Clear callbacks before saving — TqdmCallback holds an open file handle
+# (TextIOWrapper) that joblib/pickle cannot serialize.
+model.set_params(callbacks=[])
+joblib.dump({
+    "model": model,
+    "word_vectorizer": word_vectorizer,
+    "char_vectorizer": char_vectorizer,
+    "scaler": scaler
+}, MODEL_SAVE_PATH)
+print(f"\n💾 Model saved to {MODEL_SAVE_PATH}")
+print("🔥 All done!")