# validate.py
import os
import joblib
import pandas as pd
from sklearn.metrics import classification_report
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.multioutput import MultiOutputClassifier
from lightgbm import LGBMClassifier

from config import DATA_PATH, TEXT_COLUMN, LABEL_COLUMNS, MODEL_SAVE_DIR, TFIDF_PATH

# Load validation data
data = pd.read_csv(DATA_PATH)
X = data[TEXT_COLUMN]
y = data[LABEL_COLUMNS]

# Load vectorizer and model
vectorizer = joblib.load(TFIDF_PATH)
X_vectorized = vectorizer.transform(X)

model_path = os.path.join(MODEL_SAVE_DIR, "lgbm_multioutput.pkl")
model = joblib.load(model_path)

# Predict
y_pred = model.predict(X_vectorized)

# Evaluation
print("\nValidation Report:\n")
print(classification_report(y, y_pred, target_names=LABEL_COLUMNS))