Spaces:

clementBE
/

Trainer4Xlsx

Paused

App Files Files Community

clementBE commited on Jul 11, 2025

Commit

95316bb

verified ·

1 Parent(s): def006a

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -5

app.py CHANGED Viewed

@@ -2,10 +2,13 @@ import gradio as gr
 import pandas as pd
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.linear_model import LogisticRegression
 df_train = None
 model = None
 vectorizer = None
 def load_training_file(file):
     global df_train
@@ -18,7 +21,7 @@ def load_training_file(file):
     return f"✅ Loaded file with {len(df_train)} rows", gr.update(choices=col_names, value=col_names[0]), gr.update(choices=col_names, value=col_names[-1])
 def train_model(text_column, target_column):
-    global model, vectorizer
     if df_train is None:
         return "❌ No training data loaded."
@@ -28,14 +31,29 @@ def train_model(text_column, target_column):
     df_filtered = df_train.dropna(subset=[text_column, target_column])
     vectorizer = TfidfVectorizer()
-    X = vectorizer.fit_transform(df_filtered[text_column])
-    y = df_filtered[target_column]
     model = LogisticRegression(max_iter=1000)
-    model.fit(X, y)
-    return f"✅ Model trained on {len(df_filtered)} examples."
 def predict_label(text_input):
     if model is None or vectorizer is None:

 import pandas as pd
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.linear_model import LogisticRegression
+from sklearn.model_selection import train_test_split
+from sklearn.metrics import classification_report, accuracy_score, precision_score
 df_train = None
 model = None
 vectorizer = None
+test_metrics = None  # To store metrics after training
 def load_training_file(file):
     global df_train
     return f"✅ Loaded file with {len(df_train)} rows", gr.update(choices=col_names, value=col_names[0]), gr.update(choices=col_names, value=col_names[-1])
 def train_model(text_column, target_column):
+    global model, vectorizer, test_metrics, df_train
     if df_train is None:
         return "❌ No training data loaded."
     df_filtered = df_train.dropna(subset=[text_column, target_column])
+    # Split train/test
+    X_train, X_test, y_train, y_test = train_test_split(
+        df_filtered[text_column], df_filtered[target_column], test_size=0.2, random_state=42
+    )
     vectorizer = TfidfVectorizer()
+    X_train_vec = vectorizer.fit_transform(X_train)
+    X_test_vec = vectorizer.transform(X_test)
     model = LogisticRegression(max_iter=1000)
+    model.fit(X_train_vec, y_train)
+    # Predict on test set
+    y_pred = model.predict(X_test_vec)
+    # Compute metrics
+    accuracy = accuracy_score(y_test, y_pred)
+    precision = precision_score(y_test, y_pred, average='weighted', zero_division=0)  # weighted average for multiclass
+    report = classification_report(y_test, y_pred, zero_division=0)
+    test_metrics = f"Accuracy: {accuracy:.2%}\nPrecision (weighted): {precision:.2%}\n\nClassification Report:\n{report}"
+    return f"✅ Model trained on {len(df_filtered)} examples.\n\nTest set evaluation:\n{test_metrics}"
 def predict_label(text_input):
     if model is None or vectorizer is None: