Spaces:

clementBE
/

Trainer4Xlsx

Paused

App Files Files Community

clementBE commited on Jul 11, 2025

Commit

6849a4f

verified ·

1 Parent(s): 95316bb

Update app.py

Browse files

Files changed (1) hide show

app.py +63 -10

app.py CHANGED Viewed

@@ -8,7 +8,9 @@ from sklearn.metrics import classification_report, accuracy_score, precision_sco
 df_train = None
 model = None
 vectorizer = None
-test_metrics = None  # To store metrics after training
 def load_training_file(file):
     global df_train
@@ -18,7 +20,7 @@ def load_training_file(file):
     df_train = pd.read_excel(file.name)
     col_names = list(df_train.columns)
-    return f"✅ Loaded file with {len(df_train)} rows", gr.update(choices=col_names, value=col_names[0]), gr.update(choices=col_names, value=col_names[-1])
 def train_model(text_column, target_column):
     global model, vectorizer, test_metrics, df_train
@@ -31,7 +33,6 @@ def train_model(text_column, target_column):
     df_filtered = df_train.dropna(subset=[text_column, target_column])
-    # Split train/test
     X_train, X_test, y_train, y_test = train_test_split(
         df_filtered[text_column], df_filtered[target_column], test_size=0.2, random_state=42
     )
@@ -43,12 +44,10 @@ def train_model(text_column, target_column):
     model = LogisticRegression(max_iter=1000)
     model.fit(X_train_vec, y_train)
-    # Predict on test set
     y_pred = model.predict(X_test_vec)
-    # Compute metrics
     accuracy = accuracy_score(y_test, y_pred)
-    precision = precision_score(y_test, y_pred, average='weighted', zero_division=0)  # weighted average for multiclass
     report = classification_report(y_test, y_pred, zero_division=0)
     test_metrics = f"Accuracy: {accuracy:.2%}\nPrecision (weighted): {precision:.2%}\n\nClassification Report:\n{report}"
@@ -61,16 +60,46 @@ def predict_label(text_input):
     X = vectorizer.transform([text_input])
     prediction = model.predict(X)[0]
-    proba = model.predict_proba(X).max()  # highest confidence for predicted class
     return f"🔮 Prediction: {prediction} (confidence: {proba:.2%})"
 with gr.Blocks() as demo:
     gr.Markdown("# 🧠 Text Classification App")
     with gr.Row():
-        file_input = gr.File(label="Upload Excel File (.xlsx)", file_types=[".xlsx"])
-        load_button = gr.Button("📂 Load File")
     status_output = gr.Markdown()
     with gr.Row():
@@ -82,10 +111,22 @@ with gr.Blocks() as demo:
     with gr.Row():
         input_text = gr.Textbox(label="Enter text to classify")
-        predict_button = gr.Button("🔍 Predict")
     prediction_output = gr.Markdown()
     load_button.click(
         fn=load_training_file,
         inputs=file_input,
@@ -104,5 +145,17 @@ with gr.Blocks() as demo:
         outputs=prediction_output
     )
 if __name__ == "__main__":
     demo.launch()

 df_train = None
 model = None
 vectorizer = None
+test_metrics = None
+df_predict = None  # for batch prediction file
 def load_training_file(file):
     global df_train
     df_train = pd.read_excel(file.name)
     col_names = list(df_train.columns)
+    return f"✅ Loaded training file with {len(df_train)} rows", gr.update(choices=col_names, value=col_names[0]), gr.update(choices=col_names, value=col_names[-1])
 def train_model(text_column, target_column):
     global model, vectorizer, test_metrics, df_train
     df_filtered = df_train.dropna(subset=[text_column, target_column])
     X_train, X_test, y_train, y_test = train_test_split(
         df_filtered[text_column], df_filtered[target_column], test_size=0.2, random_state=42
     )
     model = LogisticRegression(max_iter=1000)
     model.fit(X_train_vec, y_train)
     y_pred = model.predict(X_test_vec)
     accuracy = accuracy_score(y_test, y_pred)
+    precision = precision_score(y_test, y_pred, average='weighted', zero_division=0)
     report = classification_report(y_test, y_pred, zero_division=0)
     test_metrics = f"Accuracy: {accuracy:.2%}\nPrecision (weighted): {precision:.2%}\n\nClassification Report:\n{report}"
     X = vectorizer.transform([text_input])
     prediction = model.predict(X)[0]
+    proba = model.predict_proba(X).max()
     return f"🔮 Prediction: {prediction} (confidence: {proba:.2%})"
+# New function for batch prediction
+def load_prediction_file(file):
+    global df_predict
+    if file is None:
+        return "❌ Please upload a prediction file.", gr.update(choices=[], value=None)
+    df_predict = pd.read_excel(file.name)
+    col_names = list(df_predict.columns)
+    return f"✅ Loaded prediction file with {len(df_predict)} rows", gr.update(choices=col_names, value=col_names[0])
+def run_batch_prediction(text_column):
+    global df_predict, model, vectorizer
+    if model is None or vectorizer is None:
+        return "❌ Model is not trained yet."
+    if df_predict is None:
+        return "❌ No prediction file loaded."
+    if text_column not in df_predict.columns:
+        return "❌ Invalid text column selected."
+    df_filtered = df_predict.dropna(subset=[text_column]).copy()
+    X = vectorizer.transform(df_filtered[text_column])
+    preds = model.predict(X)
+    probs = model.predict_proba(X).max(axis=1)
+    df_filtered["Prediction"] = preds
+    df_filtered["Confidence"] = probs
+    # Show top 10 results as preview in the UI
+    preview = df_filtered.head(10).to_dict(orient="records")
+    return preview
 with gr.Blocks() as demo:
     gr.Markdown("# 🧠 Text Classification App")
     with gr.Row():
+        file_input = gr.File(label="Upload Training Excel File (.xlsx)", file_types=[".xlsx"])
+        load_button = gr.Button("📂 Load Training File")
     status_output = gr.Markdown()
     with gr.Row():
     with gr.Row():
         input_text = gr.Textbox(label="Enter text to classify")
+        predict_button = gr.Button("🔍 Predict Single")
     prediction_output = gr.Markdown()
+    # New part for batch prediction
+    with gr.Row():
+        pred_file_input = gr.File(label="Upload Prediction Excel File (.xlsx)", file_types=[".xlsx"])
+        load_pred_button = gr.Button("📂 Load Prediction File")
+    pred_status = gr.Markdown()
+    pred_text_column_dropdown = gr.Dropdown(label="Text column for Prediction")
+    batch_pred_button = gr.Button("⚡ Run Batch Prediction")
+    batch_pred_output = gr.Dataframe(headers=["All columns from input + Prediction + Confidence"], interactive=False)
+    # Link buttons and functions
     load_button.click(
         fn=load_training_file,
         inputs=file_input,
         outputs=prediction_output
     )
+    load_pred_button.click(
+        fn=load_prediction_file,
+        inputs=pred_file_input,
+        outputs=[pred_status, pred_text_column_dropdown]
+    )
+    batch_pred_button.click(
+        fn=run_batch_prediction,
+        inputs=pred_text_column_dropdown,
+        outputs=batch_pred_output
+    )
 if __name__ == "__main__":
     demo.launch()