Spaces:

Thanut003
/

khmer-text-classifier-api

Sleeping

App Files Files Community

Thanut003 commited on Jan 8

Commit

a4ef48d

verified ·

1 Parent(s): 10d8986

Update app.py

Browse files

Files changed (1) hide show

app.py +69 -26

app.py CHANGED Viewed

@@ -131,9 +131,15 @@ import re
 import nltk
 import numpy as np
 import traceback
 from khmernltk import word_tokenize
-# --- 1. SETUP ---
 try:
     nltk.data.find('corpora/stopwords')
 except LookupError:
@@ -142,7 +148,7 @@ except LookupError:
 from nltk.corpus import stopwords
 english_stopwords = set(stopwords.words('english'))
-# CRITICAL: This list MUST match the order of your LabelEncoder classes (0, 1, 2...)
 LABELS = [
     'Culture', 'Economic', 'Education', 'Environment',
     'Health', 'Politics', 'Human Rights', 'Science'
@@ -150,17 +156,23 @@ LABELS = [
 def clean_khmer_text(text):
     if not isinstance(text, str): return ""
     text = re.sub(r'<[^>]+>', '', text)
     text = re.sub(r'[\u200B-\u200D\uFEFF]', '', text)
     text = re.sub(r'[!"#$%&\'()*+,—./:;<=>?@[\]^_`{|}~។៕៖ៗ៘៙៚៛«»-]', '', text)
     text = re.sub(r'\s+', ' ', text).strip()
     return text
 def khmer_tokenize(text):
     cleaned = clean_khmer_text(text)
     if not cleaned: return ""
     tokens = word_tokenize(cleaned)
     processed_tokens = []
     for token in tokens:
         if re.match(r'^[a-zA-Z0-9]+$', token):
             token_lower = token.lower()
@@ -168,10 +180,9 @@ def khmer_tokenize(text):
             processed_tokens.append(token_lower)
         else:
             processed_tokens.append(token)
     return " ".join(processed_tokens)
 # --- 2. LOAD MODELS ---
 print("Loading processors...")
 try:
@@ -180,6 +191,9 @@ try:
     print("✅ Vectorizer & SVD loaded")
 except Exception as e:
     print(f"❌ CRITICAL LOAD ERROR: {e}")
 models = {}
 model_files = {
@@ -199,60 +213,89 @@ for name, filename in model_files.items():
 # --- 3. PREDICTION FUNCTION ---
 def predict(text, model_name):
-    if not text: return "Please enter text", {}, []
-    if model_name not in models: return "Model not found", {}, []
     try:
-        # Pipeline
         processed = khmer_tokenize(text)
         vectors = vectorizer.transform([processed])
         vectors_reduced = svd.transform(vectors)
-        model = models[model_name]
-        # Keywords
         feature_array = np.array(vectorizer.get_feature_names_out())
         tfidf_sorting = np.argsort(vectors.toarray()).flatten()[::-1]
         top_n = 10
         keywords = []
         for idx in tfidf_sorting[:top_n]:
             if vectors[0, idx] > 0:
                 keywords.append(feature_array[idx])
-        # --- PREDICTION LOGIC ---
         confidences = {}
         top_label = ""
-        # 1. Models with Probabilities (LogReg, RF, XGB, LGBM)
-        if hasattr(model, "predict_proba"):
-            probas = model.predict_proba(vectors_reduced)[0]
             # Map probabilities to labels
             for i in range(len(LABELS)):
                 if i < len(probas):
                     confidences[LABELS[i]] = float(probas[i])
             top_label = max(confidences, key=confidences.get)
-        # 2. Models without Probabilities (SVM)
         else:
-            raw_pred = model.predict(vectors_reduced)[0]
             if isinstance(raw_pred, (int, np.integer, float, np.floating)):
                  pred_idx = int(raw_pred)
             else:
-                 pred_idx = np.argmax(raw_pred)
-            top_label = LABELS[pred_idx]
-            confidences = {LABELS[pred_idx]: 1.0}
         return top_label, confidences, keywords
     except Exception as e:
-        traceback.print_exc() # Now this will work because we imported traceback
         return f"Error: {str(e)}", {}, []
 # --- 4. LAUNCH ---
-# IMPORTANT: allowed_origins="*" fixes the 405 error
 demo = gr.Interface(
     fn=predict,
-    inputs=[gr.Textbox(), gr.Dropdown(choices=list(models.keys()))],
-    outputs=[gr.Label(), gr.Label(), gr.JSON()]
 )
-demo.launch()

 import nltk
 import numpy as np
 import traceback
+import nest_asyncio
+# --- 1. SETUP & FIXES ---
+# Patch asyncio to allow nested event loops (Fixes "Invalid file descriptor" error in Colab/Jupyter)
+nest_asyncio.apply()
 from khmernltk import word_tokenize
+# NLTK Setup
 try:
     nltk.data.find('corpora/stopwords')
 except LookupError:
 from nltk.corpus import stopwords
 english_stopwords = set(stopwords.words('english'))
+# LABELS: Ensure this matches your model's training order exactly (0, 1, 2...)
 LABELS = [
     'Culture', 'Economic', 'Education', 'Environment',
     'Health', 'Politics', 'Human Rights', 'Science'
 def clean_khmer_text(text):
     if not isinstance(text, str): return ""
+    # Remove HTML tags
     text = re.sub(r'<[^>]+>', '', text)
+    # Remove Zero-width characters (Be careful: this might merge words if source relies on ZWS)
     text = re.sub(r'[\u200B-\u200D\uFEFF]', '', text)
+    # Remove Punctuation & Special chars
     text = re.sub(r'[!"#$%&\'()*+,—./:;<=>?@[\]^_`{|}~។៕៖ៗ៘៙៚៛«»-]', '', text)
+    # Normalize whitespace
     text = re.sub(r'\s+', ' ', text).strip()
     return text
 def khmer_tokenize(text):
     cleaned = clean_khmer_text(text)
     if not cleaned: return ""
     tokens = word_tokenize(cleaned)
     processed_tokens = []
     for token in tokens:
         if re.match(r'^[a-zA-Z0-9]+$', token):
             token_lower = token.lower()
             processed_tokens.append(token_lower)
         else:
             processed_tokens.append(token)
     return " ".join(processed_tokens)
 # --- 2. LOAD MODELS ---
 print("Loading processors...")
 try:
     print("✅ Vectorizer & SVD loaded")
 except Exception as e:
     print(f"❌ CRITICAL LOAD ERROR: {e}")
+    # Initialize dummies to prevent crash if files are missing (for debugging only)
+    vectorizer = None
+    svd = None
 models = {}
 model_files = {
 # --- 3. PREDICTION FUNCTION ---
 def predict(text, model_name):
+    if not text:
+        return "Please enter text", {}, []
+    if model_name not in models:
+        return "Model not found", {}, []
+    if vectorizer is None or svd is None:
+        return "Vectorizers not loaded", {}, []
     try:
+        # Pipeline Transformation
         processed = khmer_tokenize(text)
         vectors = vectorizer.transform([processed])
         vectors_reduced = svd.transform(vectors)
+        current_model = models[model_name]
+        # --- Keyword Extraction ---
         feature_array = np.array(vectorizer.get_feature_names_out())
+        # Sort by TF-IDF score (high to low)
         tfidf_sorting = np.argsort(vectors.toarray()).flatten()[::-1]
         top_n = 10
         keywords = []
         for idx in tfidf_sorting[:top_n]:
+            # Only include if the word actually appears in this document
             if vectors[0, idx] > 0:
                 keywords.append(feature_array[idx])
+        # --- Prediction Logic ---
         confidences = {}
         top_label = ""
+        # A. Models with Probabilities (LogReg, RF, XGB, LGBM)
+        if hasattr(current_model, "predict_proba"):
+            probas = current_model.predict_proba(vectors_reduced)[0]
             # Map probabilities to labels
             for i in range(len(LABELS)):
                 if i < len(probas):
                     confidences[LABELS[i]] = float(probas[i])
             top_label = max(confidences, key=confidences.get)
+        # B. Models without Probabilities (Linear SVM often doesn't have it by default)
         else:
+            raw_pred = current_model.predict(vectors_reduced)[0]
+            # Handle different return types (index vs label)
             if isinstance(raw_pred, (int, np.integer, float, np.floating)):
                  pred_idx = int(raw_pred)
+                 top_label = LABELS[pred_idx]
+                 confidences = {LABELS[pred_idx]: 1.0}
             else:
+                 # If model returns string label directly
+                 top_label = str(raw_pred)
+                 confidences = {top_label: 1.0}
         return top_label, confidences, keywords
     except Exception as e:
+        traceback.print_exc()
         return f"Error: {str(e)}", {}, []
 # --- 4. LAUNCH ---
+# Clean up previous instance if running in Notebook
+try:
+    demo.close()
+except:
+    pass
 demo = gr.Interface(
     fn=predict,
+    inputs=[
+        gr.Textbox(lines=5, placeholder="Enter Khmer news text here...", label="Input Text"),
+        gr.Dropdown(choices=list(models.keys()), value="XGBoost", label="Select Model")
+    ],
+    outputs=[
+        gr.Label(label="Top Prediction"),
+        gr.Label(num_top_classes=8, label="Class Probabilities"),
+        gr.JSON(label="Top Keywords")
+    ],
+    title="Khmer News Classifier",
+    description="Classify Khmer text into 8 categories (Culture, Economic, Education, etc.)"
 )
+# debug=True helps you see errors in the output cell
+demo.launch(debug=True, share=True)