Spaces:

Thanut003
/

khmer-text-classifier-api

Sleeping

App Files Files Community

Thanut003 commited on Jan 8

Commit

f92f52e

verified ·

1 Parent(s): 76c0de9

Update app.py

Browse files

Files changed (1) hide show

app.py +36 -28

app.py CHANGED Viewed

@@ -133,7 +133,6 @@ import traceback
 import warnings
 # --- 1. SETUP ---
-# Filter out the harmless warnings from the logs
 warnings.filterwarnings("ignore")
 from khmernltk import word_tokenize
@@ -164,10 +163,8 @@ def clean_khmer_text(text):
 def khmer_tokenize(text):
     cleaned = clean_khmer_text(text)
     if not cleaned: return ""
     tokens = word_tokenize(cleaned)
     processed_tokens = []
     for token in tokens:
         if re.match(r'^[a-zA-Z0-9]+$', token):
             token_lower = token.lower()
@@ -175,10 +172,15 @@ def khmer_tokenize(text):
             processed_tokens.append(token_lower)
         else:
             processed_tokens.append(token)
     return " ".join(processed_tokens)
-# --- 2. LAZY LOADING MODELS (Prevents Crashing) ---
 vectorizer = None
 svd = None
 models_cache = {}
@@ -205,7 +207,6 @@ def load_vectorizers():
 def get_model(name):
     if name in models_cache:
         return models_cache[name]
     try:
         filename = model_files.get(name)
         if not filename: return None
@@ -221,7 +222,6 @@ def predict(text, model_name):
     if not text:
         return "Please enter text", {}, []
-    # Load resources only when needed
     if not load_vectorizers():
         return "System Error: Vectorizers missing", {}, []
@@ -248,33 +248,41 @@ def predict(text, model_name):
         confidences = {}
         top_label = ""
-        # CASE A: Models that support probabilities (XGBoost, RF, etc.)
         if hasattr(current_model, "predict_proba"):
-            probas = current_model.predict_proba(vectors_reduced)[0]
-            for i in range(len(LABELS)):
-                if i < len(probas):
-                    confidences[LABELS[i]] = float(probas[i])
-            top_label = max(confidences, key=confidences.get)
-        # CASE B: Models without probabilities (SVM, etc.)
-        else:
             raw_pred = current_model.predict(vectors_reduced)[0]
-            # --- FIX FOR [1 0 0 0] ISSUE ---
-            # If the model returns an array/list (One-Hot Encoded), we find the index of the highest value
-            if isinstance(raw_pred, (list, np.ndarray)):
-                pred_idx = np.argmax(raw_pred)
-                top_label = LABELS[pred_idx]
-            # If the model returns a simple integer number
-            elif isinstance(raw_pred, (int, np.integer, float, np.floating)):
                  pred_idx = int(raw_pred)
                  top_label = LABELS[pred_idx]
-            # Fallback (rare)
             else:
                  top_label = str(raw_pred)
             confidences = {top_label: 1.0}
         return top_label, confidences, keywords

 import warnings
 # --- 1. SETUP ---
 warnings.filterwarnings("ignore")
 from khmernltk import word_tokenize
 def khmer_tokenize(text):
     cleaned = clean_khmer_text(text)
     if not cleaned: return ""
     tokens = word_tokenize(cleaned)
     processed_tokens = []
     for token in tokens:
         if re.match(r'^[a-zA-Z0-9]+$', token):
             token_lower = token.lower()
             processed_tokens.append(token_lower)
         else:
             processed_tokens.append(token)
     return " ".join(processed_tokens)
+# --- HELPER: SOFTMAX ---
+# Converts raw distance scores (e.g., -1.5, 2.3) into probabilities (e.g., 0.1, 0.8)
+def softmax(x):
+    e_x = np.exp(x - np.max(x)) # Subtract max for numerical stability
+    return e_x / e_x.sum()
+# --- 2. LAZY LOADING ---
 vectorizer = None
 svd = None
 models_cache = {}
 def get_model(name):
     if name in models_cache:
         return models_cache[name]
     try:
         filename = model_files.get(name)
         if not filename: return None
     if not text:
         return "Please enter text", {}, []
     if not load_vectorizers():
         return "System Error: Vectorizers missing", {}, []
         confidences = {}
         top_label = ""
+        # STRATEGY 1: NATIVE PROBABILITIES (XGBoost, RF, LogReg)
         if hasattr(current_model, "predict_proba"):
+            try:
+                probas = current_model.predict_proba(vectors_reduced)[0]
+                for i in range(len(LABELS)):
+                    if i < len(probas):
+                        confidences[LABELS[i]] = float(probas[i])
+                top_label = max(confidences, key=confidences.get)
+            except:
+                # Fallback if predict_proba fails
+                pass
+        # STRATEGY 2: DECISION FUNCTION (SVM fallback)
+        # If strategy 1 didn't work, we try to use "distance" scores and convert them
+        if not confidences and hasattr(current_model, "decision_function"):
+            try:
+                raw_scores = current_model.decision_function(vectors_reduced)[0]
+                # Convert raw scores (distances) to percentages using Softmax
+                probas = softmax(raw_scores)
+                for i in range(len(LABELS)):
+                    if i < len(probas):
+                        confidences[LABELS[i]] = float(probas[i])
+                top_label = max(confidences, key=confidences.get)
+            except:
+                pass
+        # STRATEGY 3: HARD FALLBACK (If everything else fails)
+        if not confidences:
             raw_pred = current_model.predict(vectors_reduced)[0]
+            if isinstance(raw_pred, (int, np.integer, float, np.floating)):
                  pred_idx = int(raw_pred)
                  top_label = LABELS[pred_idx]
             else:
                  top_label = str(raw_pred)
             confidences = {top_label: 1.0}
         return top_label, confidences, keywords