Spaces:

Mrkomiljon
/

text-detector

Sleeping

App Files Files Community

Mrkomiljon commited on Sep 24, 2025

Commit

7aac00f

verified ·

1 Parent(s): 9e17dfb

Update app.py

Browse files

Files changed (1) hide show

app.py +19 -106

app.py CHANGED Viewed

@@ -2,10 +2,9 @@
 # -*- coding: utf-8 -*-
 import os
-import pickle
 import re
 import warnings
 import numpy as np
 import pandas as pd
 import torch
@@ -19,18 +18,11 @@ from huggingface_hub import hf_hub_download
 warnings.filterwarnings("ignore")
-# ---------------------------
-# Hugging Face Hub config
-# ---------------------------
-HF_REPO_ID   = os.getenv("HF_REPO_ID",   "Detecting-ai/text-detector-model-embedding")
-# Agar siz envda HF_FILENAME bermasangiz, dastur avval lite, keyin heavy ni sinab ko'radi:
-HF_FILENAME  = os.getenv("HF_FILENAME",  "").strip()
-HF_REPO_TYPE = os.getenv("HF_REPO_TYPE", "model").strip()  # "model" yoki "dataset"
-HF_TOKEN     = os.getenv("HF_TOKEN",     "").strip()        # private repo bo'lsa Secrets'dan keladi
-# ---------------------------
-# NLTK bootstrap
-# ---------------------------
 def ensure_nltk():
     try: nltk.data.find("tokenizers/punkt")
     except LookupError: nltk.download("punkt")
@@ -41,7 +33,6 @@ def ensure_nltk():
 ensure_nltk()
 def _to_stopword_set(sw):
     if sw is None:
         return set(stopwords.words("english"))
@@ -54,80 +45,22 @@ def _to_stopword_set(sw):
     except Exception:
         return set(stopwords.words("english"))
 def _guess_model_by_dim(dim: int) -> str:
-    if dim == 768:
-        return "sentence-transformers/all-mpnet-base-v2"
-    if dim == 384:
-        return "sentence-transformers/all-MiniLM-L6-v2"
     return "sentence-transformers/all-mpnet-base-v2"
-# ---------------------------
-# Hub loader (CPU-safe)
-# ---------------------------
-def _hf_download(filename: str) -> str:
-    return hf_hub_download(
-        repo_id=HF_REPO_ID,
-        filename=filename,
-        repo_type=HF_REPO_TYPE,
-        token=HF_TOKEN or None
-    )
-def _safe_load_pickle_cpu(path: str):
-    """
-    CUDA-da saqlangan obyektlarni CPU-only muhitda ochish:
-      1) torch.load(map_location='cpu') bilan urinamiz
-      2) bo'lmasa oddiy pickle.load
-    """
-    # 1) Torch formatini sinab ko'ramiz
-    try:
-        obj = torch.load(path, map_location="cpu")
-        print("✅ Loaded with torch.load(map_location='cpu')")
-        return obj
-    except Exception as e:
-        print(f"torch.load failed: {e}. Falling back to pickle.load...")
-    # 2) Oddiy pickle
-    with open(path, "rb") as f:
-        obj = pickle.load(f)
-    print("✅ Loaded with pickle.load")
-    return obj
-def _load_bundle_from_hub():
-    # Yuklash tartibi:
-    #  - Agar env HF_FILENAME berilgan bo'lsa, o'shani ishlatamiz
-    #  - Aks holda avval 'complete_trained_model_lite.pkl' (kichik), bo'lmasa 'complete_trained_model.pkl'
-    candidates = []
-    if HF_FILENAME:
-        candidates = [HF_FILENAME]
-    else:
-        candidates = ["complete_trained_model.pkl", "complete_trained_model_lite.pkl"]
-    last_err = None
-    for fname in candidates:
-        try:
-            print(f"↓ Trying to download from hub: {HF_REPO_ID}/{fname} ({HF_REPO_TYPE})")
-            pkl_path = _hf_download(fname)
-            data = _safe_load_pickle_cpu(pkl_path)
-            print(f"✅ Bundle loaded from hub: {HF_REPO_ID}/{fname}")
-            return data
-        except Exception as e:
-            print(f"⚠️ Failed to load {fname}: {e}")
-            last_err = e
-            continue
-    raise RuntimeError(f"❌ Could not load any bundle from hub. Last error: {last_err}")
-# ---------------------------
-# Main loader
-# ---------------------------
 def load_embedding_model():
-    # 1) Trained classifier bundle (.pkl) ni yuklab olamiz (CPU-safe)
-    data = _load_bundle_from_hub()
-    # 2) Embedding modelni tayyorlaymiz
     device = "cuda" if torch.cuda.is_available() else "cpu"
     env_name = os.getenv("EMBEDDING_MODEL_NAME", "").strip()
     stored_name = (data.get("embedding_model_name") or data.get("embedding_model_path") or "").strip()
@@ -138,7 +71,6 @@ def load_embedding_model():
     embedding_model = SentenceTransformer(emb_name, device=device)
     actual_dim = embedding_model.get_sentence_embedding_dimension()
-    # 3) Qo'shimcha maydonlar
     data["embedding_model"] = embedding_model
     data["resolved_embedding_model_name"] = emb_name
     data["resolved_embedding_dim"] = actual_dim
@@ -153,13 +85,8 @@ def load_embedding_model():
     print(f"ℹ️ Expect dim={expected_dim}, using {emb_name} (dim={actual_dim})")
     return data
-# ---------------------------
-# Preprocess + Predict
-# ---------------------------
 def preprocess_text(text, lemmatizer, stop_words, max_tokens=600):
-    if pd.isna(text) or not text:
-        return ""
     text = str(text).lower()
     text = re.sub(r"[^a-zA-Z\s]", " ", text)
     tokens = [
@@ -171,17 +98,14 @@ def preprocess_text(text, lemmatizer, stop_words, max_tokens=600):
         tokens = tokens[:max_tokens]
     return " ".join(tokens)
 def predict_text(text, model_data):
     proc = preprocess_text(text, model_data["lemmatizer"], model_data["stop_words"], model_data["max_tokens"])
     if not proc:
         return "UNKNOWN", 0.0, {"error": "Empty text after preprocessing"}
     with torch.no_grad():
         emb = model_data["embedding_model"].encode([proc], convert_to_numpy=True, normalize_embeddings=False)
     if emb.ndim == 1:
         emb = emb.reshape(1, -1)
     clf = model_data["model"]
     try:
         pred = clf.predict(emb)[0]
@@ -191,13 +115,8 @@ def predict_text(text, model_data):
             conf = 0.5
     except ValueError as e:
         return "ERROR_DIM_MISMATCH", 0.0, {"error": str(e)}
     return str(pred), conf, {"tokens": len(proc.split())}
-# ---------------------------
-# Gradio UI
-# ---------------------------
 def create_app(model_data):
     with gr.Blocks(title="Embedding-based Human vs AI Detector") as demo:
         gr.Markdown("## 🤖👤 Human vs AI Detector (Embedding-based)")
@@ -220,16 +139,10 @@ def create_app(model_data):
         inp.submit(_predict_ui, inp, [out, details])
         gr.Button("🔍 Predict").click(_predict_ui, inp, [out, details])
     return demo
-# ---------------------------
-# Build app
-# ---------------------------
 _model_data = load_embedding_model()
 demo = create_app(_model_data)
 if __name__ == "__main__":
-    # Spaces-da share kerak emas; public URLni Space beradi.
-    demo.launch(server_name="0.0.0.0", server_port=7860, share=False, show_api=True)

 # -*- coding: utf-8 -*-
 import os
 import re
 import warnings
+import joblib
 import numpy as np
 import pandas as pd
 import torch
 warnings.filterwarnings("ignore")
+REPO_ID  = os.getenv("HF_REPO_ID", "Detecting-ai/text-detector-model-embedding")
+FILENAME = os.getenv("HF_FILENAME", "complete_trained_model_lite.joblib")
+REPO_TYPE = os.getenv("HF_REPO_TYPE", "model")
+HF_TOKEN = os.getenv("HF_TOKEN") or None
 def ensure_nltk():
     try: nltk.data.find("tokenizers/punkt")
     except LookupError: nltk.download("punkt")
 ensure_nltk()
 def _to_stopword_set(sw):
     if sw is None:
         return set(stopwords.words("english"))
     except Exception:
         return set(stopwords.words("english"))
 def _guess_model_by_dim(dim: int) -> str:
+    if dim == 768: return "sentence-transformers/all-mpnet-base-v2"
+    if dim == 384: return "sentence-transformers/all-MiniLM-L6-v2"
     return "sentence-transformers/all-mpnet-base-v2"
 def load_embedding_model():
+    # Joblib siqilgan lite bundle ni yuklash (kichik va tez)
+    path = hf_hub_download(
+        repo_id=REPO_ID,
+        filename=FILENAME,
+        repo_type=REPO_TYPE,
+        token=HF_TOKEN
+    )
+    data = joblib.load(path)
+    print(f"✅ Loaded lite bundle: {REPO_ID}/{FILENAME}")
     device = "cuda" if torch.cuda.is_available() else "cpu"
     env_name = os.getenv("EMBEDDING_MODEL_NAME", "").strip()
     stored_name = (data.get("embedding_model_name") or data.get("embedding_model_path") or "").strip()
     embedding_model = SentenceTransformer(emb_name, device=device)
     actual_dim = embedding_model.get_sentence_embedding_dimension()
     data["embedding_model"] = embedding_model
     data["resolved_embedding_model_name"] = emb_name
     data["resolved_embedding_dim"] = actual_dim
     print(f"ℹ️ Expect dim={expected_dim}, using {emb_name} (dim={actual_dim})")
     return data
 def preprocess_text(text, lemmatizer, stop_words, max_tokens=600):
+    if pd.isna(text) or not text: return ""
     text = str(text).lower()
     text = re.sub(r"[^a-zA-Z\s]", " ", text)
     tokens = [
         tokens = tokens[:max_tokens]
     return " ".join(tokens)
 def predict_text(text, model_data):
     proc = preprocess_text(text, model_data["lemmatizer"], model_data["stop_words"], model_data["max_tokens"])
     if not proc:
         return "UNKNOWN", 0.0, {"error": "Empty text after preprocessing"}
     with torch.no_grad():
         emb = model_data["embedding_model"].encode([proc], convert_to_numpy=True, normalize_embeddings=False)
     if emb.ndim == 1:
         emb = emb.reshape(1, -1)
     clf = model_data["model"]
     try:
         pred = clf.predict(emb)[0]
             conf = 0.5
     except ValueError as e:
         return "ERROR_DIM_MISMATCH", 0.0, {"error": str(e)}
     return str(pred), conf, {"tokens": len(proc.split())}
 def create_app(model_data):
     with gr.Blocks(title="Embedding-based Human vs AI Detector") as demo:
         gr.Markdown("## 🤖👤 Human vs AI Detector (Embedding-based)")
         inp.submit(_predict_ui, inp, [out, details])
         gr.Button("🔍 Predict").click(_predict_ui, inp, [out, details])
     return demo
 _model_data = load_embedding_model()
 demo = create_app(_model_data)
 if __name__ == "__main__":
+    demo.launch()