Spaces:

Clarkoer
/

GAL

Running

App Files Files Community

Clarkoer commited on Mar 21

Commit

f05d609

1 Parent(s): 445a94e

Upgrade NLP to sentence-transformers all-mpnet-base-v2

Browse files

Files changed (3) hide show

Backend/gal_fallback.py +12 -38
Dockerfile +2 -2
requirements.txt +1 -3

Backend/gal_fallback.py CHANGED Viewed

@@ -3,11 +3,11 @@ NLP-based fallback responder for the GAL AI chat.
 Three-layer hybrid architecture:
   Layer 1 — Rule Engine: regex matches compiler error messages → structured explanations
-  Layer 2 — Retriever: ONNX MiniLM semantic search over 50+ knowledge-base topics
   Layer 3 — Default: help menu when nothing matches
 Plus: synonym expansion, greeting detection, follow-up context, multi-topic blending.
-Lightweight (~30 MB RAM) — fits on Render free tier.
 All heavy imports are deferred so the server binds its port immediately.
 """
@@ -2222,11 +2222,10 @@ root() {
 # ═══════════════════════════════════════════════════════════════════════
-# ONNX MiniLM — lazy-loaded on first query
 # ═══════════════════════════════════════════════════════════════════════
-_session = None
-_tokenizer = None
 _phrase_embeddings = None
 _phrase_topic_idx = []
 _responses = []
@@ -2289,44 +2288,19 @@ _GREETING_PATTERNS = [
 def _encode(texts):
-    """Tokenise + run ONNX inference + mean-pool + L2-normalise."""
-    import numpy as np
-    encodings = _tokenizer.encode_batch(texts)
-    ids = np.array([e.ids for e in encodings], dtype=np.int64)
-    mask = np.array([e.attention_mask for e in encodings], dtype=np.int64)
-    ttype = np.zeros_like(ids)
-    out = _session.run(
-        None,
-        {"input_ids": ids, "attention_mask": mask, "token_type_ids": ttype},
-    )
-    tok_emb = out[0]  # (batch, seq_len, 384)
-    mask_exp = mask[:, :, np.newaxis].astype(np.float32)
-    pooled = np.sum(tok_emb * mask_exp, axis=1) / np.clip(
-        mask_exp.sum(axis=1), 1e-9, None
-    )
-    norms = np.clip(np.linalg.norm(pooled, axis=1, keepdims=True), 1e-9, None)
-    return pooled / norms
 def _ensure_model():
-    """Download ONNX model + tokenizer and encode training phrases on first call."""
-    global _session, _tokenizer, _phrase_embeddings, _phrase_topic_idx, _responses
-    if _session is not None:
         return
-    import numpy as np
-    from huggingface_hub import hf_hub_download
-    from tokenizers import Tokenizer
-    import onnxruntime as ort
-    repo = "Xenova/all-MiniLM-L6-v2"
-    tok_path = hf_hub_download(repo, "tokenizer.json")
-    model_path = hf_hub_download(repo, "onnx/model.onnx")
-    _tokenizer = Tokenizer.from_file(tok_path)
-    _tokenizer.enable_padding()
-    _tokenizer.enable_truncation(max_length=128)
-    _session = ort.InferenceSession(model_path)
     _phrase_topic_idx = []
     _responses = []

 Three-layer hybrid architecture:
   Layer 1 — Rule Engine: regex matches compiler error messages → structured explanations
+  Layer 2 — Retriever: sentence-transformers (all-mpnet-base-v2) semantic search over 50+ KB topics
   Layer 3 — Default: help menu when nothing matches
 Plus: synonym expansion, greeting detection, follow-up context, multi-topic blending.
+Uses the #1 ranked sentence embedding model for best semantic matching accuracy.
 All heavy imports are deferred so the server binds its port immediately.
 """
 # ═══════════════════════════════════════════════════════════════════════
+# Sentence-Transformers (all-mpnet-base-v2) — lazy-loaded on first query
 # ═══════════════════════════════════════════════════════════════════════
+_st_model = None
 _phrase_embeddings = None
 _phrase_topic_idx = []
 _responses = []
 def _encode(texts):
+    """Encode texts using sentence-transformers (returns L2-normalised embeddings)."""
+    return _st_model.encode(texts, normalize_embeddings=True, show_progress_bar=False)
 def _ensure_model():
+    """Load sentence-transformers model and encode training phrases on first call."""
+    global _st_model, _phrase_embeddings, _phrase_topic_idx, _responses
+    if _st_model is not None:
         return
+    from sentence_transformers import SentenceTransformer
+    _st_model = SentenceTransformer("all-mpnet-base-v2")
     _phrase_topic_idx = []
     _responses = []

Dockerfile CHANGED Viewed

@@ -6,8 +6,8 @@ WORKDIR /app
 COPY requirements.txt .
 RUN pip install --no-cache-dir -r requirements.txt
-# Pre-download the ONNX model so first request is fast
-RUN python -c "from huggingface_hub import hf_hub_download; hf_hub_download('Xenova/all-MiniLM-L6-v2','tokenizer.json'); hf_hub_download('Xenova/all-MiniLM-L6-v2','onnx/model.onnx')"
 # Copy the entire project
 COPY . .

 COPY requirements.txt .
 RUN pip install --no-cache-dir -r requirements.txt
+# Pre-download the sentence-transformers model so first request is fast
+RUN python -c "from sentence_transformers import SentenceTransformer; SentenceTransformer('all-mpnet-base-v2')"
 # Copy the entire project
 COPY . .

requirements.txt CHANGED Viewed

@@ -3,7 +3,5 @@ flask-socketio==5.3.6
 flask-cors==4.0.0
 eventlet
 google-genai
-onnxruntime
-tokenizers
-huggingface-hub
 numpy

 flask-cors==4.0.0
 eventlet
 google-genai
+sentence-transformers
 numpy