Spaces:

bshk57
/

FlaskAsk

Sleeping

App Files Files Community

edit in system

by bshk57 - opened Mar 8

base: refs/heads/main

←

from: refs/pr/1

Discussion Files changed

+30

-51

This PR is in draft mode

Files changed (3) hide show

Dockerfile +2 -2
app_new.py +28 -48
requirements.txt +0 -1

Dockerfile CHANGED Viewed

@@ -2,7 +2,7 @@ FROM python:3.10-slim
 WORKDIR /app
 COPY requirements.txt .
-RUN pip install --no-cache-dir -r requirements.txt
 COPY . .
-CMD ["gunicorn", "-b", "0.0.0.0:7860", "--timeout", "300", "--workers", "1", "--threads", "2", "app_new:app"]

 WORKDIR /app
 COPY requirements.txt .
+RUN pip install -r requirements.txt
 COPY . .
+CMD ["gunicorn", "-b", "0.0.0.0:7860", "app_new:app"]

app_new.py CHANGED Viewed

@@ -25,9 +25,8 @@ from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain_community.vectorstores import Chroma
 from langchain.chains import RetrievalQA
 from langchain.prompts import PromptTemplate
-from langchain_core.language_models.llms import LLM
-from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
-import torch
 from huggingface_hub import snapshot_download
 import uuid
@@ -49,8 +48,8 @@ LOCAL_DATASET_DIR = "knowledge_base"
 VECTOR_DB_PATH = "sastra_vector_db"
 ANALYTICS_DB_PATH = "sastra_analytics_db"
-EMBEDDING_MODEL = "sentence-transformers/paraphrase-MiniLM-L12-v2"
-LLM_MODEL = "google/flan-t5-large"
 MANDATORY_URLS = [
     "https://www.sastra.edu/admissions/ug-pg.html",
@@ -85,7 +84,7 @@ admin_keywords = {}
 # AUTHENTICATION
 # ============================================================
-ADMIN_API_KEY = os.getenv("ADMIN_API_KEY", "admin@sastra")
 def require_admin_auth(f):
     @wraps(f)
@@ -225,19 +224,15 @@ def initialize_model():
     # 1. LOAD WEBSITE DATA
     print("\n📚 Loading website data...")
-    import requests as _requests
     for url in SASTRA_URLS:
         try:
             print(f"  Loading: {url}")
-            # Pre-check URL with timeout to avoid hanging
-            _requests.head(url, timeout=5)
             loader = WebBaseLoader(url)
-            loader.requests_kwargs = {"timeout": 10}
             docs = loader.load()
             documents.extend(docs)
             print(f"    ✅ Loaded {len(docs)} documents")
         except Exception as e:
-            print(f"    ⚠️  Failed (skipping): {str(e)[:100]}")
     print(f"  Total from websites: {len(documents)} documents")
@@ -312,36 +307,21 @@ def initialize_model():
     print("✅ Retriever configured (k=3, score_threshold=0.3)")
-    # 7. INITIALIZE LLM (T5 seq2seq — loaded directly, not via pipeline)
     print("\n🤖 Loading LLM...")
-    _tokenizer = AutoTokenizer.from_pretrained(LLM_MODEL)
-    _model = AutoModelForSeq2SeqLM.from_pretrained(LLM_MODEL)
-    class _T5LLM(LLM):
-        """Thin LangChain wrapper around T5 for seq2seq generation."""
-        class Config:
-            arbitrary_types_allowed = True
-        @property
-        def _llm_type(self) -> str:
-            return "t5-seq2seq"
-        def _call(self, prompt, stop=None, **kwargs):
-            inputs = _tokenizer(
-                prompt, return_tensors="pt",
-                max_length=512, truncation=True
-            )
-            with torch.no_grad():
-                out = _model.generate(
-                    **inputs,
-                    max_new_tokens=200,
-                    repetition_penalty=1.2,
-                )
-            return _tokenizer.decode(out[0], skip_special_tokens=True)
-    llm = _T5LLM()
     print("✅ LLM loaded")
     # 8. CREATE PROMPT TEMPLATE - IMPROVED
@@ -455,6 +435,7 @@ def log_chat_to_vectordb(
     try:
         analytics_db.add_documents([doc])
     except Exception as e:
         print(f"⚠️  Error logging to analytics DB: {e}")
@@ -630,20 +611,13 @@ def chat():
         print(f"\n🐛 DEBUG MODE ENABLED")
         debug_retrieval(query_en)
-    # RAG INFERENCE with timeout protection
     answer_en = ""
     try:
-        import concurrent.futures
         print(f"\n💬 Processing query: {query_en}")
-        with concurrent.futures.ThreadPoolExecutor() as executor:
-            future = executor.submit(qa_chain.invoke, {"query": query_en})
-            result = future.result(timeout=60)  # 60s hard limit
-        raw = result.get("result", "")
-        answer_en = clean_llm_output(raw)
         print(f"✅ Got answer: {answer_en[:100]}...")
-    except concurrent.futures.TimeoutError:
-        print("❌ QA Chain timed out after 60s")
-        answer_en = ""
     except Exception as e:
         print(f"❌ QA Chain error: {e}")
         answer_en = ""
@@ -808,10 +782,12 @@ def retrain():
         initialize_model()
         vectordb.add_documents(chunks)
         message = "Knowledge base completely reset and retrained"
     else:
         vectordb.add_documents(chunks)
         qa_chain.retriever = vectordb.as_retriever(search_kwargs={"k": 3})
         message = "Successfully added new data to existing knowledge base"
@@ -1439,6 +1415,8 @@ def bulk_delete_questions():
             )
             analytics_db.add_documents([doc])
         return jsonify({
             "status": "success",
             "message": f"Deleted {deleted_count} questions",
@@ -1509,6 +1487,8 @@ def update_feedback(log_id):
             )
             analytics_db.add_documents([doc])
         return jsonify({
             "status": "success",
             "message": "Feedback updated successfully",

 from langchain_community.vectorstores import Chroma
 from langchain.chains import RetrievalQA
 from langchain.prompts import PromptTemplate
+from langchain_community.llms import HuggingFacePipeline
+from transformers import pipeline
 from huggingface_hub import snapshot_download
 import uuid
 VECTOR_DB_PATH = "sastra_vector_db"
 ANALYTICS_DB_PATH = "sastra_analytics_db"
+EMBEDDING_MODEL = "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
+LLM_MODEL = "google/flan-t5-xl"
 MANDATORY_URLS = [
     "https://www.sastra.edu/admissions/ug-pg.html",
 # AUTHENTICATION
 # ============================================================
+ADMIN_API_KEY = os.getenv("ADMIN_API_KEY", "your-secret-key-change-this")
 def require_admin_auth(f):
     @wraps(f)
     # 1. LOAD WEBSITE DATA
     print("\n📚 Loading website data...")
     for url in SASTRA_URLS:
         try:
             print(f"  Loading: {url}")
             loader = WebBaseLoader(url)
             docs = loader.load()
             documents.extend(docs)
             print(f"    ✅ Loaded {len(docs)} documents")
         except Exception as e:
+            print(f"    ⚠️  Failed: {str(e)[:100]}")
     print(f"  Total from websites: {len(documents)} documents")
     print("✅ Retriever configured (k=3, score_threshold=0.3)")
+    # 7. INITIALIZE LLM
     print("\n🤖 Loading LLM...")
+    generator = pipeline(
+        "text-generation",
+        model=LLM_MODEL,
+        tokenizer=LLM_MODEL,
+        max_new_tokens=200,            # Reduced from 300
+        min_new_tokens=50,             # Force some output
+        temperature=0.5,               # Balanced (was 0.3 = too conservative)
+        top_p=0.9,                     # Nucleus sampling
+        repetition_penalty=1.2,        # Reduced from 1.3
+    )
+    llm = HuggingFacePipeline(pipeline=generator)
     print("✅ LLM loaded")
     # 8. CREATE PROMPT TEMPLATE - IMPROVED
     try:
         analytics_db.add_documents([doc])
+        analytics_db.persist()
     except Exception as e:
         print(f"⚠️  Error logging to analytics DB: {e}")
         print(f"\n🐛 DEBUG MODE ENABLED")
         debug_retrieval(query_en)
+    # RAG INFERENCE
     answer_en = ""
     try:
         print(f"\n💬 Processing query: {query_en}")
+        result = qa_chain.invoke({"query": query_en})
+        answer_en = result.get("result", "")#clean_llm_output()
         print(f"✅ Got answer: {answer_en[:100]}...")
     except Exception as e:
         print(f"❌ QA Chain error: {e}")
         answer_en = ""
         initialize_model()
         vectordb.add_documents(chunks)
+        vectordb.persist()
         message = "Knowledge base completely reset and retrained"
     else:
         vectordb.add_documents(chunks)
+        vectordb.persist()
         qa_chain.retriever = vectordb.as_retriever(search_kwargs={"k": 3})
         message = "Successfully added new data to existing knowledge base"
             )
             analytics_db.add_documents([doc])
+        analytics_db.persist()
         return jsonify({
             "status": "success",
             "message": f"Deleted {deleted_count} questions",
             )
             analytics_db.add_documents([doc])
+        analytics_db.persist()
         return jsonify({
             "status": "success",
             "message": "Feedback updated successfully",

requirements.txt CHANGED Viewed

@@ -1,7 +1,6 @@
 flask
 flask-cors
 gunicorn
-requests
 langchain==0.1.20
 langchain-community==0.0.38
 langchain-core==0.1.52

 flask
 flask-cors
 gunicorn
 langchain==0.1.20
 langchain-community==0.0.38
 langchain-core==0.1.52