Spaces:

sourize
/

DeepTalks

Sleeping

App Files Files Community

sourize commited on Apr 30, 2025

Commit

857744a

1 Parent(s): d934644

Commit

Browse files

Files changed (2) hide show

app.py +39 -39
requirements.txt +5 -6

app.py CHANGED Viewed

@@ -11,34 +11,30 @@ from peft import LoraConfig, get_peft_model
 from safetensors.torch import load_file as safe_load
 # ── Configuration ──────────────────────────────────────────────────────────
-MODEL_REPO      = "models/phi2-deeptalk-lora"
 BASE_MODEL      = "microsoft/phi-2"
-CONTEXT_TURNS   = 7        # how many past messages to include
-MAX_NEW_TOKENS  = 32       # shorter = faster
-TEMPERATURE     = 0.0      # 0.0 = greedy
-TOP_P           = 1.0      # disable nucleus sampling
 DEVICE_MAP      = "auto"
 SYSTEM = (
-    "You are a helpful assistant for DeepTalks with a base model Phi-2 "
-    "fine-tuned by Sourish for domain-specific support.\n"
-    "Base replies **only** on the context below. "
-    "If you don't know, say “I don't know.”\n"
 )
-# ── Model Loader ───────────────────────────────────────────────────────────
 @st.cache_resource(show_spinner=False)
 def load_generator():
-    # 1) Tokenizer (always from HuggingFace cache)
     tokenizer = AutoTokenizer.from_pretrained(
-        BASE_MODEL,
-        trust_remote_code=True,
-        padding_side="left",
     )
     if tokenizer.pad_token_id is None:
-        tokenizer.add_special_tokens({"pad_token":"[PAD]"})
-    # 2) Base model in 4-bit or fp16/32
     if torch.cuda.is_available():
         bnb = BitsAndBytesConfig(
             load_in_4bit=True,
@@ -61,27 +57,25 @@ def load_generator():
             device_map=DEVICE_MAP,
         )
-    # 3) Resize & wrap LoRA
     base.resize_token_embeddings(len(tokenizer))
-    peft_config = LoraConfig.from_pretrained(MODEL_REPO, local_files_only=True)
     model       = get_peft_model(base, peft_config)
     # 4) Load adapter weights (.safetensors)
-    adapter_file = os.path.join(MODEL_REPO, "adapter_model.safetensors")
     state_dict   = safe_load(adapter_file)
     model.load_state_dict(state_dict, strict=False)
     model.eval()
-    # 5) Build pipeline (greedy for speed)
     gen = pipeline(
         "text-generation",
         model=model,
         tokenizer=tokenizer,
         device_map=DEVICE_MAP,
         max_new_tokens=MAX_NEW_TOKENS,
-        do_sample=False,
-        temperature=TEMPERATURE,
-        top_p=TOP_P,
         use_cache=True,
         return_full_text=False,
     )
@@ -93,37 +87,43 @@ tokenizer, generator = load_generator()
 st.set_page_config(layout="centered")
 st.title("🧠 Memory-Aware Phi-2 Chat")
-# initialize history
 if "history" not in st.session_state:
     st.session_state.history = []  # list of (role, text)
-# render existing
 for role, text in st.session_state.history:
     st.chat_message("user" if role=="You" else "assistant").write(text)
-# user input
-user_input = st.chat_input("Type your message...")
 if user_input:
-    # show user
     st.chat_message("user").write(user_input)
     st.session_state.history.append(("You", user_input))
-    # build context from last turns
-    recent = st.session_state.history[-CONTEXT_TURNS*2:]  # each turn = 2 entries
-    ctx = "\n".join(f"{'User' if r=='You' else 'Assistant'}: {t}"
-                    for r,t in recent)
-    prompt = f"{SYSTEM}\nContext:\n{ctx}\nUser: {user_input}\nAssistant:"
-    # generate
-    with st.spinner("Thinking..."):
         try:
             out = generator(prompt)[0]["generated_text"].strip()
         except Exception as e:
-            out = "Sorry, I encountered an error."
-            st.error(f"Generation error: {e}")
-    # show bot
     st.chat_message("assistant").write(out)
     st.session_state.history.append(("Bot", out))

 from safetensors.torch import load_file as safe_load
 # ── Configuration ──────────────────────────────────────────────────────────
 BASE_MODEL      = "microsoft/phi-2"
+ADAPTER_DIR     = os.path.join(os.path.dirname(__file__), "models", "phi2-deeptalk-lora")
+CONTEXT_TURNS   = 6
+MAX_NEW_TOKENS  = 32
 DEVICE_MAP      = "auto"
 SYSTEM = (
+    "You are a helpful assistant for DeepTalks with base Phi-2 fine-tuned "
+    "by Sourish for domain support.\n"
+    "Answer only using the conversation context below.\n"
+    "If you don’t know, say “I don't know.”\n"
 )
+# ── Model loader (cached) ──────────────────────────────────────────────────
 @st.cache_resource(show_spinner=False)
 def load_generator():
+    # 1) Tokenizer (from official HF cache)
     tokenizer = AutoTokenizer.from_pretrained(
+        BASE_MODEL, trust_remote_code=True, padding_side="left"
     )
     if tokenizer.pad_token_id is None:
+        tokenizer.add_special_tokens({"pad_token": "[PAD]"})
+    # 2) Base model (4-bit on GPU, else FP16/FP32)
     if torch.cuda.is_available():
         bnb = BitsAndBytesConfig(
             load_in_4bit=True,
             device_map=DEVICE_MAP,
         )
+    # 3) Resize embeddings & wrap LoRA
     base.resize_token_embeddings(len(tokenizer))
+    peft_config = LoraConfig.from_pretrained(ADAPTER_DIR, local_files_only=True)
     model       = get_peft_model(base, peft_config)
     # 4) Load adapter weights (.safetensors)
+    adapter_file = os.path.join(ADAPTER_DIR, "adapter_model.safetensors")
     state_dict   = safe_load(adapter_file)
     model.load_state_dict(state_dict, strict=False)
     model.eval()
+    # 5) Build a **greedy** pipeline for max speed
     gen = pipeline(
         "text-generation",
         model=model,
         tokenizer=tokenizer,
         device_map=DEVICE_MAP,
         max_new_tokens=MAX_NEW_TOKENS,
+        do_sample=False,     # greedy
         use_cache=True,
         return_full_text=False,
     )
 st.set_page_config(layout="centered")
 st.title("🧠 Memory-Aware Phi-2 Chat")
+# Initialize chat history
 if "history" not in st.session_state:
     st.session_state.history = []  # list of (role, text)
+# Render past messages
 for role, text in st.session_state.history:
     st.chat_message("user" if role=="You" else "assistant").write(text)
+# User input at bottom
+user_input = st.chat_input("Your message…")
 if user_input:
+    # Show/store user turn
     st.chat_message("user").write(user_input)
     st.session_state.history.append(("You", user_input))
+    # Build context from last N turns
+    recent = st.session_state.history[-CONTEXT_TURNS*2:]
+    ctx = "\n".join(
+        f"{'User' if r=='You' else 'Assistant'}: {t}"
+        for r,t in recent
+    )
+    prompt = f"""{SYSTEM}
+Context:
+{ctx}
+User: {user_input}
+Assistant:"""
+    # Generate reply (spinner)
+    with st.spinner("Thinking…"):
         try:
             out = generator(prompt)[0]["generated_text"].strip()
         except Exception as e:
+            out = "I’m sorry, something went wrong."
+            st.error(f"Error: {e}")
+    # Show/store assistant
     st.chat_message("assistant").write(out)
     st.session_state.history.append(("Bot", out))

requirements.txt CHANGED Viewed

@@ -1,7 +1,6 @@
 streamlit
-transformers>=4.30
-peft
-supabase
-sentence-transformers
-faiss-cpu
-bitsandbytes

 streamlit
+transformers>=4.51
+peft>=0.15.2
+bitsandbytes          # for 4-bit GPU speed
+safetensors           # for loading your adapter file
+torch                 # your target cuda/cu version