Spaces:

sourize
/

DeepTalks

Sleeping

App Files Files Community

sourize commited on Apr 30, 2025

Commit

acc9519

1 Parent(s): b3d517e

Commit

Browse files

Files changed (1) hide show

app.py +21 -13

app.py CHANGED Viewed

@@ -20,7 +20,6 @@ supabase = create_client(SUPA_URL, SUPA_KEY)
 @st.cache_resource(show_spinner=False)
 def get_embedder():
     return SentenceTransformer("paraphrase-MiniLM-L3-v2")
 embedder = get_embedder()
 @st.cache_data(show_spinner=False)
@@ -42,16 +41,17 @@ def add_mem(speaker, text):
 # ── Model + tokenizer (adapter locally, tokenizer remote) ─────────────────
 @st.cache_resource(show_spinner=False)
 def load_generator():
-    base_dir   = os.path.dirname(__file__)
-    LOCAL_REPO = os.path.join(base_dir, "models", "phi2-memory-lora")
-    OFFLOAD_DIR= os.path.join(base_dir, "offload")
     os.makedirs(OFFLOAD_DIR, exist_ok=True)
-    # 1) Tokenizer from official Phi-2 (remote, but cached by HF)
     tokenizer = AutoTokenizer.from_pretrained(
         "microsoft/phi-2",
         trust_remote_code=True,
-        padding_side="left"
     )
     if tokenizer.pad_token_id is None:
         tokenizer.add_special_tokens({"pad_token": "[PAD]"})
@@ -87,16 +87,21 @@ def load_generator():
     base.resize_token_embeddings(len(tokenizer))
     # 4) Load LoRA config & wrap base
-    peft_config = LoraConfig.from_pretrained(LOCAL_REPO, local_files_only=True)
     model = get_peft_model(base, peft_config)
     # 5) Manually load adapter weights
-    adapter_path = os.path.join(LOCAL_REPO, "adapter_model", "pytorch_model.bin")
-    state_dict   = torch.load(adapter_path, map_location="cpu")
     model.load_state_dict(state_dict, strict=False)
     model.eval()
-    # 6) Generation pipeline
     gen = pipeline(
         "text-generation",
         model=model,
@@ -109,7 +114,7 @@ def load_generator():
         temperature=0.2,
         top_p=0.8,
         use_cache=True,
-        return_full_text=False
     )
     return tokenizer, gen
@@ -135,19 +140,20 @@ if "history" not in st.session_state:
 # Render existing history
 for role, msg in st.session_state.history:
-    st.chat_message("user" if role=="You" else "assistant").write(msg)
 # Input at bottom
 user_input = st.chat_input("Type your message...")
 if user_input:
     st.chat_message("user").write(user_input)
     st.session_state.history.append(("You", user_input))
     add_mem("user", user_input)
     mems = fetch_mems(user_input, k=3)
     mem_block = "\n".join(m["text"] for m in mems)
     prompt = f"""{SYSTEM}
 Memory:
@@ -156,6 +162,7 @@ Memory:
 User: {user_input}
 Assistant:"""
     with st.spinner("Thinking..."):
         try:
             out = generator(prompt)[0]["generated_text"].strip()
@@ -163,6 +170,7 @@ Assistant:"""
             out = "Sorry, I encountered an error."
             st.error(f"Generation error: {e}")
     st.chat_message("assistant").write(out)
     st.session_state.history.append(("Bot", out))
     add_mem("assistant", out)

 @st.cache_resource(show_spinner=False)
 def get_embedder():
     return SentenceTransformer("paraphrase-MiniLM-L3-v2")
 embedder = get_embedder()
 @st.cache_data(show_spinner=False)
 # ── Model + tokenizer (adapter locally, tokenizer remote) ─────────────────
 @st.cache_resource(show_spinner=False)
 def load_generator():
+    base_dir    = os.path.dirname(__file__)
+    LOCAL_REPO  = os.path.join(base_dir, "models", "phi2-memory-lora")
+    OFFLOAD_DIR = os.path.join(base_dir, "offload")
     os.makedirs(OFFLOAD_DIR, exist_ok=True)
+    # 1) Tokenizer from official Phi-2
     tokenizer = AutoTokenizer.from_pretrained(
         "microsoft/phi-2",
         trust_remote_code=True,
+        padding_side="left",
+        local_files_only=False  # allow remote fetch (cached)
     )
     if tokenizer.pad_token_id is None:
         tokenizer.add_special_tokens({"pad_token": "[PAD]"})
     base.resize_token_embeddings(len(tokenizer))
     # 4) Load LoRA config & wrap base
+    peft_config = LoraConfig.from_pretrained(
+        LOCAL_REPO,
+        local_files_only=True
+    )
     model = get_peft_model(base, peft_config)
     # 5) Manually load adapter weights
+    adapter_path = os.path.join(
+        LOCAL_REPO, "adapter_model", "pytorch_model.bin"
+    )
+    state_dict = torch.load(adapter_path, map_location="cpu")
     model.load_state_dict(state_dict, strict=False)
     model.eval()
+    # 6) Build generation pipeline
     gen = pipeline(
         "text-generation",
         model=model,
         temperature=0.2,
         top_p=0.8,
         use_cache=True,
+        return_full_text=False,
     )
     return tokenizer, gen
 # Render existing history
 for role, msg in st.session_state.history:
+    st.chat_message("user" if role == "You" else "assistant").write(msg)
 # Input at bottom
 user_input = st.chat_input("Type your message...")
 if user_input:
+    # Show & store user
     st.chat_message("user").write(user_input)
     st.session_state.history.append(("You", user_input))
     add_mem("user", user_input)
+    # Fetch memories & build prompt
     mems = fetch_mems(user_input, k=3)
     mem_block = "\n".join(m["text"] for m in mems)
     prompt = f"""{SYSTEM}
 Memory:
 User: {user_input}
 Assistant:"""
+    # Generate with spinner
     with st.spinner("Thinking..."):
         try:
             out = generator(prompt)[0]["generated_text"].strip()
             out = "Sorry, I encountered an error."
             st.error(f"Generation error: {e}")
+    # Show & store assistant
     st.chat_message("assistant").write(out)
     st.session_state.history.append(("Bot", out))
     add_mem("assistant", out)