Spaces:

modular-ai
/

Interface

Sleeping

App Files Files Community

tarnava commited on Nov 4, 2025

Commit

58ae25b

verified ·

1 Parent(s): b72b12f

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -11

app.py CHANGED Viewed

@@ -1,9 +1,12 @@
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer
 from peft import PeftModel
 import gradio as gr
-# --- Models Load (CPU ke liye optimized) ---
 BASE_MODEL = "Qwen/Qwen2.5-1.5B"
 LORA_ADAPTER = "modular-ai/qwen"
@@ -11,10 +14,10 @@ print("Loading base model on CPU... (ye 1-2 min lagega pehli baar)")
 base_model = AutoModelForCausalLM.from_pretrained(
     BASE_MODEL,
-    torch_dtype=torch.float32,      # CPU pe float16 nahi chalta
-    device_map="cpu",               # Sirf CPU
     trust_remote_code=True,
-    low_cpu_mem_usage=True          # Memory bachaye
 )
 print("Loading LoRA adapter...")
@@ -24,7 +27,7 @@ tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL, trust_remote_code=True)
 if tokenizer.pad_token is None:
     tokenizer.pad_token = tokenizer.eos_token
-# --- Chat Function (Fast & Safe) ---
 def ask_kant(message, history):
     prompt = f"### Instruction: You are Immanuel Kant.\n\n### Input: {message}\n\n### Response:"
     inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=512)
@@ -44,19 +47,17 @@ def ask_kant(message, history):
     bot_reply = response.split("### Response:")[-1].strip()
     return bot_reply
-# --- Gradio UI (Simple & Fast) ---
 with gr.Blocks() as demo:
-    gr.Markdown("# 🧠 **Kant AI** – Qwen2.5-1.5B LoRA")
     gr.Markdown("**Zero GPU | Free | Live Demo**  \nPoochein koi bhi sawal, *Immanuel Kant* jawab denge!")
     chatbot = gr.ChatInterface(
         fn=ask_kant,
-        title="",
         examples=[
             "What is freedom?",
             "Kya hai swatantrata?",
-            "Explain categorical imperative",
-            "Moral law kya hai?"
         ],
         cache_examples=False,
         submit_btn="Ask Kant",
@@ -64,4 +65,5 @@ with gr.Blocks() as demo:
     gr.Markdown("---\n*Model: Qwen2.5-1.5B + LoRA | CPU Only | ~8-12 sec per reply*")
-demo.launch()

+import os
+os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"  # faster download
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer
 from peft import PeftModel
 import gradio as gr
+# --- Models Load (CPU Only) ---
 BASE_MODEL = "Qwen/Qwen2.5-1.5B"
 LORA_ADAPTER = "modular-ai/qwen"
 base_model = AutoModelForCausalLM.from_pretrained(
     BASE_MODEL,
+    torch_dtype=torch.float32,
+    device_map="cpu",
     trust_remote_code=True,
+    low_cpu_mem_usage=True
 )
 print("Loading LoRA adapter...")
 if tokenizer.pad_token is None:
     tokenizer.pad_token = tokenizer.eos_token
+# --- Chat Function ---
 def ask_kant(message, history):
     prompt = f"### Instruction: You are Immanuel Kant.\n\n### Input: {message}\n\n### Response:"
     inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=512)
     bot_reply = response.split("### Response:")[-1].strip()
     return bot_reply
+# --- Gradio UI ---
 with gr.Blocks() as demo:
+    gr.Markdown("# Kant AI – Qwen2.5-1.5B LoRA")
     gr.Markdown("**Zero GPU | Free | Live Demo**  \nPoochein koi bhi sawal, *Immanuel Kant* jawab denge!")
     chatbot = gr.ChatInterface(
         fn=ask_kant,
         examples=[
             "What is freedom?",
             "Kya hai swatantrata?",
+            "Explain categorical imperative"
         ],
         cache_examples=False,
         submit_btn="Ask Kant",
     gr.Markdown("---\n*Model: Qwen2.5-1.5B + LoRA | CPU Only | ~8-12 sec per reply*")
+# --- Ye Line Fix Karegi Error ---
+demo.launch(share=False, server_name="0.0.0.0", server_port=7860)