Spaces:

rishu834763
/

javacode_explainer

Runtime error

App Files Files Community

rishu834763 commited on Nov 21, 2025

Commit

00d2932

verified ·

1 Parent(s): e30f5ff

Update app.py

Browse files

Files changed (1) hide show

app.py +42 -16

app.py CHANGED Viewed

@@ -3,44 +3,70 @@ from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
 from peft import PeftModel, PeftConfig
 import gradio as gr
-# Your LoRA
 PEFT_ID = "rishu834763/java-explainer-lora"
 config = PeftConfig.from_pretrained(PEFT_ID)
 base = config.base_model_name_or_path
 model = AutoModelForCausalLM.from_pretrained(
     base,
     torch_dtype=torch.bfloat16,
     device_map="auto",
-    load_in_4bit=True
 )
 model = PeftModel.from_pretrained(model, PEFT_ID)
 model = model.merge_and_unload()
 tokenizer = AutoTokenizer.from_pretrained(base)
 if tokenizer.pad_token is None:
     tokenizer.pad_token = tokenizer.eos_token
-pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, max_new_tokens=1024, temperature=0.6, do_sample=True)
 def chat(message, history):
-    msgs = []
-    for u, a in history:
-        msgs.append({"role": "user", "content": u})
-        if a: msgs.append({"role": "assistant", "content": a})
-    msgs.append({"role": "user", "content": message})
-    out = pipe(msgs)
-    return out[0]["generated_text"][-1]["content"]
 gr.ChatInterface(
     chat,
-    title="Java Explainer – Your Own Model (No OpenAI)",
-    description="This is 100% your fine-tuned Java LoRA running locally on Hugging Face",
     examples=[
-        "Explain this Java code: public static void main(String[] args) { System.out.println(\"Hello\"); }",
-        "What does @Override do in Java?",
-        "Difference between HashMap and Hashtable?"
-    ]
 ).queue().launch()

 from peft import PeftModel, PeftConfig
 import gradio as gr
 PEFT_ID = "rishu834763/java-explainer-lora"
+# Load config to know the base model
 config = PeftConfig.from_pretrained(PEFT_ID)
 base = config.base_model_name_or_path
+# Load model (4-bit for free tier)
 model = AutoModelForCausalLM.from_pretrained(
     base,
     torch_dtype=torch.bfloat16,
     device_map="auto",
+    load_in_4bit=True,
 )
+# Apply your LoRA and merge
 model = PeftModel.from_pretrained(model, PEFT_ID)
 model = model.merge_and_unload()
+# Tokenizer
 tokenizer = AutoTokenizer.from_pretrained(base)
 if tokenizer.pad_token is None:
     tokenizer.pad_token = tokenizer.eos_token
+# Pipeline
+pipe = pipeline(
+    "text-generation",
+    model=model,
+    tokenizer=tokenizer,
+    max_new_tokens=1024,
+    temperature=0.6,
+    do_sample=True,
+    top_p=0.9,
+    repetition_penalty=1.1,
+)
+# ========= FIXED CHAT FUNCTION =========
 def chat(message, history):
+    messages = []
+    # Rebuild proper alternating messages, skipping empty assistant replies
+    for user_msg, assistant_msg in history:
+        messages.append({"role": "user", "content": user_msg})
+        if assistant_msg:  # ← only add assistant if it's not empty/None
+            messages.append({"role": "assistant", "content": assistant_msg})
+    # Add the new user message
+    messages.append({"role": "user", "content": message})
+    # Generate
+    output = pipe(messages)[0]["generated_text"]
+    # Extract only the last assistant reply
+    return output[-1]["content"]
+# ========= GRADIO INTERFACE =========
 gr.ChatInterface(
     chat,
+    title="Java Explainer – Your Own Fine-Tuned Model",
+    description="Powered 100% by your LoRA on Mistral-7B-Instruct-v0.2",
     examples=[
+        "Explain this Java code in simple terms:\npublic class Hello {\n    public static void main(String[] args) {\n        System.out.println(\"Hello World!\");\n    }\n}",
+        "What is the difference between ArrayList and LinkedList?",
+        "Why do we use the synchronized keyword?",
+        "Convert this Python factorial function to Java",
+    ],
+    cache_examples=False,  # ← this was causing the caching error too
 ).queue().launch()