Spaces:

Mlaana
/

Chatbot

Sleeping

App Files Files Community

Mlaana commited on Jun 9, 2025

Commit

09c5fbc

1 Parent(s): aa5931c

Modify

Browse files

Files changed (1) hide show

app.py +28 -21

app.py CHANGED Viewed

@@ -21,24 +21,19 @@ print("🔧 Loading model & tokenizer...")
 tokenizer = AutoTokenizer.from_pretrained("model")
 model = AutoModelForCausalLM.from_pretrained("model", torch_dtype=torch.float16)
-# Gunakan CUDA kalau tersedia
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model.to(device)
-# Optional: streaming token
 streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
 # ==== STEP 3: Define response logic ====
 def respond(message, history, max_tokens, temperature, top_p):
-    input_ids = tokenizer.encode(message, return_tensors="pt").to(device)
     history_text = ""
     if history:
         for user, bot in history:
             history_text += f"<|user|>{user}<|assistant|>{bot}"
     full_input = history_text + f"<|user|>{message}<|assistant|>"
     inputs = tokenizer(full_input, return_tensors="pt").to(device)
     output = model.generate(
         **inputs,
@@ -46,25 +41,37 @@ def respond(message, history, max_tokens, temperature, top_p):
         do_sample=True,
         temperature=temperature,
         top_p=top_p,
-        pad_token_id=tokenizer.eos_token_id
     )
     output_text = tokenizer.decode(output[0], skip_special_tokens=True)
-    # Ambil jawaban terakhir saja
     answer = output_text.split("<|assistant|>")[-1].strip()
     return answer
-# ==== STEP 4: Gradio UI ====
-chat = gr.ChatInterface(
-    fn=respond,
-    additional_inputs=[
-        gr.Slider(64, 1024, value=256, label="Max Tokens"),
-        gr.Slider(0.1, 1.5, value=0.7, step=0.1, label="Temperature"),
-        gr.Slider(0.1, 1.0, value=0.95, step=0.05, label="Top-p"),
-    ],
-    title="🦙 TinyLLaMA Chatbot",
-    description="Fine-tuned TinyLLaMA using QLoRA.",
-)
 if __name__ == "__main__":
-    chat.launch()

 tokenizer = AutoTokenizer.from_pretrained("model")
 model = AutoModelForCausalLM.from_pretrained("model", torch_dtype=torch.float16)
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model.to(device)
 streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
 # ==== STEP 3: Define response logic ====
 def respond(message, history, max_tokens, temperature, top_p):
     history_text = ""
     if history:
         for user, bot in history:
             history_text += f"<|user|>{user}<|assistant|>{bot}"
     full_input = history_text + f"<|user|>{message}<|assistant|>"
     inputs = tokenizer(full_input, return_tensors="pt").to(device)
     output = model.generate(
         **inputs,
         do_sample=True,
         temperature=temperature,
         top_p=top_p,
+        pad_token_id=tokenizer.eos_token_id,
     )
     output_text = tokenizer.decode(output[0], skip_special_tokens=True)
     answer = output_text.split("<|assistant|>")[-1].strip()
     return answer
+# ==== STEP 4: Gradio UI (fix supaya gak ada warning) ====
+def gradio_respond(message, history, max_tokens, temperature, top_p):
+    # history di Gradio tipe baru: list of dict {"user":..., "assistant":...}
+    # tapi fungsi respond kamu pake tuple, jadi convert dulu
+    history_tuples = [(h["user"], h["assistant"]) for h in history] if history else []
+    bot_response = respond(message, history_tuples, max_tokens, temperature, top_p)
+    # update history dengan format baru
+    history = history + [{"user": message, "assistant": bot_response}]
+    return "", history
+with gr.Blocks() as demo:
+    chatbot = gr.Chatbot(label="🦙 TinyLLaMA Chatbot", type="messages", value=[])
+    max_tokens = gr.Slider(64, 1024, value=256, label="Max Tokens")
+    temperature = gr.Slider(0.1, 1.5, value=0.7, step=0.1, label="Temperature")
+    top_p = gr.Slider(0.1, 1.0, value=0.95, step=0.05, label="Top-p")
+    txt = gr.Textbox(placeholder="Ketik pesanmu...", show_label=False)
+    txt.submit(
+        gradio_respond,
+        inputs=[txt, chatbot, max_tokens, temperature, top_p],
+        outputs=[txt, chatbot],
+    )
+    gr.Markdown("Fine-tuned TinyLLaMA menggunakan QLoRA.")
 if __name__ == "__main__":
+    demo.launch()