Spaces:

Mlaana
/

Chatbot

Sleeping

App Files Files Community

Mlaana commited on Jun 9, 2025

Commit

2431f8a

1 Parent(s): 6b8b9bf

Test

Browse files

Files changed (1) hide show

app.py +21 -29

app.py CHANGED Viewed

@@ -21,19 +21,23 @@ print("🔧 Loading model & tokenizer...")
 tokenizer = AutoTokenizer.from_pretrained("model")
 model = AutoModelForCausalLM.from_pretrained("model", torch_dtype=torch.float16)
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model.to(device)
 streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
 # ==== STEP 3: Define response logic ====
 def respond(message, history, max_tokens, temperature, top_p):
     history_text = ""
     if history:
         for user, bot in history:
             history_text += f"<|user|>{user}<|assistant|>{bot}"
     full_input = history_text + f"<|user|>{message}<|assistant|>"
     inputs = tokenizer(full_input, return_tensors="pt").to(device)
     output = model.generate(
         **inputs,
@@ -41,37 +45,25 @@ def respond(message, history, max_tokens, temperature, top_p):
         do_sample=True,
         temperature=temperature,
         top_p=top_p,
-        pad_token_id=tokenizer.eos_token_id,
     )
     output_text = tokenizer.decode(output[0], skip_special_tokens=True)
     answer = output_text.split("<|assistant|>")[-1].strip()
     return answer
-# ==== STEP 4: Gradio UI (fix supaya gak ada warning) ====
-def gradio_respond(message, history, max_tokens, temperature, top_p):
-    # history di Gradio tipe baru: list of dict {"user":..., "assistant":...}
-    # tapi fungsi respond kamu pake tuple, jadi convert dulu
-    history_tuples = [(h["user"], h["assistant"]) for h in history] if history else []
-    bot_response = respond(message, history_tuples, max_tokens, temperature, top_p)
-    # update history dengan format baru
-    history = history + [{"user": message, "assistant": bot_response}]
-    return "", history
-with gr.Blocks() as demo:
-    chatbot = gr.Chatbot(label="🦙 TinyLLaMA Chatbot", type="messages", value=[])
-    max_tokens = gr.Slider(64, 1024, value=256, label="Max Tokens")
-    temperature = gr.Slider(0.1, 1.5, value=0.7, step=0.1, label="Temperature")
-    top_p = gr.Slider(0.1, 1.0, value=0.95, step=0.05, label="Top-p")
-    txt = gr.Textbox(placeholder="Ketik pesanmu...", show_label=False)
-    txt.submit(
-        gradio_respond,
-        inputs=[txt, chatbot, max_tokens, temperature, top_p],
-        outputs=[txt, chatbot],
-    )
-    gr.Markdown("Fine-tuned TinyLLaMA menggunakan QLoRA.")
 if __name__ == "__main__":
-    demo.launch(debug=True)

 tokenizer = AutoTokenizer.from_pretrained("model")
 model = AutoModelForCausalLM.from_pretrained("model", torch_dtype=torch.float16)
+# Gunakan CUDA kalau tersedia
 device = "cuda" if torch.cuda.is_available() else "cpu"
 model.to(device)
+# Optional: streaming token
 streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
 # ==== STEP 3: Define response logic ====
 def respond(message, history, max_tokens, temperature, top_p):
+    input_ids = tokenizer.encode(message, return_tensors="pt").to(device)
     history_text = ""
     if history:
         for user, bot in history:
             history_text += f"<|user|>{user}<|assistant|>{bot}"
     full_input = history_text + f"<|user|>{message}<|assistant|>"
     inputs = tokenizer(full_input, return_tensors="pt").to(device)
     output = model.generate(
         **inputs,
         do_sample=True,
         temperature=temperature,
         top_p=top_p,
+        pad_token_id=tokenizer.eos_token_id
     )
     output_text = tokenizer.decode(output[0], skip_special_tokens=True)
+    # Ambil jawaban terakhir saja
     answer = output_text.split("<|assistant|>")[-1].strip()
     return answer
+# ==== STEP 4: Gradio UI ====
+chat = gr.ChatInterface(
+    fn=respond,
+    additional_inputs=[
+        gr.Slider(64, 1024, value=256, label="Max Tokens"),
+        gr.Slider(0.1, 1.5, value=0.7, step=0.1, label="Temperature"),
+        gr.Slider(0.1, 1.0, value=0.95, step=0.05, label="Top-p"),
+    ],
+    title="🦙 TinyLLaMA Chatbot",
+    description="Fine-tuned TinyLLaMA using QLoRA.",
+)
 if __name__ == "__main__":
+    chat.launch()