Spaces:

YOUSEF2434
/

Muslim-Bot

Sleeping

YOUSEF2434 commited on Jun 27, 2025

Commit

2152916

verified ·

1 Parent(s): 68b3e68

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,19 +1,26 @@
 import os
 from collections.abc import Iterator
 import gradio as gr
 from llama_cpp import Llama
-# 👤 Load GGUF Model
-model_path = "TinyLlama-1.1B-Chat.gguf"  # Change if needed
-llm = Llama(model_path=model_path, n_ctx=4096, n_threads=os.cpu_count(), use_mlock=True)
-DESCRIPTION = "# Sheikh AI – TinyLlama (GGUF with llama.cpp)"
-DESCRIPTION += "<p><strong>Note:</strong> Running on CPU with GGUF – optimized for performance.</p>"
 MAX_NEW_TOKENS = 1024
-# 🧠 Format messages into a prompt for GGUF chat models
 def format_conversation(system_prompt: str, chat_history: list[dict], user_input: str) -> str:
     chat = f"<|system|>\n{system_prompt.strip()}</s>\n"
     for turn in chat_history:
@@ -24,8 +31,6 @@ def format_conversation(system_prompt: str, chat_history: list[dict], user_input
     chat += f"<|user|>\n{user_input.strip()}</s>\n<|assistant|>\n"
     return chat
-# 💬 Gradio chatbot function
 def generate(
     message: str,
     chat_history: list[dict],
@@ -60,7 +65,6 @@ def generate(
         yield partial
-# 🧪 Launch the interface
 demo = gr.ChatInterface(
     fn=generate,
     additional_inputs=[

 import os
+import urllib.request
 from collections.abc import Iterator
 import gradio as gr
 from llama_cpp import Llama
+# 💾 Download GGUF from Hugging Face if not already present
+GGUF_URL = "https://huggingface.co/TheBloke/TinyLlama-1.1B-Chat-GGUF/resolve/main/TinyLlama-1.1B-Chat.Q4_K_M.gguf"
+MODEL_FILENAME = "TinyLlama-1.1B-Chat.Q4_K_M.gguf"
+if not os.path.exists(MODEL_FILENAME):
+    print(f"🔽 Downloading model from Hugging Face: {GGUF_URL}")
+    urllib.request.urlretrieve(GGUF_URL, MODEL_FILENAME)
+    print("✅ Download complete!")
+# 🧠 Load GGUF model using llama-cpp
+llm = Llama(model_path=MODEL_FILENAME, n_ctx=4096, n_threads=os.cpu_count())
+DESCRIPTION = "# Sheikh AI – TinyLlama (GGUF from HF)"
+DESCRIPTION += "<p><strong>Note:</strong> Running on CPU with GGUF – downloaded automatically.</p>"
 MAX_NEW_TOKENS = 1024
 def format_conversation(system_prompt: str, chat_history: list[dict], user_input: str) -> str:
     chat = f"<|system|>\n{system_prompt.strip()}</s>\n"
     for turn in chat_history:
     chat += f"<|user|>\n{user_input.strip()}</s>\n<|assistant|>\n"
     return chat
 def generate(
     message: str,
     chat_history: list[dict],
         yield partial
 demo = gr.ChatInterface(
     fn=generate,
     additional_inputs=[