Spaces:

Kenan023214
/

PyroNet-mini

Sleeping

App Files Files Community

Kenan023214 commited on Aug 23, 2025

Commit

41ec8f3

verified ·

1 Parent(s): d17b162

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -40

app.py CHANGED Viewed

@@ -1,35 +1,32 @@
 import gradio as gr
 import torch
-import os
 from transformers import AutoModelForCausalLM, AutoTokenizer
 from huggingface_hub import hf_hub_download
 from functools import lru_cache
-# --- Конфигурация Hugging Face Space ---
-# Загрузка модели и токенизатора один раз при запуске приложения
 MODEL_NAME = "Kenan023214/PyroNet-mini"
-DEVICE = "cpu"  # Используем CPU, как указано для Basic Space
 MAX_NEW_TOKENS = 256
 MAX_CONTEXT_TOKENS = 2048
-# Загрузка модели и токенизатора
 @lru_cache(maxsize=1)
 def load_model():
-    """Загружает модель и токенайзер, кешируя их для производительности."""
     print("Loading model and tokenizer...")
     tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
     model = AutoModelForCausalLM.from_pretrained(
         MODEL_NAME,
         device_map=DEVICE,
-        torch_dtype=torch.float32  # Используем float32 для совместимости с CPU
     )
     print("Model loaded.")
     return tokenizer, model
-# Загрузка файлов шаблонов из репозитория
 @lru_cache(maxsize=1)
 def download_templates():
-    """Скачивает файлы шаблонов из репозитория модели."""
     print("Downloading chat templates...")
     for lang in ["ru", "en", "uk"]:
         hf_hub_download(
@@ -43,13 +40,13 @@ def download_templates():
 tokenizer, model = load_model()
 download_templates()
-# --- Утилиты ---
 def num_tokens_of_text(text: str) -> int:
-    """Приближённое количество токенов."""
     return len(tokenizer.encode(text, add_special_tokens=False))
 def trim_history_to_max_tokens(messages, max_tokens):
-    """Обрезает историю сообщений."""
     rev = list(reversed(messages))
     total = 0
     kept = []
@@ -62,7 +59,7 @@ def trim_history_to_max_tokens(messages, max_tokens):
     return list(reversed(kept))
 def build_messages_for_template(history_messages, reasoning: bool, language: str):
-    """Подготавливает сообщения для шаблона."""
     if language == 'ru':
         system_message = "Ты — дружелюбный ассистент, который говорит на русском. Отвечай кратко, но по делу."
         reasoning_instruction = ("[REASONING MODE]\n"
@@ -87,7 +84,7 @@ def build_messages_for_template(history_messages, reasoning: bool, language: str
     return messages
 def extract_assistant_reply(raw_generated_text: str) -> str:
-    """Убирает лишние токены и оставляет только ответ ассистента."""
     text = raw_generated_text
     if "<|assistant|>" in text:
         text = text.split("<|assistant|>")[-1]
@@ -95,23 +92,19 @@ def extract_assistant_reply(raw_generated_text: str) -> str:
         text = text.replace(tag, "")
     return text.strip()
-# --- Основная функция для Gradio ---
 def generate_response(user_text: str, history, reasoning: bool, language: str):
-    """Обрабатывает пользовательский запрос и генерирует ответ."""
-    # Добавляем user-сообщение в историю
     history.append({"role": "user", "content": user_text})
-    # Подрезаем историю, чтобы вход не стал слишком большим
     trimmed_history = trim_history_to_max_tokens(history, MAX_CONTEXT_TOKENS)
-    # Собираем messages с возможной инструкцией reasoning
     messages_for_template = build_messages_for_template(trimmed_history, reasoning, language)
-    # Выбираем шаблон из локальных файлов
     template_file = f"chat_template_{language}.jinja"
-    # Применяем шаблон и токенизируем
     text = tokenizer.apply_chat_template(
         messages_for_template,
         template_path=template_file,
@@ -121,7 +114,6 @@ def generate_response(user_text: str, history, reasoning: bool, language: str):
     inputs = tokenizer(text, return_tensors="pt").to(DEVICE)
-    # Генерация
     with torch.no_grad():
         outputs = model.generate(
             **inputs,
@@ -132,48 +124,40 @@ def generate_response(user_text: str, history, reasoning: bool, language: str):
             pad_token_id=tokenizer.eos_token_id
         )
-    # Декодируем и очищаем ответ
     raw = tokenizer.decode(outputs[0], skip_special_tokens=False)
     reply = extract_assistant_reply(raw)
-    # Добавляем ассистента в историю
     history.append({"role": "assistant", "content": reply})
-    # Gradio ожидает возвращение списка [пользователь, ассистент]
-    # Мы возвращаем всю историю для корректного отображения
     return "", history
-# --- Интерфейс Gradio ---
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
     gr.Markdown("# PyroNet-mini Chat")
-    gr.Markdown("Демонстрация работы PyroNet-mini (на базе Phi-4-mini-instruct) с кастомными шаблонами и режимом рассуждения.")
     chatbot = gr.Chatbot(height=500)
     with gr.Row():
         with gr.Column(scale=4):
             msg = gr.Textbox(
-                label="Ваш запрос",
-                placeholder="Напишите здесь...",
                 container=False
             )
         with gr.Column(scale=1, min_width=100):
             language_dropdown = gr.Dropdown(
                 choices=["ru", "en", "uk"],
-                value="ru",
-                label="Язык",
                 container=False
             )
             reasoning_checkbox = gr.Checkbox(
-                label="Включить режим рассуждения"
             )
-    btn_send = gr.Button("Отправить")
-    btn_clear = gr.Button("Очистить")
-    # Обработчики событий
-    def reset_history():
-        return [], None
     btn_send.click(
         fn=generate_response,
@@ -193,4 +177,3 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
 if __name__ == "__main__":
     demo.launch()

 import gradio as gr
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer
 from huggingface_hub import hf_hub_download
 from functools import lru_cache
+# --- Hugging Face Space Configuration ---
+# Load the model and tokenizer only once when the app starts
 MODEL_NAME = "Kenan023214/PyroNet-mini"
+DEVICE = "cpu"  # Use CPU for basic Space
 MAX_NEW_TOKENS = 256
 MAX_CONTEXT_TOKENS = 2048
 @lru_cache(maxsize=1)
 def load_model():
+    """Loads the model and tokenizer, caching them for performance."""
     print("Loading model and tokenizer...")
     tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
     model = AutoModelForCausalLM.from_pretrained(
         MODEL_NAME,
         device_map=DEVICE,
+        torch_dtype=torch.float32  # Use float32 for CPU compatibility
     )
     print("Model loaded.")
     return tokenizer, model
 @lru_cache(maxsize=1)
 def download_templates():
+    """Downloads template files from the model repository."""
     print("Downloading chat templates...")
     for lang in ["ru", "en", "uk"]:
         hf_hub_download(
 tokenizer, model = load_model()
 download_templates()
+# --- Utilities ---
 def num_tokens_of_text(text: str) -> int:
+    """Approximate number of tokens for a given text."""
     return len(tokenizer.encode(text, add_special_tokens=False))
 def trim_history_to_max_tokens(messages, max_tokens):
+    """Trims the message history to fit within a token limit."""
     rev = list(reversed(messages))
     total = 0
     kept = []
     return list(reversed(kept))
 def build_messages_for_template(history_messages, reasoning: bool, language: str):
+    """Prepares messages for the chat template."""
     if language == 'ru':
         system_message = "Ты — дружелюбный ассистент, который говорит на русском. Отвечай кратко, но по делу."
         reasoning_instruction = ("[REASONING MODE]\n"
     return messages
 def extract_assistant_reply(raw_generated_text: str) -> str:
+    """Removes extra tokens and returns only the assistant's reply."""
     text = raw_generated_text
     if "<|assistant|>" in text:
         text = text.split("<|assistant|>")[-1]
         text = text.replace(tag, "")
     return text.strip()
+# --- Main function for Gradio ---
 def generate_response(user_text: str, history, reasoning: bool, language: str):
+    """Processes user input and generates a response."""
     history.append({"role": "user", "content": user_text})
     trimmed_history = trim_history_to_max_tokens(history, MAX_CONTEXT_TOKENS)
     messages_for_template = build_messages_for_template(trimmed_history, reasoning, language)
+    # Select the template file from the local files
     template_file = f"chat_template_{language}.jinja"
     text = tokenizer.apply_chat_template(
         messages_for_template,
         template_path=template_file,
     inputs = tokenizer(text, return_tensors="pt").to(DEVICE)
     with torch.no_grad():
         outputs = model.generate(
             **inputs,
             pad_token_id=tokenizer.eos_token_id
         )
     raw = tokenizer.decode(outputs[0], skip_special_tokens=False)
     reply = extract_assistant_reply(raw)
     history.append({"role": "assistant", "content": reply})
     return "", history
+# --- Gradio Interface ---
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
     gr.Markdown("# PyroNet-mini Chat")
+    gr.Markdown("A demonstration of PyroNet-mini (based on a custom model) with multilingual templates and a reasoning mode.")
     chatbot = gr.Chatbot(height=500)
     with gr.Row():
         with gr.Column(scale=4):
             msg = gr.Textbox(
+                label="Your Prompt",
+                placeholder="Write your message here...",
                 container=False
             )
         with gr.Column(scale=1, min_width=100):
             language_dropdown = gr.Dropdown(
                 choices=["ru", "en", "uk"],
+                value="en",
+                label="Language",
                 container=False
             )
             reasoning_checkbox = gr.Checkbox(
+                label="Enable Reasoning Mode"
             )
+    btn_send = gr.Button("Send")
+    btn_clear = gr.Button("Clear")
     btn_send.click(
         fn=generate_response,
 if __name__ == "__main__":
     demo.launch()