Spaces:

AugustLight
/

LLight-3.2-3b-Instruct

Sleeping

App Files Files Community

AugustLight commited on Oct 26, 2024

Commit

43d5ac4

verified ·

1 Parent(s): 32b5fa7

Update app.py

Browse files

Files changed (1) hide show

app.py +51 -43

app.py CHANGED Viewed

@@ -2,7 +2,7 @@ import gradio as gr
 from huggingface_hub import hf_hub_download
 from llama_cpp import Llama
-# Так надо
 model = None
 def load_model():
@@ -20,9 +20,9 @@ def load_model():
         model = Llama(
             model_path=model_path,
-            n_ctx=2048,        # Размер контекста
-            n_threads=4,       # Количество потоков
-            n_batch=512        # Размер батча
         )
         print("Модель успешно инициализирована!")
@@ -42,9 +42,10 @@ def respond(message, history, system_message, max_new_tokens, temperature, top_p
         for user_msg, assistant_msg in history:
             context += f"User: {user_msg}\nAssistant: {assistant_msg}\n"
         context += f"User: {message}\nAssistant: "
         print(f"Генерируем ответ для контекста длиной {len(context)} символов")
         # Используем генерацию с потоком
         for response in model(
             prompt=context,
@@ -52,12 +53,13 @@ def respond(message, history, system_message, max_new_tokens, temperature, top_p
             temperature=temperature,
             top_p=top_p,
             stop=["User:", "\n\n", "<|endoftext|>"],
-            echo=False,  # Не возвращать промпт в ответе
-            stream=True  # Включаем потоковую передачу
         ):
-            generated_text = response['choices'][0]['text']
-            print(f"Промежуточный ответ: {generated_text}")
-            yield generated_text  # Отправляем промежуточный результат
         print("Ответ сгенерирован полностью.")
@@ -66,47 +68,53 @@ def respond(message, history, system_message, max_new_tokens, temperature, top_p
         print(error_msg)
         yield error_msg
-demo = gr.ChatInterface(
-    respond,
-    additional_inputs=[
-        gr.Textbox(
-            value="Ты дружелюбный и полезный ассистент. Отвечай обдуманно и по делу.",
             label="System message"
-        ),
-        gr.Slider(
-            minimum=1,
-            maximum=2048,
-            value=512,
-            step=1,
             label="Max new tokens"
-        ),
-        gr.Slider(
-            minimum=0.1,
-            maximum=2.0,
-            value=0.3,
-            step=0.1,
             label="Temperature"
-        ),
-        gr.Slider(
             minimum=0.1,
             maximum=1.0,
             value=0.95,
-            step=0.05,
             label="Top-p (nucleus sampling)"
-        ),
-    ],
-    title="Llight Chat",
-    description="Чат с LLight-3.2-3B-Instruct",
-    examples=[
-        ["Привет! Как дела?"],
-        ["Расскажи мне о себе"],
-        ["Что ты умеешь делать?"]
-    ],
-    cache_examples=False
-)
-# Запускаем приложение
 if __name__ == "__main__":
     try:
         print("Инициализация приложения...")

 from huggingface_hub import hf_hub_download
 from llama_cpp import Llama
+# Глобальная модель
 model = None
 def load_model():
         model = Llama(
             model_path=model_path,
+            n_ctx=2048,
+            n_threads=4,
+            n_batch=512
         )
         print("Модель успешно инициализирована!")
         for user_msg, assistant_msg in history:
             context += f"User: {user_msg}\nAssistant: {assistant_msg}\n"
         context += f"User: {message}\nAssistant: "
         print(f"Генерируем ответ для контекста длиной {len(context)} символов")
+        response_text = ""
         # Используем генерацию с потоком
         for response in model(
             prompt=context,
             temperature=temperature,
             top_p=top_p,
             stop=["User:", "\n\n", "<|endoftext|>"],
+            echo=False,
+            stream=True
         ):
+            chunk = response['choices'][0]['text']
+            response_text += chunk
+            print(f"Промежуточный ответ: {chunk}")
+            yield response_text  # Отправляем накопленный текст
         print("Ответ сгенерирован полностью.")
         print(error_msg)
         yield error_msg
+with gr.Blocks() as demo:
+    chatbot = gr.Chatbot()
+    msg = gr.Textbox(label="Сообщение")
+    with gr.Accordion("Параметры", open=False):
+        system = gr.Textbox(
+            value="Ты дружелюбный и полезный ассистент. Отвечай обдуманно и по делу.",
             label="System message"
+        )
+        max_new_tokens = gr.Slider(
+            minimum=1,
+            maximum=2048,
+            value=512,
+            step=1,
             label="Max new tokens"
+        )
+        temperature = gr.Slider(
+            minimum=0.1,
+            maximum=2.0,
+            value=0.3,
+            step=0.1,
             label="Temperature"
+        )
+        top_p = gr.Slider(
             minimum=0.1,
             maximum=1.0,
             value=0.95,
+            step=0.05,
             label="Top-p (nucleus sampling)"
+        )
+    clear = gr.Button("Очистить")
+    def user(user_message, history):
+        return "", history + [[user_message, None]]
+    def bot(history, system_message, max_new_tokens, temperature, top_p):
+        message = history[-1][0]
+        for response_text in respond(message, history[:-1], system_message, max_new_tokens, temperature, top_p):
+            history[-1][1] = response_text
+            yield history
+    msg.submit(user, [msg, chatbot], [msg, chatbot], queue=False).then(
+        bot, [chatbot, system, max_new_tokens, temperature, top_p], chatbot
+    )
+    clear.click(lambda: None, None, chatbot, queue=False)
 if __name__ == "__main__":
     try:
         print("Инициализация приложения...")