Spaces:

sterepando
/

PUBTEST

Paused

App Files Files Community

sterepando commited on Dec 26, 2025

Commit

d34f2b5

verified ·

1 Parent(s): 2d6e66f

Create app.py

Browse files

Files changed (1) hide show

app.py +227 -0

app.py ADDED Viewed

	@@ -0,0 +1,227 @@

+import gradio as gr
+import json
+import os
+import torch
+from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
+from peft import PeftModel
+from threading import Thread
+# --- КОНФИГУРАЦИЯ ---
+# Базовая модель. Для CPU лучше использовать gemma-2b, но вы просили 7b.
+# Если будет падать по памяти, замените на "google/gemma-2b-it"
+BASE_MODEL_ID = "google/gemma-7b-it"
+ADAPTER_PATH = "mandre_qlora_adapter" # Путь, куда вы положите обученный адаптер (если есть)
+# Глобальные переменные для модели
+model = None
+tokenizer = None
+# ==========================================
+# ЧАСТЬ 1: ГЕНЕРАТОР ДАТАСЕТА (MandreLib Logic)
+# ==========================================
+def read_file_content(file_obj):
+    """Читает содержимое загруженного файла"""
+    try:
+        with open(file_obj.name, 'r', encoding='utf-8') as f:
+            return f.read()
+    except UnicodeDecodeError:
+        return None # Пропускаем бинарники
+def generate_dataset(files):
+    if not files:
+        return None, "Пожалуйста, загрузите файлы."
+    dataset = []
+    for file_obj in files:
+        content = read_file_content(file_obj)
+        if not content:
+            continue
+        filename = os.path.basename(file_obj.name)
+        # Эвристика для создания промпта на основе типа файла
+        system_instruction = "You are an expert developer for ExteraGram and MandreLib."
+        user_instruction = ""
+        if filename.endswith(".plugin.py") or filename == "main.py":
+            user_instruction = f"Analyze the following ExteraGram plugin code named '{filename}'. Explain its structure and functionality."
+        elif "MandreLib" in filename:
+            user_instruction = f"Provide documentation and usage examples for the MandreLib library file '{filename}'."
+        elif filename.endswith(".md"):
+            user_instruction = f"Summarize the documentation provided in '{filename}'."
+        elif filename.endswith(".java"):
+            user_instruction = f"Explain the Java hooks or utils implemented in '{filename}' for ExteraGram."
+        else:
+            user_instruction = f"Analyze the content of the file '{filename}' related to MandreAI development."
+        # Формат Alpaca/ShareGPT для обучения
+        entry = {
+            "instruction": user_instruction,
+            "input": "", # Можно оставить пустым или добавить метаданные
+            "output": content, # Нейронка учится воспроизводить код/доки
+            "source": filename
+        }
+        dataset.append(entry)
+    # Сохраняем во временный файл
+    output_filename = "mandre_training_data.json"
+    with open(output_filename, 'w', encoding='utf-8') as f:
+        json.dump(dataset, f, indent=4, ensure_ascii=False)
+    info = f"Сгенерировано {len(dataset)} примеров обучения. Скачайте файл и используйте его для обучения QLoRA (например, в Colab)."
+    return output_filename, info
+# ==========================================
+# ЧАСТЬ 2: ЧАТ С QLORA (Инференс)
+# ==========================================
+def load_model():
+    global model, tokenizer
+    if model is not None:
+        return "Модель уже загружена."
+    try:
+        status = "Загрузка токенизатора..."
+        tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL_ID)
+        status = "Загрузка модели (это может занять время на CPU)..."
+        # Конфиг для экономии памяти (если есть GPU, иначе float32 для CPU)
+        if torch.cuda.is_available():
+            bnb_config = BitsAndBytesConfig(
+                load_in_4bit=True,
+                bnb_4bit_quant_type="nf4",
+                bnb_4bit_compute_dtype=torch.float16
+            )
+            device_map = "auto"
+        else:
+            # CPU Config - очень медленно для 7B
+            bnb_config = None
+            device_map = "cpu"
+        model = AutoModelForCausalLM.from_pretrained(
+            BASE_MODEL_ID,
+            quantization_config=bnb_config,
+            device_map=device_map,
+            torch_dtype=torch.float32 if not torch.cuda.is_available() else torch.float16
+        )
+        # Пытаемся загрузить адаптер, если он существует
+        if os.path.exists(ADAPTER_PATH):
+            status = "Подключение MandreAI QLoRA адаптера..."
+            model = PeftModel.from_pretrained(model, ADAPTER_PATH)
+            return f"Модель {BASE_MODEL_ID} + Adapter загружены успешно!"
+        return f"Базовая модель {BASE_MODEL_ID} загружена (Адаптер не найден, используйте вкладку 1 для генерации данных)."
+    except Exception as e:
+        return f"Ошибка загрузки: {str(e)}"
+def chat_response(message, history, attached_file):
+    if model is None:
+        load_model()
+    # 1. Обработка файла
+    file_context = ""
+    if attached_file is not None:
+        content = read_file_content(attached_file)
+        if content:
+            file_context = f"\n\n--- ATTACHED FILE: {os.path.basename(attached_file.name)} ---\n{content}\n--- END FILE ---\n"
+        else:
+            file_context = "\n[Ошибка чтения файла: бинарный или некорректная кодировка]\n"
+    # 2. Формирование промпта
+    # Системный промпт для MandreAI
+    system_prompt = "You are MandreAI, an expert coding assistant specializing in ExteraGram plugins, MandreLib, Chaquopy, and Aliuhook. Use the provided context to answer questions."
+    full_prompt = f"{system_prompt}\n\nUser: {message}{file_context}\n\nMandreAI:"
+    # 3. Токенизация
+    inputs = tokenizer(full_prompt, return_tensors="pt").to(model.device)
+    # 4. Генерация
+    # Streamer можно добавить для красоты, но на CPU это будет рвано
+    outputs = model.generate(
+        **inputs,
+        max_new_tokens=512,
+        do_sample=True,
+        temperature=0.7,
+        top_p=0.9,
+    )
+    response_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    # Очистка от промпта (простая эвристика)
+    if "MandreAI:" in response_text:
+        response_text = response_text.split("MandreAI:")[-1].strip()
+    return response_text
+# ==========================================
+# ИНТЕРФЕЙС GRADIO
+# ==========================================
+custom_css = """
+#header {text-align: center; margin-bottom: 20px;}
+"""
+with gr.Blocks(css=custom_css, title="MandreAI Space") as demo:
+    gr.Markdown("# 🦎 MandreAI: ExteraGram Plugin Assistant", elem_id="header")
+    gr.Markdown("Инструмент для создания датасетов и общения с моделью, обученной на MandreLib/ExteraGram.")
+    with gr.Tabs():
+        # --- ВКЛАДКА 1: DATA PREP ---
+        with gr.Tab("🛠️ Создание датасета (Qlora)"):
+            gr.Markdown("### Шаг 1: Загрузите исходники плагинов (.py, .java, .md)")
+            gr.Markdown("Скрипт сконвертирует файлы в JSON-формат, пригодный для обучения Gemma-7b.")
+            file_input = gr.File(label="Загрузить файлы плагинов", file_count="multiple")
+            generate_btn = gr.Button("Генерировать JSON", variant="primary")
+            output_json = gr.File(label="Скачать готовый датасет")
+            status_text = gr.Textbox(label="Статус", interactive=False)
+            generate_btn.click(
+                generate_dataset,
+                inputs=[file_input],
+                outputs=[output_json, status_text]
+            )
+        # --- ВКЛАДКА 2: CHAT ---
+        with gr.Tab("💬 Чат с MandreAI"):
+            gr.Markdown(f"**Текущая модель:** {BASE_MODEL_ID} (CPU Mode)")
+            gr.Markdown("*Примечание: На CPU генерация будет медленной. Для реальной работы клонируйте Space на GPU.*")
+            load_status = gr.Textbox(label="Статус системы", value="Нажмите отправить сообщение для инициализации...")
+            chatbot = gr.Chatbot(height=400)
+            with gr.Row():
+                msg_input = gr.Textbox(scale=4, placeholder="Как создать плагин на MandreLib?", label="Ваш вопрос")
+                attach_input = gr.File(scale=1, label="Прикрепить код/лог")
+            submit_btn = gr.Button("Отправить")
+            clear_btn = gr.Button("Очистить")
+            def user(user_message, history):
+                return "", history + [[user_message, None]]
+            def bot(history, attached_file):
+                user_message = history[-1][0]
+                bot_message = chat_response(user_message, history[:-1], attached_file)
+                history[-1][1] = bot_message
+                return history
+            # Цепочка событий
+            msg_input.submit(user, [msg_input, chatbot], [msg_input, chatbot], queue=False).then(
+                bot, [chatbot, attach_input], chatbot
+            )
+            submit_btn.click(user, [msg_input, chatbot], [msg_input, chatbot], queue=False).then(
+                bot, [chatbot, attach_input], chatbot
+            )
+            clear_btn.click(lambda: None, None, chatbot, queue=False)
+if __name__ == "__main__":
+    demo.queue().launch()