Spaces:

anaspro
/

chatbox

Runtime error

App Files Files Community

anaspro commited on Oct 21

Commit

40db06d

1 Parent(s): 0cb7257

update

Browse files

Files changed (1) hide show

app.py +320 -16

app.py CHANGED Viewed

@@ -1,21 +1,325 @@
-from transformers import pipeline
 import torch
-model_id = "openai/gpt-oss-20b"
-pipe = pipeline(
-    "text-generation",
-    model=model_id,
-    torch_dtype="auto",
-    device_map="auto",
-)
-messages = [
-    {"role": "user", "content": "Explain quantum mechanics clearly and concisely."},
-]
-outputs = pipe(
-    messages,
-    max_new_tokens=256,
-)
-print(outputs[0]["generated_text"][-1])

+import os
 import torch
+import gradio as gr
+import spaces
+import json
+import time
+from threading import Thread
+from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer, BitsAndBytesConfig
+from huggingface_hub import login
+import logging
+# Setup logging
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+# ======================================================
+# Load Configuration
+# ======================================================
+def load_config():
+    """Load configuration from config.json"""
+    try:
+        with open("config.json", "r", encoding="utf-8") as f:
+            return json.load(f)
+    except FileNotFoundError:
+        logger.warning("config.json not found, using default settings")
+        return {
+            "model": {"model_id": "unsloth/gpt-oss-20b-GGUF"},
+            "generation": {
+                "max_new_tokens": 1024,
+                "temperature": 1,
+                "top_p": 0.95,
+                "top_k": 64,
+                "do_sample": True,
+                "repetition_penalty": 1.1,
+                "timeout_seconds": 60
+            },
+            "interface": {"max_context_length": 4096}
+        }
+config = load_config()
+# ======================================================
+# Settings
+# ======================================================
+MODEL_ID = config["model"].get("model_id", "anaspro/Lahja-iraqi-4B")
+# Load system prompt from external file
+try:
+    with open("system_prompt.txt", "r", encoding="utf-8") as f:
+        SYSTEM_PROMPT = f.read()
+except FileNotFoundError:
+    logger.warning("system_prompt.txt not found, using default prompt")
+    SYSTEM_PROMPT = "أنت مساعد ذكي مفيد. تحدث بالعربية وساعد المستخدم في استفساراته."
+# Login to Hugging Face
+if os.getenv("HF_TOKEN"):
+    login(token=os.getenv("HF_TOKEN"))
+    logger.info("🔐 Logged in to Hugging Face")
+# Global model variables
+model = None
+tokenizer = None
+model_lock = False
+# ======================================================
+# Model loading function
+# ======================================================
+def load_model():
+    """Load the model and tokenizer with proper error handling"""
+    global model, tokenizer, model_lock
+    if model_lock:
+        logger.info("Model loading already in progress...")
+        return False
+    model_lock = True
+    try:
+        logger.info("🔄 Loading model...")
+        # Load tokenizer first
+        tokenizer = AutoTokenizer.from_pretrained(
+            MODEL_ID,
+            trust_remote_code=True,
+            use_fast=True
+        )
+        # Add padding token if missing
+        if tokenizer.pad_token is None:
+            tokenizer.pad_token = tokenizer.eos_token
+        # Configure 4-bit quantization
+        if config["model"].get("load_in_4bit", False):
+            quantization_config = BitsAndBytesConfig(
+                load_in_4bit=True,
+                bnb_4bit_compute_dtype=torch.float16,
+                bnb_4bit_use_double_quant=True,
+                bnb_4bit_quant_type="nf4"
+            )
+        else:
+            quantization_config = None
+        # Load model with optimized settings
+        model = AutoModelForCausalLM.from_pretrained(
+            MODEL_ID,
+            torch_dtype=config["model"].get("torch_dtype", "auto"),
+            device_map=config["model"].get("device_map", "auto"),
+            trust_remote_code=config["model"].get("trust_remote_code", True),
+            low_cpu_mem_usage=config["model"].get("low_cpu_mem_usage", True),
+            quantization_config=quantization_config
+        )
+        model.eval()
+        # Clear cache to free memory
+        if torch.cuda.is_available():
+            torch.cuda.empty_cache()
+        logger.info("✅ Model loaded successfully!")
+        return True
+    except Exception as e:
+        logger.error(f"❌ Error loading model: {str(e)}")
+        return False
+    finally:
+        model_lock = False
+# ======================================================
+# Chat function (ZeroGPU)
+# ======================================================
+@spaces.GPU(duration=120)
+def chat(message, history):
+    """Main chat function with improved error handling and conversation management"""
+    global model, tokenizer
+    # Check if model is loaded
+    if model is None or tokenizer is None:
+        return "❌ عذراً، النموذج لم يتم تحميله بعد. يرجى الا��تظار قليلاً والمحاولة مرة أخرى."
+    try:
+        # ======================================================
+        # Build conversation properly
+        # ======================================================
+        messages = [{"role": "system", "content": SYSTEM_PROMPT}]
+        # Process conversation history correctly
+        if history:
+            for exchange in history:
+                if isinstance(exchange, dict):
+                    # Handle message format from Gradio
+                    if exchange.get("role") == "user":
+                        messages.append({"role": "user", "content": exchange.get("content", "")})
+                    elif exchange.get("role") == "assistant":
+                        messages.append({"role": "assistant", "content": exchange.get("content", "")})
+                elif isinstance(exchange, (list, tuple)) and len(exchange) >= 2:
+                    # Handle [user_msg, assistant_msg] format
+                    if exchange[0]:  # User message
+                        messages.append({"role": "user", "content": str(exchange[0])})
+                    if exchange[1]:  # Assistant message
+                        messages.append({"role": "assistant", "content": str(exchange[1])})
+        # Add current user message
+        if message and message.strip():
+            # فلتر للتأكد من أن الموضوع متعلق بالإنترنت
+            internet_keywords = ["نت", "انترنت", "مودم", "wifi", "باقة", "سرعة", "كابل", "راوتر", "فايبر", "اتصال", "شبكة", "تحميل", "رفع", "ميجا", "جيجا"]
+            message_lower = message.lower()
+            # إذا الرسالة تحتوي على كلمات متعلقة بالإنترنت أو أسئلة عامة قصيرة
+            has_internet_keywords = any(keyword in message_lower for keyword in internet_keywords)
+            is_short_question = len(message.strip()) < 50  # الأسئلة القصيرة مسموحة
+            if has_internet_keywords or is_short_question:
+                messages.append({"role": "user", "content": message.strip()})
+            else:
+                return "آسف، انا هنا حتى اساعدك بمشاكل النت والباقات بس. شنو مشكلتك بالإنترنت؟"
+        else:
+            return "يرجى كتابة رسالة صحيحة."
+        # ======================================================
+        # Tokenize input with error handling
+        # ======================================================
+        try:
+            max_length = config.get("interface", {}).get("max_context_length", 4096)
+            input_ids = tokenizer.apply_chat_template(
+                messages,
+                return_tensors="pt",
+                add_generation_prompt=True,
+                truncation=True,
+                max_length=max_length
+            ).to(model.device)
+        except Exception as e:
+            logger.error(f"Tokenization error: {e}")
+            return "❌ خطأ في معالجة الرسالة. يرجى المحاولة مرة أخرى."
+        # ======================================================
+        # Setup text streamer
+        # ======================================================
+        streamer = TextIteratorStreamer(
+            tokenizer,
+            skip_prompt=True,
+            skip_special_tokens=True,
+            clean_up_tokenization_spaces=True
+        )
+        generation_config = config.get("generation", {})
+        generation_kwargs = {
+            "input_ids": input_ids,
+            "streamer": streamer,
+            "max_new_tokens": generation_config.get("max_new_tokens", 800),  # تقليل أكثر لمنع الهلوسة
+            "min_new_tokens": 15,  # حد أدنى معقول
+            "temperature": generation_config.get("temperature", 0.6),  # تقليل العشوائية أكثر
+            "top_p": generation_config.get("top_p", 0.85),  # تقليل التنوع للتحكم
+            "top_k": generation_config.get("top_k", 30),  # تشديد القيود
+            "do_sample": generation_config.get("do_sample", True),
+            "repetition_penalty": generation_config.get("repetition_penalty", 1.15),  # زيادة عقوبة التكرار
+            "no_repeat_ngram_size": 4,  # منع تكرار العبارات الأطول
+            "early_stopping": True,  # توقف مبكر للجمل المكتملة
+            "pad_token_id": tokenizer.pad_token_id,
+            "eos_token_id": tokenizer.eos_token_id,
+            "use_cache": True
+        }
+        # ======================================================
+        # Generate output in a separate thread with timeout
+        # ======================================================
+        thread = Thread(target=model.generate, kwargs=generation_kwargs)
+        thread.daemon = True
+        thread.start()
+        partial_text = ""
+        start_time = time.time()
+        timeout = config.get("generation", {}).get("timeout_seconds", 60)
+        # كلمات تشير إلى بداية حوار جديد
+        dialogue_indicators = ["👤", "🤖", "العميل:", "الزبون:", "المساعد:", "العضو:", "السؤال:", "الجواب:"]
+        try:
+            for new_text in streamer:
+                if time.time() - start_time > timeout:
+                    logger.warning("Generation timeout reached")
+                    break
+                partial_text += new_text
+                # إيقاف التوليد إذا بدأ النموذج بكتابة حوار
+                for indicator in dialogue_indicators:
+                    if indicator in partial_text[50:]:  # تجاهل أول 50 حرف
+                        logger.info("Stopping generation - dialogue detected")
+                        return partial_text[:partial_text.find(indicator, 50)].strip()
+                yield partial_text
+        except Exception as e:
+            logger.error(f"Generation error: {e}")
+            yield "❌ حدث خطأ أثناء توليد الإجابة. يرجى المحاولة مرة أخرى."
+        thread.join(timeout=5)  # Give thread 5 seconds to finish
+        # Clear GPU cache after generation
+        if torch.cuda.is_available():
+            torch.cuda.empty_cache()
+    except Exception as e:
+        logger.error(f"Chat function error: {e}")
+        return f"❌ حدث خطأ غير متوقع: {str(e)}"
+# ======================================================
+# Gradio Interface with enhanced styling
+# ======================================================
+def create_interface():
+    """Create the Gradio interface with enhanced UI"""
+    # Custom CSS for better styling
+    custom_css = """
+    .gradio-container {
+        max-width: 1000px !important;
+        margin: auto !important;
+    }
+    .chat-message {
+        padding: 10px !important;
+        margin: 5px 0 !important;
+        border-radius: 10px !important;
+    }
+    .message {
+        font-size: 16px !important;
+        line-height: 1.5 !important;
+    }
+    """
+    # Create a simpler interface for better compatibility
+    demo = gr.ChatInterface(
+        fn=chat,
+        type="messages",
+        title="📞 دعم فني - NB TEL مساعد عراقي",
+        description="**مساعد ذكي متقدم يعتمد على GPT-OSS-20B من OpenAI للدعم الفني بشبكة النور - NB TEL**\n\n✨ قدرات متقدمة: تفكير منطقي، حلول خطوة بخطوة، تحليل شامل\n\nاحجي معاه كأنك زبون: اشرح مشكلتك، اسأل عن الباقات، او اطلب تذكرة دعم.",
+        examples=[
+            ["النت عندي بطيء جداً رغم باقة 100 ميجا. شرحلي الأسباب المحتملة والحلول."],
+            ["أريد فهم ليش النت بطيء. شرحلي خطوة بخطوة الأسباب والحلول."],
+            ["كم سعر باقة 60 ميجا وما هي مزاياها؟"],
+            ["جهازي يظهر متصل بس المواقع ما تفتح. ساعدني أشخيص المشكلة."],
+            ["أنا صاحب مؤسسة، أي باقة تناسب 10 موظفين وكم التكلفة؟"],
+            ["شلون اغير كلمة مرور الواي فاي خطوة بخطوة؟"],
+            ["النت ينقطع فجأة ويعود. ما السبب وكيف أصلحه؟"]
+        ],
+        cache_examples=False,
+        theme=gr.themes.Soft(
+            primary_hue="blue",
+            secondary_hue="gray",
+            neutral_hue="slate"
+        ),
+        css=custom_css
+    )
+    return demo
+# ======================================================
+# Load model on startup (before creating interface)
+# ======================================================
+logger.info("🚀 Starting application - loading model...")
+load_model()
+# Create the interface
+demo = create_interface()
+if __name__ == "__main__":
+    demo.launch()