Spaces:

anaspro
/

chatbox

Runtime error

anaspro commited on Oct 21

Commit

eef2265

1 Parent(s): 40db06d

Implement official Harmony format with openai-harmony package

Major improvements:
- Use openai-harmony package for proper GPT-OSS Harmony format
- Implement reasoning effort levels (low/medium/high) parsing
- Add thinking process separation with collapsible UI
- Use pipeline API instead of manual model loading
- Parse and display chain-of-thought reasoning
- Support System and Developer role messages
- Add Arabic interface with thinking process display
- Update examples to showcase reasoning capabilities
- Simplify code by using official OpenAI harmony encoding

This enables:
✅ Proper Harmony response format
✅ Adjustable reasoning levels
✅ Visible thinking process (chain-of-thought)
✅ Better Arabic support
✅ Cleaner, more maintainable code

Files changed (2) hide show

app.py +216 -280
requirements.txt +1 -0

app.py CHANGED Viewed

@@ -1,325 +1,261 @@
 import os
-import torch
 import gradio as gr
 import spaces
-import json
-import time
 from threading import Thread
-from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer, BitsAndBytesConfig
 from huggingface_hub import login
 import logging
 # Setup logging
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
-# ======================================================
-# Load Configuration
-# ======================================================
-def load_config():
-    """Load configuration from config.json"""
-    try:
-        with open("config.json", "r", encoding="utf-8") as f:
-            return json.load(f)
-    except FileNotFoundError:
-        logger.warning("config.json not found, using default settings")
-        return {
-            "model": {"model_id": "unsloth/gpt-oss-20b-GGUF"},
-            "generation": {
-                "max_new_tokens": 1024,
-                "temperature": 1,
-                "top_p": 0.95,
-                "top_k": 64,
-                "do_sample": True,
-                "repetition_penalty": 1.1,
-                "timeout_seconds": 60
-            },
-            "interface": {"max_context_length": 4096}
-        }
-config = load_config()
 # ======================================================
-# Settings
 # ======================================================
-MODEL_ID = config["model"].get("model_id", "anaspro/Lahja-iraqi-4B")
-# Load system prompt from external file
 try:
     with open("system_prompt.txt", "r", encoding="utf-8") as f:
-        SYSTEM_PROMPT = f.read()
 except FileNotFoundError:
     logger.warning("system_prompt.txt not found, using default prompt")
-    SYSTEM_PROMPT = "أنت مساعد ذكي مفيد. تحدث بالعربية وساعد المستخدم في استفساراته."
-# Login to Hugging Face
-if os.getenv("HF_TOKEN"):
-    login(token=os.getenv("HF_TOKEN"))
-    logger.info("🔐 Logged in to Hugging Face")
-# Global model variables
-model = None
-tokenizer = None
-model_lock = False
 # ======================================================
-# Model loading function
 # ======================================================
-def load_model():
-    """Load the model and tokenizer with proper error handling"""
-    global model, tokenizer, model_lock
-    if model_lock:
-        logger.info("Model loading already in progress...")
-        return False
-    model_lock = True
-    try:
-        logger.info("🔄 Loading model...")
-        # Load tokenizer first
-        tokenizer = AutoTokenizer.from_pretrained(
-            MODEL_ID,
-            trust_remote_code=True,
-            use_fast=True
-        )
-        # Add padding token if missing
-        if tokenizer.pad_token is None:
-            tokenizer.pad_token = tokenizer.eos_token
-        # Configure 4-bit quantization
-        if config["model"].get("load_in_4bit", False):
-            quantization_config = BitsAndBytesConfig(
-                load_in_4bit=True,
-                bnb_4bit_compute_dtype=torch.float16,
-                bnb_4bit_use_double_quant=True,
-                bnb_4bit_quant_type="nf4"
-            )
-        else:
-            quantization_config = None
-        # Load model with optimized settings
-        model = AutoModelForCausalLM.from_pretrained(
-            MODEL_ID,
-            torch_dtype=config["model"].get("torch_dtype", "auto"),
-            device_map=config["model"].get("device_map", "auto"),
-            trust_remote_code=config["model"].get("trust_remote_code", True),
-            low_cpu_mem_usage=config["model"].get("low_cpu_mem_usage", True),
-            quantization_config=quantization_config
-        )
-        model.eval()
-        # Clear cache to free memory
-        if torch.cuda.is_available():
-            torch.cuda.empty_cache()
-        logger.info("✅ Model loaded successfully!")
-        return True
-    except Exception as e:
-        logger.error(f"❌ Error loading model: {str(e)}")
-        return False
-    finally:
-        model_lock = False
 # ======================================================
-# Chat function (ZeroGPU)
 # ======================================================
-@spaces.GPU(duration=120)
-def chat(message, history):
-    """Main chat function with improved error handling and conversation management"""
-    global model, tokenizer
-    # Check if model is loaded
-    if model is None or tokenizer is None:
-        return "❌ عذراً، النموذج لم يتم تحميله بعد. يرجى الانتظار قليلاً والمحاولة مرة أخرى."
-    try:
-        # ======================================================
-        # Build conversation properly
-        # ======================================================
-        messages = [{"role": "system", "content": SYSTEM_PROMPT}]
-        # Process conversation history correctly
-        if history:
-            for exchange in history:
-                if isinstance(exchange, dict):
-                    # Handle message format from Gradio
-                    if exchange.get("role") == "user":
-                        messages.append({"role": "user", "content": exchange.get("content", "")})
-                    elif exchange.get("role") == "assistant":
-                        messages.append({"role": "assistant", "content": exchange.get("content", "")})
-                elif isinstance(exchange, (list, tuple)) and len(exchange) >= 2:
-                    # Handle [user_msg, assistant_msg] format
-                    if exchange[0]:  # User message
-                        messages.append({"role": "user", "content": str(exchange[0])})
-                    if exchange[1]:  # Assistant message
-                        messages.append({"role": "assistant", "content": str(exchange[1])})
-        # Add current user message
-        if message and message.strip():
-            # فلتر للتأكد من أن الموضوع متعلق بالإنترنت
-            internet_keywords = ["نت", "انترنت", "مودم", "wifi", "باقة", "سرعة", "كابل", "راوتر", "فايبر", "اتصال", "شبكة", "تحميل", "رفع", "ميجا", "جيجا"]
-            message_lower = message.lower()
-            # إذا الرسالة تحتوي على كلمات متعلقة بالإنترنت أو أسئلة عامة قصيرة
-            has_internet_keywords = any(keyword in message_lower for keyword in internet_keywords)
-            is_short_question = len(message.strip()) < 50  # الأسئلة القصيرة مسموحة
-            if has_internet_keywords or is_short_question:
-                messages.append({"role": "user", "content": message.strip()})
-            else:
-                return "آسف، انا هنا حتى اساعدك بمشاكل النت والباقات بس. شنو مشكلتك بالإنترنت؟"
-        else:
-            return "يرجى كتابة رسالة صحيحة."
-        # ======================================================
-        # Tokenize input with error handling
-        # ======================================================
-        try:
-            max_length = config.get("interface", {}).get("max_context_length", 4096)
-            input_ids = tokenizer.apply_chat_template(
-                messages,
-                return_tensors="pt",
-                add_generation_prompt=True,
-                truncation=True,
-                max_length=max_length
-            ).to(model.device)
-        except Exception as e:
-            logger.error(f"Tokenization error: {e}")
-            return "❌ خطأ في معالجة الرسالة. يرجى المحاولة مرة أخرى."
-        # ======================================================
-        # Setup text streamer
-        # ======================================================
-        streamer = TextIteratorStreamer(
-            tokenizer,
-            skip_prompt=True,
-            skip_special_tokens=True,
-            clean_up_tokenization_spaces=True
-        )
-        generation_config = config.get("generation", {})
-        generation_kwargs = {
-            "input_ids": input_ids,
-            "streamer": streamer,
-            "max_new_tokens": generation_config.get("max_new_tokens", 800),  # تقليل أكثر لمنع الهلوسة
-            "min_new_tokens": 15,  # حد أدنى معقول
-            "temperature": generation_config.get("temperature", 0.6),  # تقليل العشوائية أكثر
-            "top_p": generation_config.get("top_p", 0.85),  # تقليل التنوع للتحكم
-            "top_k": generation_config.get("top_k", 30),  # تشديد القيود
-            "do_sample": generation_config.get("do_sample", True),
-            "repetition_penalty": generation_config.get("repetition_penalty", 1.15),  # زيادة عقوبة التكرار
-            "no_repeat_ngram_size": 4,  # منع تكرار العبارات الأطول
-            "early_stopping": True,  # توقف مبكر للجمل المكتملة
-            "pad_token_id": tokenizer.pad_token_id,
-            "eos_token_id": tokenizer.eos_token_id,
-            "use_cache": True
-        }
-        # ======================================================
-        # Generate output in a separate thread with timeout
-        # ======================================================
-        thread = Thread(target=model.generate, kwargs=generation_kwargs)
-        thread.daemon = True
-        thread.start()
-        partial_text = ""
-        start_time = time.time()
-        timeout = config.get("generation", {}).get("timeout_seconds", 60)
-        # كلمات تشير إلى بداية حوار جديد
-        dialogue_indicators = ["👤", "🤖", "العميل:", "الزبون:", "المساعد:", "العضو:", "السؤال:", "الجواب:"]
-        try:
-            for new_text in streamer:
-                if time.time() - start_time > timeout:
-                    logger.warning("Generation timeout reached")
-                    break
-                partial_text += new_text
-                # إيقاف التوليد إذا بدأ النموذج بكتابة حوار
-                for indicator in dialogue_indicators:
-                    if indicator in partial_text[50:]:  # تجاهل أول 50 حرف
-                        logger.info("Stopping generation - dialogue detected")
-                        return partial_text[:partial_text.find(indicator, 50)].strip()
-                yield partial_text
-        except Exception as e:
-            logger.error(f"Generation error: {e}")
-            yield "❌ حدث خطأ أثناء توليد الإجابة. يرجى المحاولة مرة أخرى."
-        thread.join(timeout=5)  # Give thread 5 seconds to finish
-        # Clear GPU cache after generation
-        if torch.cuda.is_available():
-            torch.cuda.empty_cache()
-    except Exception as e:
-        logger.error(f"Chat function error: {e}")
-        return f"❌ حدث خطأ غير متوقع: {str(e)}"
 # ======================================================
-# Gradio Interface with enhanced styling
 # ======================================================
-def create_interface():
-    """Create the Gradio interface with enhanced UI"""
-    # Custom CSS for better styling
-    custom_css = """
-    .gradio-container {
-        max-width: 1000px !important;
-        margin: auto !important;
-    }
-    .chat-message {
-        padding: 10px !important;
-        margin: 5px 0 !important;
-        border-radius: 10px !important;
-    }
-    .message {
-        font-size: 16px !important;
-        line-height: 1.5 !important;
     }
-    """
-    # Create a simpler interface for better compatibility
-    demo = gr.ChatInterface(
-        fn=chat,
-        type="messages",
-        title="📞 دعم فني - NB TEL مساعد عراقي",
-        description="**مساعد ذكي متقدم يعتمد على GPT-OSS-20B من OpenAI للدعم الفني بشبكة النور - NB TEL**\n\n✨ قدرات متقدمة: تفكير منطقي، حلول خطوة بخطوة، تحليل شامل\n\nاحجي معاه كأنك زبون: اشرح مشكلتك، اسأل عن الباقات، او اطلب تذكرة دعم.",
-        examples=[
-            ["النت عندي بطيء جداً رغم باقة 100 ميجا. شرحلي الأسباب المحتملة والحلول."],
-            ["أريد فهم ليش النت بطيء. شرحلي خطوة بخطوة الأسباب والحلول."],
-            ["كم سعر باقة 60 ميجا وما هي مزاياها؟"],
-            ["جهازي يظهر متصل بس المواقع ما تفتح. ساعدني أشخيص المشكلة."],
-            ["أنا صاحب مؤسسة، أي باقة تناسب 10 موظفين وكم التكلفة؟"],
-            ["شلون اغير كلمة مرور الواي فاي خطوة بخطوة؟"],
-            ["النت ينقطع فجأة ويعود. ما السبب وكيف أصلحه؟"]
-        ],
-        cache_examples=False,
-        theme=gr.themes.Soft(
-            primary_hue="blue",
-            secondary_hue="gray",
-            neutral_hue="slate"
-        ),
-        css=custom_css
-    )
-    return demo
 # ======================================================
-# Load model on startup (before creating interface)
 # ======================================================
-logger.info("🚀 Starting application - loading model...")
-load_model()
-# Create the interface
-demo = create_interface()
 if __name__ == "__main__":
     demo.launch()

 import os
 import gradio as gr
 import spaces
+import re
 from threading import Thread
+from transformers import pipeline, TextIteratorStreamer
 from huggingface_hub import login
 import logging
+from openai_harmony import (
+    load_harmony_encoding,
+    HarmonyEncodingName,
+    Role,
+    Message,
+    Conversation,
+    SystemContent,
+    DeveloperContent,
+    ReasoningEffort,
+)
 # Setup logging
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
+# Login to Hugging Face
+if os.getenv("HF_TOKEN"):
+    login(token=os.getenv("HF_TOKEN"))
+    logger.info("🔐 Logged in to Hugging Face")
+# Regex config for parsing reasoning and output
+RE_REASONING = re.compile(r'(?i)Reasoning:\s*(low|medium|high)')
+RE_FINAL_MARKER = re.compile(r'(?i)assistantfinal')
+RE_ANALYSIS_PREFIX = re.compile(r'(?i)^analysis\s*')
 # ======================================================
+# Load System Prompt
 # ======================================================
 try:
     with open("system_prompt.txt", "r", encoding="utf-8") as f:
+        DEFAULT_SYSTEM_PROMPT = f.read()
 except FileNotFoundError:
     logger.warning("system_prompt.txt not found, using default prompt")
+    DEFAULT_SYSTEM_PROMPT = """أنت مساعد ذكي متقدم يعتمد على نموذج GPT-OSS-20B من OpenAI مع دعم فني لشركة NB TEL.
+تحجي بالعراقي بأسلوب مهني ومحترف.
+Reasoning: high - استخدم مستوى تفكير عالي للتحليل المتعمق والحلول المتقدمة."""
 # ======================================================
+# Parse Reasoning Level from System Prompt
 # ======================================================
+def parse_reasoning_and_instructions(system_prompt: str):
+    """Parse reasoning effort level from system prompt"""
+    instructions = system_prompt or "You are a helpful assistant."
+    match = RE_REASONING.search(instructions)
+    effort_key = match.group(1).lower() if match else 'medium'
+    effort = {
+        'low': ReasoningEffort.LOW,
+        'medium': ReasoningEffort.MEDIUM,
+        'high': ReasoningEffort.HIGH,
+    }.get(effort_key, ReasoningEffort.MEDIUM)
+    cleaned_instructions = RE_REASONING.sub('', instructions).strip()
+    return effort, cleaned_instructions
 # ======================================================
+# Load Model and Harmony Encoding
 # ======================================================
+logger.info("🚀 Loading GPT-OSS-20B model...")
+model_id = "unsloth/gpt-oss-20b-unsloth-bnb-4bit"
+pipe = pipeline(
+    "text-generation",
+    model=model_id,
+    torch_dtype="auto",
+    device_map="auto",
+    trust_remote_code=True,
+)
+enc = load_harmony_encoding(HarmonyEncodingName.HARMONY_GPT_OSS)
+logger.info("✅ Model and harmony encoding loaded successfully!")
+# ======================================================
+# Format Conversation History
+# ======================================================
+def format_conversation_history(chat_history):
+    """Format Gradio chat history to standard message format"""
+    messages = []
+    for item in chat_history:
+        role = item["role"]
+        content = item["content"]
+        if isinstance(content, list):
+            content = content[0]["text"] if content and "text" in content[0] else str(content)
+        messages.append({"role": role, "content": content})
+    return messages
 # ======================================================
+# Generate Response with Harmony Format
 # ======================================================
+@spaces.GPU(duration=120)
+def generate_response(input_data, chat_history, max_new_tokens, system_prompt, temperature, top_p, top_k, repetition_penalty):
+    """Generate response using GPT-OSS with Harmony format"""
+    # Create new user message
+    new_message = {"role": "user", "content": input_data}
+    processed_history = format_conversation_history(chat_history)
+    # Parse reasoning effort from system prompt
+    effort, instructions = parse_reasoning_and_instructions(system_prompt)
+    # Build harmony messages with proper system and developer roles
+    system_content = SystemContent.new().with_reasoning_effort(effort)
+    developer_content = DeveloperContent.new().with_instructions(instructions)
+    harmony_messages = [
+        Message.from_role_and_content(Role.SYSTEM, system_content),
+        Message.from_role_and_content(Role.DEVELOPER, developer_content),
+    ]
+    # Add conversation history
+    for m in processed_history + [new_message]:
+        role = Role.USER if m["role"] == "user" else Role.ASSISTANT
+        harmony_messages.append(Message.from_role_and_content(role, m["content"]))
+    # Render conversation using harmony encoding
+    conversation = Conversation.from_messages(harmony_messages)
+    prompt_tokens = enc.render_conversation_for_completion(conversation, Role.ASSISTANT)
+    prompt_text = pipe.tokenizer.decode(prompt_tokens, skip_special_tokens=False)
+    # Setup streaming
+    streamer = TextIteratorStreamer(pipe.tokenizer, skip_prompt=True, skip_special_tokens=True)
+    generation_kwargs = {
+        "max_new_tokens": max_new_tokens,
+        "do_sample": True,
+        "temperature": temperature,
+        "top_p": top_p,
+        "top_k": top_k,
+        "repetition_penalty": repetition_penalty,
+        "streamer": streamer,
+        "return_full_text": False,
     }
+    # Generate in separate thread
+    thread = Thread(target=pipe, args=(prompt_text,), kwargs=generation_kwargs)
+    thread.start()
+    # Parse thinking process and final answer
+    thinking = ""
+    final = ""
+    started_final = False
+    for chunk in streamer:
+        if not started_final:
+            parts = RE_FINAL_MARKER.split(chunk, maxsplit=1)
+            thinking += parts[0]
+            if len(parts) > 1:
+                final += parts[-1]
+                started_final = True
+        else:
+            final += chunk
+        # Clean and format output
+        clean_thinking = RE_ANALYSIS_PREFIX.sub('', thinking).strip()
+        clean_final = final.strip()
+        # Format with collapsible thinking section
+        if clean_thinking:
+            formatted = f"<details open><summary>🧠 عرض عملية التفكير (Thinking Process)</summary>\n\n{clean_thinking}\n\n</details>\n\n{clean_final}"
+        else:
+            formatted = clean_final
+        yield formatted
 # ======================================================
+# Create Gradio Interface
 # ======================================================
+demo = gr.ChatInterface(
+    fn=generate_response,
+    additional_inputs=[
+        gr.Slider(
+            label="Max New Tokens",
+            minimum=64,
+            maximum=4096,
+            step=1,
+            value=2048
+        ),
+        gr.Textbox(
+            label="System Prompt",
+            value=DEFAULT_SYSTEM_PROMPT,
+            lines=6,
+            placeholder="يمكنك تعديل التعليمات والمستوى: Reasoning: low/medium/high"
+        ),
+        gr.Slider(
+            label="Temperature",
+            minimum=0.1,
+            maximum=2.0,
+            step=0.1,
+            value=0.7
+        ),
+        gr.Slider(
+            label="Top-p",
+            minimum=0.05,
+            maximum=1.0,
+            step=0.05,
+            value=0.9
+        ),
+        gr.Slider(
+            label="Top-k",
+            minimum=1,
+            maximum=100,
+            step=1,
+            value=50
+        ),
+        gr.Slider(
+            label="Repetition Penalty",
+            minimum=1.0,
+            maximum=2.0,
+            step=0.05,
+            value=1.0
+        )
+    ],
+    examples=[
+        [{"text": "النت عندي بطيء جداً رغم باقة 100 ميجا. شرحلي الأسباب المحتملة والحلول خطوة بخطوة."}],
+        [{"text": "أريد فهم ليش النت بطيء. حللها بالتفصيل وأعطني حلول مرقمة."}],
+        [{"text": "كم سعر باقة 60 ميجا وما هي مزاياها بالمقارنة مع الباقات الأخرى؟"}],
+        [{"text": "جهازي يظهر متصل بس المواقع ما تفتح. ساعدني أشخيص المشكلة بالتفصيل."}],
+        [{"text": "أنا صاحب مؤسسة، أي باقة تناسب 10 موظفين؟ حلل الاحتياجات والتكلفة."}],
+        [{"text": "شلون اغير كلمة مرور الواي فاي خطوة بخطوة؟"}],
+        [{"text": "النت ينقطع فجأة ويعود. حلل السبب واعطني حل شامل."}],
+    ],
+    cache_examples=False,
+    type="messages",
+    title="📞 مساعد GPT-OSS-20B للدعم الفني - NB TEL",
+    description="""**🤖 مساعد ذكي متقدم يعتمد على GPT-OSS-20B من OpenAI للدعم الفني بشبكة النور - NB TEL**
+✨ **قدرات متقدمة:**
+- 🧠 تفكير منطقي عميق (Chain-of-Thought)
+- 📊 حلول خطوة بخطوة مع التحليل
+- 🎯 مستويات تفكير قابلة للتعديل (Reasoning: low/medium/high)
+- 💬 دعم كامل للغة العربية العراقية
+- 🔧 تشخيص وحلول متقدمة للمشاكل التقنية
+**احجي معاه كأنك زبون:** اشرح مشكلتك، اسأل عن الباقات، او اطلب تذكرة دعم.
+*يمكنك رؤية عملية التفكير (Thinking Process) عند النقر على السهم أعلى الإجابة.*""",
+    fill_height=True,
+    textbox=gr.Textbox(
+        label="رسالتك",
+        placeholder="اكتب مشكلتك أو سؤالك هنا..."
+    ),
+    stop_btn="إيقاف التوليد",
+    multimodal=False,
+    theme=gr.themes.Soft(
+        primary_hue="blue",
+        secondary_hue="gray",
+        neutral_hue="slate"
+    ),
+)
 if __name__ == "__main__":
     demo.launch()

requirements.txt CHANGED Viewed

@@ -6,6 +6,7 @@ torch>=2.0.0
 bitsandbytes>=0.40.0
 huggingface_hub>=0.20.0
 hf_transfer>=0.1.4
 xformers>=0.0.20
 triton>=2.0.0
 sentencepiece>=0.1.99

 bitsandbytes>=0.40.0
 huggingface_hub>=0.20.0
 hf_transfer>=0.1.4
+openai-harmony
 xformers>=0.0.20
 triton>=2.0.0
 sentencepiece>=0.1.99