Spaces:

mo-456
/

FTCE-chatbot

Sleeping

App Files Files Community

mo-456 commited on Jul 20, 2025

Commit

85241d2

verified ·

1 Parent(s): d46adf9

Update app.py

Browse files

Files changed (1) hide show

app.py +118 -6

app.py CHANGED Viewed

@@ -9,6 +9,7 @@ import numpy as np
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.metrics.pairwise import cosine_similarity
 import json
 # Configure logging
 logging.basicConfig(
@@ -30,6 +31,40 @@ except Exception as e:
     logger.error(f"Model loading failed: {str(e)}")
     raise RuntimeError("Failed to initialize the AI model")
 # Initialize TF-IDF for hybrid search
 tfidf_vectorizer = TfidfVectorizer(
     max_features=1000,
@@ -299,7 +334,7 @@ class ResponseGenerator:
         }
     def generate_response(self, question: str, retrieved_chunks: List[Tuple[str, float, str]], question_type: str) -> str:
-        """Generate professionally formatted Arabic responses"""
         try:
             if not retrieved_chunks:
                 return self._generate_fallback_response(question)
@@ -314,7 +349,16 @@ class ResponseGenerator:
             # Get template info
             template_info = self.response_templates.get(question_type, self.response_templates['general'])
-            # Build professional response
             response = self._build_response_header(question, template_info)
             response += self._build_main_content(sections, template_info)
             response += self._build_additional_info(sections)
@@ -327,6 +371,74 @@ class ResponseGenerator:
             logger.error(f"Response generation failed: {str(e)}")
             return self._generate_error_response()
     def _build_response_header(self, question: str, template_info: Dict) -> str:
         """Build professional response header"""
         header = f"""
@@ -624,8 +736,8 @@ with gr.Blocks(css=css, title="المساعد الآلي للموازنة الت
     with gr.Column(elem_classes="arabic-ui"):
         gr.Markdown("""
         <div class="header">
-        <h1>🤖 المساعد الآلي المطور للموازنة التشاركية</h1>
-        <p>نسخة محسّنة تقدم إجابات أكثر دقة ومهنية حول الشفافية المالية والمشاركة المجتمعية</p>
         </div>
         """)
@@ -666,7 +778,7 @@ with gr.Blocks(css=css, title="المساعد الآلي للموازنة الت
         gr.Markdown("""
         <div class="footer">
         <p><strong>وحدة الشفافية والمشاركة المجتمعية - وزارة المالية</strong></p>
-        <p>نسخة محسّنة مع تقنيات البحث المتقدمة وتوليد الإجابات الذكية</p>
         </div>
         """)
@@ -681,4 +793,4 @@ if __name__ == "__main__":
         server_port=7860,
         share=False,
         show_error=True
-    )

 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.metrics.pairwise import cosine_similarity
 import json
+from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
 # Configure logging
 logging.basicConfig(
     logger.error(f"Model loading failed: {str(e)}")
     raise RuntimeError("Failed to initialize the AI model")
+# Initialize Arabic LLM for text generation and rephrasing
+try:
+    logger.info("Loading Arabic LLM for text generation...")
+    # Using ArabianGPT for Arabic text generation
+    llm_model_name = "riotu-lab/ArabianGPT-01B"
+    # Load tokenizer and model
+    llm_tokenizer = AutoTokenizer.from_pretrained(llm_model_name)
+    llm_model = AutoModelForCausalLM.from_pretrained(
+        llm_model_name,
+        torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
+        device_map="auto" if torch.cuda.is_available() else None
+    )
+    # Create text generation pipeline
+    text_generator = pipeline(
+        "text-generation",
+        model=llm_model,
+        tokenizer=llm_tokenizer,
+        max_length=512,
+        do_sample=True,
+        temperature=0.7,
+        top_p=0.9,
+        pad_token_id=llm_tokenizer.eos_token_id
+    )
+    logger.info("Arabic LLM loaded successfully")
+    llm_available = True
+except Exception as e:
+    logger.warning(f"LLM loading failed: {str(e)}. Falling back to basic response generation.")
+    text_generator = None
+    llm_available = False
 # Initialize TF-IDF for hybrid search
 tfidf_vectorizer = TfidfVectorizer(
     max_features=1000,
         }
     def generate_response(self, question: str, retrieved_chunks: List[Tuple[str, float, str]], question_type: str) -> str:
+        """Generate professionally formatted Arabic responses with LLM enhancement"""
         try:
             if not retrieved_chunks:
                 return self._generate_fallback_response(question)
             # Get template info
             template_info = self.response_templates.get(question_type, self.response_templates['general'])
+            # Extract raw content for LLM processing
+            raw_content = self._extract_raw_content(sections)
+            # Use LLM to enhance and rephrase the response if available
+            if llm_available and raw_content:
+                enhanced_response = self._generate_llm_enhanced_response(question, raw_content, template_info)
+                if enhanced_response:
+                    return enhanced_response
+            # Fallback to original response generation
             response = self._build_response_header(question, template_info)
             response += self._build_main_content(sections, template_info)
             response += self._build_additional_info(sections)
             logger.error(f"Response generation failed: {str(e)}")
             return self._generate_error_response()
+    def _extract_raw_content(self, sections: Dict) -> str:
+        """Extract raw content from sections for LLM processing"""
+        content_parts = []
+        for section, chunks in sections.items():
+            for chunk, score in chunks[:2]:  # Take top 2 chunks per section
+                if ":" in chunk:
+                    content = chunk.split(":", 1)[1].strip()
+                    content_parts.append(content)
+        return " ".join(content_parts[:3])  # Limit to avoid token limits
+    def _generate_llm_enhanced_response(self, question: str, raw_content: str, template_info: Dict) -> str:
+        """Generate enhanced response using LLM"""
+        try:
+            # Create a prompt for the LLM
+            prompt = f"""بناءً على المعلومات التالية، أجب على السؤال بطريقة مهنية ومفصلة:
+السؤال: {question}
+المعلومات المتاحة: {raw_content}
+الإجابة المطلوبة يجب أن تكون:
+- مهنية ومنظمة
+- باللغة العربية الفصحى
+- تحتوي على تفاصيل مفيدة
+- مناسبة لموضوع الموازنة التشاركية والشفافية المالية
+الإجابة:"""
+            # Generate response using LLM
+            generated = text_generator(
+                prompt,
+                max_length=400,
+                num_return_sequences=1,
+                temperature=0.7,
+                do_sample=True,
+                pad_token_id=llm_tokenizer.eos_token_id
+            )
+            if generated and len(generated) > 0:
+                full_response = generated[0]['generated_text']
+                # Extract only the answer part after "الإجابة:"
+                if "الإجابة:" in full_response:
+                    answer = full_response.split("الإجابة:")[-1].strip()
+                    # Format the enhanced response
+                    formatted_response = f"""
+╔══════════════════════════════════════════════════════════════╗
+║  {template_info["icon"]} **{template_info["title"]}**
+╚══════════════════════════════════════════════════════════════╝
+**استعلامك:** {question}
+## الإجابة المطورة
+{answer}
+---
+**للمزيد من المعلومات:** تواصل مع وحدة الشفافية والمشاركة المجتمعية
+**المصدر:** وزارة المالية - جمهورية مصر العربية
+"""
+                    return formatted_response
+        except Exception as e:
+            logger.error(f"LLM enhancement failed: {str(e)}")
+        return None
     def _build_response_header(self, question: str, template_info: Dict) -> str:
         """Build professional response header"""
         header = f"""
     with gr.Column(elem_classes="arabic-ui"):
         gr.Markdown("""
         <div class="header">
+        <h1>المساعد الآلي المطور للموازنة التشاركية مع الذكاء الاصطناعي</h1>
+        <p>نسخة محسّنة مع نموذج لغوي ذكي لإعادة صياغة الإجابات وتوليد محتوى أكثر دقة ومهنية</p>
         </div>
         """)
         gr.Markdown("""
         <div class="footer">
         <p><strong>وحدة الشفافية والمشاركة المجتمعية - وزارة المالية</strong></p>
+        <p>نسخة محسّنة مع نموذج لغوي ذكي لإعادة صياغة الإجابات وتوليد محتوى أكثر دقة ومهنية</p>
         </div>
         """)
         server_port=7860,
         share=False,
         show_error=True
+    )