Spaces:

AI-Driven-Data-Driven
/

Arabic-Rag-Chatbot

Sleeping

App Files Files Community

Ahmed-Alghamdi commited on Dec 30, 2025

Commit

b720e58

verified ·

1 Parent(s): 98cc026

Update response_generator.py

Browse files

Files changed (1) hide show

response_generator.py +53 -108

response_generator.py CHANGED Viewed

@@ -1,5 +1,5 @@
 # response_generator.py
-import re
 from utils import setup_logger
 from config import Config
@@ -8,117 +8,62 @@ logger = setup_logger('response_generator')
 class ResponseGenerator:
     def __init__(self):
         """
-        Smart extraction without complex LLM
         """
-        logger.info("Response generator initialized (extractive mode)")
     def generate_response(self, query, relevant_docs):
         """
-        Generate smart answer by extracting and summarizing
         """
         try:
-            if len(relevant_docs) == 0:
-                return "عذرًا، لم أجد أي معلومات ذات صلة في المستندات."
-            return self._generate_smart_extractive_answer(query, relevant_docs)
         except Exception as e:
-            logger.error(f"Error generating response: {e}")
-            return "عذرًا، لم أتمكن من إنشاء استجابة."
-    def _generate_smart_extractive_answer(self, query, relevant_docs):
-        """
-        Smart extraction with sentence selection
-        """
-        top_chunks = relevant_docs.head(3)
-        query_keywords = self._extract_keywords(query)
-        best_sentences = []
-        for idx, row in top_chunks.iterrows():
-            content = row['content']
-            similarity = row.get('similarity_score', 0)
-            sentences = self._split_sentences(content)
-            for sentence in sentences:
-                if len(sentence.strip()) < 20:
-                    continue
-                score = similarity
-                sentence_lower = sentence.lower()
-                for keyword in query_keywords:
-                    if keyword in sentence_lower:
-                        score += 0.1
-                best_sentences.append({
-                    'text': sentence.strip(),
-                    'score': score,
-                    'chunk_id': idx
-                })
-        best_sentences.sort(key=lambda x: x['score'], reverse=True)
-        top_sentences = best_sentences[:3]
-        if not top_sentences:
-            return self._format_simple_answer(top_chunks)
-        answer_parts = ["**الإجابة:**\n"]
-        for i, sent in enumerate(top_sentences, 1):
-            if len(top_sentences) > 1:
-                answer_parts.append(f"\n**[{i}]** {sent['text']}")
-            else:
-                answer_parts.append(f"\n{sent['text']}")
-        answer_parts.append("\n\n---")
-        scores = top_chunks['similarity_score'].values if 'similarity_score' in top_chunks.columns else []
-        answer_parts.append(f"**عدد المصادر:** {len(top_chunks)} chunks")
-        if len(scores) > 0:
-            answer_parts.append(f" | **دقة المطابقة:** {scores[-1]:.0%} - {scores[0]:.0%}")
-        return "\n".join(answer_parts)
-    def _extract_keywords(self, query):
-        """
-        Extract meaningful keywords from query
-        """
-        stop_words = {'ما', 'هي', 'هو', 'في', 'من', 'إلى', 'على', 'عن', 'ال', 'و', 'أو'}
-        words = query.lower().split()
-        keywords = [w for w in words if len(w) > 2 and w not in stop_words]
-        return keywords
-    def _split_sentences(self, text):
-        """
-        Split text into sentences
-        """
-        sentences = re.split(r'[.؟!]\s+', text)
-        return [s.strip() for s in sentences if s.strip()]
-    def _format_simple_answer(self, top_chunks):
-        """
-        Fallback: show top chunk
-        """
-        best_chunk = top_chunks.iloc[0]
-        content = best_chunk['content']
-        if len(content) > 400:
-            content = content[:400]
-            last_period = max(content.rfind('.'), content.rfind('؟'), content.rfind('!'))
-            if last_period > 100:
-                content = content[:last_period + 1]
-            else:
-                content += "..."
-        score = best_chunk.get('similarity_score', 0)
-        answer = f"**الإجابة:**\n\n{content}\n\n---\n**دقة المطابقة:** {score:.0%}"
-        return answer

 # response_generator.py
+from openai import OpenAI
 from utils import setup_logger
 from config import Config
 class ResponseGenerator:
     def __init__(self):
         """
+        Initialize connection to OpenAI
         """
+        logger.info("Response generator initialized (LLM mode)")
+        # Check if API Key exists
+        if not Config.OPENAI_API_KEY:
+            logger.error("OPENAI_API_KEY is missing in Config or Environment variables.")
+            self.client = None
+        else:
+            self.client = OpenAI(api_key=Config.OPENAI_API_KEY)
     def generate_response(self, query, relevant_docs):
         """
+        Generate a formalized short answer using LLM based on retrieved docs
         """
+        # 1. Handle no results found
+        if len(relevant_docs) == 0:
+            return "عذرًا، لم أجد أي معلومات ذات صلة في المستندات."
+        # 2. Handle missing API Key gracefully
+        if not self.client:
+            return "عذرًا، لم يتم إعداد مفتاح API الخاص بالنموذج اللغوي."
         try:
+            # 3. Construct the Context
+            # We combine the content of the top retrieved chunks
+            context_text = "\n\n".join(relevant_docs['content'].tolist())
+            # 4. Define the System Prompt
+            # Instructions: Act as a helpful assistant, use Arabic, be formal and short.
+            system_instruction = (
+                "أنت مساعد ذكي ومحترف. مهمتك هي الإجابة على سؤال المستخدم بدقة."
+                "استخدم فقط المعلومات الواردة في 'السياق' أدناه."
+                "إذا لم تكن الإجابة موجودة في السياق، قل 'لا تتوفر معلومات'."
+                "اجعل إجابتك قصيرة، رسمية، ومباشرة."
+            )
+            # 5. Define the User Message
+            user_message = f"السياق:\n{context_text}\n\nالسؤال: {query}"
+            # 6. Call OpenAI API
+            response = self.client.chat.completions.create(
+                model=Config.OPENAI_MODEL,
+                messages=[
+                    {"role": "system", "content": system_instruction},
+                    {"role": "user", "content": user_message}
+                ],
+                temperature=0.3, # Low temperature for more factual/consistent answers
+                max_tokens=200   # Limit tokens to ensure a short answer
+            )
+            # 7. Extract the answer
+            answer = response.choices[0].message.content.strip()
+            return answer
         except Exception as e:
+            logger.error(f"Error generating LLM response: {e}")
+            return "عذرًا، واجهت مشكلة أثناء صياغة الإجابة."