Spaces:

galbendavids
/

feedback-analysis-agent

Sleeping

App Files Files Community

galbendavids commited on Nov 13, 2025

Commit

af1f36c

1 Parent(s): f77d065

תיקונים: וידוא טעינת feedback_transformed.csv, שיפור פרומפטים, שיפור מבקר, תיקון היסטוריה

Browse files

Files changed (2) hide show

app/sql_service.py +92 -27
app/static/app.js +8 -3

app/sql_service.py CHANGED Viewed

@@ -104,10 +104,17 @@ class SQLFeedbackService:
             ValueError: If CSV is missing required columns (handled internally)
         """
         try:
             self.df = load_feedback()
-            print(f"Loaded {len(self.df)} feedback records", flush=True)
         except Exception as e:
-            print(f"Error loading feedback data: {e}", flush=True)
             self.df = None
     def _get_schema_info(self) -> str:
@@ -241,7 +248,14 @@ class SQLFeedbackService:
 מידע על הטבלה:
 {schema_info}
-המשימה שלך: צור 1 עד 5 שאילתות SQL שיעזרו לענות על השאלה. כל שאילתה צריכה להיות שימושית וממוקדת.
        כללים חשובים:
        1. השתמש בשמות השדות המדויקים: ID, ServiceName, Level, Text, CreationDate
@@ -265,6 +279,8 @@ class SQLFeedbackService:
   ]
 }}
 תן רק את ה-JSON, ללא טקסט נוסף."""
         # Try Gemini first
@@ -404,29 +420,62 @@ class SQLFeedbackService:
         return results
-    def _evaluate_answer_quality(self, query: str, answer: str) -> tuple[float, str]:
         """
         Evaluate the quality of an answer using an LLM reviewer.
         Returns:
             tuple: (score 0-100, feedback/reasoning)
         """
-        evaluation_prompt = f"""אתה בודק איכות תשובות. הערך את התשובה הבאה:
-שאלת המשתמש: {query}
 התשובה שניתנה:
 {answer}
-הערך את התשובה לפי הקריטריונים הבאים (0-100):
-1. האם התשובה עונה ישירות על השאלה? (0-30 נקודות)
    - אם השאלה מבקשת סיווג/חלוקה לפי שירותים (ServiceName) - האם התשובה כוללת ניתוח נפרד לכל שירות?
    - אם השאלה מבקשת סיווג/חלוקה לפי דירוגים (Level) - האם התשובה כוללת ניתוח נפרד לכל דירוג?
    - אם השאלה מבקשת סיווג/חלוקה לפי תאריכים - האם התשובה כוללת ניתוח נפרד לפי תקופות?
-2. האם התשובה מבוססת על הנתונים? (0-25 נקודות)
 3. האם התשובה מפורטת ומקיפה? (0-20 נקודות)
-4. האם התשובה ברורה ומובנת? (0-15 נקודות)
 5. האם התשובה כוללת תובנות עסקיות? (0-10 נקודות)
 תן ציון כולל (0-100) והסבר קצר (2-3 משפטים) למה הציון הזה.
@@ -523,14 +572,18 @@ class SQLFeedbackService:
         prompt = f"""אתה אנליסט עסקי בכיר במשרד הפנים, מומחה בייעול תהליכים דיגיטליים ושיפור חוויות המשתמשים בעולם התוכן הממשלתי.
-המשתמש שאל שאלה על משובי משתמשים על שירותים דיגיטליים.
-שאלת המשתמש: {query}
-כדי לענות על השאלה, בוצעו השאילתות הבאות והתקבלו התוצאות הבאות:
 {results_text}
 המשימה שלך: כתוב תשובה מסכמת, ברורה ובשפה חופשית שמבוססת על התוצאות.
 ⚠️ חובה קריטית - תשובה מילולית מפורטת:
@@ -582,8 +635,8 @@ class SQLFeedbackService:
                 if text and text.strip():
                     answer = text.strip()
-                    # Evaluate answer quality
-                    score, reasoning = self._evaluate_answer_quality(query, answer)
                     print(f"Answer quality score: {score:.1f}/100 - {reasoning}", flush=True)
                     # If score is below 80, try to improve
@@ -591,14 +644,20 @@ class SQLFeedbackService:
                         print(f"Answer quality below threshold (80). Attempting improvement...", flush=True)
                         improvement_prompt = f"""התשובה הקודמת קיבלה ציון {score}/100. הסיבה: {reasoning}
-שאלת המשתמש: {query}
-התשובה הקודמת:
 {answer}
 תוצאות השאילתות:
 {results_text}
 כתוב תשובה משופרת שמתמקדת יותר בשאלה המקורית, מבוססת יותר על הנתונים, ומפורטת יותר.
 התשובה חייבת לענות ישירות על השאלה: {query}
@@ -625,8 +684,8 @@ class SQLFeedbackService:
                             response = model.generate_content(improvement_prompt, generation_config=generation_config)
                             improved_text = getattr(response, "text", None)
                             if improved_text and improved_text.strip():
-                                # Re-evaluate improved answer
-                                improved_score, improved_reasoning = self._evaluate_answer_quality(query, improved_text.strip())
                                 print(f"Improved answer quality score: {improved_score:.1f}/100 - {improved_reasoning}", flush=True)
                                 if improved_score > score:
                                     return improved_text.strip()
@@ -651,8 +710,8 @@ class SQLFeedbackService:
                 if text and text.strip():
                     answer = text.strip()
-                    # Evaluate answer quality
-                    score, reasoning = self._evaluate_answer_quality(query, answer)
                     print(f"Answer quality score: {score:.1f}/100 - {reasoning}", flush=True)
                     # If score is below 80, try to improve
@@ -660,14 +719,20 @@ class SQLFeedbackService:
                         print(f"Answer quality below threshold (80). Attempting improvement...", flush=True)
                         improvement_prompt = f"""התשובה הקודמת קיבלה ציון {score}/100. הסיבה: {reasoning}
-שאלת המשתמש: {query}
-התשובה הקודמת:
 {answer}
 תוצאות השאילתות:
 {results_text}
 כתוב תשובה משופרת שמתמקדת יותר בשאלה המקורית, מבוססת יותר על הנתונים, ומפורטת יותר.
 התשובה חייבת לענות ישירות על השאלה: {query}
@@ -699,8 +764,8 @@ class SQLFeedbackService:
                             )
                             improved_text = response.choices[0].message.content
                             if improved_text and improved_text.strip():
-                                # Re-evaluate improved answer
-                                improved_score, improved_reasoning = self._evaluate_answer_quality(query, improved_text.strip())
                                 print(f"Improved answer quality score: {improved_score:.1f}/100 - {improved_reasoning}", flush=True)
                                 if improved_score > score:
                                     return improved_text.strip()

             ValueError: If CSV is missing required columns (handled internally)
         """
         try:
+            from .config import settings
             self.df = load_feedback()
+            csv_path_used = settings.csv_path
+            print(f"✅ Loaded {len(self.df)} feedback records from: {csv_path_used}", flush=True)
+            if 'CreationDate' in self.df.columns:
+                sample_dates = self.df['CreationDate'].head(3).tolist()
+                print(f"✅ CreationDate sample: {sample_dates}", flush=True)
         except Exception as e:
+            print(f"❌ Error loading feedback data: {e}", flush=True)
+            import traceback
+            traceback.print_exc()
             self.df = None
     def _get_schema_info(self) -> str:
 מידע על הטבלה:
 {schema_info}
+המשימה שלך: צור 1 עד 3 שאילתות SQL ממוקדות שיעזרו לענות על השאלה.
+⚠️ חשוב מאוד:
+- לא חייב להריץ כמה שאילתות - לפעמים מספיקה שאילתה אחת!
+- שאילתות צריכות להיות ממוקדות ולא מפוזרות
+- כל שאילתה צריכה להיות שימושית ונחוצה לענות על השאלה
+- אם השאלה פשוטה, מספיקה שאילתה אחת
+- אם השאלה מורכבת, אפשר 2-3 שאילתות ממוקדות
        כללים חשובים:
        1. השתמש בשמות השדות המדויקים: ID, ServiceName, Level, Text, CreationDate
   ]
 }}
+⚠️ זכור: לא חייב להריץ כמה שאילתות! אם השאלה פשוטה, מספיקה שאילתה אחת ממוקדת.
 תן רק את ה-JSON, ללא טקסט נוסף."""
         # Try Gemini first
         return results
+    def _evaluate_answer_quality(self, query: str, answer: str, sql_queries: List[str] = None, query_results: List = None) -> tuple[float, str]:
         """
         Evaluate the quality of an answer using an LLM reviewer.
+        Args:
+            query: The user's original question
+            answer: The synthesized answer to evaluate
+            sql_queries: List of SQL queries that were executed (optional, for context)
+            query_results: Results from executing those queries (optional, for context)
         Returns:
             tuple: (score 0-100, feedback/reasoning)
         """
+        # Build context about queries and results if available
+        context_text = ""
+        if sql_queries and query_results:
+            context_text = "\n\nהשאילתות שבוצעו:\n"
+            for i, (q, r) in enumerate(zip(sql_queries, query_results), 1):
+                context_text += f"{i}. {q}\n"
+                if hasattr(r, 'error') and r.error:
+                    context_text += f"   שגיאה: {r.error}\n"
+                elif hasattr(r, 'result'):
+                    context_text += f"   תוצאות: {len(r.result) if hasattr(r.result, '__len__') else 'N/A'} שורות\n"
+        evaluation_prompt = f"""אתה בודק איכות תשובות מקצועי. הערך את התשובה הבאה:
+שאלת המשתמש המקורית: {query}
+{context_text}
 התשובה שניתנה:
 {answer}
+⚠️ הערך את התשובה לפי הקריטריונים הבאים (0-100):
+1. האם התשובה עונה ישירות על השאלה המקורית? (0-30 נקודות)
+   - האם התשובה מתייחסת ישירות לשאלה: {query}?
    - אם השאלה מבקשת סיווג/חלוקה לפי שירותים (ServiceName) - האם התשובה כוללת ניתוח נפרד לכל שירות?
    - אם השאלה מבקשת סיווג/חלוקה לפי דירוגים (Level) - האם התשובה כוללת ניתוח נפרד לכל דירוג?
    - אם השאלה מבקשת סיווג/חלוקה לפי תאריכים - האם התשובה כוללת ניתוח נפרד לפי תקופות?
+   - האם התשובה היא תשובה מילולית מפורטת ולא רק הודעה ששאילתות בוצעו?
+2. ��אם התשובה מבוססת על הנתונים והשאילתות? (0-25 נקודות)
+   - האם התשובה משתמשת בנתונים מהשאילתות?
+   - האם התשובה מסבירה איך השאילתות עוזרות לענות על השאלה?
+   - האם התשובה כוללת מספרים מדויקים מהתוצאות?
 3. האם התשובה מפורטת ומקיפה? (0-20 נקודות)
+   - האם התשובה ארוכה ומפורטת (לפחות 400-600 מילים)?
+   - האם התשובה כוללת ניתוח מעמיק ולא רק רשימת נתונים?
+4. האם התשובה ברורה וקוהרנטית? (0-15 נקודות)
+   - האם התשובה כתובה בשפה ברורה ומובנת?
+   - האם התשובה מאורגנת היטב (לא גיבוב של מילים)?
 5. האם התשובה כוללת תובנות עסקיות? (0-10 נקודות)
+   - האם התשובה כוללת תובנות על תהליכים דיגיטליים?
+   - האם התשובה כוללת המלצות מעשיות?
 תן ציון כולל (0-100) והסבר קצר (2-3 משפטים) למה הציון הזה.
         prompt = f"""אתה אנליסט עסקי בכיר במשרד הפנים, מומחה בייעול תהליכים דיגיטליים ושיפור חוויות המשתמשים בעולם התוכן הממשלתי.
+שאלת המשתמש המקורית: {query}
+כדי לענות על השאלה, נוצרו ובוצעו השאילתות הבאות:
 {results_text}
+⚠️ חשוב מאוד - הבנת השאלה והתשובה:
+1. קרא היטב את שאלת המשתמש המקורית: {query}
+2. הבן למה כל שאילתה נוצרה - מה היא מנסה לגלות?
+3. הבן איך התוצאות של כל שאילתה מסייעות לענות על השאלה המקורית
+4. חשוב היטב איך לאחד את כל המידע (השאלה + השאילתות + התוצאות) לתשובה קוהרנטית וברורה
 המשימה שלך: כתוב תשובה מסכמת, ברורה ובשפה חופשית שמבוססת על התוצאות.
 ⚠️ חובה קריטית - תשובה מילולית מפורטת:
                 if text and text.strip():
                     answer = text.strip()
+                    # Evaluate answer quality with context
+                    score, reasoning = self._evaluate_answer_quality(query, answer, sql_queries, query_results)
                     print(f"Answer quality score: {score:.1f}/100 - {reasoning}", flush=True)
                     # If score is below 80, try to improve
                         print(f"Answer quality below threshold (80). Attempting improvement...", flush=True)
                         improvement_prompt = f"""התשובה הקודמת קיבלה ציון {score}/100. הסיבה: {reasoning}
+שאלת המשתמש המקורית: {query}
+התשובה הקודמת (שצריך לשפר):
 {answer}
 תוצאות השאילתות:
 {results_text}
+⚠️ חשוב מאוד - הבנת השאלה והתשובה:
+1. קרא היטב את שאלת המשתמש המקורית: {query}
+2. הבן למה כל שאילתה נוצרה - מה היא מנסה לגלות?
+3. הבן איך התוצאות של כל שאילתה מסייעות לענות על השאלה המקורית
+4. חשוב היטב איך לאחד את כל המידע (השאלה + השאילתות + התוצאות) לתשובה קוהרנטית וברורה
 כתוב תשובה משופרת שמתמקדת יותר בשאלה המקורית, מבוססת יותר על הנתונים, ומפורטת יותר.
 התשובה חייבת לענות ישירות על השאלה: {query}
                             response = model.generate_content(improvement_prompt, generation_config=generation_config)
                             improved_text = getattr(response, "text", None)
                             if improved_text and improved_text.strip():
+                                # Re-evaluate improved answer with context
+                                improved_score, improved_reasoning = self._evaluate_answer_quality(query, improved_text.strip(), sql_queries, query_results)
                                 print(f"Improved answer quality score: {improved_score:.1f}/100 - {improved_reasoning}", flush=True)
                                 if improved_score > score:
                                     return improved_text.strip()
                 if text and text.strip():
                     answer = text.strip()
+                    # Evaluate answer quality with context
+                    score, reasoning = self._evaluate_answer_quality(query, answer, sql_queries, query_results)
                     print(f"Answer quality score: {score:.1f}/100 - {reasoning}", flush=True)
                     # If score is below 80, try to improve
                         print(f"Answer quality below threshold (80). Attempting improvement...", flush=True)
                         improvement_prompt = f"""התשובה הקודמת קיבלה ציון {score}/100. הסיבה: {reasoning}
+שאלת המשתמש המקורית: {query}
+התשובה הקודמת (שצריך לשפר):
 {answer}
 תוצאות השאילתות:
 {results_text}
+⚠️ חשוב מאוד - הבנת השאלה והתשובה:
+1. קרא היטב את שאלת המשתמש המקורית: {query}
+2. הבן למה כל שאילתה נוצרה - מה היא מנסה לגלות?
+3. הבן איך התוצאות של כל שאילתה מסייעות לענות על השאלה המקורית
+4. חשוב היטב איך לאחד את כל המידע (השאלה + השאילתות + התוצאות) לתשובה קוהרנטית וברורה
 כתוב תשובה משופרת שמתמקדת יותר בשאלה המקורית, מבוססת יותר על הנתונים, ומפורטת יותר.
 התשובה חייבת לענות ישירות על השאלה: {query}
                             )
                             improved_text = response.choices[0].message.content
                             if improved_text and improved_text.strip():
+                                # Re-evaluate improved answer with context
+                                improved_score, improved_reasoning = self._evaluate_answer_quality(query, improved_text.strip(), sql_queries, query_results)
                                 print(f"Improved answer quality score: {improved_score:.1f}/100 - {improved_reasoning}", flush=True)
                                 if improved_score > score:
                                     return improved_text.strip()

app/static/app.js CHANGED Viewed

@@ -51,7 +51,10 @@ async function refreshHistory() {
     });
   } catch (e) {
     console.error('history fetch failed', e);
-    container.innerHTML = '<div style="color: #d32f2f;">שגיאה בטעינת ההיסטוריה</div>';
   }
 }
@@ -126,8 +129,10 @@ async function sendQuery() {
       showVisualizations(j.visualizations);
     }
-    // Refresh history
-    await refreshHistory();
     // Scroll to response
     responseSection.scrollIntoView({ behavior: 'smooth', block: 'start' });

     });
   } catch (e) {
     console.error('history fetch failed', e);
+    const container = document.getElementById('history');
+    if (container) {
+      container.innerHTML = '<div style="color: #d32f2f;">שגיאה בטעינת ההיסטוריה: ' + escapeHtml(e.message) + '</div>';
+    }
   }
 }
       showVisualizations(j.visualizations);
     }
+    // Refresh history after a short delay to ensure server has saved it
+    setTimeout(async () => {
+      await refreshHistory();
+    }, 500);
     // Scroll to response
     responseSection.scrollIntoView({ behavior: 'smooth', block: 'start' });