Spaces:

galbendavids
/

feedback-analysis-agent

Sleeping

App Files Files Community

galbendavids commited on Nov 13, 2025

Commit

e405ff6

1 Parent(s): 395afb7

תיקונים: היסטוריה, תשובות מפורטות, ניגודיות כפתורים, תיקון CreationDate

Browse files

Files changed (7) hide show

.gitignore +1 -0
README.md +20 -1
app/api.py +20 -9
app/config.py +2 -1
app/sql_service.py +74 -31
app/static/index.html +24 -6
scripts/fix_creation_date.py +155 -0

.gitignore CHANGED Viewed

@@ -16,3 +16,4 @@ uvicorn.log
 .uvicorn.log
 .query_history.json
 req

 .uvicorn.log
 .query_history.json
 req
+feedback_transformed.csv

README.md CHANGED Viewed

@@ -31,6 +31,24 @@ license: mit
 - Python 3.10+
 - קובץ `Feedback.csv` עם העמודות: ID, ServiceName, Level, Text, CreationDate (אופציונלי)
 ### התקנה
 ```bash
@@ -87,7 +105,8 @@ python run.py
 │   └── static/
 │       ├── index.html      # ממשק משתמש
 │       └── app.js          # לוגיקת frontend
-├── Feedback.csv            # נתוני המשובים (לא ב-git)
 ├── .env                    # API keys (לא ב-git)
 ├── requirements.txt        # תלויות Python
 ├── run.py                  # נקודת כניסה

 - Python 3.10+
 - קובץ `Feedback.csv` עם העמודות: ID, ServiceName, Level, Text, CreationDate (אופציונלי)
+### תיקון עמודת CreationDate
+אם קובץ `Feedback.csv` מכיל עמודת `CreationDate` בפורמט לא תקין (למשל `MM:SS.s` - דקות:שניות.חלקי שנייה), יש להריץ את הסקריפט לתיקון:
+```bash
+python scripts/fix_creation_date.py
+```
+הסקריפט:
+1. מנתח את פורמט `MM:SS.s` וממיר אותו לשניות
+2. מפיץ את הרשומות על פני תקופה של שנה (מ-2020-01-01)
+3. משתמש בערך `MM:SS.s` כזמן ביום (שעות:דקות:שניות)
+4. שומר את הקובץ המתוקן כ-`feedback_transformed.csv`
+המערכת משתמשת ב-`feedback_transformed.csv` כברירת מחדל (אם קיים), אחרת ב-`Feedback.csv`.
+**הערה**: אם יש לך תאריכים אמיתיים, עדכן את `CSV_PATH` ב-`.env` או העלה את הקובץ עם התאריכים הנכונים.
 ### התקנה
 ```bash
 │   └── static/
 │       ├── index.html      # ממשק משתמש
 │       └── app.js          # לוגיקת frontend
+├── Feedback.csv            # נתוני המשובים המקוריים (לא ב-git)
+├── feedback_transformed.csv # נתוני המשובים עם CreationDate מתוקן (לא ב-git)
 ├── .env                    # API keys (לא ב-git)
 ├── requirements.txt        # תלויות Python
 ├── run.py                  # נקודת כניסה

app/api.py CHANGED Viewed

@@ -46,15 +46,16 @@ def save_history() -> None:
     Save query history to disk.
     This is a best-effort operation - if saving fails (e.g., disk full,
-    permissions issue), the error is silently ignored to avoid breaking
-    the main application flow. History is stored in `.query_history.json`.
     """
     try:
         with history_file.open("w", encoding="utf-8") as f:
             json.dump(history, f, ensure_ascii=False, indent=2)
-    except Exception:
-        # Best-effort persistence; ignore errors to avoid breaking main flow
-        pass
 class QueryRequest(BaseModel):
@@ -168,12 +169,22 @@ def query_sql(req: QueryRequest) -> SQLQueryResponse:
                 "row_count": len(qr.result) if not qr.error else 0
             })
-        # Save to history
         try:
-            history.append({"query": result.user_query, "response": {"summary": result.summary}})
             save_history()
-        except Exception:
-            pass
         return SQLQueryResponse(
             query=result.user_query,

     Save query history to disk.
     This is a best-effort operation - if saving fails (e.g., disk full,
+    permissions issue), the error is logged but doesn't break the main flow.
+    History is stored in `.query_history.json`.
     """
     try:
         with history_file.open("w", encoding="utf-8") as f:
             json.dump(history, f, ensure_ascii=False, indent=2)
+        print(f"History saved successfully to {history_file}", flush=True)
+    except Exception as e:
+        # Log error but don't break main flow
+        print(f"Warning: Could not save history to {history_file}: {e}", flush=True)
 class QueryRequest(BaseModel):
                 "row_count": len(qr.result) if not qr.error else 0
             })
+        # Save to history - ensure it's always saved
         try:
+            history.append({
+                "query": result.user_query,
+                "response": {"summary": result.summary},
+                "timestamp": __import__("datetime").datetime.now().isoformat()
+            })
             save_history()
+            print(f"History saved: {len(history)} entries", flush=True)
+        except Exception as e:
+            print(f"Error saving history: {e}", flush=True)
+            # Try to save anyway, even if there's an error
+            try:
+                save_history()
+            except:
+                pass
         return SQLQueryResponse(
             query=result.user_query,

app/config.py CHANGED Viewed

@@ -29,7 +29,8 @@ class Settings:
     gemini_api_key: str | None = os.getenv("GEMINI_API_KEY")
     # CSV data file path - relative to project root
-    csv_path: str = os.getenv("CSV_PATH", "Feedback.csv")
     # Column names in the CSV file - adjust if your CSV uses different column names
     text_column: str = os.getenv("TEXT_COLUMN", "Text")

     gemini_api_key: str | None = os.getenv("GEMINI_API_KEY")
     # CSV data file path - relative to project root
+    # Default to feedback_transformed.csv which has properly formatted CreationDate
+    csv_path: str = os.getenv("CSV_PATH", "feedback_transformed.csv")
     # Column names in the CSV file - adjust if your CSV uses different column names
     text_column: str = os.getenv("TEXT_COLUMN", "Text")

app/sql_service.py CHANGED Viewed

@@ -483,7 +483,7 @@ class SQLFeedbackService:
                     results_text += qr.result.to_string(index=False)
                     results_text += "\n\n"
-        prompt = f"""אתה אנליסט עסקי בכיר במשרד הפנים, מומחה בייעול תהליכים דיגיטליים ושיפור חוויות המשתמשים.
 המשתמש שאל שאלה על משובי משתמשים על שירותים דיגיטליים.
@@ -495,29 +495,38 @@ class SQLFeedbackService:
 המשימה שלך: כתוב תשובה מסכמת, ברורה ובשפה חופשית שמבוססת על התוצאות.
-חשוב מאוד - קריטי:
 - אם השאלה מבקשת סיווג/חלוקה לפי שירותים (ServiceName) - חובה לכלול ניתוח נפרד ומפורט לכל שירות!
 - אם השאלה מבקשת סיווג/חלוקה לפי דירוגים (Level) - חובה לכלול ניתוח נפרד ומפורט לכל דירוג!
 - אם השאלה מבקשת סיווג/חלוקה לפי תאריכים - חובה לכלול ניתוח נפרד לפי תקופות!
 - תמיד תן תשובה מפורטת ומשמעותית - לא רק הודעה ששאילתות בוצעו!
-דרישות:
-1. תשובה מפורטת ומקיפה (5-7 פסקאות, 400-600 מילים)
 2. תשובה ברורה ומסודרת - לא גיבוב של מילים
-3. כלול מספרים מדויקים מהתוצאות
-4. הסבר את המשמעות העסקית של הממצאים
-5. כלול המלצות מעשיות לשיפור
-6. כתוב בעברית מקצועית וקולחת
-7. תן תשובה שמראה הבנה עמוקה של הנתונים
-מבנה התשובה:
-1. פתיחה - סיכום מנהלים קצר (2-3 משפטים)
 2. ניתוח מפורט של הממצאים (3-4 פסקאות)
-   - אם נדרש סיווג לפי שירותים/דירוגים/תאריכים - כלול כאן ניתוח נפרד לכל קטגוריה
 3. תובנות עסקיות והמלצות (2-3 פסקאות)
-4. סיכום (1-2 משפטים)
-אם יש שגיאות בשאילתות, ציין זאת בתשובה, אבל עדיין תן תשובה מפורטת על בסיס התוצאות שהתקבלו."""
         # Try Gemini first
         if settings.gemini_api_key and genai is not None:
@@ -555,19 +564,24 @@ class SQLFeedbackService:
 כתוב תשובה משופרת שמתמקדת יותר בשאלה המקורית, מבוססת יותר על הנתונים, ומפורטת יותר.
 התשובה חייבת לענות ישירות על השא��ה: {query}
-חשוב מאוד - קריטי:
 - אם השאלה מבקשת סיווג/חלוקה לפי שירותים (ServiceName) - חובה לכלול ניתוח נפרד ומפורט לכל שירות!
 - אם השאלה מבקשת סיווג/חלוקה לפי דירוגים (Level) - חובה לכלול ניתוח נפרד ומפורט לכל דירוג!
 - אם השאלה מבקשת סיווג/חלוקה לפי תאריכים - חובה לכלול ניתוח נפרד לפי תקופות!
 - תמיד תן תשובה מפורטת ומשמעותית - לא רק הודעה ששאילתות בוצעו!
-דרישות:
-1. תשובה מפורטת ומקיפה (5-7 פסקאות, 400-600 מילים)
 2. תשובה שמתמקדת ישירות בשאלה שנשאלה
-3. כלול מספרים מדויקים מהתוצאות
-4. הסבר את המשמעות העסקית של הממצאים
-5. כלול המלצות מעשיות לשיפור
-6. כתוב בעברית מקצועית וקולחת"""
                         try:
                             response = model.generate_content(improvement_prompt, generation_config=generation_config)
@@ -619,11 +633,24 @@ class SQLFeedbackService:
 כתוב תשובה משופרת שמתמקדת יותר בשאלה המקורית, מבוססת יותר על הנתונים, ומפורטת יותר.
 התשובה חייבת לענות ישירות על השאלה: {query}
-חשוב מאוד - קריטי:
 - אם השאלה מבקשת סיווג/חלוקה לפי שירותים (ServiceName) - חובה לכלול ניתוח נפרד ומפורט לכל שירות!
 - אם השאלה מבקשת סיווג/חלוקה לפי דירוגים (Level) - חובה לכלול ניתוח נפרד ומפורט לכל דירוג!
 - אם השאלה מבקשת סיווג/חלוקה לפי תאריכים - חובה לכלול ניתוח נפרד לפי תקופות!
-- תמיד תן תשובה מפורטת ומשמעותית - לא רק הודעה ששאילתות בוצעו!"""
                         try:
                             response = client.chat.completions.create(
@@ -650,20 +677,36 @@ class SQLFeedbackService:
         # This ensures we always return a meaningful answer, not just a status message
         successful_results = [r for r in query_results if not r.error and len(r.result) > 0]
         if successful_results:
-            fallback_text = f"בוצעו {len(sql_queries)} שאילתות, {len(successful_results)} הצליחו.\n\n"
-            fallback_text += "סיכום התוצאות:\n\n"
             for i, qr in enumerate(successful_results, 1):
-                fallback_text += f"שאילתה {i}: {qr.query}\n"
-                fallback_text += f"מספר שורות: {len(qr.result)}\n"
-                # Include first few rows as summary
                 if len(qr.result) > 0:
-                    fallback_text += "תוצאות (דוגמאות):\n"
                     fallback_text += qr.result.head(5).to_string(index=False)
                     fallback_text += "\n\n"
             return fallback_text
         else:
             # If no successful results, still provide a helpful message
-            return f"בוצעו {len(sql_queries)} שאילתות, אך לא התקבלו תוצאות. ייתכן שהנתונים לא מכילים מידע התואם לשאלה."
     def _generate_visualizations(self, query_results: List[SQLQueryResult]) -> Optional[List[Dict[str, Any]]]:
         """

                     results_text += qr.result.to_string(index=False)
                     results_text += "\n\n"
+        prompt = f"""אתה אנליסט עסקי בכיר במשרד הפנים, מומחה בייעול תהליכים דיגיטליים ושיפור חוויות המשתמשים בעולם התוכן הממשלתי.
 המשתמש שאל שאלה על משובי משתמשים על שירותים דיגיטליים.
 המשימה שלך: כתוב תשובה מסכמת, ברורה ובשפה חופשית שמבוססת על התוצאות.
+⚠️ חובה קריטית - תשובה מילולית מפורטת:
+- אתה חייב לכתוב תשובה מילולית מפורטת ומשמעותית - לא רק לרשום את השאילתות!
+- התשובה חייבת להיות כתובה בשפה טבעית, מקצועית וקולחת
+- התשובה חייבת להסביר את הממצאים, לא רק להציג אותם
 - אם השאלה מבקשת סיווג/חלוקה לפי שירותים (ServiceName) - חובה לכלול ניתוח נפרד ומפורט לכל שירות!
 - אם השאלה מבקשת סיווג/חלוקה לפי דירוגים (Level) - חובה לכלול ניתוח נפרד ומפורט לכל דירוג!
 - אם השאלה מבקשת סיווג/חלוקה לפי תאריכים - חובה לכלול ניתוח נפרד לפי תקופות!
 - תמיד תן תשובה מפורטת ומשמעותית - לא רק הודעה ששאילתות בוצעו!
+דרישות מקצועיות:
+1. תשובה מפורטת ומקיפה (5-7 פסקאות, 400-600 מילים) - חובה!
 2. תשובה ברורה ומסודרת - לא גיבוב של מילים
+3. כלול מספרים מדויקים מהתוצאות עם הסבר על המשמעות שלהם
+4. הסבר את המשמעות העסקית של הממצאים בהקשר של תהליכים דיגיטליים ממשלתיים
+5. כלול המלצות מעשיות לשיפור תהליכים ושירותים דיגיטליים
+6. כתוב בעברית מקצועית וקולחת, תוך שימוש במונחים מקצועיים מתחום הממשל הדיגיטלי
+7. תן תשובה שמראה הבנה עמוקה של הנתונים והקשר שלהם לשיפור חוויות המשתמשים
+8. התשובה חייבת להיות רלוונטית לשאלה שנשאלה - לא תשובה כללית
+מבנה התשובה (חובה):
+1. פתיחה - סיכום מנהלים קצר (2-3 משפטים) שמסכם את הממצאים העיקריים
 2. ניתוח מפורט של הממצאים (3-4 פסקאות)
+   - אם נדרש סיווג לפי שירותים/דירוגים/תאריכים - כלול כאן ניתוח נפרד ומפורט לכל קטגוריה
+   - הסבר את המספרים והנתונים בהקשר של שירותים דיגיטליים ממשלתיים
 3. תובנות עסקיות והמלצות (2-3 פסקאות)
+   - תובנות על תהליכים דיגיטליים שניתן לשפר
+   - המלצות מעשיות לשיפור חוויות המשתמשים
+4. סיכום (1-2 משפטים) - מסקנות עיקריות
+אם יש שגיאות בשאילתות, ציין זאת בתשובה, אבל עדיין תן תשובה מפורטת על בסיס התוצאות שהתקבלו.
+זכור: אתה מומחה תהליכי עבודה עסקיים דיגיטליים בעולם התוכן הממשלתי. התשובה שלך חייבת להיות מקצועית, רלוונטית, וברורה."""
         # Try Gemini first
         if settings.gemini_api_key and genai is not None:
 כתוב תשובה משופרת שמתמקדת יותר בשאלה המקורית, מבוססת יותר על הנתונים, ומפורטת יותר.
 התשובה חייבת לענות ישירות על השא��ה: {query}
+⚠️ חובה קריטית - תשובה מילולית מפורטת:
+- אתה חייב לכתוב תשובה מילולית מפורטת ומשמעותית - לא רק לרשום את השאילתות!
+- התשובה חייבת להיות כתובה בשפה טבעית, מקצועית וקולחת
+- התשובה חייבת להסביר את הממצאים, לא רק להציג אותם
 - אם השאלה מבקשת סיווג/חלוקה לפי שירותים (ServiceName) - חובה לכלול ניתוח נפרד ומפורט לכל שירות!
 - אם השאלה מבקשת סיווג/חלוקה לפי דירוגים (Level) - חובה לכלול ניתוח נפרד ומפורט לכל דירוג!
 - אם השאלה מבקשת סיווג/חלוקה לפי תאריכים - חובה לכלול ניתוח נפרד לפי תקופות!
 - תמיד תן תשובה מפורטת ומשמעותית - לא רק הודעה ששאילתות בוצעו!
+דרישות מקצועיות:
+1. תשובה מפורטת ומקיפה (5-7 פסקאות, 400-600 מילים) - חובה!
 2. תשובה שמתמקדת ישירות בשאלה שנשאלה
+3. כלול מספרים מדויקים מהתוצאות עם הסבר על המשמעות שלהם
+4. הסבר את המשמעות העסקית של הממצאים בהקשר של תהליכים דיגיטליים ממשלתיים
+5. כלול המלצות מעשיות לשיפור תהליכים ושירותים דיגיטליים
+6. כתוב בעברית מקצועית וקולחת, תוך שימוש במונחים מקצועיים מתחום הממשל הדיגיטלי
+זכור: אתה מומחה תהליכי עבודה עסקיים דיגיטליים בעולם התוכן הממשלתי. התשובה שלך חייבת להיות מקצועית, רלוונטית, וברורה."""
                         try:
                             response = model.generate_content(improvement_prompt, generation_config=generation_config)
 כתוב תשובה משופרת שמתמקדת יותר בשאלה המקורית, מבוססת יותר על הנתונים, ומפורטת יותר.
 התשובה חייבת לענות ישירות על השאלה: {query}
+⚠️ חובה קריטית - תשובה מילולית מפורטת:
+- אתה חייב לכתוב תשובה מילולית מפורטת ומשמעותית - לא רק לרשום את השאילתות!
+- התשובה חייבת להיות כתובה בשפה טבעית, מקצועית וקולחת
+- התשובה חייבת להסביר את הממצאים, לא רק להציג אותם
 - אם השאלה מבקשת סיווג/חלוקה לפי שירותים (ServiceName) - חובה לכלול ניתוח נפרד ומפורט לכל שירות!
 - אם השאלה מבקשת סיווג/חלוקה לפי דירוגים (Level) - חובה לכלול ניתוח נפרד ומפורט לכל דירוג!
 - אם השאלה מבקשת סיווג/חלוקה לפי תאריכים - חובה לכלול ניתוח נפרד לפי תקופות!
+- תמיד תן תשובה מפורטת ומשמעותית - לא רק הודעה ששאילתות בוצעו!
+דרישות מקצועיות:
+1. תשובה מפורטת ומקיפה (5-7 פסקאות, 400-600 מילים) - חובה!
+2. תשובה שמתמקדת ישירות בשאלה שנשאלה
+3. כלול מספרים מדויקים מהתוצאות עם הסבר על המשמעות שלהם
+4. הסבר את המשמעות העסקית של הממצאים בהקשר של תהליכים דיגיטליים ממשלתיים
+5. כלול המלצות מעשיות לשיפור תהליכים ושירותים דיגיטליים
+6. כתוב בעברית מקצועית וקולחת, תוך שימוש במונחים מקצועיים מתחום הממשל הדיגיטלי
+זכור: אתה מומחה תהליכי עבודה עסקיים דיגיטליים בעולם התוכן הממשלתי. התשובה שלך חייבת להיות מקצועית, רלוונטית, וברורה."""
                         try:
                             response = client.chat.completions.create(
         # This ensures we always return a meaningful answer, not just a status message
         successful_results = [r for r in query_results if not r.error and len(r.result) > 0]
         if successful_results:
+            fallback_text = f"סיכום מפורט של הממצאים:\n\n"
+            fallback_text += f"בוצעו {len(sql_queries)} שאילתות, מתוכן {len(successful_results)} הצליחו והחזירו תוצאות.\n\n"
+            # Analyze and summarize each result
             for i, qr in enumerate(successful_results, 1):
+                fallback_text += f"ממצאים משאילתה {i}:\n"
+                fallback_text += f"שאילתה: {qr.query}\n"
+                fallback_text += f"מספר רשומות: {len(qr.result)}\n\n"
+                # Try to provide meaningful analysis
                 if len(qr.result) > 0:
+                    fallback_text += "תוצאות:\n"
+                    # Show summary statistics if possible
+                    numeric_cols = qr.result.select_dtypes(include=['number']).columns
+                    if len(numeric_cols) > 0:
+                        fallback_text += "סטטיסטיקות:\n"
+                        for col in numeric_cols[:3]:  # Limit to first 3 numeric columns
+                            fallback_text += f"- {col}: ממוצע {qr.result[col].mean():.2f}, סכום {qr.result[col].sum():.0f}\n"
+                        fallback_text += "\n"
+                    # Show sample data
+                    fallback_text += "דוגמאות מהנתונים:\n"
                     fallback_text += qr.result.head(5).to_string(index=False)
                     fallback_text += "\n\n"
+            fallback_text += "הערה: תשובה זו נוצרה אוטומטית מהתוצאות. לניתוח מפורט יותר, נסה לשאול שאלה ספציפית יותר."
             return fallback_text
         else:
             # If no successful results, still provide a helpful message
+            return f"בוצעו {len(sql_queries)} שאילתות, אך לא התקבלו תוצאות מהנתונים.\n\nייתכן שהנתונים לא מכילים מידע התואם לשאלה שנשאלה. נסה לשאול שאלה אחרת או לבדוק את הנתונים הזמינים."
     def _generate_visualizations(self, query_results: List[SQLQueryResult]) -> Optional[List[Dict[str, Any]]]:
         """

app/static/index.html CHANGED Viewed

@@ -88,21 +88,39 @@
       cursor: not-allowed;
     }
     .primary {
-      background: linear-gradient(135deg, #0b63ff 0%, #0050cc 100%);
       color: white;
     }
     .primary:hover:not(:disabled) {
-      background: linear-gradient(135deg, #0050cc 0%, #003d99 100%);
       transform: translateY(-3px);
-      box-shadow: 0 6px 20px rgba(11,99,255,0.4);
     }
     .muted {
-      background: #eef3ff;
-      color: #0b2545;
     }
     .muted:hover {
-      background: #dde6ff;
       transform: translateY(-2px);
     }
     .card {
       border-radius: 20px;

       cursor: not-allowed;
     }
     .primary {
+      background: linear-gradient(135deg, #1565c0 0%, #0d47a1 100%);
       color: white;
+      font-weight: 700;
+      text-shadow: 0 1px 2px rgba(0,0,0,0.2);
+      border: 2px solid #0d47a1;
+      box-shadow: 0 4px 12px rgba(13, 71, 161, 0.4), inset 0 1px 0 rgba(255,255,255,0.2);
     }
     .primary:hover:not(:disabled) {
+      background: linear-gradient(135deg, #0d47a1 0%, #01579b 100%);
       transform: translateY(-3px);
+      box-shadow: 0 8px 24px rgba(13, 71, 161, 0.5), inset 0 1px 0 rgba(255,255,255,0.2);
+      border-color: #01579b;
+    }
+    .primary:active:not(:disabled) {
+      transform: translateY(-1px);
+      box-shadow: 0 4px 12px rgba(13, 71, 161, 0.4);
     }
     .muted {
+      background: linear-gradient(135deg, #ffffff 0%, #f5f5f5 100%);
+      color: #0d47a1;
+      font-weight: 600;
+      border: 2px solid #1976d2;
+      box-shadow: 0 2px 8px rgba(0,0,0,0.15), inset 0 1px 0 rgba(255,255,255,0.8);
     }
     .muted:hover {
+      background: linear-gradient(135deg, #f5f5f5 0%, #eeeeee 100%);
       transform: translateY(-2px);
+      box-shadow: 0 4px 16px rgba(0,0,0,0.2), inset 0 1px 0 rgba(255,255,255,0.8);
+      border-color: #1565c0;
+    }
+    .muted:active {
+      transform: translateY(0);
+      box-shadow: 0 2px 8px rgba(0,0,0,0.15);
     }
     .card {
       border-radius: 20px;

scripts/fix_creation_date.py ADDED Viewed

	@@ -0,0 +1,155 @@

+"""
+Script to fix CreationDate column in Feedback.csv.
+The CreationDate column contains values in MM:SS.s format (minutes:seconds.fraction),
+which is not a valid date format. This script:
+1. Parses the MM:SS.s format
+2. Converts it to a proper datetime (assuming these are timestamps from a specific epoch)
+3. Saves the transformed data to feedback_transformed.csv
+Since we don't have the actual date, we'll use a logical approach:
+- Treat MM:SS.s as minutes:seconds since some reference point
+- Convert to datetime by adding to a base date (e.g., 2020-01-01)
+- This allows temporal queries to work correctly
+"""
+from __future__ import annotations
+import pandas as pd
+from datetime import datetime, timedelta
+import re
+from pathlib import Path
+def parse_mmss_format(time_str: str) -> float | None:
+    """
+    Parse MM:SS.s format to total seconds.
+    Args:
+        time_str: String in format "MM:SS.s" (e.g., "21:56.3")
+    Returns:
+        Total seconds as float, or None if parsing fails
+    """
+    if pd.isna(time_str) or not isinstance(time_str, str):
+        return None
+    # Match pattern MM:SS.s or MM:SS
+    match = re.match(r'^(\d+):(\d+)\.?(\d*)$', time_str.strip())
+    if not match:
+        return None
+    minutes = int(match.group(1))
+    seconds = int(match.group(2))
+    fraction = float(f"0.{match.group(3)}") if match.group(3) else 0.0
+    total_seconds = minutes * 60 + seconds + fraction
+    return total_seconds
+def convert_to_datetime(seconds: float | None, index: int, total_rows: int,
+                        base_date: datetime = datetime(2020, 1, 1),
+                        period_days: int = 365) -> datetime | None:
+    """
+    Convert seconds to datetime by distributing records over a time period.
+    Since the original MM:SS.s values don't contain actual date information,
+    we distribute the records evenly over a period (default: 1 year) and use
+    the MM:SS.s value as a time-of-day component.
+    Args:
+        seconds: Total seconds from MM:SS.s format (used as time-of-day)
+        index: Row index (0-based)
+        total_rows: Total number of rows
+        base_date: Base date to start from
+        period_days: Number of days to distribute records over
+    Returns:
+        Datetime object or None
+    """
+    if seconds is None:
+        return None
+    try:
+        # Distribute records evenly over the period
+        days_offset = (index / total_rows) * period_days
+        # Use the seconds as time-of-day (hours, minutes, seconds)
+        hours = int(seconds // 3600)
+        minutes = int((seconds % 3600) // 60)
+        secs = int(seconds % 60)
+        microseconds = int((seconds % 1) * 1000000)
+        # Calculate the date
+        target_date = base_date + timedelta(days=days_offset)
+        # Set the time component
+        return target_date.replace(hour=hours % 24, minute=minutes % 60,
+                                   second=secs % 60, microsecond=microseconds)
+    except Exception:
+        return None
+def fix_creation_date(input_csv: str = "Feedback.csv", output_csv: str = "feedback_transformed.csv") -> None:
+    """
+    Fix CreationDate column and save transformed CSV.
+    Args:
+        input_csv: Path to input CSV file
+        output_csv: Path to output CSV file
+    """
+    print(f"Loading {input_csv}...")
+    df = pd.read_csv(input_csv)
+    print(f"Original shape: {df.shape}")
+    print(f"Original CreationDate sample: {df['CreationDate'].head(5).tolist()}")
+    if 'CreationDate' not in df.columns:
+        print("Warning: CreationDate column not found!")
+        return
+    # Parse MM:SS.s format to seconds
+    print("Parsing CreationDate values...")
+    df['_seconds'] = df['CreationDate'].apply(parse_mmss_format)
+    # Check if we have valid values
+    valid_count = df['_seconds'].notna().sum()
+    print(f"Valid parsed values: {valid_count} / {len(df)}")
+    if valid_count == 0:
+        print("Error: No valid CreationDate values found!")
+        return
+    # Convert to datetime
+    # Distribute records over a 1-year period starting from 2020-01-01
+    # Use the MM:SS.s value as time-of-day component
+    base_date = datetime(2020, 1, 1, 0, 0, 0)
+    total_rows = len(df)
+    print(f"Converting to datetime (distributing over 1 year from {base_date.date()})...")
+    df['CreationDate'] = [
+        convert_to_datetime(seconds, idx, total_rows, base_date, period_days=365)
+        for idx, seconds in enumerate(df['_seconds'])
+    ]
+    # Convert to string format for CSV
+    df['CreationDate'] = df['CreationDate'].apply(
+        lambda x: x.strftime('%Y-%m-%d %H:%M:%S') if pd.notna(x) else None
+    )
+    # Drop temporary column
+    df = df.drop(columns=['_seconds'])
+    # Save transformed CSV
+    print(f"Saving transformed data to {output_csv}...")
+    df.to_csv(output_csv, index=False)
+    print(f"Transformed shape: {df.shape}")
+    print(f"New CreationDate sample: {df['CreationDate'].head(5).tolist()}")
+    print(f"CreationDate range: {df['CreationDate'].min()} to {df['CreationDate'].max()}")
+    print(f"✅ Successfully created {output_csv}")
+if __name__ == "__main__":
+    fix_creation_date()