Spaces:

parthnuwal7
/

ABSA

Sleeping

App Files Files Community

parthnuwal7 commited on Dec 19, 2025

Commit

99cc145

1 Parent(s): a8443d7

Updating models

Browse files

Files changed (1) hide show

src/utils/data_processor.py +44 -0

src/utils/data_processor.py CHANGED Viewed

@@ -1081,8 +1081,49 @@ class DataProcessor:
         if task_id and self.task_manager:
             self.task_manager.update_task(task_id, stage='completed', progress=100)
         return {
             'processed_data': df_processed,
             'absa_details': absa_results,
             'areas_of_improvement': areas_of_improvement,
             'strength_anchors': strength_anchors,
@@ -1092,6 +1133,9 @@ class DataProcessor:
             'micro_summaries': micro_summaries,
             'summary': {
                 'total_reviews': len(df_processed),
                 'languages_detected': list(set(detected_languages)),
                 'intents_distribution': pd.Series([r['intent'] for r in intent_results]).value_counts().to_dict(),
                 'sentiment_distribution': pd.Series(overall_sentiment).value_counts().to_dict(),

         if task_id and self.task_manager:
             self.task_manager.update_task(task_id, stage='completed', progress=100)
+        # ========== NEW: ASPECT-LEVEL DATA TRANSFORMATION ==========
+        aspect_level_data = []
+        mixed_sentiment_reviews = []
+        for idx, row in df_processed.iterrows():
+            aspects = row['aspects'] if isinstance(row['aspects'], list) else []
+            aspect_sentiments = row['aspect_sentiments'] if isinstance(row['aspect_sentiments'], list) else []
+            # Check for mixed sentiments (conflicting aspect sentiments)
+            unique_sentiments = set(aspect_sentiments)
+            is_mixed = ('Positive' in unique_sentiments and 'Negative' in unique_sentiments)
+            if is_mixed:
+                mixed_sentiment_reviews.append({
+                    'review_id': row['id'],
+                    'review': row['review'],
+                    'aspects': aspects,
+                    'aspect_sentiments': aspect_sentiments,
+                    'intent': row['intent'],
+                    'date': row['date']
+                })
+            # Create aspect-level records
+            for aspect, sentiment in zip(aspects, aspect_sentiments):
+                aspect_level_data.append({
+                    'review_id': row['id'],
+                    'review': row['review'],
+                    'aspect': aspect,
+                    'aspect_sentiment': sentiment,
+                    'overall_sentiment': row['overall_sentiment'],
+                    'intent': row['intent'],
+                    'intent_severity': row['intent_severity'],
+                    'date': row['date'],
+                    'language': row['detected_language']
+                })
+        aspect_level_df = pd.DataFrame(aspect_level_data) if aspect_level_data else pd.DataFrame()
+        mixed_sentiment_df = pd.DataFrame(mixed_sentiment_reviews) if mixed_sentiment_reviews else pd.DataFrame()
         return {
             'processed_data': df_processed,
+            'aspect_level_data': aspect_level_df,  # NEW: Aspect-level granular data
+            'mixed_sentiment_reviews': mixed_sentiment_df,  # NEW: Mixed sentiment detection
             'absa_details': absa_results,
             'areas_of_improvement': areas_of_improvement,
             'strength_anchors': strength_anchors,
             'micro_summaries': micro_summaries,
             'summary': {
                 'total_reviews': len(df_processed),
+                'total_aspects': len(aspect_level_df),
+                'mixed_sentiment_count': len(mixed_sentiment_df),
+                'mixed_sentiment_pct': round(len(mixed_sentiment_df) / len(df_processed) * 100, 1) if len(df_processed) > 0 else 0,
                 'languages_detected': list(set(detected_languages)),
                 'intents_distribution': pd.Series([r['intent'] for r in intent_results]).value_counts().to_dict(),
                 'sentiment_distribution': pd.Series(overall_sentiment).value_counts().to_dict(),