Spaces:

boompack
/

hy

Build error

App Files Files Community

boompack commited on Nov 7, 2024

Commit

5be6938

verified ·

1 Parent(s): 55ab780

Update app.py

Browse files

Files changed (1) hide show

app.py +70 -38

app.py CHANGED Viewed

@@ -1,11 +1,12 @@
 from transformers import pipeline
 from dataclasses import dataclass, field
-from typing import List, Optional, Dict, Any
 import re
 from datetime import datetime
 import logging
 import html
 from uuid import uuid4
 # Настройка логирования
 logging.basicConfig(
@@ -45,6 +46,7 @@ class InstagramCommentAnalyzer:
     '''
     def __init__(self, max_depth: int = 10, max_comment_length: int = 2200):
         self.max_depth = max_depth
         self.max_comment_length = max_comment_length
         self.pattern = re.compile(self.COMMENT_PATTERN, re.VERBOSE | re.DOTALL)
@@ -58,16 +60,37 @@ class InstagramCommentAnalyzer:
             'processed_mentions': 0,
             'processed_hashtags': 0
         }
-        # Явное указание модели для анализа настроений
-        self.sentiment_analyzer = pipeline(
-            "sentiment-analysis",
-            model="distilbert-base-uncased-finetuned-sst-2-english"  # Выбор модели
-        )
     def analyze_sentiment(self, text: str) -> str:
-        result = self.sentiment_analyzer(text)
-        return result[0]['label']
     def normalize_text(self, text: str) -> str:
         text = html.unescape(text)
@@ -76,11 +99,14 @@ class InstagramCommentAnalyzer:
         return text
     def extract_metadata(self, comment: Comment) -> None:
-        comment.mentions = re.findall(r'@(\w+)', comment.content)
-        self.stats['processed_mentions'] += len(comment.mentions)
-        comment.hashtags = re.findall(r'#(\w+)', comment.content)
-        self.stats['processed_hashtags'] += len(comment.hashtags)
-        comment.is_verified = bool(re.search(r'✓|Подтвержденный', comment.username))
     def process_comment(self, text: str, parent_id: Optional[str] = None, level: int = 0) -> Optional[Comment]:
         if level > self.max_depth:
@@ -112,46 +138,52 @@ class InstagramCommentAnalyzer:
                 comment.content = comment.content[:self.max_comment_length] + "..."
             comment.sentiment = self.analyze_sentiment(comment.content)
             self.extract_metadata(comment)
             self.stats['total_comments'] += 1
             return comment
         except Exception as e:
             logger.error(f"Error processing comment: {str(e)}")
-            comment = Comment(
                 username="[damaged]",
                 time="",
                 content="[Поврежденные данные]",
                 is_deleted=True
             )
-            self.stats['deleted_comments'] += 1
-            return comment
     def format_comment(self, comment: Comment, index: int) -> str:
-        if comment.is_deleted:
-            return f'{index}. "[УДАЛЕНО]" "" "" "Нравится 0"'
-        return (
-            f'{index}. "{comment.username}" "{comment.time}" '
-            f'"{comment.content}" "Нравится {comment.likes}" "Настроение {comment.sentiment}"'
-        )
     def process_comments(self, text: str) -> List[str]:
-        self.stats = {key: 0 for key in self.stats}
-        text = self.normalize_text(text)
-        raw_comments = text.split('ОтветитьНравится')
-        formatted_comments = []
-        for i, raw_comment in enumerate(raw_comments, 1):
-            if not raw_comment.strip():
-                continue
-            comment = self.process_comment(raw_comment)
-            if comment:
-                formatted_comments.append(self.format_comment(comment, i))
-        return formatted_comments
 def main():
     example_text = """
     user1 2 нед. This is a positive comment! Отметки "Нравится": 25

 from transformers import pipeline
 from dataclasses import dataclass, field
+from typing import List, Optional, Dict
 import re
 from datetime import datetime
 import logging
 import html
 from uuid import uuid4
+import torch
 # Настройка логирования
 logging.basicConfig(
     '''
     def __init__(self, max_depth: int = 10, max_comment_length: int = 2200):
+        self.check_dependencies()
         self.max_depth = max_depth
         self.max_comment_length = max_comment_length
         self.pattern = re.compile(self.COMMENT_PATTERN, re.VERBOSE | re.DOTALL)
             'processed_mentions': 0,
             'processed_hashtags': 0
         }
+        self.sentiment_analyzer = self.load_sentiment_model()
+    def check_dependencies(self):
+        required_packages = ['torch', 'transformers', 'numpy']
+        for package in required_packages:
+            try:
+                __import__(package)
+            except ImportError:
+                logger.error(f"Required package {package} is not installed")
+                raise
+    def load_sentiment_model(self):
+        try:
+            device = "cuda" if torch.cuda.is_available() else "cpu"
+            logger.info(f"Using device: {device}")
+            return pipeline(
+                "sentiment-analysis",
+                model="distilbert-base-uncased-finetuned-sst-2-english",
+                device=device
+            )
+        except Exception as e:
+            logger.error(f"Model loading failed: {str(e)}")
+            raise
     def analyze_sentiment(self, text: str) -> str:
+        try:
+            result = self.sentiment_analyzer(text)
+            return result[0]['label']
+        except Exception as e:
+            logger.error(f"Sentiment analysis failed: {str(e)}")
+            return "UNKNOWN"
     def normalize_text(self, text: str) -> str:
         text = html.unescape(text)
         return text
     def extract_metadata(self, comment: Comment) -> None:
+        try:
+            comment.mentions = re.findall(r'@(\w+)', comment.content)
+            self.stats['processed_mentions'] += len(comment.mentions)
+            comment.hashtags = re.findall(r'#(\w+)', comment.content)
+            self.stats['processed_hashtags'] += len(comment.hashtags)
+            comment.is_verified = bool(re.search(r'✓|Подтвержденный', comment.username))
+        except Exception as e:
+            logger.error(f"Metadata extraction failed: {str(e)}")
     def process_comment(self, text: str, parent_id: Optional[str] = None, level: int = 0) -> Optional[Comment]:
         if level > self.max_depth:
                 comment.content = comment.content[:self.max_comment_length] + "..."
             comment.sentiment = self.analyze_sentiment(comment.content)
             self.extract_metadata(comment)
             self.stats['total_comments'] += 1
             return comment
         except Exception as e:
             logger.error(f"Error processing comment: {str(e)}")
+            self.stats['deleted_comments'] += 1
+            return Comment(
                 username="[damaged]",
                 time="",
                 content="[Поврежденные данные]",
                 is_deleted=True
             )
     def format_comment(self, comment: Comment, index: int) -> str:
+        try:
+            if comment.is_deleted:
+                return f'{index}. "[УДАЛЕНО]" "" "" "Нравится 0"'
+            return (
+                f'{index}. "{comment.username}" "{comment.time}" '
+                f'"{comment.content}" "Нравится {comment.likes}" "Настроени�� {comment.sentiment}"'
+            )
+        except Exception as e:
+            logger.error(f"Error formatting comment: {str(e)}")
+            return f'{index}. "[ОШИБКА ФОРМАТИРОВАНИЯ]"'
     def process_comments(self, text: str) -> List[str]:
+        try:
+            self.stats = {key: 0 for key in self.stats}
+            text = self.normalize_text(text)
+            raw_comments = text.split('ОтветитьНравится')
+            formatted_comments = []
+            for i, raw_comment in enumerate(raw_comments, 1):
+                if not raw_comment.strip():
+                    continue
+                comment = self.process_comment(raw_comment)
+                if comment:
+                    formatted_comments.append(self.format_comment(comment, i))
+            return formatted_comments
+        except Exception as e:
+            logger.error(f"Error processing comments: {str(e)}")
+            return ["[ОШИБКА ОБРАБОТКИ КОММЕНТАРИЕВ]"]
 def main():
     example_text = """
     user1 2 нед. This is a positive comment! Отметки "Нравится": 25