Spaces:

khjhs60199
/

pyCrawing

Sleeping

App Files Files Community

khjhs60199 commited on Sep 17, 2025

Commit

0ced4e8

verified ·

1 Parent(s): e0eac9b

Update crawler.py

Browse files

Files changed (1) hide show

crawler.py +41 -28

crawler.py CHANGED Viewed

@@ -27,7 +27,7 @@ class NewsItem:
     sentiment_score: Optional[float] = None
 class CnYesNewsCrawler:
-    """鉅亨網新聞爬蟲 - 無限制版"""
     def __init__(self, sentiment_analyzer=None, database=None):
         self.base_url = "https://news.cnyes.com"
@@ -56,7 +56,7 @@ class CnYesNewsCrawler:
         # 設置請求頭
         self._setup_headers()
-        logger.info("爬蟲初始化完成")
         logger.info(f"美股URL: {self.categories['us_stock']}")
         logger.info(f"台股URL: {self.categories['tw_stock']}")
@@ -122,8 +122,8 @@ class CnYesNewsCrawler:
         return None
-    def _extract_article_urls(self, category_url: str, max_pages: int = 3) -> List[str]:
-        """從分類頁面提取文章URL - 增加頁數"""
         article_urls = []
         for page in range(1, max_pages + 1):
@@ -166,7 +166,7 @@ class CnYesNewsCrawler:
                 self._notify_progress(f"📄 第 {page} 頁找到 {len(page_urls)} 篇文章")
                 if not page_urls:
-                    logger.warning(f"第 {page} 頁沒有找到文章")
                     break
                 if page < max_pages:
@@ -349,47 +349,55 @@ class CnYesNewsCrawler:
         return None
-    def crawl_category(self, category: str, max_articles: int = None) -> List[NewsItem]:
-        """爬取指定分類的新聞 - 移除文章數量限制"""
         if category not in self.categories:
             logger.error(f"無效的分類: {category}")
             return []
         category_name = "美股" if category == "us_stock" else "台股"
-        self._notify_progress(f"🚀 開始爬取 {category_name} 分類新聞")
         # 獲取文章URL列表
         category_url = self.categories[category]
-        article_urls = self._extract_article_urls(category_url, max_pages=3)  # 增加到3頁
         if not article_urls:
             self._notify_progress(f"⚠️ 未找到 {category_name} 分類的文章URL")
             return []
-        # **關鍵修正：不限制文章數量**
         total_articles = len(article_urls)
-        if max_articles and max_articles > 0:
-            # 只有在明確指定max_articles時才限制
-            if len(article_urls) > max_articles:
-                article_urls = article_urls[:max_articles]
-                self._notify_progress(f"⚠️ 限制處理文章數量為 {max_articles} 篇")
-        self._notify_progress(f"📊 將處理 {len(article_urls)} 篇文章（共找到 {total_articles} 篇）")
         # 提取文章內容並即時分析存檔
         articles = []
         success_count = 0
         error_count = 0
-        for i, url in enumerate(article_urls, 1):
             try:
-                self._notify_progress(f"📖 處理 {category_name} 文章 {i}/{len(article_urls)}: 正在提取內容...")
                 article = self._extract_article_content(url, category)
                 if article:
                     # 即時情感分析
                     if self.sentiment_analyzer:
-                        self._notify_progress(f"🧠 分析 {category_name} 文章 {i}/{len(article_urls)}: {article.title[:30]}...")
                         sentiment_result = self.sentiment_analyzer.analyze_sentiment(
                             article.content, article.title
                         )
@@ -418,16 +426,18 @@ class CnYesNewsCrawler:
                                     success_count += 1
                                 else:
                                     self._notify_progress(f"⏭️ 跳過重複 {category_name} 文章: {article.title[:30]}...")
                             else:
                                 self._notify_progress(f"⏭️ 跳過重複 {category_name} 文章: {article.title[:30]}...")
                     articles.append(article)
                 else:
                     error_count += 1
                 # 文章間延遲
-                if i < len(article_urls):
-                    time.sleep(random.uniform(3, 8))  # 縮短延遲時間
             except Exception as e:
                 logger.error(f"處理文章時發生錯誤 {url}: {e}")
@@ -435,26 +445,29 @@ class CnYesNewsCrawler:
                 error_count += 1
                 continue
-        self._notify_progress(f"✅ {category_name} 分類爬取完成，共處理 {len(articles)} 篇文章（成功: {success_count}, 錯誤: {error_count}）")
         return articles
-    def crawl_all_categories(self, max_articles_per_category: int = None) -> Dict[str, List[NewsItem]]:
-        """爬取所有分類的新聞 - 移除限制"""
         results = {}
         for category in self.categories.keys():
             try:
                 category_name = "美股" if category == "us_stock" else "台股"
                 self._notify_progress(f"🎯 開始爬取 {category_name} 分類")
-                # **關鍵修正：傳遞None表示不限制**
-                articles = self.crawl_category(category, max_articles_per_category)
                 results[category] = articles
                 # 分類間延遲
                 if len(self.categories) > 1:
                     self._notify_progress(f"⏸️ 分類間休息...")
-                    time.sleep(random.uniform(20, 40))  # 縮短休息時間
             except Exception as e:
                 logger.error(f"爬取 {category} 分類時發生錯誤: {e}")
@@ -462,6 +475,6 @@ class CnYesNewsCrawler:
                 results[category] = []
         total_articles = sum(len(articles) for articles in results.values())
-        self._notify_progress(f"🎉 所有分類爬取完成，總共處理 {total_articles} 篇文章")
         return results

     sentiment_score: Optional[float] = None
 class CnYesNewsCrawler:
+    """鉅亨網新聞爬蟲 - 完全無限制版"""
     def __init__(self, sentiment_analyzer=None, database=None):
         self.base_url = "https://news.cnyes.com"
         # 設置請求頭
         self._setup_headers()
+        logger.info("爬蟲初始化完成 - 無限制模式")
         logger.info(f"美股URL: {self.categories['us_stock']}")
         logger.info(f"台股URL: {self.categories['tw_stock']}")
         return None
+    def _extract_article_urls(self, category_url: str, max_pages: int = 4) -> List[str]:
+        """從分類頁面提取文章URL - 增加到4頁"""
         article_urls = []
         for page in range(1, max_pages + 1):
                 self._notify_progress(f"📄 第 {page} 頁找到 {len(page_urls)} 篇文章")
                 if not page_urls:
+                    logger.warning(f"第 {page} 頁沒有找到文章，停止爬取後續頁面")
                     break
                 if page < max_pages:
         return None
+    def crawl_category(self, category: str, unlimited: bool = True) -> List[NewsItem]:
+        """爬取指定分類的新聞 - 完全無限制版"""
         if category not in self.categories:
             logger.error(f"無效的分類: {category}")
             return []
         category_name = "美股" if category == "us_stock" else "台股"
+        mode_text = "無限制" if unlimited else "限制"
+        self._notify_progress(f"🚀 開始爬取 {category_name} 分類新聞 ({mode_text}模式)")
         # 獲取文章URL列表
         category_url = self.categories[category]
+        article_urls = self._extract_article_urls(category_url, max_pages=4)  # 增加到4頁
         if not article_urls:
             self._notify_progress(f"⚠️ 未找到 {category_name} 分類的文章URL")
             return []
         total_articles = len(article_urls)
+        if unlimited:
+            # **完全無限制模式 - 處理所有文章**
+            self._notify_progress(f"🎯 無限制模式：將處理所有 {total_articles} 篇文章")
+            articles_to_process = article_urls
+        else:
+            # 限制模式 - 最多20篇
+            max_limit = 20
+            if total_articles > max_limit:
+                articles_to_process = article_urls[:max_limit]
+                self._notify_progress(f"⚠️ 限制模式：只處理前 {max_limit} 篇文章（共找到 {total_articles} 篇）")
+            else:
+                articles_to_process = article_urls
+                self._notify_progress(f"📊 限制模式：將處理所有 {total_articles} 篇文章")
         # 提取文章內容並即時分析存檔
         articles = []
         success_count = 0
         error_count = 0
+        skip_count = 0
+        for i, url in enumerate(articles_to_process, 1):
             try:
+                self._notify_progress(f"📖 處理 {category_name} 文章 {i}/{len(articles_to_process)}: 正在提取內容...")
                 article = self._extract_article_content(url, category)
                 if article:
                     # 即時情感分析
                     if self.sentiment_analyzer:
+                        self._notify_progress(f"🧠 分析 {category_name} 文章 {i}/{len(articles_to_process)}: {article.title[:30]}...")
                         sentiment_result = self.sentiment_analyzer.analyze_sentiment(
                             article.content, article.title
                         )
                                     success_count += 1
                                 else:
                                     self._notify_progress(f"⏭️ 跳過重複 {category_name} 文章: {article.title[:30]}...")
+                                    skip_count += 1
                             else:
                                 self._notify_progress(f"⏭️ 跳過重複 {category_name} 文章: {article.title[:30]}...")
+                                skip_count += 1
                     articles.append(article)
                 else:
                     error_count += 1
                 # 文章間延遲
+                if i < len(articles_to_process):
+                    time.sleep(random.uniform(2, 6))  # 進一步縮短延遲時間
             except Exception as e:
                 logger.error(f"處理文章時發生錯誤 {url}: {e}")
                 error_count += 1
                 continue
+        self._notify_progress(f"✅ {category_name} 分類爬取完成 - 處理: {len(articles_to_process)}, 成功: {success_count}, 跳過: {skip_count}, 錯誤: {error_count}")
         return articles
+    def crawl_all_categories(self, unlimited: bool = True) -> Dict[str, List[NewsItem]]:
+        """爬取所有分類的新聞 - 完全無限制版"""
         results = {}
+        mode_text = "無限制" if unlimited else "限制"
+        self._notify_progress(f"🚀 開始爬取所有分類 ({mode_text}模式)")
         for category in self.categories.keys():
             try:
                 category_name = "美股" if category == "us_stock" else "台股"
                 self._notify_progress(f"🎯 開始爬取 {category_name} 分類")
+                # 使用新的unlimited參數
+                articles = self.crawl_category(category, unlimited=unlimited)
                 results[category] = articles
                 # 分類間延遲
                 if len(self.categories) > 1:
                     self._notify_progress(f"⏸️ 分類間休息...")
+                    time.sleep(random.uniform(15, 30))  # 縮短休息時間
             except Exception as e:
                 logger.error(f"爬取 {category} 分類時發生錯誤: {e}")
                 results[category] = []
         total_articles = sum(len(articles) for articles in results.values())
+        self._notify_progress(f"🎉 所有分類爬取完成 ({mode_text}模式)，總共處理 {total_articles} 篇文章")
         return results