Spaces:

khjhs60199
/

pyCrawing

Sleeping

App Files Files Community

khjhs60199 commited on Sep 17, 2025

Commit

60fdb0a

verified ·

1 Parent(s): 0ced4e8

Update app.py

Browse files

Files changed (1) hide show

app.py +117 -37

app.py CHANGED Viewed

@@ -187,17 +187,14 @@ class NewsApp:
         try:
             self.is_crawling = True
-            if unlimited:
-                self.update_progress("🚀 手動爬蟲開始（無限制模式）")
-                # **關鍵修正：傳遞None表示不限制文章數量**
-                results = self.crawler.crawl_all_categories(max_articles_per_category=None)
-            else:
-                self.update_progress("🚀 手動爬蟲開始（限制模式）")
-                results = self.crawler.crawl_all_categories(max_articles_per_category=20)
             total_articles = sum(len(articles) for articles in results.values())
-            mode_text = "無限制" if unlimited else "限制"
             result_message = f"✅ 手動爬蟲完成（{mode_text}模式），總共處理 {total_articles} 篇文章"
             self.update_progress(result_message)
@@ -274,7 +271,7 @@ class NewsApp:
 # 初始化應用
 app = NewsApp()
-# API 路由 - 保持不變...
 @flask_app.route('/api/news', methods=['GET'])
 def api_get_news():
     """獲取新聞列表API - 增強版"""
@@ -367,11 +364,11 @@ def create_interface():
     ) as interface:
         gr.Markdown("""
-        # 📈 股市新聞情緒分析器 - 無限制版
         🤖 自動爬取鉅亨網美股和台股新聞，並進行即時中文情緒分析
-        ⚡ **無限制爬取**: 移除文章數量限制，爬取所有可用文章
         🎯 **智能分析**: 使用 RoBERTa 模型進行情緒分析
         🔍 **多條件篩選**: 支援時間段、關鍵字、情緒篩選
         📊 **API接口**: 提供RESTful API獲取分析結果
@@ -416,14 +413,15 @@ def create_interface():
                         label="😊 情緒篩選"
                     )
-                    # 新增：爬蟲模式選擇
                     crawl_mode = gr.Radio(
                         choices=[
-                            ("無限制爬取", True),
                             ("限制爬取 (20篇)", False)
                         ],
                         value=True,
-                        label="🚀 爬蟲模式"
                     )
                 with gr.Column(scale=2):
@@ -527,7 +525,28 @@ def create_interface():
             ### 🔗 接口列表
-            #### 3. 手動觸發爬蟲 (增強版)
             ```
             POST /api/crawl
             Content-Type: application/json
@@ -545,34 +564,94 @@ def create_interface():
             }
             ```
-            ### 💡 無限制模式特色
-            - **移除文章數量限制**: 爬取所有可用的新聞文章
-            - **增加頁面數量**: 從2頁增加到3頁
-            - **降低延遲時間**: 提升爬取效率
-            - **詳細進度報告**: 顯示成功/失敗統計
             """)
         with gr.Tab("ℹ️ 關於"):
             gr.Markdown("""
             ## 🛠️ 技術特色
-            ### ⚡ 無限制爬取
-            - **移除數量限制**: 不再限制每分類只爬8篇文章
-            - **增加頁面範圍**: 爬取3頁內容而非2頁
             - **智能處理**: 自動處理所有找到的文章URL
-            - **效率優化**: 縮短延遲時間，提升爬取速度
-            ### 📊 爬取統計
-            - **成功計數**: 顯示成功處理的文章數量
-            - **錯誤計數**: 追蹤處理失敗的文章
-            - **進度追蹤**: 實時顯示當前處理進度
-            - **模式選擇**: 支援無限制和限制兩種模式
-            ### 🔧 問題修正
-            - **文章數量限制**: 從max_articles=8改為無限制
-            - **URL處理**: 改善重複URL過濾
-            - **錯誤處理**: 更完善的異常處理機制
-            - **進度報告**: 更詳細的處理狀態報告
             """)
     return interface
@@ -591,7 +670,8 @@ if __name__ == "__main__":
     print("🚀 啟動股市新聞情緒分析器...")
     print("📊 網頁介面: http://localhost:7860")
     print("🔌 API接口: http://localhost:5000")
-    print("💡 新功能: 無限制爬取模式")
     # 啟動Gradio介面
     interface = create_interface()

         try:
             self.is_crawling = True
+            mode_text = "無限制" if unlimited else "限制"
+            self.update_progress(f"🚀 手動爬蟲開始（{mode_text}模式）")
+            # **關鍵修正：使用unlimited參數而非max_articles_per_category**
+            results = self.crawler.crawl_all_categories(unlimited=unlimited)
             total_articles = sum(len(articles) for articles in results.values())
             result_message = f"✅ 手動爬蟲完成（{mode_text}模式），總共處理 {total_articles} 篇文章"
             self.update_progress(result_message)
 # 初始化應用
 app = NewsApp()
+# API 路由
 @flask_app.route('/api/news', methods=['GET'])
 def api_get_news():
     """獲取新聞列表API - 增強版"""
     ) as interface:
         gr.Markdown("""
+        # 📈 股市新聞情緒分析器 - 完全無限制版
         🤖 自動爬取鉅亨網美股和台股新聞，並進行即時中文情緒分析
+        ⚡ **完全無限制**: 爬取所有可用文章，無數量限制
         🎯 **智能分析**: 使用 RoBERTa 模型進行情緒分析
         🔍 **多條件篩選**: 支援時間段、關鍵字、情緒篩選
         📊 **API接口**: 提供RESTful API獲取分析結果
                         label="😊 情緒篩選"
                     )
+                    # 爬蟲模式選擇
                     crawl_mode = gr.Radio(
                         choices=[
+                            ("無限制爬取 (全部文章)", True),
                             ("限制爬取 (20篇)", False)
                         ],
                         value=True,
+                        label="🚀 爬蟲模式",
+                        info="選擇爬取模式"
                     )
                 with gr.Column(scale=2):
             ### 🔗 接口列表
+            #### 1. 獲取新聞列表 (增強版)
+            ```
+            GET /api/news?category={all|us_stock|tw_stock}&days={天數}&keyword={關鍵字}&sentiment={all|positive|negative|neutral}
+            ```
+            **參數:**
+            - `category`: 新聞分類 (可選，默認: all)
+            - `days`: 時間範圍天數 (可選，默認: 7，0表示不限制)
+            - `keyword`: 關鍵字搜尋 (可選)
+            - `sentiment`: 情緒篩選 (可選，默認: all)
+            **示例:**
+            ```
+            /api/news?category=us_stock&days=3&keyword=AI&sentiment=positive
+            ```
+            #### 2. 獲取統計信息
+            ```
+            GET /api/stats
+            ```
+            #### 3. 手動觸發爬蟲 (完全無限制版)
             ```
             POST /api/crawl
             Content-Type: application/json
             }
             ```
+            #### 4. 獲取系統狀態
+            ```
+            GET /api/progress
+            ```
+            ### 💡 使用示例
+            **Python:**
+            ```python
+            import requests
+            # 獲取所有正面情緒的美股新聞
+            response = requests.get('http://localhost:5000/api/news?category=us_stock&sentiment=positive')
+            news_data = response.json()
+            # 搜尋包含"AI"關鍵字的新聞
+            response = requests.get('http://localhost:5000/api/news?keyword=AI&days=3')
+            ai_news = response.json()
+            # 啟動無限制爬蟲
+            response = requests.post('http://localhost:5000/api/crawl',
+                                   json={'unlimited': True})
+            result = response.json()
+            ```
+            ### 🚀 無限制模式特色
+            - **完全無限制**: 爬取所有可用的新聞文章
+            - **增加頁面數量**: 從2頁增加到4頁
+            - **優化延遲時間**: 提升爬取效率
+            - **詳細進度報告**: 顯示處理/成功/跳過/失敗統計
             """)
         with gr.Tab("ℹ️ 關於"):
             gr.Markdown("""
             ## 🛠️ 技術特色
+            ### ⚡ 完全無限制爬取
+            - **移除所有限制**: 不再限制每分類文章數量
+            - **增加頁面範圍**: 爬取4頁內容獲得更多文章
             - **智能處理**: 自動處理所有找到的文章URL
+            - **效率優化**: 優化延遲時間，提升爬取速度
+            ### 🔍 多條件篩選系統
+            - **時間篩選**: 支援0-30天的時間範圍選擇
+            - **關鍵字搜尋**: 支援標題和內容的全文搜尋
+            - **情緒篩選**: 可按正面、負面、中性情緒篩選
+            - **分類篩選**: 支援美股、台股、全部分類查看
+            - **複合查詢**: 支援多條件組合查詢
+            ### 📊 情緒分析引擎
+            - **混合模型**: RoBERTa模型 + 關鍵字分析
+            - **容錯處理**: 模型失敗時自動使用關鍵字分析
+            - **即時分析**: 每篇文章爬取完成立即進行情緒分析
+            - **準確性**: 針對中文金融新聞優化
+            ### 🕷️ 爬蟲系統
+            - **反爬蟲**: 隨機延遲、User-Agent輪換
+            - **智能去重**: 基於標題相似度的重複檢測
+            - **即時存檔**: 分析完成後立即保存到資料庫
+            - **詳細統計**: 處理、成功、跳過、失敗數量統計
+            ### 🗃️ 資料管理
+            - **SQLite資料庫**: 高效的本地資料儲存
+            - **索引優化**: 針對查詢條件建立索引
+            - **資料清理**: 自動清理過期資料
+            - **並發支援**: 支援多線程並發存取
+            ### 📱 介面設計
+            - **防閃爍**: 智能更新機制，避免無意義刷新
+            - **即時反饋**: 詳細的搜尋結果和進度顯示
+            - **響應式設計**: 適配不同螢幕尺寸
+            - **用戶友好**: 直觀的操作介面和清楚的狀態提示
+            ### 🔌 API架構
+            - **RESTful設計**: 標準的REST API介面
+            - **完整文檔**: 詳細的API使用說明
+            - **錯誤處理**: 完善的錯誤處理和狀態碼
+            - **跨域支援**: 支援CORS跨域請求
+            ---
+            💡 **使用提示**:
+            - 首次啟動會下載情緒分析模型，請耐心等待
+            - 無限制模式會爬取更多文章，建議在網路穩定時使用
+            - 使用關鍵字搜尋可以快速找到感興趣的新聞
+            - API接口可用於整合其他應用系統
+            📧 **技術支援**: 如有問題請聯繫開發團隊
             """)
     return interface
     print("🚀 啟動股市新聞情緒分析器...")
     print("📊 網頁介面: http://localhost:7860")
     print("🔌 API接口: http://localhost:5000")
+    print("💡 新功能: 完全無限制爬取模式、多條件篩選、關鍵字搜尋")
+    print("⚡ 無限制模式: 爬取所有可用文章，無數量限制")
     # 啟動Gradio介面
     interface = create_interface()