mai

Sleeping

App Files Files Community

Sooteemon commited on Nov 8, 2025

Commit

bf00b84

verified ·

1 Parent(s): d5e84de

Update scraper.py

Browse files

Files changed (1) hide show

scraper.py +59 -108

scraper.py CHANGED Viewed

@@ -1,96 +1,66 @@
 import requests
-from bs4 import BeautifulSoup
-import feedparser
-from datetime import datetime
-import time
 class YahooFinanceScraper:
     def __init__(self):
         self.headers = {
             'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
         }
-        self.base_url = "https://finance.yahoo.com"
-    def get_latest_news(self, symbol="", max_articles=10):
-        """
-        ดึงข่าวล่าสุดจาก Yahoo Finance
-        Args:
-            symbol: ticker symbol (เช่น AAPL, TSLA) หรือเว้นว่างสำหรับข่าวทั่วไป
-            max_articles: จำนวนข่าวที่ต้องการ
-        Returns:
-            list: รายการข่าว [{title, link, summary, published}]
-        """
         news_list = []
-        try:
-            if symbol:
-                # ดึงข่าวเฉพาะหุ้น
-                url = f"{self.base_url}/quote/{symbol}"
-                response = requests.get(url, headers=self.headers, timeout=10)
-                soup = BeautifulSoup(response.content, 'html.parser')
-                # หา news section
-                news_items = soup.find_all('li', class_='stream-item', limit=max_articles)
-                for item in news_items:
-                    try:
-                        title_tag = item.find('h3')
-                        link_tag = item.find('a')
-                        summary_tag = item.find('p')
-                        time_tag = item.find('time')
-                        if title_tag and link_tag:
-                            news_list.append({
-                                'title': title_tag.get_text(strip=True),
-                                'link': link_tag.get('href', ''),
-                                'summary': summary_tag.get_text(strip=True) if summary_tag else '',
-                                'published': time_tag.get_text(strip=True) if time_tag else 'N/A'
-                            })
-                    except Exception as e:
-                        continue
-            else:
-                # ดึงข่าวทั่วไปผ่าน RSS Feed
-                rss_url = "https://finance.yahoo.com/news/rssindex"
-                feed = feedparser.parse(rss_url)
-                for entry in feed.entries[:max_articles]:
-                    news_list.append({
-                        'title': entry.get('title', 'No title'),
-                        'link': entry.get('link', ''),
-                        'summary': entry.get('summary', '')[:300],  # จำกัด 300 ตัวอักษร
-                        'published': entry.get('published', 'N/A')
-                    })
-            # ถ้าไม่มีข่าว ลองวิธีสำรอง
-            if not news_list:
-                news_list = self._get_fallback_news(max_articles)
-        except Exception as e:
-            print(f"Error scraping news: {e}")
-            news_list = self._get_fallback_news(max_articles)
-        return news_list
-    def _get_fallback_news(self, max_articles):
-        """วิธีสำรองในกรณีที่ดึงข่าวไม่ได้"""
         try:
-            # ใช้ Yahoo Finance RSS feed แบบง่าย
-            url = "https://finance.yahoo.com/rss/topstories"
-            feed = feedparser.parse(url)
-            news_list = []
             for entry in feed.entries[:max_articles]:
                 news_list.append({
                     'title': entry.get('title', 'No title'),
-                    'link': entry.get('link', ''),
-                    'summary': entry.get('summary', '')[:300],
                     'published': entry.get('published', 'N/A')
                 })
-            return news_list
         except:
             return [{
                 'title': 'Unable to fetch news',
@@ -98,43 +68,24 @@ class YahooFinanceScraper:
                 'summary': 'Please try again later',
                 'published': 'N/A'
             }]
     def search_news(self, keyword, max_articles=10):
         """
-        ค้นหาข่าวด้วย keyword
-        Args:
-            keyword: คำค้นหา
-            max_articles: จำนวนข่าว
-        Returns:
-            list: รายการข่าวที่เกี่ยวข้อง
         """
-        try:
-            search_url = f"{self.base_url}/search?p={keyword}"
-            response = requests.get(search_url, headers=self.headers, timeout=10)
-            soup = BeautifulSoup(response.content, 'html.parser')
-            news_list = []
-            articles = soup.find_all('div', class_='Ov(h)', limit=max_articles)
-            for article in articles:
-                try:
-                    title = article.find('h3')
-                    link = article.find('a')
-                    if title and link:
-                        news_list.append({
-                            'title': title.get_text(strip=True),
-                            'link': link.get('href', ''),
-                            'summary': '',
-                            'published': 'Recent'
-                        })
-                except:
-                    continue
-            return news_list if news_list else self.get_latest_news(max_articles=max_articles)
         except Exception as e:
             print(f"Search error: {e}")
-            return self.get_latest_news(max_articles=max_articles)

 import requests
+import feedparser  # เราจะใช้ feedparser เป็นหลัก
+from urllib.parse import quote # ใช้สำหรับเข้ารหัส keyword
+# --- ไม่จำเป็นต้องใช้ BeautifulSoup อีกต่อไป ---
+# from bs4 import BeautifulSoup
+# import time
+# from datetime import datetime
 class YahooFinanceScraper:
     def __init__(self):
+        # User-Agent ยังคงมีประโยชน์
         self.headers = {
             'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
         }
+        # base_url ไม่จำเป็นต้องใช้อีกต่อไป
+        # self.base_url = "https://finance.yahoo.com"
+    def _parse_feed(self, url, max_articles=10):
+        """ฟังก์ชันช่วยในการดึงและแปลง RSS feed"""
         news_list = []
         try:
+            # feedparser สามารถรับ URL และ User-Agent ได้โดยตรง
+            feed = feedparser.parse(url, agent=self.headers['User-Agent'])
             for entry in feed.entries[:max_articles]:
                 news_list.append({
                     'title': entry.get('title', 'No title'),
+                    # ลิงก์จาก Google News RSS มักจะพาไปหน้า Google ก่อน เราจึงต้อง clean มัน
+                    'link': entry.get('link', '').split('&url=')[-1],
+                    'summary': entry.get('summary', '')[:300],  # จำกัด 300 ตัวอักษร
                     'published': entry.get('published', 'N/A')
                 })
+        except Exception as e:
+            print(f"Error parsing feed: {e}")
+            return self._get_fallback_news(1) # ถ้าพัง ให้ไปที่ fallback
+        return news_list
+    def get_latest_news(self, symbol="", max_articles=10):
+        """
+        ดึงข่าวล่าสุดจาก Yahoo Finance (แก้ไขใหม่ให้ใช้ RSS เสมอ)
+        """
+        if symbol:
+            # (เสถียร) ใช้ RSS feed สำหรับหุ้นนั้นๆ
+            url = f"https://finance.yahoo.com/rss/quotes/{symbol.upper()}"
+        else:
+            # (เสถียร) ใช้ RSS feed ข่าวทั่วไป
+            url = "https://finance.yahoo.com/news/rssindex"
+        news_list = self._parse_feed(url, max_articles)
+        # ถ้าดึงข่าวหุ้นแล้วไม่เจอ (เช่น พิมพ์ผิด) ให้ลอง fallback
+        if symbol and not news_list:
+             return self._get_fallback_news(max_articles)
+        return news_list
+    def _get_fallback_news(self, max_articles):
+        """วิธีสำรองในกรณีที่ดึงข่าวไม่ได้ (ใช้ Top Stories feed)"""
+        try:
+            url = "https://finance.yahoo.com/rss/topstories"
+            return self._parse_feed(url, max_articles)
         except:
             return [{
                 'title': 'Unable to fetch news',
                 'summary': 'Please try again later',
                 'published': 'N/A'
             }]
     def search_news(self, keyword, max_articles=10):
         """
+        ค้นหาข่าวด้วย keyword (แก้ไขใหม่ให้ใช้ Google News RSS ซึ่งเสถียรกว่ามาก)
         """
+        if not keyword:
+            return self.get_latest_news(max_articles=max_articles) # ถ้าไม่ใส่ keyword ก็ไปข่าวล่าสุด
+        try:
+            # (เสถียรมาก) ใช้ Google News RSS ค้นหาเฉพาะในเว็บ finance.yahoo.com
+            safe_keyword = quote(keyword)
+            url = f"https://news.google.com/rss/search?q={safe_keyword}+site:finance.yahoo.com&hl=en-US&gl=US&ceid=US:en"
+            news_list = self._parse_feed(url, max_articles)
+            # ถ้า Google News ค้นไม่เจอ ให้ลอง fallback
+            return news_list if news_list else self._get_fallback_news(max_articles)
         except Exception as e:
             print(f"Search error: {e}")
+            return self._get_fallback_news(max_articles)