Spaces:

Jitendra12421
/

Miscellonoues_model_backend

Sleeping

App Files Files Community

Jitendra12421 commited on Mar 29

Commit

f17c710

verified ·

1 Parent(s): 6e6d45c

Upload 3 files

Browse files

Files changed (3) hide show

app.py +2 -2
extractor.py +8 -3
scraper.py +28 -31

app.py CHANGED Viewed

@@ -63,13 +63,13 @@ def _run_training_job():
 _load_model_from_disk()
-async def fetch_and_predict(ticker="^NSEI", days_back=3):
     with MODEL_LOCK:
         current_model = model
     if not current_model:
         return {"error": "Model not loaded. Please train the model first."}
-    scraper = NewsScraper(limit=150) # Fetch more headlines for the first pass
     extractor = ContentExtractor()
     features = Features(ticker)

 _load_model_from_disk()
+async def fetch_and_predict(ticker="^NSEI", days_back=7):
     with MODEL_LOCK:
         current_model = model
     if not current_model:
         return {"error": "Model not loaded. Please train the model first."}
+    scraper = NewsScraper(limit=450) # Fetch 450+ headlines for the ML model
     extractor = ContentExtractor()
     features = Features(ticker)

extractor.py CHANGED Viewed

@@ -31,9 +31,14 @@ class ContentExtractor:
             parts.extend(words[:3])
         # Use loremflickr which is a reliable replacement for keyword-based placeholders.
-        # Format: https://loremflickr.com/1200/675/keyword1,keyword2
-        query = ",".join(parts[:5]).strip() or "market,finance"
-        return f"https://loremflickr.com/1200/675/{query}"
     async def _fetch_one(self, session, url):
         try:

             parts.extend(words[:3])
         # Use loremflickr which is a reliable replacement for keyword-based placeholders.
+        # Format: https://loremflickr.com/1200/675/keyword1,keyword2?random=N
+        # We append a hash of the title as a 'random' seed to ensure uniqueness for different articles,
+        # but consistency for recovery if the page is refreshed.
+        query = ",".join(parts[:5]).strip() or "finance,stock,market"
+        # Always mix in a professional keyword to override potential cat/statue fallbacks
+        query = "business,trading," + query
+        seed = abs(hash(str(title) + str(source))) % 10000
+        return f"https://loremflickr.com/1200/675/{query}?random={seed}"
     async def _fetch_one(self, session, url):
         try:

scraper.py CHANGED Viewed

@@ -6,7 +6,7 @@ import ssl
 from email.utils import parsedate_to_datetime
 class NewsScraper:
-    def __init__(self, limit=600):
         self.limit = limit
         self.ssl_context = ssl.create_default_context()
         self.ssl_context.check_hostname = False
@@ -56,36 +56,33 @@ class NewsScraper:
         return articles
     def _build_queries(self, ticker):
-        t = ticker
-        return [
-            t, f"{t} stock", f"{t} news", f"{t} market",
-            f"{t} earnings", f"{t} analyst", f"{t} forecast",
-            f"{t} price target", f"{t} options", f"{t} technical",
-            f"{t} dividend", f"{t} industry", f"{t} competitor",
-            f"{t} share price", f"{t} hedge fund",
-            f"{t} institutional",
-            f"{t} buy sell hold", f"{t} upgrade downgrade",
-            f"{t} outperform underperform",
-            f"{t} bullish bearish", f"{t} momentum",
-            f"{t} breakout breakdown", f"{t} rally crash",
-            f"{t} surge plunge", f"{t} soar tumble",
-            f"{t} gains losses", f"{t} beat miss expectations",
-            f"{t} CEO news", f"{t} quarterly results",
-            f"{t} revenue profit", f"{t} guidance outlook",
-            f"{t} acquisition merger", f"{t} lawsuit legal SEC",
-            f"{t} insider trading", f"{t} buyback repurchase",
-            f"{t} partnership deal", f"{t} product launch",
-            f"{t} layoffs restructuring", f"{t} expansion growth",
-            f"{t} wall street", f"{t} analyst rating",
-            f"{t} price prediction", f"{t} short interest",
-            f"{t} short squeeze", f"{t} put call ratio",
-            f"{t} sector outlook", f"{t} industry trend",
-            f"{t} supply chain", f"{t} regulation policy",
-            f"{t} inflation impact", f"{t} interest rate",
-            f"{t} today", f"{t} this week", f"{t} latest",
-            f"{t} breaking news", f"{t} update",
-            f"{t} premarket", f"{t} after hours",
-        ]
     async def scrape(self, ticker, lookback_date, progress_cb=None):
         queries = self._build_queries(ticker)

 from email.utils import parsedate_to_datetime
 class NewsScraper:
+    def __init__(self, limit=1000):
         self.limit = limit
         self.ssl_context = ssl.create_default_context()
         self.ssl_context.check_hostname = False
         return articles
     def _build_queries(self, ticker):
+        # Resolve aliases if it's a known ticker to expand search coverage
+        aliases = [ticker]
+        t_low = ticker.lower()
+        if t_low in ["^nsei", "nifty", "nifty 50"]:
+            aliases.extend(["nifty 50", "nifty50", "nifty index", "nse india", "nsei stocks", "indian market", "nifty 100", "nifty next 50"])
+        elif t_low in ["^bsesn", "sensex"]:
+            aliases.extend(["sensex", "bse sensex", "bombay stock exchange", "bse india", "sensex 30"])
+        elif t_low in ["^nsebank", "banknifty"]:
+            aliases.extend(["bank nifty", "nifty bank", "banknifty", "banking stocks india", "hdfc bank news", "icici bank news"])
+        queries = []
+        for a in aliases[:6]: # Use more aliases for broader coverage
+            queries.extend([
+                a, f"{a} stock", f"{a} news", f"{a} market",
+                f"{a} forecast", f"{a} predictions", f"{a} today",
+                f"{a} analysis", f"{a} outlook", f"{a} update",
+                f"{a} breakout", f"{a} technicals", f"{a} sentiment"
+            ])
+        # Add high-yield generic financial terms for context if it's a major index
+        if t_low in ["^nsei", "^bsesn", "nifty", "sensex"]:
+            queries.extend([
+                "indian stock market news", "dalal street updates",
+                "rbi policy news", "fpi flows india", "nifty earnings season"
+            ])
+        return list(dict.fromkeys(queries)) # Remove duplicates
     async def scrape(self, ticker, lookback_date, progress_cb=None):
         queries = self._build_queries(ticker)