Spaces:

Baskar2005
/

TestingI

Runtime error

App Files Files Community

Baskar2005 commited on Jan 14

Commit

0024ef8

verified ·

1 Parent(s): 62457c3

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -26

app.py CHANGED Viewed

@@ -20,16 +20,19 @@ def identify_url_type(url):
     if "instagram.com/" in url: return "PROFILE"
     return "UNKNOWN"
-# 🔥 MANUAL STEALTH: Hides "Headless" status from Instagram
 def apply_stealth(page):
     page.add_init_script("Object.defineProperty(navigator, 'webdriver', {get: () => undefined})")
     page.add_init_script("window.navigator.chrome = { runtime: {} };")
     page.add_init_script("Object.defineProperty(navigator, 'plugins', {get: () => [1, 2, 3, 4, 5]})")
     page.add_init_script("Object.defineProperty(navigator, 'languages', {get: () => ['en-US', 'en']})")
-# --- DATA HELPER ---
 def safe_find_key(obj, key):
-    """Recursively searches for a key in nested JSON."""
     if isinstance(obj, dict):
         if key in obj: return obj[key]
         for k, v in obj.items():
@@ -45,13 +48,13 @@ def scrape_single_url(url):
     if not url or not url.strip(): return None
     with sync_playwright() as p:
-        # 1. LAUNCH BROWSER (Optimized for Server)
         browser = p.chromium.launch(
             headless=True,
             args=["--disable-blink-features=AutomationControlled", "--no-sandbox", "--disable-dev-shm-usage"]
         )
-        # 2. CONTEXT (Mobile User Agent = Easier Data Access)
         context = browser.new_context(
             user_agent="Mozilla/5.0 (Linux; Android 10; K) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Mobile Safari/537.36",
             viewport={"width": 412, "height": 915},
@@ -73,22 +76,19 @@ def scrape_single_url(url):
             "status": "Starting"
         }
-        # --- 3. NETWORK SNIFFER SETUP ---
         captured_data = {"play_count": None, "username": None, "like_count": None}
         def handle_response(response):
             if "instagram.com" in response.url and ("json" in response.headers.get("content-type", "") or "graphql" in response.url):
                 try:
                     json_data = response.json()
-                    # Capture Views/Plays
                     if not captured_data["play_count"]:
                         plays = safe_find_key(json_data, "play_count") or safe_find_key(json_data, "video_view_count")
                         if plays: captured_data["play_count"] = plays
-                    # Capture Likes
                     if not captured_data["like_count"]:
                         likes = safe_find_key(json_data, "like_count")
                         if likes: captured_data["like_count"] = likes
-                    # Capture Author
                     if not captured_data["username"]:
                         user = safe_find_key(json_data, "username")
                         if user: captured_data["username"] = user
@@ -99,27 +99,19 @@ def scrape_single_url(url):
         try:
             # === NAVIGATION ===
             page.goto(url, wait_until="commit", timeout=45000)
-            page.wait_for_timeout(5000) # Wait for network packets
-            # 📸 DEBUG: Take screenshot if blocked
-            if "Login" in page.title() or "Page Not Found" in page.title():
-                print("   ⚠️ Blocked! Saving debug_error.png")
-                page.screenshot(path="debug_error.png")
                 data["status"] = "Failed (Login Block)"
                 browser.close()
                 return data
-            # Fill data from Network Sniffer
             if captured_data["play_count"]: data["views"] = str(captured_data["play_count"])
             if captured_data["like_count"]: data["likes"] = str(captured_data["like_count"])
             if captured_data["username"]: data["author"] = captured_data["username"]
             # --- 4. FALLBACK: VISUAL SCRAPING ---
-            # If network failed, try reading the screen
             if (data["views"] == "N/A" and data["type"] == "REEL") or not data["author"]:
-                print("   ⚠️ Network missed data. Switching to Visual Scraping...")
-                # Get Author from Title if missing
                 if not data["author"]:
                     try:
                         title = page.title()
@@ -127,13 +119,11 @@ def scrape_single_url(url):
                         if match: data["author"] = match.group(1)
                     except: pass
-                # Go to Profile for Followers & Views
                 if data["author"]:
                     if "/reels/" not in page.url:
                         page.goto(f"https://www.instagram.com/{data['author']}/reels/", wait_until="domcontentloaded")
                         page.wait_for_timeout(3000)
-                    # Try to find Followers (Meta Description)
                     try:
                         meta = page.locator('meta[property="og:description"]').get_attribute("content")
                         if meta:
@@ -141,7 +131,6 @@ def scrape_single_url(url):
                             if len(parts) > 1: data["followers"] = parts[0].strip().split(" ")[-1]
                     except: pass
-                    # Try to find View Count on Grid
                     if data["views"] == "N/A":
                         try:
                             shortcode = url.split("/reel/")[1].split("/")[0]
@@ -159,8 +148,6 @@ def scrape_single_url(url):
         except Exception as e:
             data["status"] = "Error"
             print(f"❌ Error: {e}")
-            try: page.screenshot(path="debug_crash.png")
-            except: pass
         browser.close()
         return data
@@ -199,5 +186,6 @@ def scrape_api():
     return jsonify(results)
 if __name__ == '__main__':
-    app.run(host='0.0.0.0', port="10000")

     if "instagram.com/" in url: return "PROFILE"
     return "UNKNOWN"
+# 🔥 MANUAL STEALTH: The Key to Headless=True 🔥
 def apply_stealth(page):
+    """
+    Overwrites browser variables so Instagram thinks
+    this is a real mobile device, not a server.
+    """
     page.add_init_script("Object.defineProperty(navigator, 'webdriver', {get: () => undefined})")
     page.add_init_script("window.navigator.chrome = { runtime: {} };")
     page.add_init_script("Object.defineProperty(navigator, 'plugins', {get: () => [1, 2, 3, 4, 5]})")
     page.add_init_script("Object.defineProperty(navigator, 'languages', {get: () => ['en-US', 'en']})")
+# --- HELPER: RECURSIVE SEARCH ---
 def safe_find_key(obj, key):
     if isinstance(obj, dict):
         if key in obj: return obj[key]
         for k, v in obj.items():
     if not url or not url.strip(): return None
     with sync_playwright() as p:
+        # 1. LAUNCH BROWSER (Headless=True is REQUIRED for Server)
         browser = p.chromium.launch(
             headless=True,
             args=["--disable-blink-features=AutomationControlled", "--no-sandbox", "--disable-dev-shm-usage"]
         )
+        # 2. CONFIGURE CONTEXT (Fake Android Phone)
         context = browser.new_context(
             user_agent="Mozilla/5.0 (Linux; Android 10; K) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Mobile Safari/537.36",
             viewport={"width": 412, "height": 915},
             "status": "Starting"
         }
+        # --- 3. NETWORK SNIFFER ---
         captured_data = {"play_count": None, "username": None, "like_count": None}
         def handle_response(response):
             if "instagram.com" in response.url and ("json" in response.headers.get("content-type", "") or "graphql" in response.url):
                 try:
                     json_data = response.json()
                     if not captured_data["play_count"]:
                         plays = safe_find_key(json_data, "play_count") or safe_find_key(json_data, "video_view_count")
                         if plays: captured_data["play_count"] = plays
                     if not captured_data["like_count"]:
                         likes = safe_find_key(json_data, "like_count")
                         if likes: captured_data["like_count"] = likes
                     if not captured_data["username"]:
                         user = safe_find_key(json_data, "username")
                         if user: captured_data["username"] = user
         try:
             # === NAVIGATION ===
             page.goto(url, wait_until="commit", timeout=45000)
+            page.wait_for_timeout(5000)
+            if "Login" in page.title():
                 data["status"] = "Failed (Login Block)"
                 browser.close()
                 return data
             if captured_data["play_count"]: data["views"] = str(captured_data["play_count"])
             if captured_data["like_count"]: data["likes"] = str(captured_data["like_count"])
             if captured_data["username"]: data["author"] = captured_data["username"]
             # --- 4. FALLBACK: VISUAL SCRAPING ---
             if (data["views"] == "N/A" and data["type"] == "REEL") or not data["author"]:
                 if not data["author"]:
                     try:
                         title = page.title()
                         if match: data["author"] = match.group(1)
                     except: pass
                 if data["author"]:
                     if "/reels/" not in page.url:
                         page.goto(f"https://www.instagram.com/{data['author']}/reels/", wait_until="domcontentloaded")
                         page.wait_for_timeout(3000)
                     try:
                         meta = page.locator('meta[property="og:description"]').get_attribute("content")
                         if meta:
                             if len(parts) > 1: data["followers"] = parts[0].strip().split(" ")[-1]
                     except: pass
                     if data["views"] == "N/A":
                         try:
                             shortcode = url.split("/reel/")[1].split("/")[0]
         except Exception as e:
             data["status"] = "Error"
             print(f"❌ Error: {e}")
         browser.close()
         return data
     return jsonify(results)
 if __name__ == '__main__':
+    # Use ENV Port or default to 10000
+    port = int(os.environ.get("PORT", 10000))
+    app.run(host='0.0.0.0', port=port)