Spaces:

nivakaran
/

modelx

Sleeping

File size: 41,219 Bytes

b4856f1
 
 
 
 
752f5cc
b4856f1
 
 
 
 
 
 
 
 
 
 
 
 
752f5cc
b4856f1
 
 
 
 
 
 
 
 
 
 
752f5cc
b4856f1
 
 
 
 
 
 
 
 
 
752f5cc
b4856f1
 
 
 
 
 
752f5cc
ac649ea
 
 
 
752f5cc
b4856f1
 
 
752f5cc
b4856f1
 
 
 
752f5cc
b4856f1
 
752f5cc
 
 
b4856f1
 
752f5cc
b4856f1
 
 
 
 
752f5cc
b4856f1
 
 
 
 
 
752f5cc
b4856f1
752f5cc
 
 
 
 
 
 
 
b4856f1
752f5cc
 
b4856f1
 
 
 
 
 
 
 
752f5cc
b4856f1
752f5cc
b4856f1
 
 
752f5cc
b4856f1
752f5cc
 
 
b4856f1
 
752f5cc
 
 
b4856f1
752f5cc
ac649ea
b4856f1
 
752f5cc
ac649ea
 
 
752f5cc
ac649ea
 
 
 
752f5cc
 
 
 
ac649ea
752f5cc
ac649ea
 
 
752f5cc
ac649ea
 
 
 
 
 
 
 
752f5cc
 
 
 
ac649ea
 
 
 
752f5cc
ac649ea
b4856f1
752f5cc
 
 
ac649ea
 
 
b4856f1
ac649ea
752f5cc
 
 
ac649ea
752f5cc
ac649ea
 
752f5cc
 
 
ac649ea
752f5cc
ac649ea
 
752f5cc
 
 
ac649ea
752f5cc
ac649ea
b4856f1
ac649ea
752f5cc
 
 
 
 
 
 
 
 
 
ac649ea
 
 
752f5cc
 
 
ac649ea
 
752f5cc
 
 
 
 
 
 
 
 
 
 
 
 
b4856f1
 
 
 
752f5cc
b4856f1
 
 
 
752f5cc
b4856f1
 
752f5cc
b4856f1
 
752f5cc
b4856f1
 
752f5cc
 
 
b4856f1
 
 
 
 
 
 
 
 
752f5cc
b4856f1
 
 
752f5cc
b4856f1
 
 
752f5cc
b4856f1
 
 
752f5cc
b4856f1
752f5cc
 
 
 
b4856f1
752f5cc
b4856f1
 
 
 
 
752f5cc
b4856f1
752f5cc
b4856f1
 
752f5cc
b4856f1
 
 
 
752f5cc
b4856f1
 
 
 
752f5cc
 
 
 
b4856f1
 
752f5cc
b4856f1
 
 
752f5cc
 
 
 
 
b4856f1
 
752f5cc
b4856f1
 
 
752f5cc
 
 
 
b4856f1
 
 
 
752f5cc
b4856f1
 
 
 
 
 
 
 
 
 
752f5cc
b4856f1
 
 
752f5cc
 
 
 
 
 
b4856f1
752f5cc
 
 
 
 
 
 
 
 
 
 
 
b4856f1
752f5cc
 
 
 
b4856f1
 
 
752f5cc
b4856f1
 
752f5cc
 
 
b4856f1
752f5cc
b4856f1
 
752f5cc
b4856f1
752f5cc
 
 
 
 
 
 
 
 
 
 
 
b4856f1
 
 
 
 
752f5cc
b4856f1
 
 
752f5cc
b4856f1
 
 
 
 
752f5cc
b4856f1
 
 
752f5cc
b4856f1
 
 
 
752f5cc
b4856f1
 
752f5cc
 
 
b4856f1
 
752f5cc
b4856f1
 
 
 
 
752f5cc
b4856f1
 
 
 
 
 
752f5cc
b4856f1
752f5cc
 
 
 
 
 
 
 
b4856f1
752f5cc
b4856f1
 
 
 
 
 
752f5cc
b4856f1
752f5cc
b4856f1
 
 
 
 
752f5cc
b4856f1
752f5cc
b4856f1
 
 
752f5cc
b4856f1
 
 
 
752f5cc
b4856f1
 
 
752f5cc
b4856f1
752f5cc
b4856f1
 
 
 
 
 
 
 
 
 
 
 
752f5cc
b4856f1
 
752f5cc
 
 
 
b4856f1
 
 
 
 
 
 
 
 
752f5cc
b4856f1
752f5cc
b4856f1
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
752f5cc
b4856f1
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
752f5cc
b4856f1
752f5cc
 
 
b4856f1
752f5cc
b4856f1
 
 
 
752f5cc
b4856f1
752f5cc
b4856f1
 
 
 
 
 
752f5cc
b4856f1
752f5cc
 
 
 
b4856f1
 
 
 
 
752f5cc
b4856f1
 
 
 
 
 
 
 
 
 
 
752f5cc
b4856f1
 
752f5cc
b4856f1
752f5cc
b4856f1
 
 
 
752f5cc
 
 
 
 
 
 
 
 
 
 
 
b4856f1
 
752f5cc
b4856f1
 
752f5cc
b4856f1
 
 
752f5cc
b4856f1
 
 
752f5cc
b4856f1
 
 
752f5cc
b4856f1
752f5cc
 
 
 
 
 
 
 
 
 
 
b4856f1
 
 
 
 
 
 
 
 
752f5cc
b4856f1
 
 
 
 
752f5cc
b4856f1
 
 
752f5cc
b4856f1
 
 
 
752f5cc
b4856f1
 
752f5cc
 
 
b4856f1
 
752f5cc
b4856f1
 
 
 
 
752f5cc
b4856f1
 
 
 
 
 
752f5cc
b4856f1
752f5cc
 
 
 
 
 
 
 
 
b4856f1
752f5cc
b4856f1
 
 
 
 
 
752f5cc
b4856f1
752f5cc
b4856f1
 
 
 
 
752f5cc
b4856f1
 
752f5cc
b4856f1
 
 
752f5cc
b4856f1
 
 
 
752f5cc
b4856f1
 
 
 
752f5cc
b4856f1
 
 
752f5cc
b4856f1
 
 
 
 
 
 
752f5cc
 
 
 
 
b4856f1
 
 
 
 
752f5cc
b4856f1
 
752f5cc
b4856f1
 
 
752f5cc
 
 
 
 
b4856f1
 
752f5cc
b4856f1
752f5cc
 
 
 
 
 
 
 
 
 
 
 
b4856f1
752f5cc
 
 
 
 
 
 
 
 
 
 
b4856f1
 
 
 
 
 
 
 
 
752f5cc
b4856f1
 
 
 
 
752f5cc
b4856f1
 
 
752f5cc
b4856f1
 
 
 
752f5cc
b4856f1
 
752f5cc
 
 
b4856f1
 
752f5cc
b4856f1
 
 
 
 
752f5cc
b4856f1
 
 
 
 
 
752f5cc
b4856f1
752f5cc
 
 
 
 
 
 
 
b4856f1
752f5cc
b4856f1
 
 
 
 
 
752f5cc
b4856f1
752f5cc
b4856f1
752f5cc
b4856f1
 
 
 
 
 
 
 
752f5cc
b4856f1
 
 
752f5cc
b4856f1
 
 
 
752f5cc
b4856f1
 
752f5cc
 
 
b4856f1
 
 
 
 
752f5cc
b4856f1
 
 
752f5cc
b4856f1
 
 
752f5cc
b4856f1
 
 
752f5cc
 
 
b4856f1
 
 
 
 
 
 
 
752f5cc
b4856f1
752f5cc
b4856f1
 
 
 
 
 
 
 
 
752f5cc
b4856f1
 
 
752f5cc
 
 
 
 
 
 
 
 
b4856f1
752f5cc
b4856f1
 
 
 
752f5cc
b4856f1
 
 
752f5cc
 
 
 
 
 
 
 
 
 
 
b4856f1
 
752f5cc
b4856f1
 
 
752f5cc
b4856f1
 
 
 
 
 
752f5cc
b4856f1
752f5cc
 
 
 
 
 
 
 
 
 
b4856f1
 
 
 
 
 
 
 
 
752f5cc
b4856f1
752f5cc
 
 
b4856f1
 
 
752f5cc
b4856f1
 
 
 
752f5cc
b4856f1
 
 
 
 
752f5cc
b4856f1
752f5cc
b4856f1
 
 
 
752f5cc
b4856f1
752f5cc
b4856f1
 
 
 
 
752f5cc
 
 
 
 
 
 
 
 
 
 
 
b4856f1
 
752f5cc
 
 
 
 
 
 
 
 
 
 
b4856f1
 
752f5cc
b4856f1
 
 
 
 
752f5cc
 
 
 
 
 
 
 
 
 
 
 
b4856f1
 
752f5cc
 
 
 
 
 
 
 
 
 
 
b4856f1
 
752f5cc
 
 
 
 
 
 
 
 
 
 
b4856f1

"""
src/utils/profile_scrapers.py
Profile-based social media scrapers for Intelligence Agent
Competitive Intelligence & Profile Monitoring Tools
"""

import json
import os
import time
import random
import re
import logging
from typing import Optional, List
from datetime import datetime
from urllib.parse import quote_plus
from langchain_core.tools import tool

try:
    from playwright.sync_api import sync_playwright

    PLAYWRIGHT_AVAILABLE = True
except ImportError:
    PLAYWRIGHT_AVAILABLE = False

from src.utils.utils import (
    ensure_playwright,
    load_playwright_storage_state_path,
    clean_twitter_text,
    extract_twitter_timestamp,
    clean_fb_text,
    extract_media_id_instagram,
    fetch_caption_via_private_api,
)

logger = logging.getLogger("Roger.utils.profile_scrapers")
logger.setLevel(logging.INFO)


# =====================================================
# TWITTER PROFILE SCRAPER
# =====================================================


@tool
def scrape_twitter_profile(username: str, max_items: int = 20):
    """
    Twitter PROFILE scraper - targets a specific user's timeline for competitive monitoring.
    Fetches tweets from a specific user's profile, not search results.
    Perfect for monitoring competitor accounts, influencers, or specific business profiles.

    Features:
    - Retry logic with exponential backoff (3 attempts)
    - Fallback to keyword search if profile fails
    - Increased timeout (90s)

    Args:
        username: Twitter username (without @)
        max_items: Maximum number of tweets to fetch

    Returns:
        JSON with user's tweets, engagement metrics, and timestamps
    """
    ensure_playwright()

    # Load Session
    site = "twitter"
    session_path = load_playwright_storage_state_path(
        site, out_dir="src/utils/.sessions"
    )
    if not session_path:
        session_path = load_playwright_storage_state_path(site, out_dir=".sessions")

    # Check for alternative session file name
    if not session_path:
        alt_paths = [
            os.path.join(os.getcwd(), "src", "utils", ".sessions", "tw_state.json"),
            os.path.join(os.getcwd(), ".sessions", "tw_state.json"),
            os.path.join(os.getcwd(), "tw_state.json"),
        ]
        for path in alt_paths:
            if os.path.exists(path):
                session_path = path
                logger.info(f"[TWITTER_PROFILE] Found session at {path}")
                break

    if not session_path:
        return json.dumps(
            {
                "error": "No Twitter session found",
                "solution": "Run the Twitter session manager to create a session",
            },
            default=str,
        )

    results = []
    username = username.lstrip("@")  # Remove @ if present

    try:
        with sync_playwright() as p:
            browser = p.chromium.launch(
                headless=True,
                args=[
                    "--disable-blink-features=AutomationControlled",
                    "--no-sandbox",
                    "--disable-dev-shm-usage",
                ],
            )

            context = browser.new_context(
                storage_state=session_path,
                viewport={"width": 1280, "height": 720},
                user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",
            )

            context.add_init_script(
                """
                Object.defineProperty(navigator, 'webdriver', {get: () => undefined});
                window.chrome = {runtime: {}};
            """
            )

            page = context.new_page()

            # Navigate to user profile with retry logic
            profile_url = f"https://x.com/{username}"
            logger.info(f"[TWITTER_PROFILE] Monitoring @{username}")

            max_retries = 3
            navigation_success = False
            last_error = None

            for attempt in range(max_retries):
                try:
                    # Exponential backoff: 0, 2, 4 seconds
                    if attempt > 0:
                        wait_time = 2**attempt
                        logger.info(
                            f"[TWITTER_PROFILE] Retry {attempt + 1}/{max_retries} after {wait_time}s..."
                        )
                        time.sleep(wait_time)

                    # Increased timeout from 60s to 90s, changed to networkidle
                    page.goto(profile_url, timeout=90000, wait_until="networkidle")
                    time.sleep(5)

                    # Handle popups
                    popup_selectors = [
                        "[data-testid='app-bar-close']",
                        "[aria-label='Close']",
                        "button:has-text('Not now')",
                    ]
                    for selector in popup_selectors:
                        try:
                            if (
                                page.locator(selector).count() > 0
                                and page.locator(selector).first.is_visible()
                            ):
                                page.locator(selector).first.click()
                                time.sleep(1)
                        except:
                            pass

                    # Wait for tweets to load
                    try:
                        page.wait_for_selector(
                            "article[data-testid='tweet']", timeout=20000
                        )
                        logger.info(f"[TWITTER_PROFILE] Loaded {username}'s profile")
                        navigation_success = True
                        break
                    except:
                        last_error = f"Could not load tweets for @{username}"
                        logger.warning(
                            f"[TWITTER_PROFILE] {last_error}, attempt {attempt + 1}/{max_retries}"
                        )
                        continue

                except Exception as e:
                    last_error = str(e)
                    logger.warning(
                        f"[TWITTER_PROFILE] Navigation failed on attempt {attempt + 1}: {e}"
                    )
                    continue

            # If profile scraping failed after all retries, try fallback to keyword search
            if not navigation_success:
                logger.warning(
                    f"[TWITTER_PROFILE] Profile scraping failed, falling back to keyword search for '{username}'"
                )
                browser.close()

                # Fallback: use keyword search instead
                try:
                    from src.utils.utils import scrape_twitter

                    fallback_result = scrape_twitter.invoke(
                        {"query": username, "max_items": max_items}
                    )
                    fallback_data = (
                        json.loads(fallback_result)
                        if isinstance(fallback_result, str)
                        else fallback_result
                    )

                    if "error" not in fallback_data:
                        fallback_data["fallback_used"] = True
                        fallback_data["original_error"] = last_error
                        fallback_data["note"] = (
                            f"Used keyword search as fallback for @{username}"
                        )
                        return json.dumps(fallback_data, default=str)
                except Exception as fallback_error:
                    logger.error(
                        f"[TWITTER_PROFILE] Fallback also failed: {fallback_error}"
                    )

                return json.dumps(
                    {
                        "error": last_error
                        or f"Profile not found or private: @{username}",
                        "fallback_attempted": True,
                    },
                    default=str,
                )

            # Check if logged in
            if "login" in page.url:
                logger.error("[TWITTER_PROFILE] Session expired")
                return json.dumps({"error": "Session invalid or expired"}, default=str)

            # Scraping with engagement metrics
            seen = set()
            scroll_attempts = 0
            max_scroll_attempts = 10

            TWEET_SELECTOR = "article[data-testid='tweet']"
            TEXT_SELECTOR = "div[data-testid='tweetText']"

            while len(results) < max_items and scroll_attempts < max_scroll_attempts:
                scroll_attempts += 1

                # Expand "Show more" buttons
                try:
                    show_more_buttons = page.locator(
                        "[data-testid='tweet-text-show-more-link']"
                    ).all()
                    for button in show_more_buttons:
                        if button.is_visible():
                            try:
                                button.click()
                                time.sleep(0.3)
                            except:
                                pass
                except:
                    pass

                # Collect tweets
                tweets = page.locator(TWEET_SELECTOR).all()
                new_tweets_found = 0

                for tweet in tweets:
                    if len(results) >= max_items:
                        break

                    try:
                        tweet.scroll_into_view_if_needed()
                        time.sleep(0.2)

                        # Skip promoted/ads
                        if (
                            tweet.locator("span:has-text('Promoted')").count() > 0
                            or tweet.locator("span:has-text('Ad')").count() > 0
                        ):
                            continue

                        # Extract text
                        text_content = ""
                        text_element = tweet.locator(TEXT_SELECTOR).first
                        if text_element.count() > 0:
                            text_content = text_element.inner_text()

                        cleaned_text = clean_twitter_text(text_content)

                        # Extract timestamp
                        timestamp = extract_twitter_timestamp(tweet)

                        # Extract engagement metrics
                        likes = 0
                        retweets = 0
                        replies = 0

                        try:
                            # Likes
                            like_button = tweet.locator("[data-testid='like']")
                            if like_button.count() > 0:
                                like_text = (
                                    like_button.first.get_attribute("aria-label") or ""
                                )
                                like_match = re.search(r"(\d+)", like_text)
                                if like_match:
                                    likes = int(like_match.group(1))

                            # Retweets
                            retweet_button = tweet.locator("[data-testid='retweet']")
                            if retweet_button.count() > 0:
                                rt_text = (
                                    retweet_button.first.get_attribute("aria-label")
                                    or ""
                                )
                                rt_match = re.search(r"(\d+)", rt_text)
                                if rt_match:
                                    retweets = int(rt_match.group(1))

                            # Replies
                            reply_button = tweet.locator("[data-testid='reply']")
                            if reply_button.count() > 0:
                                reply_text = (
                                    reply_button.first.get_attribute("aria-label") or ""
                                )
                                reply_match = re.search(r"(\d+)", reply_text)
                                if reply_match:
                                    replies = int(reply_match.group(1))
                        except:
                            pass

                        # Extract tweet URL
                        tweet_url = f"https://x.com/{username}"
                        try:
                            link_element = tweet.locator("a[href*='/status/']").first
                            if link_element.count() > 0:
                                href = link_element.get_attribute("href")
                                if href:
                                    tweet_url = f"https://x.com{href}"
                        except:
                            pass

                        # Deduplication
                        text_key = cleaned_text[:50] if cleaned_text else ""
                        unique_key = f"{username}_{text_key}_{timestamp}"

                        if (
                            cleaned_text
                            and len(cleaned_text) > 20
                            and unique_key not in seen
                        ):
                            seen.add(unique_key)
                            results.append(
                                {
                                    "source": "Twitter",
                                    "poster": f"@{username}",
                                    "text": cleaned_text,
                                    "timestamp": timestamp,
                                    "url": tweet_url,
                                    "likes": likes,
                                    "retweets": retweets,
                                    "replies": replies,
                                }
                            )
                            new_tweets_found += 1
                            logger.info(
                                f"[TWITTER_PROFILE] Tweet {len(results)}/{max_items} (♥{likes} ↻{retweets})"
                            )

                    except Exception as e:
                        logger.debug(f"[TWITTER_PROFILE] Error: {e}")
                        continue

                # Scroll if needed
                if len(results) < max_items:
                    page.evaluate(
                        "window.scrollTo(0, document.documentElement.scrollHeight)"
                    )
                    time.sleep(random.uniform(2, 3))

                    if new_tweets_found == 0:
                        break

            browser.close()

            return json.dumps(
                {
                    "site": "Twitter Profile",
                    "username": username,
                    "results": results,
                    "total_found": len(results),
                    "fetched_at": datetime.utcnow().isoformat(),
                },
                default=str,
            )

    except Exception as e:
        logger.error(f"[TWITTER_PROFILE] {e}")
        return json.dumps({"error": str(e)}, default=str)


# =====================================================
# FACEBOOK PROFILE SCRAPER
# =====================================================


@tool
def scrape_facebook_profile(profile_url: str, max_items: int = 10):
    """
    Facebook PROFILE scraper - monitors a specific page or user profile.
    Scrapes posts from a specific Facebook page/profile timeline for competitive monitoring.

    Args:
        profile_url: Full Facebook profile/page URL (e.g., "https://www.facebook.com/DialogAxiata")
        max_items: Maximum number of posts to fetch

    Returns:
        JSON with profile's posts, engagement metrics, and timestamps
    """
    ensure_playwright()

    # Load Session
    site = "facebook"
    session_path = load_playwright_storage_state_path(
        site, out_dir="src/utils/.sessions"
    )
    if not session_path:
        session_path = load_playwright_storage_state_path(site, out_dir=".sessions")

    # Check for alternative session file name
    if not session_path:
        alt_paths = [
            os.path.join(os.getcwd(), "src", "utils", ".sessions", "fb_state.json"),
            os.path.join(os.getcwd(), ".sessions", "fb_state.json"),
            os.path.join(os.getcwd(), "fb_state.json"),
        ]
        for path in alt_paths:
            if os.path.exists(path):
                session_path = path
                logger.info(f"[FACEBOOK_PROFILE] Found session at {path}")
                break

    if not session_path:
        return json.dumps(
            {
                "error": "No Facebook session found",
                "solution": "Run the Facebook session manager to create a session",
            },
            default=str,
        )

    results = []

    try:
        with sync_playwright() as p:
            facebook_desktop_ua = (
                "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 "
                "(KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
            )

            browser = p.chromium.launch(headless=True)

            context = browser.new_context(
                storage_state=session_path,
                user_agent=facebook_desktop_ua,
                viewport={"width": 1400, "height": 900},
            )

            page = context.new_page()

            logger.info(f"[FACEBOOK_PROFILE] Monitoring {profile_url}")
            page.goto(profile_url, timeout=120000)
            time.sleep(5)

            # Check if logged in
            if "login" in page.url:
                logger.error("[FACEBOOK_PROFILE] Session expired")
                return json.dumps({"error": "Session invalid or expired"}, default=str)

            seen = set()
            stuck = 0
            last_scroll = 0

            MESSAGE_SELECTOR = "div[data-ad-preview='message']"

            # Poster selectors
            POSTER_SELECTORS = [
                "h3 strong a span",
                "h3 strong span",
                "h3 a span",
                "strong a span",
                "a[role='link'] span:not([class*='timestamp'])",
                "span.fwb a",
                "span.fwb",
                "a[aria-hidden='false'] span",
                "a[role='link'] span",
            ]

            def extract_poster(post):
                """Extract poster name from Facebook post"""
                parent = post.locator(
                    "xpath=ancestor::div[contains(@class, 'x1yztbdb')][1]"
                )

                for selector in POSTER_SELECTORS:
                    try:
                        el = parent.locator(selector).first
                        if el and el.count() > 0:
                            name = el.inner_text().strip()
                            if name and name != "Facebook" and len(name) > 1:
                                return name
                    except:
                        pass

                return "(Unknown)"

            # IMPROVED: Expand ALL "See more" buttons on page before extracting
            def expand_all_see_more():
                """Click all 'See more' buttons on the visible page"""
                see_more_selectors = [
                    # Primary Facebook "See more" patterns
                    "div[role='button'] span:text-is('See more')",
                    "div[role='button']:has-text('See more')",
                    "span:text-is('See more')",
                    "span:text-is('… See more')",
                    "span:text-is('...See more')",
                    # Alternate patterns
                    "[role='button']:has-text('See more')",
                    "div.x1i10hfl:has-text('See more')",
                    # Direct text match
                    "text='See more'",
                    "text='… See more'",
                ]

                clicked = 0
                for selector in see_more_selectors:
                    try:
                        buttons = page.locator(selector).all()
                        for btn in buttons:
                            try:
                                if btn.is_visible():
                                    btn.scroll_into_view_if_needed()
                                    time.sleep(0.2)
                                    btn.click(force=True)
                                    clicked += 1
                                    time.sleep(0.3)
                            except:
                                pass
                    except:
                        pass

                if clicked > 0:
                    logger.info(
                        f"[FACEBOOK_PROFILE] Expanded {clicked} 'See more' buttons"
                    )
                return clicked

            while len(results) < max_items:
                # First expand all "See more" on visible content
                expand_all_see_more()
                time.sleep(0.5)

                posts = page.locator(MESSAGE_SELECTOR).all()

                for post in posts:
                    try:
                        # Try to expand within this specific post container too
                        try:
                            post.scroll_into_view_if_needed()
                            time.sleep(0.3)

                            # Look for See more in parent container
                            parent = post.locator(
                                "xpath=ancestor::div[contains(@class, 'x1yztbdb')][1]"
                            )

                            post_see_more_selectors = [
                                "div[role='button'] span:text-is('See more')",
                                "span:text-is('See more')",
                                "div[role='button']:has-text('See more')",
                            ]

                            for selector in post_see_more_selectors:
                                try:
                                    btns = parent.locator(selector)
                                    if btns.count() > 0 and btns.first.is_visible():
                                        btns.first.click(force=True)
                                        time.sleep(0.5)
                                        break
                                except:
                                    pass
                        except:
                            pass

                        raw = post.inner_text().strip()
                        cleaned = clean_fb_text(raw)

                        poster = extract_poster(post)

                        if cleaned and len(cleaned) > 30:
                            key = poster + "::" + cleaned
                            if key not in seen:
                                seen.add(key)
                                results.append(
                                    {
                                        "source": "Facebook",
                                        "poster": poster,
                                        "text": cleaned,
                                        "url": profile_url,
                                    }
                                )
                                logger.info(
                                    f"[FACEBOOK_PROFILE] Collected post {len(results)}/{max_items}"
                                )

                        if len(results) >= max_items:
                            break

                    except:
                        pass

                # Scroll
                page.evaluate("window.scrollBy(0, 2300)")
                time.sleep(1.5)

                new_scroll = page.evaluate("window.scrollY")
                stuck = stuck + 1 if new_scroll == last_scroll else 0
                last_scroll = new_scroll

                if stuck >= 3:
                    logger.info("[FACEBOOK_PROFILE] Reached end of results")
                    break

            browser.close()

            return json.dumps(
                {
                    "site": "Facebook Profile",
                    "profile_url": profile_url,
                    "results": results[:max_items],
                    "storage_state": session_path,
                },
                default=str,
            )

    except Exception as e:
        logger.error(f"[FACEBOOK_PROFILE] {e}")
        return json.dumps({"error": str(e)}, default=str)


# =====================================================
# INSTAGRAM PROFILE SCRAPER
# =====================================================


@tool
def scrape_instagram_profile(username: str, max_items: int = 15):
    """
    Instagram PROFILE scraper - monitors a specific user's profile.
    Scrapes posts from a specific Instagram user's profile grid for competitive monitoring.

    Args:
        username: Instagram username (without @)
        max_items: Maximum number of posts to fetch

    Returns:
        JSON with user's posts, captions, and engagement
    """
    ensure_playwright()

    # Load Session
    site = "instagram"
    session_path = load_playwright_storage_state_path(
        site, out_dir="src/utils/.sessions"
    )
    if not session_path:
        session_path = load_playwright_storage_state_path(site, out_dir=".sessions")

    # Check for alternative session file name
    if not session_path:
        alt_paths = [
            os.path.join(os.getcwd(), "src", "utils", ".sessions", "ig_state.json"),
            os.path.join(os.getcwd(), ".sessions", "ig_state.json"),
            os.path.join(os.getcwd(), "ig_state.json"),
        ]
        for path in alt_paths:
            if os.path.exists(path):
                session_path = path
                logger.info(f"[INSTAGRAM_PROFILE] Found session at {path}")
                break

    if not session_path:
        return json.dumps(
            {
                "error": "No Instagram session found",
                "solution": "Run the Instagram session manager to create a session",
            },
            default=str,
        )

    username = username.lstrip("@")  # Remove @ if present
    results = []

    try:
        with sync_playwright() as p:
            instagram_mobile_ua = (
                "Mozilla/5.0 (iPhone; CPU iPhone OS 17_0 like Mac OS X) "
                "AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.0 Mobile/15E148 Safari/604.1"
            )

            browser = p.chromium.launch(headless=True)

            context = browser.new_context(
                storage_state=session_path,
                user_agent=instagram_mobile_ua,
                viewport={"width": 430, "height": 932},
            )

            page = context.new_page()
            url = f"https://www.instagram.com/{username}/"

            logger.info(f"[INSTAGRAM_PROFILE] Monitoring @{username}")
            page.goto(url, timeout=120000)
            page.wait_for_timeout(4000)

            # Check if logged in and profile exists
            if "login" in page.url:
                logger.error("[INSTAGRAM_PROFILE] Session expired")
                return json.dumps({"error": "Session invalid or expired"}, default=str)

            # Scroll to load posts
            for _ in range(8):
                page.mouse.wheel(0, 2500)
                page.wait_for_timeout(1500)

            # Collect post links
            anchors = page.locator("a[href*='/p/'], a[href*='/reel/']").all()
            links = []

            for a in anchors:
                href = a.get_attribute("href")
                if href:
                    full = "https://www.instagram.com" + href
                    links.append(full)
                if len(links) >= max_items:
                    break

            logger.info(
                f"[INSTAGRAM_PROFILE] Found {len(links)} posts from @{username}"
            )

            # Extract captions from each post
            for link in links:
                logger.info(f"[INSTAGRAM_PROFILE] Scraping {link}")
                page.goto(link, timeout=120000)
                page.wait_for_timeout(2000)

                media_id = extract_media_id_instagram(page)
                caption = fetch_caption_via_private_api(page, media_id)

                # Fallback to direct extraction
                if not caption:
                    try:
                        caption = (
                            page.locator("article h1, article span")
                            .first.inner_text()
                            .strip()
                        )
                    except:
                        caption = None

                if caption:
                    results.append(
                        {
                            "source": "Instagram",
                            "poster": f"@{username}",
                            "text": caption,
                            "url": link,
                        }
                    )
                    logger.info(
                        f"[INSTAGRAM_PROFILE] Collected post {len(results)}/{max_items}"
                    )

            browser.close()

            return json.dumps(
                {
                    "site": "Instagram Profile",
                    "username": username,
                    "results": results,
                    "storage_state": session_path,
                },
                default=str,
            )

    except Exception as e:
        logger.error(f"[INSTAGRAM_PROFILE] {e}")
        return json.dumps({"error": str(e)}, default=str)


# =====================================================
# LINKEDIN PROFILE SCRAPER
# =====================================================


@tool
def scrape_linkedin_profile(company_or_username: str, max_items: int = 10):
    """
    LinkedIn PROFILE scraper - monitors a company or user profile.
    Scrapes posts from a specific LinkedIn company or personal profile for competitive monitoring.

    Args:
        company_or_username: LinkedIn company name or username (e.g., "dialog-axiata" or "company/dialog-axiata")
        max_items: Maximum number of posts to fetch

    Returns:
        JSON with profile's posts and engagement
    """
    ensure_playwright()

    # Load Session
    site = "linkedin"
    session_path = load_playwright_storage_state_path(
        site, out_dir="src/utils/.sessions"
    )
    if not session_path:
        session_path = load_playwright_storage_state_path(site, out_dir=".sessions")

    # Check for alternative session file name
    if not session_path:
        alt_paths = [
            os.path.join(os.getcwd(), "src", "utils", ".sessions", "li_state.json"),
            os.path.join(os.getcwd(), ".sessions", "li_state.json"),
            os.path.join(os.getcwd(), "li_state.json"),
        ]
        for path in alt_paths:
            if os.path.exists(path):
                session_path = path
                logger.info(f"[LINKEDIN_PROFILE] Found session at {path}")
                break

    if not session_path:
        return json.dumps(
            {
                "error": "No LinkedIn session found",
                "solution": "Run the LinkedIn session manager to create a session",
            },
            default=str,
        )

    results = []

    try:
        with sync_playwright() as p:
            browser = p.chromium.launch(headless=True)
            context = browser.new_context(
                storage_state=session_path,
                user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",
                viewport={"width": 1400, "height": 900},
            )

            page = context.new_page()

            # Construct profile URL
            if not company_or_username.startswith("http"):
                if "company/" in company_or_username:
                    profile_url = f"https://www.linkedin.com/company/{company_or_username.replace('company/', '')}"
                else:
                    profile_url = f"https://www.linkedin.com/in/{company_or_username}"
            else:
                profile_url = company_or_username

            logger.info(f"[LINKEDIN_PROFILE] Monitoring {profile_url}")
            page.goto(profile_url, timeout=120000)
            page.wait_for_timeout(5000)

            # Check if logged in
            if "login" in page.url or "authwall" in page.url:
                logger.error("[LINKEDIN_PROFILE] Session expired")
                return json.dumps({"error": "Session invalid or expired"}, default=str)

            # Navigate to posts section
            try:
                posts_tab = page.locator(
                    "a:has-text('Posts'), button:has-text('Posts')"
                ).first
                if posts_tab.is_visible():
                    posts_tab.click()
                    page.wait_for_timeout(3000)
            except:
                logger.warning("[LINKEDIN_PROFILE] Could not find posts tab")

            seen = set()
            no_new_data_count = 0
            previous_height = 0

            POST_CONTAINER_SELECTOR = "div.feed-shared-update-v2"
            TEXT_SELECTOR = "span.break-words"
            POSTER_SELECTOR = "span.update-components-actor__name span[dir='ltr']"

            while len(results) < max_items and no_new_data_count < 3:
                # Expand "see more" buttons
                try:
                    see_more_buttons = page.locator(
                        "button.feed-shared-inline-show-more-text__see-more-less-toggle"
                    ).all()
                    for btn in see_more_buttons:
                        if btn.is_visible():
                            try:
                                btn.click(timeout=500)
                            except:
                                pass
                except:
                    pass

                posts = page.locator(POST_CONTAINER_SELECTOR).all()

                for post in posts:
                    if len(results) >= max_items:
                        break
                    try:
                        post.scroll_into_view_if_needed()
                        raw_text = ""
                        text_el = post.locator(TEXT_SELECTOR).first
                        if text_el.is_visible():
                            raw_text = text_el.inner_text()

                        # Clean text
                        cleaned_text = raw_text
                        if cleaned_text:
                            cleaned_text = re.sub(
                                r"…\s*see more", "", cleaned_text, flags=re.IGNORECASE
                            )
                            cleaned_text = re.sub(
                                r"See translation",
                                "",
                                cleaned_text,
                                flags=re.IGNORECASE,
                            )
                            cleaned_text = cleaned_text.strip()

                        poster_name = "(Unknown)"
                        poster_el = post.locator(POSTER_SELECTOR).first
                        if poster_el.is_visible():
                            poster_name = poster_el.inner_text().strip()

                        key = f"{poster_name[:20]}::{cleaned_text[:30]}"
                        if cleaned_text and len(cleaned_text) > 20 and key not in seen:
                            seen.add(key)
                            results.append(
                                {
                                    "source": "LinkedIn",
                                    "poster": poster_name,
                                    "text": cleaned_text,
                                    "url": profile_url,
                                }
                            )
                            logger.info(
                                f"[LINKEDIN_PROFILE] Found post {len(results)}/{max_items}"
                            )
                    except:
                        continue

                # Scroll
                page.evaluate("window.scrollTo(0, document.body.scrollHeight)")
                page.wait_for_timeout(random.randint(2000, 4000))

                new_height = page.evaluate("document.body.scrollHeight")
                if new_height == previous_height:
                    no_new_data_count += 1
                else:
                    no_new_data_count = 0
                    previous_height = new_height

            browser.close()
            return json.dumps(
                {
                    "site": "LinkedIn Profile",
                    "profile": company_or_username,
                    "results": results,
                    "storage_state": session_path,
                },
                default=str,
            )

    except Exception as e:
        logger.error(f"[LINKEDIN_PROFILE] {e}")
        return json.dumps({"error": str(e)}, default=str)


# =====================================================
# PRODUCT REVIEW AGGREGATOR
# =====================================================


@tool
def scrape_product_reviews(
    product_keyword: str, platforms: Optional[List[str]] = None, max_items: int = 10
):
    """
    Multi-platform product review aggregator for competitive intelligence.
    Searches for product reviews and mentions across Reddit and Twitter.

    Args:
        product_keyword: Product name to search for
        platforms: List of platforms to search (default: ["reddit", "twitter"])
        max_items: Maximum number of reviews per platform

    Returns:
        JSON with aggregated reviews from multiple platforms
    """
    if platforms is None:
        platforms = ["reddit", "twitter"]

    all_reviews = []

    try:
        # Import tool factory for independent tool instances
        # This ensures parallel execution safety
        from src.utils.tool_factory import create_tool_set

        local_tools = create_tool_set()

        # Reddit reviews
        if "reddit" in platforms:
            try:
                reddit_tool = local_tools.get("scrape_reddit")
                if reddit_tool:
                    reddit_data = reddit_tool.invoke(
                        {
                            "keywords": [f"{product_keyword} review", product_keyword],
                            "limit": max_items,
                        }
                    )

                    reddit_results = (
                        json.loads(reddit_data)
                        if isinstance(reddit_data, str)
                        else reddit_data
                    )
                    if "results" in reddit_results:
                        for item in reddit_results["results"]:
                            all_reviews.append(
                                {
                                    "platform": "Reddit",
                                    "text": item.get("text", ""),
                                    "url": item.get("url", ""),
                                    "poster": item.get("poster", "Unknown"),
                                }
                            )
                logger.info(
                    f"[PRODUCT_REVIEWS] Collected {len([r for r in all_reviews if r['platform'] == 'Reddit'])} Reddit reviews"
                )
            except Exception as e:
                logger.error(f"[PRODUCT_REVIEWS] Reddit error: {e}")

        # Twitter reviews
        if "twitter" in platforms:
            try:
                twitter_tool = local_tools.get("scrape_twitter")
                if twitter_tool:
                    twitter_data = twitter_tool.invoke(
                        {
                            "query": f"{product_keyword} review OR {product_keyword} rating",
                            "max_items": max_items,
                        }
                    )

                    twitter_results = (
                        json.loads(twitter_data)
                        if isinstance(twitter_data, str)
                        else twitter_data
                    )
                    if "results" in twitter_results:
                        for item in twitter_results["results"]:
                            all_reviews.append(
                                {
                                    "platform": "Twitter",
                                    "text": item.get("text", ""),
                                    "url": item.get("url", ""),
                                    "poster": item.get("poster", "Unknown"),
                                }
                            )
                logger.info(
                    f"[PRODUCT_REVIEWS] Collected {len([r for r in all_reviews if r['platform'] == 'Twitter'])} Twitter reviews"
                )
            except Exception as e:
                logger.error(f"[PRODUCT_REVIEWS] Twitter error: {e}")

        return json.dumps(
            {
                "product": product_keyword,
                "total_reviews": len(all_reviews),
                "reviews": all_reviews,
                "platforms_searched": platforms,
            },
            default=str,
        )

    except Exception as e:
        logger.error(f"[PRODUCT_REVIEWS] {e}")
        return json.dumps({"error": str(e)}, default=str)