Spaces:

BowoZZZ
/

Simontokdl

Sleeping

App Files Files Community

BowoZZZ commited on Feb 5

Commit

e318dbf

verified ·

1 Parent(s): 7c81c68

Upload 3 files

Browse files

Files changed (3) hide show

Dockerfile +27 -0
main.py +281 -0
requirements.txt +4 -0

Dockerfile ADDED Viewed

	@@ -0,0 +1,27 @@

+# Gunakan image Python yang ringan
+FROM python:3.9-slim
+# Set working directory
+WORKDIR /app
+# Copy file requirements dan install dependencies
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+# --- BAGIAN INI YANG HILANG DI FILE KAMU ---
+# 1. Copy seluruh file project (termasuk main.py) ke dalam container
+COPY . .
+# 2. Buat user baru (non-root) agar sesuai security policy Hugging Face
+# Ini Wajib agar tidak kena error "Permission Denied"
+RUN useradd -m -u 1000 user
+USER user
+ENV HOME=/home/user \
+    PATH=/home/user/.local/bin:$PATH
+# 3. Expose port 7860 (Port wajib untuk HF Spaces)
+EXPOSE 7860
+# 4. Perintah utama untuk menyalakan server saat Space dijalankan
+CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "7860"]

main.py ADDED Viewed

	@@ -0,0 +1,281 @@

+from fastapi import FastAPI, HTTPException, Query
+import httpx
+from bs4 import BeautifulSoup
+import uvicorn
+import os
+from urllib.parse import unquote, urlparse, parse_qs
+from contextlib import asynccontextmanager
+import asyncio
+import re
+# Setup Async Client
+client = None
+@asynccontextmanager
+async def lifespan(app: FastAPI):
+    global client
+    headers = {
+        "User-Agent": "Mozilla/5.0 (Linux; Android 10; K) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Mobile Safari/537.36",
+        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
+    }
+    # Timeout di-disable agar tidak error saat koneksi lambat
+    client = httpx.AsyncClient(headers=headers, verify=False, follow_redirects=True, timeout=None)
+@asynccontextmanager
+async def lifespan(app: FastAPI):
+    global client
+    headers = {
+        "User-Agent": "Mozilla/5.0 (Linux; Android 10; K) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Mobile Safari/537.36",
+        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
+    }
+    client = httpx.AsyncClient(headers=headers, verify=False, follow_redirects=True, timeout=None)
+    yield
+    await client.aclose()
+app = FastAPI(title="Simontok Scraper", lifespan=lifespan)
+BASE_DOMAIN = "https://simontokx.tv"
+def unwrap_google_url(url: str) -> str:
+    """Membersihkan URL dari wrapper Google Translate."""
+    if not url: return ""
+    clean = unquote(url)
+    # Decode jika URL terbungkus format /website?u=...
+    if "google" in clean and "/website" in clean and "u=" in clean:
+        try:
+            parsed = urlparse(clean)
+            qs = parse_qs(parsed.query)
+            if 'u' in qs:
+                return unwrap_google_url(qs['u'][0])
+        except:
+            pass
+    # Bersihkan domain translate (simontokx-tv.translate.goog -> simontokx.tv)
+    clean = clean.replace("simontokx-tv.translate.goog", "simontokx.tv")
+    # Hapus parameter google translate
+    clean = clean.split("?_x_tr_")[0]
+    clean = clean.split("&_x_tr_")[0]
+    # Handle relative URL
+    if clean.startswith("/"):
+        clean = BASE_DOMAIN + clean
+    return clean
+async def fetch_until_success(url: str, validator_func) -> BeautifulSoup:
+    """
+    Core Logic: Terus melakukan request ke URL sampai validator_func mengembalikan True.
+    Jika terkena 429 (Too Many Requests) pada Proxy, switch ke Direct URL.
+    """
+    current_url = url
+    while True:
+        try:
+            res = await client.get(current_url)
+            # Jika terkena limit (429) dan sedang menggunakan proxy translate
+            if res.status_code == 429 and "translate.goog" in current_url:
+                current_url = unwrap_google_url(current_url)
+                continue
+            soup = BeautifulSoup(res.text, 'html.parser')
+            if validator_func(soup):
+                return soup
+        except Exception:
+            pass
+async def process_item_fully(name, detail_url, image):
+    """
+    Memproses satu item video:
+    1. Masuk detail (via Proxy).
+    2. Ambil Link Download & Tags.
+    """
+    while True:
+        try:
+            # Convert ke Proxy URL untuk halaman detail
+            # simontokx.tv -> simontokx-tv.translate.goog
+            target_detail_url = detail_url.replace("https://simontokx.tv", "https://simontokx-tv.translate.goog")
+            if "?" not in target_detail_url:
+                target_detail_url += "?_x_tr_sl=auto&_x_tr_tl=en&_x_tr_hl=en"
+            else:
+                target_detail_url += "&_x_tr_sl=auto&_x_tr_tl=en&_x_tr_hl=en"
+            # 1. Fetch Halaman Detail
+            def detail_page_valid(s):
+                # Validasi halaman detail ada judul atau player
+                title_exist = bool(s.select('h3.single-title'))
+                player_exist = bool(s.select('#main-video-player'))
+                return title_exist or player_exist
+            app_soup = await fetch_until_success(target_detail_url, detail_page_valid)
+            # 2. Ambil Link Download
+            # Cari tombol <a> dengan class 'btn btn-primary' yang text-nya DOWNLOAD
+            download_link = ""
+            download_btn = app_soup.find('a', string=re.compile(r'DOWNLOAD', re.IGNORECASE))
+            # Fallback selektor jika text tidak match persis
+            if not download_btn:
+                download_btn = app_soup.select_one('a.btn.btn-primary[href^="http"]')
+            if download_btn and download_btn.get('href'):
+                download_link = unwrap_google_url(download_btn['href'])
+            # 3. Ambil Tags
+            # Lokasi: di bawah <h4 class="sidebar-title"><span class="highlight">Tags</span></h4>
+            tags_list = []
+            tags_header = app_soup.find('h4', class_='sidebar-title')
+            if tags_header:
+                # Ambil siblings (elemen a setelah header)
+                # Berdasarkan HTML: <a href="/?id=..." class="btn btn-default">tagname</a>
+                # Kita cari tag <a> dengan class 'btn btn-default' yang mengandung 'id=' di href atau posisinya
+                # Cara aman: select semua a.btn.btn-default di halaman yang relevan
+                potential_tags = app_soup.select('a.btn.btn-default')
+                for tag in potential_tags:
+                    # Filter sederhana: biasanya tag linknya /?id=
+                    if "id=" in tag.get('href', ''):
+                        tag_text = tag.get_text(strip=True)
+                        if tag_text:
+                            tags_list.append(tag_text)
+            tags_str = ", ".join(tags_list)
+            return {
+                "name": name,
+                "link": unwrap_google_url(detail_url), # Return link asli
+                "image": image,
+                "download": download_link,
+                "tags": tags_str
+            }
+        except Exception:
+            # Jika gagal, bisa retry atau skip. Di sini kita skip agar tidak stuck forever.
+            return None
+@app.get("/")
+async def root():
+    return {
+        "message": "Search API for Simontokx.tv by Bowo",
+        "example_usage": "/search?query=minecraft&limit=5"
+    }
+@app.get("/search")
+async def search_apps(
+    query: str = Query(..., description="Video query"),
+    limit: int = Query(5, description="Limit results")
+):
+    tasks = []
+    # Logic Pagination Simontok:
+    # Page 1: /?id={query}
+    # Page 2: /page/tags/{query}/pages/1
+    # Page 3: /page/tags/{query}/pages/2
+    # Kita gunakan counter 'current_page' (mulai dari 0 untuk halaman pertama)
+    current_page = 0
+    while True:
+        # Construct URL menggunakan Proxy Google Translate
+        # Base: https://simontokx-tv.translate.goog
+        if current_page == 0:
+            path_query = f"?id={query}"
+        else:
+            # Sesuai pola HTML , halaman ke-2 urlnya .../pages/1
+            # Jadi logicnya: page_num = current_page
+            path_query = f"/page/tags/{query}/pages/{current_page}"
+        search_url = f"https://simontokx-tv.translate.goog/{path_query}"
+        # Tambahkan param proxy jika belum ada (untuk page 2 dst biasanya butuh append manual jika path berubah)
+        if "?" in search_url:
+            search_url += "&_x_tr_sl=auto&_x_tr_tl=en&_x_tr_hl=en"
+        else:
+            search_url += "?_x_tr_sl=auto&_x_tr_tl=en&_x_tr_hl=en"
+        # Validator Search Page
+        def search_page_valid(s):
+            # Cek apakah ada item thumb-block
+            has_items = bool(s.select('.thumb-block'))
+            text_content = s.get_text().lower()
+            # Cek pesan error/kosong
+            no_result = "not found" in text_content or "tidak ditemukan" in text_content
+            # Jika halaman ada items atau ada pesan not found, berarti valid
+            return has_items or no_result
+        soup = await fetch_until_success(search_url, search_page_valid)
+        # Cek jika tidak ada hasil sama sekali
+        items = soup.select('.thumb-block')
+        if not items:
+            if current_page == 0:
+                 return {
+                    "success": True,
+                    "query": query,
+                    "limit": limit,
+                    "count": 0,
+                    "results": []
+                }
+            else:
+                break
+        # 1. Ambil items dari halaman ini
+        for item in items:
+            # Cari elemen <a> di dalam thumb
+            link_el = item.select_one('.thumb a')
+            if not link_el: continue
+            detail_link_raw = link_el.get('href')
+            detail_link = unwrap_google_url(detail_link_raw)
+            # Cari gambar
+            img_el = link_el.select_one('img')
+            image = ""
+            name = "Unknown"
+            if img_el:
+                # Simontok pakai lazy loading (data-src), fallback ke src
+                image = img_el.get('data-src') or img_el.get('src')
+                image = unwrap_google_url(image)
+                # Title ada di atribut title img
+                name = img_el.get('title') or "No Title"
+            # Filter hasil "Page Not Found" palsu atau iklan jika ada
+            if "/watch/" not in detail_link:
+                continue
+            tasks.append(process_item_fully(name, detail_link, image))
+        # Cek apakah tasks sudah memenuhi limit
+        if len(tasks) >= limit:
+            break
+        # 2. Cek Navigasi Smart (Tombol Next)
+        # HTML : <a href="..." class="no-page next-page">Next</a>
+        next_btn = soup.select_one('a.next-page')
+        if next_btn:
+            # Jika tombol next ada, kita lanjut ke loop berikutnya
+            # Increment manual karena kita construct URL sendiri di atas
+            current_page += 1
+        else:
+            break
+    # Jalankan semua task fetching detail
+    raw_results = await asyncio.gather(*tasks)
+    # Filter None dan Potong sesuai limit
+    results = [res for res in raw_results if res is not None]
+    results = results[:limit]
+    return {
+        "success": True,
+        "query": query,
+        "limit": limit,
+        "count": len(results),
+        "results": results
+    }
+if __name__ == "__main__":
+    port = int(os.environ.get("PORT", 7860))
+    uvicorn.run(app, host="0.0.0.0", port=port)

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+fastapi
+uvicorn
+httpx
+beautifulsoup4