Spaces:

BowoZZZ
/

5playdl

Sleeping

App Files Files Community

BowoZZZ commited on Feb 4

Commit

fae4a06

verified ·

1 Parent(s): aa2b989

Upload 3 files

Browse files

Files changed (3) hide show

Dockerfile +27 -0
main.py +235 -0
requirements.txt +4 -0

Dockerfile ADDED Viewed

	@@ -0,0 +1,27 @@

+# Gunakan image Python yang ringan
+FROM python:3.9-slim
+# Set working directory
+WORKDIR /app
+# Copy file requirements dan install dependencies
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+# --- BAGIAN INI YANG HILANG DI FILE KAMU ---
+# 1. Copy seluruh file project (termasuk main.py) ke dalam container
+COPY . .
+# 2. Buat user baru (non-root) agar sesuai security policy Hugging Face
+# Ini Wajib agar tidak kena error "Permission Denied"
+RUN useradd -m -u 1000 user
+USER user
+ENV HOME=/home/user \
+    PATH=/home/user/.local/bin:$PATH
+# 3. Expose port 7860 (Port wajib untuk HF Spaces)
+EXPOSE 7860
+# 4. Perintah utama untuk menyalakan server saat Space dijalankan
+CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "7860"]

main.py ADDED Viewed

	@@ -0,0 +1,235 @@

+from fastapi import FastAPI, HTTPException, Query
+import httpx
+from bs4 import BeautifulSoup
+import uvicorn
+import os
+from urllib.parse import unquote, urlparse, parse_qs
+from contextlib import asynccontextmanager
+import asyncio
+import re
+# Setup Async Client
+client = None
+@asynccontextmanager
+async def lifespan(app: FastAPI):
+    global client
+    headers = {
+        "User-Agent": "Mozilla/5.0 (Linux; Android 10; K) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Mobile Safari/537.36",
+        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
+    }
+    # Timeout di-disable (set ke None) agar tidak error saat koneksi lambat
+    client = httpx.AsyncClient(headers=headers, verify=False, follow_redirects=True, timeout=None)
+    yield
+    await client.aclose()
+app = FastAPI(title="5play.org Aggressive Scraper (Pagination Mode)", lifespan=lifespan)
+BASE_DOMAIN = "https://5play.org"
+def clean_url(url: str) -> str:
+    """Membersihkan URL relatif menjadi absolut."""
+    if not url: return ""
+    clean = unquote(url)
+    if clean.startswith("/"):
+        clean = BASE_DOMAIN + clean
+    return clean
+async def fetch_until_success(url: str, validator_func) -> BeautifulSoup:
+    """
+    Core Logic: Terus melakukan request ke URL sampai validator_func mengembalikan True.
+    """
+    while True:
+        try:
+            res = await client.get(url)
+            soup = BeautifulSoup(res.text, 'html.parser')
+            if validator_func(soup):
+                return soup
+        except Exception:
+            pass
+async def scan_cdn_page_loop(cdn_url: str) -> str:
+    """
+    Looping scraping halaman intermediate (CDN PHP) sampai dapat link asli.
+    """
+    def is_valid_cdn_page(soup):
+        btn = soup.select_one('a#btn-download-cdn')
+        if btn and btn.get('href'): return True
+        return False
+    soup = await fetch_until_success(cdn_url, is_valid_cdn_page)
+    download_btn = soup.select_one('a#btn-download-cdn')
+    if download_btn:
+        return download_btn['href']
+    return ""
+async def process_item_fully(name, detail_url, image):
+    """
+    Memproses satu item app:
+    1. Masuk detail -> Cek Game/Berita.
+    2. Ambil Size & Link CDN.
+    3. Masuk CDN -> Final Link.
+    """
+    while True:
+        try:
+            # 1. Fetch Halaman Detail
+            def detail_page_valid(s):
+                is_app = bool(s.select('a.download-line-link'))
+                is_news = bool(s.select('.blogview'))
+                return is_app or is_news
+            app_soup = await fetch_until_success(detail_url, detail_page_valid)
+            # 2. Filter: Jika Berita (News), skip.
+            if app_soup.select('.blogview'):
+                return None
+            # 3. Ambil Size dan Link CDN (Khusus Game)
+            download_elements = app_soup.select('a.download-line-link')
+            if not download_elements:
+                continue
+            final_data_list = []
+            size = "Unknown"
+            for btn in download_elements:
+                cdn_link = btn.get('href')
+                btn_text = btn.get_text(strip=True)
+                if not cdn_link: continue
+                cdn_link = clean_url(cdn_link)
+                if size == "Unknown":
+                    size_match = re.search(r'\((.*?)\)', btn_text)
+                    if size_match:
+                        size = size_match.group(1)
+                # 4. Masuk ke halaman CDN
+                direct_link = await scan_cdn_page_loop(cdn_link)
+                if direct_link:
+                    final_data_list.append(direct_link)
+            if not final_data_list:
+                continue
+            return {
+                "name": name,
+                "link": detail_url,
+                "image": image,
+                "download": ", ".join(final_data_list),
+                "size": size
+            }
+        except Exception:
+            continue
+@app.get("/")
+async def root():
+    return {
+        "message": "Search API for 5play.org by Bowo",
+        "example_usage": "/search?query=minecraft&limit=5"
+    }
+@app.get("/search")
+async def search_apps(
+    query: str = Query(..., description="App name"),
+    limit: int = Query(5, description="Limit results") # Parameter limit dikembalikan
+):
+    tasks = []
+    # Start dari halaman 0 (atau 1, tergantung logic DLE, biasanya 0 adalah awal)
+    # Kita mulai tanpa parameter search_start dulu untuk halaman pertama
+    current_search_start = 0
+    while True:
+        # Construct URL berdasarkan halaman saat ini
+        # Logic: index.php?story=...&search_start={current_search_start}
+        search_url = f"https://5play.org/index.php?story={query}&lang=en&do=search&subaction=search&titleonly=0&search_start={current_search_start}"
+        # Validator Search Page
+        def search_page_valid(s):
+            has_items = bool(s.select('.search-item'))
+            text_content = s.get_text()
+            no_result = "Found 0 responses" in text_content or "no results" in text_content.lower()
+            return has_items or no_result
+        soup = await fetch_until_success(search_url, search_page_valid)
+        # Cek jika tidak ada hasil sama sekali di halaman pertama
+        text_content = soup.get_text()
+        if ("Found 0 responses" in text_content or "no results" in text_content.lower()) and current_search_start == 0:
+            return {
+                "success": True,
+                "query": query,
+                "limit": limit,
+                "count": 0,
+                "results": []
+            }
+        # 1. Ambil items dari halaman ini
+        items = soup.select('.search-item')
+        if not items:
+            # Jika halaman valid tapi tidak ada item (berarti end of list), break loop
+            break
+        for item in items:
+            title_el = item.select_one('a.item-link.title')
+            if not title_el: continue
+            name = title_el.get_text(strip=True)
+            detail_link = clean_url(title_el['href'])
+            img_el = item.select_one('.search-item-img img')
+            image = clean_url(img_el['src']) if img_el else ""
+            tasks.append(process_item_fully(name, detail_link, image))
+        # OPTIMISASI: Jika jumlah task yang dikumpulkan sudah >= limit, stop scraping halaman selanjutnya
+        if len(tasks) >= limit:
+            break
+        # 2. Cek Navigasi Smart (Tombol Next)
+        # Cari tombol dengan ID nextlink
+        next_link_el = soup.select_one('a#nextlink')
+        if next_link_el:
+            # Ambil nilai onclick, contoh: javascript:list_submit(3); return(false)
+            onclick_val = next_link_el.get('onclick', '')
+            match = re.search(r'list_submit\((\d+)\)', onclick_val)
+            if match:
+                # Update current_search_start dengan angka halaman berikutnya
+                next_page_num = int(match.group(1))
+                # Safety: Hindari infinite loop jika angka tidak berubah
+                if next_page_num <= current_search_start and current_search_start != 0:
+                    break
+                current_search_start = next_page_num
+            else:
+                # Jika ada tombol tapi regex gagal parse angkanya, stop (safety)
+                break
+        else:
+            # Tidak ada tombol next, berarti ini halaman terakhir
+            break
+    # Jalankan semua task dari semua halaman secara paralel
+    raw_results = await asyncio.gather(*tasks)
+    # Filter None (Berita)
+    results = [res for res in raw_results if res is not None]
+    # FIX BUG: Pastikan hasil akhir dipotong sesuai limit
+    results = results[:limit]
+    return {
+        "success": True,
+        "query": query,
+        "limit": limit,
+        "count": len(results),
+        "results": results
+    }
+if __name__ == "__main__":
+    port = int(os.environ.get("PORT", 7860))
+    uvicorn.run(app, host="0.0.0.0", port=port)

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+fastapi
+uvicorn
+httpx
+beautifulsoup4