Spaces:

BowoZZZ
/

GameKillerAppdl

Sleeping

App Files Files Community

BowoZZZ commited on Feb 5

Commit

42ba18c

verified ·

1 Parent(s): b583bff

Upload 3 files

Browse files

Files changed (3) hide show

Dockerfile +27 -0
main.py +288 -0
requirements.txt +4 -0

Dockerfile ADDED Viewed

	@@ -0,0 +1,27 @@

+# Gunakan image Python yang ringan
+FROM python:3.9-slim
+# Set working directory
+WORKDIR /app
+# Copy file requirements dan install dependencies
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+# --- BAGIAN INI YANG HILANG DI FILE KAMU ---
+# 1. Copy seluruh file project (termasuk main.py) ke dalam container
+COPY . .
+# 2. Buat user baru (non-root) agar sesuai security policy Hugging Face
+# Ini Wajib agar tidak kena error "Permission Denied"
+RUN useradd -m -u 1000 user
+USER user
+ENV HOME=/home/user \
+    PATH=/home/user/.local/bin:$PATH
+# 3. Expose port 7860 (Port wajib untuk HF Spaces)
+EXPOSE 7860
+# 4. Perintah utama untuk menyalakan server saat Space dijalankan
+CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "7860"]

main.py ADDED Viewed

	@@ -0,0 +1,288 @@

+from fastapi import FastAPI, HTTPException, Query
+import httpx
+from bs4 import BeautifulSoup
+import uvicorn
+import os
+from urllib.parse import unquote, urlparse, parse_qs
+from contextlib import asynccontextmanager
+import asyncio
+import re
+import json
+# Setup Async Client
+client = None
+@asynccontextmanager
+async def lifespan(app: FastAPI):
+    global client
+    headers = {
+        "User-Agent": "Mozilla/5.0 (Linux; Android 10; K) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Mobile Safari/537.36",
+        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
+    }
+    # Timeout di-disable agar tidak error saat koneksi lambat atau proses proxy lama
+    client = httpx.AsyncClient(headers=headers, verify=False, follow_redirects=True, timeout=None)
+    yield
+    await client.aclose()
+app = FastAPI(title="GameKillerApp Scraper", lifespan=lifespan)
+BASE_DOMAIN = "https://gamekillerapp.com"
+def unwrap_google_url(url: str) -> str:
+    """Membersihkan URL dari wrapper Google Translate."""
+    if not url: return ""
+    clean = unquote(url)
+    # Decode jika URL terbungkus format /website?u=...
+    if "google" in clean and "/website" in clean and "u=" in clean:
+        try:
+            parsed = urlparse(clean)
+            qs = parse_qs(parsed.query)
+            if 'u' in qs:
+                return unwrap_google_url(qs['u'][0])
+        except:
+            pass
+    # Bersihkan domain translate
+    clean = clean.replace("gamekillerapp-com.translate.goog", "gamekillerapp.com")
+    # Hapus parameter google translate
+    clean = clean.split("?_x_tr_")[0]
+    clean = clean.split("&_x_tr_")[0]
+    # Handle relative URL
+    if clean.startswith("/"):
+        clean = BASE_DOMAIN + clean
+    return clean
+async def fetch_until_success(url: str, validator_func) -> BeautifulSoup:
+    """
+    Core Logic: Terus melakukan request ke URL sampai validator_func mengembalikan True.
+    """
+    current_url = url
+    while True:
+        try:
+            res = await client.get(current_url)
+            # Jika terkena limit (429) dan sedang menggunakan proxy translate, switch ke direct
+            if res.status_code == 429 and "translate.goog" in current_url:
+                current_url = unwrap_google_url(current_url)
+                continue
+            soup = BeautifulSoup(res.text, 'html.parser')
+            # Cek validasi konten
+            if validator_func(soup):
+                return soup
+            # Tambahan: Jika status 200 tapi validasi gagal (misal struktur berubah),
+            # kita break agar tidak infinite loop, kecuali jika memang mau retry forever.
+            # Disini kita biarkan loop tapi sangat bergantung pada validator yang akurat.
+        except Exception:
+            pass
+        # Retry logic implicit
+async def extract_links_from_nuxt_data(soup: BeautifulSoup) -> list:
+    """
+    Ekstrak link download dari script JSON Nuxt (__NUXT_DATA__).
+    LOGIKA BARU: Filter path '/download/' untuk membedakan file game dan video iklan.
+    """
+    links = []
+    try:
+        # Mengambil script data Nuxt
+        script = soup.select_one('script#__NUXT_DATA__')
+        if script:
+            try:
+                data = json.loads(script.string)
+            except:
+                data = []
+            # Data Nuxt 3 berbentuk array flat. Kita iterasi semua item.
+            if isinstance(data, list):
+                for item in data:
+                    if isinstance(item, str):
+                        # --- FILTER KETAT ---
+                        # 1. Harus link HTTP/HTTPS
+                        # 2. Harus domain 'gamercdn.top'
+                        # 3. WAJIB mengandung path '/download/' (ini kuncinya agar video .mp4 tidak masuk)
+                        if "http" in item and "gamercdn.top" in item and "/download/" in item:
+                            links.append(item)
+    except Exception as e:
+        print(f"Error extracting Nuxt data: {e}")
+    # Hapus duplikat dan return
+    return list(set(links))
+async def get_final_download_links(download_page_url: str) -> list:
+    """
+    Masuk ke halaman download intermediate (/download).
+    Mengambil link dari JSON data Nuxt.
+    """
+    # Convert ke Proxy URL
+    target_url = download_page_url.replace("https://gamekillerapp.com", "https://gamekillerapp-com.translate.goog")
+    if "?" not in target_url:
+        target_url += "?_x_tr_sl=auto&_x_tr_tl=en&_x_tr_hl=en"
+    else:
+        target_url += "&_x_tr_sl=auto&_x_tr_tl=en&_x_tr_hl=en"
+    def is_valid_download_page(soup):
+        # Validasi: Halaman harus punya script Nuxt Data ATAU kotak download
+        # Berdasarkan HTML yang kamu kirim, ID nya adalah __NUXT_DATA__
+        has_nuxt = bool(soup.select_one('script#__NUXT_DATA__'))
+        # Kita juga cek title atau elemen unik lain untuk memastikan page loaded sempurna
+        # (HTML kamu punya class .download-btn-box)
+        has_box = bool(soup.select_one('.download-btn-box'))
+        return has_nuxt or has_box
+    soup = await fetch_until_success(target_url, is_valid_download_page)
+    # Ekstrak dari Data Nuxt menggunakan logika path /download/
+    final_links = await extract_links_from_nuxt_data(soup)
+    return final_links
+async def process_item_fully(name, detail_url, image, initial_size):
+    """
+    Memproses satu item app:
+    1. Masuk detail (via Proxy).
+    2. Cari tombol 'apk-download-btn' ke halaman download intermediate.
+    3. Masuk halaman intermediate -> Parse Nuxt Data -> Final Link.
+    """
+    while True:
+        try:
+            # Convert ke Proxy URL untuk halaman detail
+            target_detail_url = detail_url.replace("https://gamekillerapp.com", "https://gamekillerapp-com.translate.goog")
+            if "?" not in target_detail_url:
+                target_detail_url += "?_x_tr_sl=auto&_x_tr_tl=en&_x_tr_hl=en"
+            else:
+                target_detail_url += "&_x_tr_sl=auto&_x_tr_tl=en&_x_tr_hl=en"
+            # 1. Fetch Halaman Detail
+            def detail_page_valid(s):
+                # Validasi: Halaman detail harus punya tombol ke halaman download (/download)
+                # Class berdasarkan HTML kamu: apk-download-btn
+                return bool(s.select('a.apk-download-btn'))
+            app_soup = await fetch_until_success(target_detail_url, detail_page_valid)
+            # 2. Cari link menuju halaman download intermediate
+            # Selector: a.apk-download-btn
+            download_page_btn = app_soup.select_one('a.apk-download-btn')
+            if not download_page_btn:
+                return None
+            intermediate_url = unwrap_google_url(download_page_btn.get('href'))
+            # 3. Masuk ke halaman intermediate dan ambil link final dari JSON
+            final_data_list = await get_final_download_links(intermediate_url)
+            # Jika list kosong, return apa adanya (mungkin paid atau error parsing)
+            # Jangan continue loop di sini agar tidak infinite loop jika data memang tidak ada
+            return {
+                "name": name,
+                "link": unwrap_google_url(detail_url),
+                "image": image,
+                "download": ", ".join(final_data_list) if final_data_list else "Not Found",
+                "size": initial_size
+            }
+        except Exception:
+            # Jika error (koneksi putus total), baru retry
+            # Kalau error parsing, lebih baik break dan return None agar tidak hang
+            break
+    return None
+@app.get("/")
+async def root():
+    return {
+        "message": "Search API for gamekillerapp.com (Nuxt /download/ filter)",
+        "example_usage": "/search?query=ultraman&limit=5"
+    }
+@app.get("/search")
+async def search_apps(
+    query: str = Query(..., description="App name"),
+    limit: int = Query(5, description="Limit results")
+):
+    tasks = []
+    # Construct URL Proxy
+    search_url = f"https://gamekillerapp-com.translate.goog/search/{query}?_x_tr_sl=auto&_x_tr_tl=en&_x_tr_hl=en"
+    # Validator Search Page
+    def search_page_valid(s):
+        # Cek item atau text "no results"
+        has_items = bool(s.select('.column-games-item'))
+        text_content = s.get_text()
+        no_result = "no results" in text_content.lower() or "nothing found" in text_content.lower()
+        # Juga cek jika title mengandung "Search results" untuk memastikan halaman benar load
+        is_search_page = bool(s.select('.column-title'))
+        return has_items or no_result or is_search_page
+    soup = await fetch_until_success(search_url, search_page_valid)
+    # 1. Ambil items
+    items = soup.select('.column-games-item')
+    if not items:
+        return {
+            "success": True,
+            "query": query,
+            "limit": limit,
+            "count": 0,
+            "results": []
+        }
+    for item in items:
+        # Nama
+        title_el = item.select_one('.column-games-item-info-name')
+        if not title_el: continue
+        name = title_el.get_text(strip=True)
+        # Link Detail
+        detail_link = unwrap_google_url(item.get('href'))
+        # Gambar
+        img_el = item.select_one('.column-games-item-icon')
+        image = ""
+        if img_el:
+            # Cek src atau data-src (lazy load)
+            image = unwrap_google_url(img_el.get('src') or img_el.get('data-src') or "")
+        # Size & Version
+        meta_el = item.select_one('.column-games-item-info-version')
+        size_text = "Unknown"
+        if meta_el:
+            full_text = meta_el.get_text(strip=True)
+            if "+" in full_text:
+                parts = full_text.split("+")
+                if len(parts) > 1:
+                    size_text = parts[1].strip()
+            else:
+                size_text = full_text
+        tasks.append(process_item_fully(name, detail_link, image, size_text))
+        if len(tasks) >= limit:
+            break
+    # Jalankan task
+    raw_results = await asyncio.gather(*tasks)
+    results = [res for res in raw_results if res is not None]
+    return {
+        "success": True,
+        "query": query,
+        "limit": limit,
+        "count": len(results),
+        "results": results
+    }
+if __name__ == "__main__":
+    port = int(os.environ.get("PORT", 7860))
+    uvicorn.run(app, host="0.0.0.0", port=port)

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+fastapi
+uvicorn
+httpx
+beautifulsoup4