Spaces:

fromozu
/

ebook-executor

Paused

App Files Files Community

fromozu commited on May 4

Commit

0fc00c7

verified ·

1 Parent(s): 2dbbed6

Upload hf_backend/test_real_browser_v2.py with huggingface_hub

Browse files

Files changed (1) hide show

hf_backend/test_real_browser_v2.py +98 -0

hf_backend/test_real_browser_v2.py ADDED Viewed

	@@ -0,0 +1,98 @@

+#!/usr/bin/env python3
+"""
+使用完全真实的浏览器（headless=False），捕获导航事件。
+"""
+from playwright.sync_api import sync_playwright
+import time
+MD5 = "d94c20d1364af9b484949659398c4062"
+SLOW_URL = f"https://annas-archive.gl/slow_download/{MD5}/0/3"
+def use_real_browser():
+    """使用完全真实的浏览器，捕获导航"""
+    print(f"目标: {SLOW_URL}")
+    print("将打开一个真实的Chrome浏览器窗口\n")
+    result_url = {"url": None}
+    download_url = {"url": None}
+    with sync_playwright() as p:
+        browser = p.chromium.launch(
+            headless=False,  # 完全显示浏览器
+        )
+        context = browser.new_context(
+            user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36",
+            viewport={"width": 1920, "height": 1080},
+            locale="zh-CN",
+        )
+        page = context.new_page()
+        # 监听下载事件
+        def on_download(download):
+            print(f"检测到下载: {download.url}")
+            download_url["url"] = download.url
+        page.on("download", on_download)
+        # 监听URL变化
+        page.on("navigation", lambda: print(f"导航到: {page.url}"))
+        page.on("framenavigated", lambda frame: print(f"框架导航: {frame.url}") if page.url != SLOW_URL else None)
+        print("步骤1: 访问主页...")
+        page.goto("https://annas-archive.gl", timeout=60000, wait_until="domcontentloaded")
+        print(f"   标题: {page.title()}")
+        time.sleep(2)
+        print("\n步骤2: 访问slow_download...")
+        page.goto(SLOW_URL, timeout=120000, wait_until="domcontentloaded")
+        print(f"   初始标题: {page.title()}")
+        print("\n步骤3: 等待30秒让导航完成...")
+        for i in range(30):
+            time.sleep(1)
+            try:
+                url = page.url
+                if url.lower().endswith('.epub'):
+                    print(f"\n*** 在第{i+1}秒检测到EPUB URL: {url} ***")
+                    result_url["url"] = url
+                    break
+                if (i + 1) % 5 == 0:
+                    try:
+                        title = page.title()
+                        print(f"   {i+1}秒... URL: {url[:60]}... 标题: {title}")
+                    except:
+                        print(f"   {i+1}秒... URL: {url[:60]}...")
+            except Exception as e:
+                # 如果出错，可能正在导航
+                print(f"   {i+1}秒... (页面正在导航)")
+                continue
+        print(f"\n最终URL: {page.url}")
+        # 检查是否有下载
+        if download_url["url"]:
+            print(f"下载链接: {download_url['url']}")
+            result_url["url"] = download_url["url"]
+        browser.close()
+    return result_url["url"] or download_url["url"]
+if __name__ == "__main__":
+    print("=" * 60)
+    print("Anna's Archive 真实浏览器测试 (捕获导航)")
+    print("=" * 60)
+    print()
+    result = use_real_browser()
+    if result:
+        print(f"\n成功! EPUB链接: {result}")
+    else:
+        print("\n未能获取到EPUB链接")