Spaces:

hkfires
/

AIStudioBuildWS

Paused

App Files Files Community

hkfires commited on Nov 24, 2025

Commit

2011b89

verified ·

1 Parent(s): 765c7b9

fix(browser): mask URLs in navigation logs and clean messages

Browse files

Files changed (4) hide show

browser/instance.py +23 -26
browser/navigation.py +7 -4
main.py +4 -4
utils/url_helper.py +106 -0

browser/instance.py CHANGED Viewed

@@ -8,7 +8,7 @@ from browser.cookie_validator import CookieValidator
 from camoufox.sync_api import Camoufox
 from utils.paths import logs_dir
 from utils.common import parse_headless_mode, ensure_dir
-from utils.url_helper import extract_url_path
 def run_browser_instance(config, shutdown_event=None):
@@ -84,7 +84,7 @@ def run_browser_instance(config, shutdown_event=None):
             response = None
             try:
-                logger.info(f"正在导航到: {expected_url} (超时设置为 90 秒)")
                 # page.goto() 会返回一个 response 对象，我们可以用它来获取状态码等信息
                 response = page.goto(expected_url, wait_until='domcontentloaded', timeout=90000)
@@ -97,12 +97,12 @@ def run_browser_instance(config, shutdown_event=None):
                         page.screenshot(path=os.path.join(screenshot_dir, f"WARN_http_status_{response.status}_{diagnostic_tag}.png"))
                 else:
                     # 对于非http/https的导航（如 about:blank），response可能为None
-                    logger.warning("page.goto 未返回响应对象，可能是一个非HTTP导航。")
             except TimeoutError:
                 # 这是最常见的错误：超时
-                logger.error(f"导航到 {expected_url} 超时 (超过120秒)。")
-                logger.error("可能原因：网络连接缓慢、目标网站服务器无响应、代理问题、或页面资源被阻塞。")
                 # 尝试保存诊断信息
                 try:
                     # 截图对于看到页面卡在什么状态非常有帮助（例如，空白页、加载中、Chrome错误页）
@@ -122,16 +122,16 @@ def run_browser_instance(config, shutdown_event=None):
             except PlaywrightError as e:
                 # 捕获其他Playwright相关的网络错误，例如DNS解析失败、连接被拒绝等
                 error_message = str(e)
-                logger.error(f"导航到 {expected_url} 时发生 Playwright 网络错误。")
                 logger.error(f"错误详情: {error_message}")
                 # Playwright的错误信息通常很具体，例如 "net::ERR_CONNECTION_REFUSED"
                 if "net::ERR_NAME_NOT_RESOLVED" in error_message:
-                    logger.error("排查建议：检查DNS设置或域名是否正确。")
                 elif "net::ERR_CONNECTION_REFUSED" in error_message:
-                    logger.error("排查建议：目标服务器可能已关闭，或代理/防火墙阻止了连接。")
                 elif "net::ERR_INTERNET_DISCONNECTED" in error_message:
-                    logger.error("排查建议：检查本机的网络连接。")
                 # 同样，尝试截图，尽管此时页面可能完全无法访问
                 try:
@@ -148,11 +148,11 @@ def run_browser_instance(config, shutdown_event=None):
             page.wait_for_timeout(2000)
             final_url = page.url
-            logger.info(f"导航完成。最终URL为: {final_url}")
             # ... 你原有的URL检查逻辑保持不变 ...
             if "accounts.google.com/v3/signin/identifier" in final_url:
-                logger.error("检测到Google登录页面（需要输入邮箱）。Cookie已完全失效。")
                 page.screenshot(path=os.path.join(screenshot_dir, f"FAIL_identifier_page_{diagnostic_tag}.png"))
                 return
@@ -161,7 +161,7 @@ def run_browser_instance(config, shutdown_event=None):
             final_path = extract_url_path(final_url)
             if expected_path and expected_path in final_path:
-                logger.info(f"URL验证通过。预期路径: {expected_path}")
                 # --- 新的健壮策略：等待加载指示器���失 ---
                 # 这是解决竞态条件的关键。错误消息或内容只在初始加载完成后才会出现。
@@ -170,9 +170,9 @@ def run_browser_instance(config, shutdown_event=None):
                     logger.info("正在等待加载指示器 (spinner) 消失... (最长等待30秒)")
                     # 我们等待spinner变为'隐藏'状态或从DOM中消失。
                     spinner_locator.wait_for(state='hidden', timeout=30000)
-                    logger.info("加载指示器已消失。页面已完成异步加载。")
                 except TimeoutError:
-                    logger.error("页面加载指示器在30秒内未消失。页面可能已卡住。")
                     page.screenshot(path=os.path.join(screenshot_dir, f"FAIL_spinner_stuck_{diagnostic_tag}.png"))
                     return # 如果页面加载卡住则退出
@@ -183,7 +183,7 @@ def run_browser_instance(config, shutdown_event=None):
                 # 这里我们只需要很短的超时时间，因为页面应该是稳定的。
                 if auth_error_locator.is_visible(timeout=2000):
-                    logger.error(f"检测到认证失败的错误横幅: '{auth_error_text}'. Cookie已过期或无效。")
                     screenshot_path = os.path.join(screenshot_dir, f"FAIL_auth_error_banner_{diagnostic_tag}.png")
                     page.screenshot(path=screenshot_path)
@@ -194,31 +194,28 @@ def run_browser_instance(config, shutdown_event=None):
                     return # 明确的失败，因此我们退出。
                 # --- 如果没有错误，进行最终确认（作为后备方案） ---
-                logger.info("未检测到认证错误横幅。进行最终确认。")
                 login_button_cn = page.get_by_role('button', name='登录')
                 login_button_en = page.get_by_role('button', name='Login')
                 if login_button_cn.is_visible(timeout=1000) or login_button_en.is_visible(timeout=1000):
-                    logger.error("页面上仍显示'登录'按钮。Cookie无效。")
                     page.screenshot(path=os.path.join(screenshot_dir, f"FAIL_login_button_visible_{diagnostic_tag}.png"))
                     return
                 # --- 如果所有检查都通过，我们假设成功 ---
-                logger.info("所有验证通过，确认已成功登录。")
-                # 创建Cookie验证器（验证将在主线程中执行，避免线程问题）
-                logger.info("Cookie验证器已创建，将定期验证Cookie有效性")
                 handle_successful_navigation(page, logger, diagnostic_tag, shutdown_event, cookie_validator)
             elif "accounts.google.com/v3/signin/accountchooser" in final_url:
-                logger.warning("检测到Google账户选择页面。登录失败或Cookie已过期。")
                 page.screenshot(path=os.path.join(screenshot_dir, f"FAIL_chooser_click_failed_{diagnostic_tag}.png"))
                 return
             else:
-                logger.error(f"导航到了意外的URL。")
-                logger.error(f"  预期路径: {expected_path}")
-                logger.error(f"  最终URL: {final_url}")
-                logger.error(f"  最终路径: {final_path}")
                 page.screenshot(path=os.path.join(screenshot_dir, f"FAIL_unexpected_url_{diagnostic_tag}.png"))
                 return

 from camoufox.sync_api import Camoufox
 from utils.paths import logs_dir
 from utils.common import parse_headless_mode, ensure_dir
+from utils.url_helper import extract_url_path, mask_url_for_logging, mask_path_for_logging
 def run_browser_instance(config, shutdown_event=None):
             response = None
             try:
+                logger.info(f"正在导航到: {mask_url_for_logging(expected_url)} (超时设置为 90 秒)")
                 # page.goto() 会返回一个 response 对象，我们可以用它来获取状态码等信息
                 response = page.goto(expected_url, wait_until='domcontentloaded', timeout=90000)
                         page.screenshot(path=os.path.join(screenshot_dir, f"WARN_http_status_{response.status}_{diagnostic_tag}.png"))
                 else:
                     # 对于非http/https的导航（如 about:blank），response可能为None
+                    logger.warning("page.goto 未返回响应对象，可能是一个非HTTP导航")
             except TimeoutError:
                 # 这是最常见的错误：超时
+                logger.error(f"导航到 {mask_url_for_logging(expected_url)} 超时 (超过90秒)")
+                logger.error("可能原因：网络连接缓慢、目标网站服务器无响应、代理问题、或页面资源被阻塞")
                 # 尝试保存诊断信息
                 try:
                     # 截图对于看到页面卡在什么状态非常有帮助（例如，空白页、加载中、Chrome错误页）
             except PlaywrightError as e:
                 # 捕获其他Playwright相关的网络错误，例如DNS解析失败、连接被拒绝等
                 error_message = str(e)
+                logger.error(f"导航到 {mask_url_for_logging(expected_url)} 时发生 Playwright 网络错误")
                 logger.error(f"错误详情: {error_message}")
                 # Playwright的错误信息通常很具体，例如 "net::ERR_CONNECTION_REFUSED"
                 if "net::ERR_NAME_NOT_RESOLVED" in error_message:
+                    logger.error("排查建议：检查DNS设置或域名是否正确")
                 elif "net::ERR_CONNECTION_REFUSED" in error_message:
+                    logger.error("排查建议：目标服务器可能已关闭，或代理/防火墙阻止了连接")
                 elif "net::ERR_INTERNET_DISCONNECTED" in error_message:
+                    logger.error("排查建议：检查本机的网络连接")
                 # 同样，尝试截图，尽管此时页面可能完全无法访问
                 try:
             page.wait_for_timeout(2000)
             final_url = page.url
+            logger.info(f"导航完成。最终URL为: {mask_url_for_logging(final_url)}")
             # ... 你原有的URL检查逻辑保持不变 ...
             if "accounts.google.com/v3/signin/identifier" in final_url:
+                logger.error("检测到Google登录页面（需要输入邮箱）。Cookie已完全失效")
                 page.screenshot(path=os.path.join(screenshot_dir, f"FAIL_identifier_page_{diagnostic_tag}.png"))
                 return
             final_path = extract_url_path(final_url)
             if expected_path and expected_path in final_path:
+                logger.info(f"URL验证通过。预期路径: {mask_path_for_logging(expected_path)}")
                 # --- 新的健壮策略：等待加载指示器���失 ---
                 # 这是解决竞态条件的关键。错误消息或内容只在初始加载完成后才会出现。
                     logger.info("正在等待加载指示器 (spinner) 消失... (最长等待30秒)")
                     # 我们等待spinner变为'隐藏'状态或从DOM中消失。
                     spinner_locator.wait_for(state='hidden', timeout=30000)
+                    logger.info("加载指示器已消失。页面已完成异步加载")
                 except TimeoutError:
+                    logger.error("页面加载指示器在30秒内未消失。页面可能已卡住")
                     page.screenshot(path=os.path.join(screenshot_dir, f"FAIL_spinner_stuck_{diagnostic_tag}.png"))
                     return # 如果页面加载卡住则退出
                 # 这里我们只需要很短的超时时间，因为页面应该是稳定的。
                 if auth_error_locator.is_visible(timeout=2000):
+                    logger.error(f"检测到认证失败的错误横幅: '{auth_error_text}'. Cookie已过期或无效")
                     screenshot_path = os.path.join(screenshot_dir, f"FAIL_auth_error_banner_{diagnostic_tag}.png")
                     page.screenshot(path=screenshot_path)
                     return # 明确的失败，因此我们退出。
                 # --- 如果没有错误，进行最终确认（作为后备方案） ---
+                logger.info("未检测到认证错误横幅。进行最终确认")
                 login_button_cn = page.get_by_role('button', name='登录')
                 login_button_en = page.get_by_role('button', name='Login')
                 if login_button_cn.is_visible(timeout=1000) or login_button_en.is_visible(timeout=1000):
+                    logger.error("页面上仍显示'登录'按钮。Cookie无效")
                     page.screenshot(path=os.path.join(screenshot_dir, f"FAIL_login_button_visible_{diagnostic_tag}.png"))
                     return
                 # --- 如果所有检查都通过，我们假设成功 ---
+                logger.info("所有验证通过，确认已成功登录")
                 handle_successful_navigation(page, logger, diagnostic_tag, shutdown_event, cookie_validator)
             elif "accounts.google.com/v3/signin/accountchooser" in final_url:
+                logger.warning("检测到Google账户选择页面。登录失败或Cookie已过期")
                 page.screenshot(path=os.path.join(screenshot_dir, f"FAIL_chooser_click_failed_{diagnostic_tag}.png"))
                 return
             else:
+                logger.error(f"导航到了意外的URL")
+                logger.error(f"  预期路径: {mask_path_for_logging(expected_path)}")
+                logger.error(f"  最终路径: {mask_path_for_logging(final_path)}")
+                logger.error(f"  最终URL: {mask_url_for_logging(final_url)}")
                 page.screenshot(path=os.path.join(screenshot_dir, f"FAIL_unexpected_url_{diagnostic_tag}.png"))
                 return

browser/navigation.py CHANGED Viewed

@@ -16,9 +16,9 @@ def handle_untrusted_dialog(page: Page, logger=None):
             logger.info(f"检测到弹窗，正在点击 'OK' 按钮...")
             ok_button_locator.click(force=True)
-            logger.info(f"'OK' 按钮已点击。")
             expect(ok_button_locator).to_be_hidden(timeout=1000)
-            logger.info(f"弹窗已确认关闭。")
         else:
             logger.info(f"在10秒内未检测到弹窗，继续执行...")
     except Exception as e:
@@ -28,13 +28,16 @@ def handle_successful_navigation(page: Page, logger, cookie_file_config, shutdow
     """
     在成功导航到目标页面后，执行后续操作（处理弹窗、保持运行）。
     """
-    logger.info("已成功到达目标页面。")
     page.click('body') # 给予页面焦点
     # 检查并处理 "Last modified by..." 的弹窗
     handle_untrusted_dialog(page, logger=logger)
-    logger.info("实例将保持运行状态。每10秒点击一次页面以保持活动。")
     # 等待页面加载和渲染
     time.sleep(15)

             logger.info(f"检测到弹窗，正在点击 'OK' 按钮...")
             ok_button_locator.click(force=True)
+            logger.info(f"'OK' 按钮已点击")
             expect(ok_button_locator).to_be_hidden(timeout=1000)
+            logger.info(f"弹窗已确认关闭")
         else:
             logger.info(f"在10秒内未检测到弹窗，继续执行...")
     except Exception as e:
     """
     在成功导航到目标页面后，执行后续操作（处理弹窗、保持运行）。
     """
+    logger.info("已成功到达目标页面")
     page.click('body') # 给予页面焦点
     # 检查并处理 "Last modified by..." 的弹窗
     handle_untrusted_dialog(page, logger=logger)
+    if cookie_validator:
+        logger.info("Cookie验证器已创建，将定期验证Cookie有效性")
+    logger.info("实例将保持运行状态。每10秒点击一次页面以保持活动")
     # 等待页面加载和渲染
     time.sleep(15)

main.py CHANGED Viewed

@@ -185,7 +185,7 @@ def load_instance_configurations(logger):
     # 1. 读取所有实例共享的URL
     shared_url = clean_env_value(os.getenv("CAMOUFOX_INSTANCE_URL"))
     if not shared_url:
-        logger.error("错误: 缺少环境变量 CAMOUFOX_INSTANCE_URL。所有实例需要一个共享的目标URL。")
         return None, None
     # 2. 读取全局设置
@@ -204,7 +204,7 @@ def load_instance_configurations(logger):
     # 检查是否有任何Cookie来源
     if not sources:
-        logger.error("错误: 未找到任何Cookie来源（既没有JSON文件，也没有环境变量Cookie）。")
         return None, None
     # 4. 为每个Cookie来源创建实例配置
@@ -240,7 +240,7 @@ def start_browser_instances(run_mode="standalone"):
     global_settings, instance_profiles = load_instance_configurations(logger)
     if not instance_profiles:
-        logger.error("错误: 环境变量中未找到任何实例配置。")
         return
     for i, profile in enumerate(instance_profiles, 1):
@@ -419,7 +419,7 @@ def signal_handler(signum, frame):
     except Exception as e:
         logger.error(f"调用 terminate_all 时发生错误: {e}")
-    logger.info("应用关闭流程结束，主进程退出。")
     sys.exit(0)
 def main():

     # 1. 读取所有实例共享的URL
     shared_url = clean_env_value(os.getenv("CAMOUFOX_INSTANCE_URL"))
     if not shared_url:
+        logger.error("错误: 缺少环境变量 CAMOUFOX_INSTANCE_URL。所有实例需要一个共享的目标URL")
         return None, None
     # 2. 读取全局设置
     # 检查是否有任何Cookie来源
     if not sources:
+        logger.error("错误: 未找到任何Cookie来源（既没有JSON文件，也没有环境变量Cookie）")
         return None, None
     # 4. 为每个Cookie来源创建实例配置
     global_settings, instance_profiles = load_instance_configurations(logger)
     if not instance_profiles:
+        logger.error("错误: 环境变量中未找到任何实例配置")
         return
     for i, profile in enumerate(instance_profiles, 1):
     except Exception as e:
         logger.error(f"调用 terminate_all 时发生错误: {e}")
+    logger.info("应用关闭流程结束，主进程退出")
     sys.exit(0)
 def main():

utils/url_helper.py CHANGED Viewed

@@ -44,3 +44,109 @@ def extract_url_path(url: str) -> str:
     except Exception:
         # 如果URL格式无效，返回空字符串
         return ""

     except Exception:
         # 如果URL格式无效，返回空字符串
         return ""
+def mask_path_for_logging(path: str) -> str:
+    """
+    对路径进行脱敏处理，用于日志输出
+    脱敏规则：
+    1. 对于 /apps/drive/XXXXXXXXXX 路径，保留头4位和尾4位，中间用***代替
+    2. 如果不是 /apps/drive/XXXXXXXXXX 路径，返回完整路径
+    Args:
+        path: URL路径字符串
+    Returns:
+        脱敏后的路径字符串
+    Examples:
+        >>> mask_path_for_logging("/apps/drive/abcdef123456")
+        '/apps/drive/abcd***3456'
+        >>> mask_path_for_logging("/apps/drive/xyz789")
+        '/apps/drive/xyz789'
+        >>> mask_path_for_logging("/other/path")
+        '/other/path'
+    """
+    if not path:
+        return ""
+    # 检查是否为 /apps/drive/ 路径
+    if path.startswith('/apps/drive/'):
+        # 提取路径中的ID部分
+        path_parts = path.split('/')
+        if len(path_parts) >= 4:  # ['', 'apps', 'drive', 'ID']
+            drive_id = path_parts[3]
+            # 如果ID长度大于8，则进行脱敏处理
+            if len(drive_id) > 8:
+                # 使用与URL脱敏相同的格式
+                masked_id = f"{drive_id[:4]}***{drive_id[-4:]}"
+                # 重新构建路径
+                masked_parts = path_parts[:3] + [masked_id] + path_parts[4:]
+                return '/'.join(masked_parts)
+    # 如果不符合脱敏条件，返回原始路径
+    return path
+def mask_url_for_logging(url: str) -> str:
+    """
+    对URL进行脱敏处理，用于日志输出
+    脱敏规则：
+    1. 对于 /apps/drive/XXXXXXXXXX 路径，保留头4位和尾4位，中间用***代替
+    2. 如果不是 /apps/drive/XXXXXXXXXX 路径，返回完整URL
+    Args:
+        url: 完整URL字符串
+    Returns:
+        脱敏后的URL字符串
+    Examples:
+        >>> mask_url_for_logging("https://ai.studio/apps/drive/abcdef123456")
+        'https://ai.studio/apps/drive/abcd***3456'
+        >>> mask_url_for_logging("https://aistudio.google.com/apps/drive/xyz789")
+        'https://aistudio.google.com/apps/drive/xyz789'
+        >>> mask_url_for_logging("https://example.com/other/path")
+        'https://example.com/other/path'
+    """
+    if not url:
+        return ""
+    try:
+        parsed = urlparse(url)
+        # 检查是否为 /apps/drive/ 路径
+        if parsed.path.startswith('/apps/drive/'):
+            # 提取路径中的ID部分
+            path_parts = parsed.path.split('/')
+            if len(path_parts) >= 4:  # ['', 'apps', 'drive', 'ID']
+                drive_id = path_parts[3]
+                # 如果ID长度大于8，则进行脱敏处理
+                if len(drive_id) > 8:
+                    masked_id = f"{drive_id[:4]}***{drive_id[-4:]}"
+                    # 重新构建路径
+                    masked_parts = path_parts[:3] + [masked_id] + path_parts[4:]
+                    masked_path = '/'.join(masked_parts)
+                    # 重新构建URL
+                    result = f"{parsed.scheme}://{parsed.netloc}{masked_path}"
+                    if parsed.query:
+                        result += '?' + parsed.query
+                    if parsed.fragment:
+                        result += '#' + parsed.fragment
+                    return result
+        # 如果不符合脱敏条件，返回原始URL
+        return url
+    except Exception:
+        # 如果URL解析失败，返回原始URL
+        return url