Spaces:

MemDirector
/

VideoEval_user

Sleeping

App Files Files Community

WHU1psh commited on Apr 21

Commit

4e4000d

verified ·

1 Parent(s): 881c265

Update app.py

Browse files

Files changed (1) hide show

app.py +128 -4

app.py CHANGED Viewed

@@ -9,18 +9,128 @@ import threading
 from collections import defaultdict
 from datetime import datetime
 from pathlib import Path
-from typing import Any, Dict, List, Tuple
 import gradio as gr
 # 路径配置（按用户要求）
-ROOT_DIR = Path(os.environ.get("VIDEOEVAL_ROOT", "MemDirector"))
-INPUT_DIR = ROOT_DIR / "user_study_input"
-OUTPUT_DIR = ROOT_DIR / "user_study_results"
 STORY_DIR = INPUT_DIR / "clip_movie_story"
 VIDEO_DIR = INPUT_DIR / "video"
 Path(OUTPUT_DIR).mkdir(parents=True, exist_ok=True)
 # Movie-Level 指标定义
 MOVIE_CRITERIA: List[Tuple[str, str, str]] = [
@@ -144,6 +254,19 @@ def build_pending_samples() -> List[Dict[str, Any]]:
     return pending
 def compute_derived(scores: Dict[str, float]) -> Dict[str, float]:
     """计算 CL / CRh / AVG。"""
     cl = (
@@ -258,6 +381,7 @@ def create_app():
         gr.Markdown(
             f"<span class='hint'>输入目录：`{INPUT_DIR}` ｜ 输出目录：`{OUTPUT_DIR}`</span>",
         )
         current_idx = gr.State(0)
         evaluator_state = gr.State("anonymous")

 from collections import defaultdict
 from datetime import datetime
 from pathlib import Path
+from typing import Any, Dict, List, Optional, Tuple
 import gradio as gr
+from huggingface_hub import CommitScheduler, snapshot_download
 # 路径配置（按用户要求）
+# Spaces 推荐优先读取当前 Space 仓库内文件（app.py 同级）
+APP_DIR = Path(__file__).resolve().parent
+LOCAL_INPUT_DIR = APP_DIR / "user_study_input"
+LOCAL_OUTPUT_DIR = APP_DIR / "user_study_results"
+DATA_INPUT_DIR = Path("/data/user_study_input")
+DATA_OUTPUT_DIR = Path("/data/user_study_results")
+DATA_REPO_ID = os.environ.get("DATA_REPO_ID", "MemDirector/user_study_input")
+RESULTS_REPO_ID = os.environ.get("RESULTS_REPO_ID", "MemDirector/user_study_results")
+HF_TOKEN = os.environ.get("HF_TOKEN", None)
+SPACE_MODE = os.environ.get("SPACE_MODE", "repo_first")  # repo_first / data_first / hub_only
+ROOT_DIR = APP_DIR
+INPUT_DIR = LOCAL_INPUT_DIR
+OUTPUT_DIR = LOCAL_OUTPUT_DIR
 STORY_DIR = INPUT_DIR / "clip_movie_story"
 VIDEO_DIR = INPUT_DIR / "video"
 Path(OUTPUT_DIR).mkdir(parents=True, exist_ok=True)
+scheduler: Optional[CommitScheduler] = None
+def _set_paths(input_dir: Path, output_dir: Path) -> None:
+    global INPUT_DIR, OUTPUT_DIR, STORY_DIR, VIDEO_DIR, ROOT_DIR
+    INPUT_DIR = input_dir
+    OUTPUT_DIR = output_dir
+    STORY_DIR = INPUT_DIR / "clip_movie_story"
+    VIDEO_DIR = INPUT_DIR / "video"
+    ROOT_DIR = INPUT_DIR.parent
+    OUTPUT_DIR.mkdir(parents=True, exist_ok=True)
+def _try_use_local_repo_layout() -> bool:
+    # Space 仓库内自带 user_study_input 时，直接读取（最符合“已放上去直接跑”）
+    if LOCAL_INPUT_DIR.exists():
+        _set_paths(LOCAL_INPUT_DIR, LOCAL_OUTPUT_DIR)
+        return True
+    return False
+def _try_use_data_volume_layout() -> bool:
+    # 如果使用 /data 持久卷，则可放在 /data/user_study_input
+    if DATA_INPUT_DIR.exists():
+        _set_paths(DATA_INPUT_DIR, DATA_OUTPUT_DIR)
+        return True
+    return False
+def _try_download_from_hub() -> bool:
+    # 最后兜底：从 dataset repo 下载
+    if not DATA_REPO_ID:
+        return False
+    hub_root = APP_DIR / ".hf_space_cache"
+    try:
+        snapshot_download(
+            repo_id=DATA_REPO_ID,
+            repo_type="dataset",
+            local_dir=str(hub_root),
+            token=HF_TOKEN,
+            allow_patterns=[
+                "clip_movie_story/**",
+                "video/**",
+                "user_study_input/**",
+                "user_study_results/**",
+            ],
+        )
+    except Exception as e:
+        print(f"[INIT] snapshot_download failed: {e}")
+        return False
+    # 兼容两种 dataset 结构：
+    # A) 仓库根目录直接是 clip_movie_story/ 与 video/
+    # B) 仓库里有 user_study_input/ 子目录
+    if (hub_root / "clip_movie_story").exists() and (hub_root / "video").exists():
+        hub_input = hub_root
+    elif (hub_root / "user_study_input").exists():
+        hub_input = hub_root / "user_study_input"
+    else:
+        return False
+    hub_output = hub_root / "user_study_results"
+    _set_paths(hub_input, hub_output)
+    return True
+def init_space_storage() -> None:
+    """
+    Hugging Face Spaces 规范：
+    - 从 dataset repo 拉取 user_study_input 与 user_study_results 到本地 ROOT_DIR
+    - 使用 CommitScheduler 持续回写 user_study_results
+    """
+    global scheduler
+    if SPACE_MODE == "hub_only":
+        ok = _try_download_from_hub()
+    elif SPACE_MODE == "data_first":
+        ok = _try_use_data_volume_layout() or _try_use_local_repo_layout() or _try_download_from_hub()
+    else:
+        ok = _try_use_local_repo_layout() or _try_use_data_volume_layout() or _try_download_from_hub()
+    print(f"[INIT] storage init mode={SPACE_MODE}, success={ok}, input={INPUT_DIR}, output={OUTPUT_DIR}")
+    if RESULTS_REPO_ID:
+        try:
+            scheduler = CommitScheduler(
+                repo_id=RESULTS_REPO_ID,
+                repo_type="dataset",
+                folder_path=str(OUTPUT_DIR),
+                path_in_repo="user_study_results",
+                every=3,
+                token=HF_TOKEN,
+            )
+            print(f"[INIT] CommitScheduler enabled: {RESULTS_REPO_ID}")
+        except Exception as e:
+            print(f"[INIT] CommitScheduler init failed: {e}")
+init_space_storage()
 # Movie-Level 指标定义
 MOVIE_CRITERIA: List[Tuple[str, str, str]] = [
     return pending
+def build_data_diagnostics(samples: List[Dict[str, Any]]) -> str:
+    return (
+        f"**SPACE_MODE**: `{SPACE_MODE}`  \n"
+        f"**DATA_REPO_ID**: `{DATA_REPO_ID}`  \n"
+        f"**RESULTS_REPO_ID**: `{RESULTS_REPO_ID}`  \n"
+        f"**ROOT_DIR**: `{ROOT_DIR}`  \n"
+        f"**INPUT_DIR exists**: `{INPUT_DIR.exists()}`  \n"
+        f"**STORY_DIR exists**: `{STORY_DIR.exists()}`  \n"
+        f"**VIDEO_DIR exists**: `{VIDEO_DIR.exists()}`  \n"
+        f"**Pending samples**: `{len(samples)}`"
+    )
 def compute_derived(scores: Dict[str, float]) -> Dict[str, float]:
     """计算 CL / CRh / AVG。"""
     cl = (
         gr.Markdown(
             f"<span class='hint'>输入目录：`{INPUT_DIR}` ｜ 输出目录：`{OUTPUT_DIR}`</span>",
         )
+        gr.Markdown(build_data_diagnostics(samples))
         current_idx = gr.State(0)
         evaluator_state = gr.State("anonymous")