Spaces:

WatNeru
/

LLMView

Paused

App Files Files Community

WatNeru commited on Nov 21, 2025

Commit

17b871a

1 Parent(s): ca562c6

Load model directly from Hub to save storage space

Browse files

Files changed (2) hide show

app.py +13 -81
package/ai.py +14 -5

app.py CHANGED Viewed

@@ -69,7 +69,7 @@ def _set_status(message: str) -> None:
 def ensure_model_available() -> str:
-    """モデルディレクトリをローカルに用意（なければHFから取得）"""
     print(f"[MODEL] ensure_model_available() 開始")
     print(f"[MODEL] モデルリポジトリ: {HF_MODEL_REPO}")
     print(f"[MODEL] HF_TOKEN設定: {'あり' if HF_TOKEN else 'なし'}")
@@ -78,32 +78,13 @@ def ensure_model_available() -> str:
         token_preview = HF_TOKEN[:7] + "..." + HF_TOKEN[-4:] if len(HF_TOKEN) > 11 else "***"
         print(f"[MODEL] HF_TOKENプレビュー: {token_preview} (長さ: {len(HF_TOKEN)})")
-    # モデルディレクトリのパスを構築（リポジトリ名から）
-    model_dir_name = HF_MODEL_REPO.split("/")[-1]  # "Llama-3.2-3B-Instruct"
-    model_cache_path = HF_LOCAL_DIR / model_dir_name
-    print(f"[MODEL] モデルキャッシュパス: {model_cache_path}")
-    # 既存のモデルディレクトリをチェック
-    if model_cache_path.exists() and model_cache_path.is_dir():
-        if (model_cache_path / "config.json").exists():
-            print(f"[MODEL] 既存のモデルディレクトリを使用: {model_cache_path}")
-            model_path_str = str(model_cache_path.resolve())
-            os.environ["LLM_MODEL_PATH"] = model_path_str
-            path_manager.model_path = model_path_str
-            return model_path_str
-    print(f"[MODEL] モデルディレクトリが見つからないため、ダウンロードを開始")
-    HF_LOCAL_DIR.mkdir(parents=True, exist_ok=True)
-    print(f"[MODEL] ダウンロード先ディレクトリ: {HF_LOCAL_DIR}")
-    _set_status("Hugging Face からモデルをダウンロード中...")
-    # snapshot_downloadでモデル全体をダウンロード（PyTorch モデルは複数ファイル）
-    try:
-        if not HF_TOKEN:
-            print("[MODEL] 警告: HF_TOKEN が設定されていません。認証が必要なモデルの場合、ダウンロードに失敗する可能性があります。")
-            raise ValueError("HF_TOKEN が設定されていません")
-        # huggingface_hub の login を使って明示的に認証（念のため）
         try:
             from huggingface_hub import login
             print("[MODEL] huggingface_hub.login() を実行中...")
@@ -111,49 +92,9 @@ def ensure_model_available() -> str:
             print("[MODEL] ログイン成功")
         except Exception as login_error:
             print(f"[MODEL] ログインエラー（続行）: {login_error}")
-        print(f"[MODEL] snapshot_download を開始: {HF_MODEL_REPO}")
-        downloaded_dir = snapshot_download(
-            repo_id=HF_MODEL_REPO,
-            local_dir=str(HF_LOCAL_DIR),
-            local_dir_use_symlinks=False,
-            token=HF_TOKEN,
-        )
-        print(f"[MODEL] snapshot_download完了: {downloaded_dir}")
-    except Exception as e:
-        error_msg = str(e)
-        print(f"[MODEL] snapshot_downloadエラー: {error_msg}")
-        # 認証エラーの場合、より詳細なメッセージを表示
-        if "401" in error_msg or "authentication" in error_msg.lower() or "token" in error_msg.lower():
-            print("[MODEL] 認証エラーの可能性があります。HF_TOKEN が正しく設定されているか確認してください。")
-        elif "404" in error_msg or "not found" in error_msg.lower():
-            print(f"[MODEL] リポジトリが見つかりません: {HF_MODEL_REPO}")
-            print("[MODEL] リポジトリ名が正しいか、アクセス権限があるか確認してください。")
-        import traceback
-        traceback.print_exc()
-        raise
-    # ダウンロードされたディレクトリを確認
-    downloaded_dir_path = Path(downloaded_dir)
-    print(f"[MODEL] ダウンロード先パス: {downloaded_dir_path}")
-    # ダウンロードされたファイルをリストアップ
-    downloaded_files = list(downloaded_dir_path.glob("*"))
-    print(f"[MODEL] ダウンロードされたファイル数: {len(downloaded_files)}")
-    if downloaded_files:
-        print(f"[MODEL] ダウンロードされたファイル: {[f.name for f in downloaded_files[:10]]}")
-    # config.json があるか確認
-    if not (downloaded_dir_path / "config.json").exists():
-        raise FileNotFoundError(
-            f"モデルディレクトリ {downloaded_dir} に config.json が見つか���ません。"
-            f"ダウンロードされたファイル: {[f.name for f in downloaded_files[:10]]}"
-        )
-    model_path_str = str(downloaded_dir_path.resolve())
-    print(f"[MODEL] モデルパスを設定: {model_path_str}")
     os.environ["LLM_MODEL_PATH"] = model_path_str
     path_manager.model_path = model_path_str
     return model_path_str
@@ -191,17 +132,8 @@ def initialize_model() -> None:
 threading.Thread(target=initialize_model, daemon=True).start()
 # ZeroGPU対応: モジュールレベルでGPU要求（起動時に検出されるように）
-if SPACES_AVAILABLE:
-    try:
-        # spaces.GPU() を呼び出してデコレータを取得し、ダミー関数に適用
-        gpu_decorator = spaces.GPU()
-        @gpu_decorator
-        def _gpu_request_dummy():
-            """GPU要求用のダミー関数（Space起動時に検出される）"""
-            pass
-        print("[SPACE] GPU要求をモジュールレベルで送信しました")
-    except Exception as e:
-        print(f"[SPACE] GPU要求エラー: {e}")
 app = FastAPI(
     title="LLMView Word Tree API",
@@ -210,8 +142,8 @@ app = FastAPI(
 )
 @app.get("/")
-@spaces.GPU  # ZeroGPU対応: root エンドポイントにも適用して起動時に検出されるように
 def root() -> Dict[str, str]:
     """簡易案内"""
     return {
@@ -233,8 +165,8 @@ def health() -> Dict[str, Any]:
     }
 @app.post("/build_word_tree", response_model=List[WordTreeResponse])
-@spaces.GPU  # ZeroGPU対応: このエンドポイントでGPUを要求
 def build_word_tree(payload: WordTreeRequest) -> List[WordTreeResponse]:
     """単語ツリーを構築"""
     if not payload.prompt_text.strip():

 def ensure_model_available() -> str:
+    """モデルリポジトリIDを返す（ストレージ節約のため、Hubから直接読み込む）"""
     print(f"[MODEL] ensure_model_available() 開始")
     print(f"[MODEL] モデルリポジトリ: {HF_MODEL_REPO}")
     print(f"[MODEL] HF_TOKEN設定: {'あり' if HF_TOKEN else 'なし'}")
         token_preview = HF_TOKEN[:7] + "..." + HF_TOKEN[-4:] if len(HF_TOKEN) > 11 else "***"
         print(f"[MODEL] HF_TOKENプレビュー: {token_preview} (長さ: {len(HF_TOKEN)})")
+    # ストレージ節約のため、モデルをダウンロードせず、リポジトリIDを直接返す
+    # transformers の from_pretrained() が Hub から直接読み込む
+    print(f"[MODEL] ストレージ節約のため、Hubから直接読み込む方式を使用")
+    print(f"[MODEL] モデルパス（リポジトリID）: {HF_MODEL_REPO}")
+    # huggingface_hub の login を使って明示的に認証
+    if HF_TOKEN:
         try:
             from huggingface_hub import login
             print("[MODEL] huggingface_hub.login() を実行中...")
             print("[MODEL] ログイン成功")
         except Exception as login_error:
             print(f"[MODEL] ログインエラー（続行）: {login_error}")
+    # リポジトリIDを返す（transformers が Hub から直接読み込む）
+    model_path_str = HF_MODEL_REPO
     os.environ["LLM_MODEL_PATH"] = model_path_str
     path_manager.model_path = model_path_str
     return model_path_str
 threading.Thread(target=initialize_model, daemon=True).start()
 # ZeroGPU対応: モジュールレベルでGPU要求（起動時に検出されるように）
+# 注意: Space は起動時に @spaces.GPU デコレータをスキャンするため、
+# FastAPI のエンドポイント関数に適用する必要がある
 app = FastAPI(
     title="LLMView Word Tree API",
 )
+@spaces.GPU  # ZeroGPU対応: デコレータを先に適用（Space起動時に検出される）
 @app.get("/")
 def root() -> Dict[str, str]:
     """簡易案内"""
     return {
     }
+@spaces.GPU  # ZeroGPU対応: デコレータを先に適用（Space起動時に検出される）
 @app.post("/build_word_tree", response_model=List[WordTreeResponse])
 def build_word_tree(payload: WordTreeRequest) -> List[WordTreeResponse]:
     """単語ツリーを構築"""
     if not payload.prompt_text.strip():

package/ai.py CHANGED Viewed

@@ -47,9 +47,9 @@ class AI:
         cls._instances.clear()
     def _load_model(self, model_path: str) -> Optional[Any]:
-        """モデルをロード（Transformers使用）"""
         try:
-            if not model_path or not os.path.exists(model_path):
                 return None
             # transformersを使用してモデルをロード
@@ -67,16 +67,25 @@ class AI:
                 print(f"[AI] モデルをロード中: {model_path}")
                 print(f"[AI] デバイス: {device}")
-                # トークナイザーとモデルをロード
                 tokenizer = AutoTokenizer.from_pretrained(
                     model_path,
-                    token=os.getenv("HF_TOKEN"),
                 )
                 model = AutoModelForCausalLM.from_pretrained(
                     model_path,
                     torch_dtype=torch.float16 if device == "cuda" else torch.float32,
                     device_map="auto" if device == "cuda" else None,
-                    token=os.getenv("HF_TOKEN"),
                 )
                 if device == "cpu":

         cls._instances.clear()
     def _load_model(self, model_path: str) -> Optional[Any]:
+        """モデルをロード（Transformers使用、Hubから直接読み込み）"""
         try:
+            if not model_path:
                 return None
             # transformersを使用してモデルをロード
                 print(f"[AI] モデルをロード中: {model_path}")
                 print(f"[AI] デバイス: {device}")
+                # モデルパスがリポジトリID（"user/repo"形式）か、ローカルパスかを判定
+                hf_token = os.getenv("HF_TOKEN")
+                is_repo_id = "/" in model_path and not os.path.exists(model_path)
+                if is_repo_id:
+                    print(f"[AI] Hugging Face Hub から直接読み込み: {model_path}")
+                else:
+                    print(f"[AI] ローカルパスから読み込み: {model_path}")
+                # トークナイザーとモデルをロード（Hubから直接読み込む）
                 tokenizer = AutoTokenizer.from_pretrained(
                     model_path,
+                    token=hf_token,
                 )
                 model = AutoModelForCausalLM.from_pretrained(
                     model_path,
                     torch_dtype=torch.float16 if device == "cuda" else torch.float32,
                     device_map="auto" if device == "cuda" else None,
+                    token=hf_token,
                 )
                 if device == "cpu":