Spaces:

Corin1998
/

Agent_StudioDocker

Sleeping

App Files Files Community

Corin1998 commited on Sep 21, 2025

Commit

5b7266b

verified ·

1 Parent(s): 24368f7

Update modules/rag_indexer.py

Browse files

Files changed (1) hide show

modules/rag_indexer.py +9 -10

modules/rag_indexer.py CHANGED Viewed

@@ -16,7 +16,7 @@ def _embedder():
     """
     SentenceTransformer を遅延初期化。
     - すべてのキャッシュは utils.ensure_dirs() 側で /tmp 等の書き込み可パスへ固定済み
-    - 念のため cache_folder も明示して、/root 直下を一切使わない
     """
     global _model
     if _model is not None:
@@ -34,7 +34,11 @@ def _embedder():
     os.environ.setdefault("HF_TOKEN", "")
     from sentence_transformers import SentenceTransformer
-    model_name = os.getenv("EMBEDDING_MODEL", "sentence-transformers/all-MiniLM-L6-v2")
     _model = SentenceTransformer(model_name, cache_folder=str(cache_base))
     return _model
@@ -75,6 +79,7 @@ def index_files_and_urls(file_paths: Optional[List[str]] = None, urls: Optional[
     """
     - 受け取ったファイルとURLからテキストを抽出し、チャンク化して chunks.jsonl に追記
     - 依存を最小化（PDF/Officeは最小構成では対象外）
     """
     ensure_dirs()
     file_paths = file_paths or []
@@ -102,13 +107,7 @@ def index_files_and_urls(file_paths: Optional[List[str]] = None, urls: Optional[
     if rows:
         added = _write_chunks(rows)
-    # 埋め込みモデルを一度初期化しておく（初回ダウンロードが必要なため）
-    try:
-        emb = _embedder()
-        # 1件だけ実行してキャッシュを準備
-        _ = emb.encode(["warmup"], normalize_embeddings=True)
-        warmed = True
-    except Exception as e:
-        warmed = False
     return f"indexed_chunks={added}, warmed_up={warmed}"

     """
     SentenceTransformer を遅延初期化。
     - すべてのキャッシュは utils.ensure_dirs() 側で /tmp 等の書き込み可パスへ固定済み
+    - 環境によってはネット/モデルDLが禁止のことがあるため、呼び出し側での強制ウォームアップはしない
     """
     global _model
     if _model is not None:
     os.environ.setdefault("HF_TOKEN", "")
     from sentence_transformers import SentenceTransformer
+    # ローカル同梱モデルがあれば優先（ネット不可時の対策）
+    local_model_dir = data_dir() / "models" / "all-MiniLM-L6-v2"
+    model_name = str(local_model_dir) if local_model_dir.exists() else os.getenv(
+        "EMBEDDING_MODEL", "sentence-transformers/all-MiniLM-L6-v2"
+    )
     _model = SentenceTransformer(model_name, cache_folder=str(cache_base))
     return _model
     """
     - 受け取ったファイルとURLからテキストを抽出し、チャンク化して chunks.jsonl に追記
     - 依存を最小化（PDF/Officeは最小構成では対象外）
+    - モデルのウォームアップは実施しない（ネット不可環境で失敗するため）
     """
     ensure_dirs()
     file_paths = file_paths or []
     if rows:
         added = _write_chunks(rows)
+    # ここでの warmup を削除（または状態だけ返す）
+    warmed = False  # UIに表示するためのダミー値
     return f"indexed_chunks={added}, warmed_up={warmed}"