Spaces:

Corin1998
/

IR_PR_PilotPro

Sleeping

App Files Files Community

Corin1998 commited on Sep 17, 2025

Commit

f8c4913

verified ·

1 Parent(s): 2e448ce

Update irpr/deps.py

Browse files

Files changed (1) hide show

irpr/deps.py +67 -24

irpr/deps.py CHANGED Viewed

@@ -5,8 +5,12 @@ from typing import List, Dict, Tuple
 import numpy as np
 from irpr.config import settings
-# ==== 書き込み先ユーティリティ ====
 def _ensure_dir_writable(path: str) -> bool:
     try:
         os.makedirs(path, exist_ok=True)
         try:
@@ -21,25 +25,53 @@ def _ensure_dir_writable(path: str) -> bool:
     except Exception:
         return False
 def _pick_writable_dir() -> str:
-    candidates = []
     if settings.DATA_DIR:
         candidates.append(settings.DATA_DIR)
-    candidates += ["/mnt/data", "/data", "./var", "/tmp/irpr", "."]
     for base in candidates:
-        if _ensure_dir_writable(base):
             return base
-    return "."
 BASE_DIR = _pick_writable_dir()
-INDEX_DIR = settings.INDEX_DIR or os.path.join(BASE_DIR, "simple_index")
-_ensure_dir_writable(INDEX_DIR)
 VECS_PATH = os.path.join(INDEX_DIR, "vectors.npy")
 META_PATH = os.path.join(INDEX_DIR, "meta.jsonl")
 TEXT_PATH = os.path.join(INDEX_DIR, "texts.jsonl")
-# ==== OpenAI ====
 def _openai_client():
     try:
         from openai import OpenAI
@@ -50,7 +82,8 @@ def _openai_client():
         raise RuntimeError("OPENAI_API_KEY が未設定です。環境変数に設定してください。")
     return OpenAI(api_key=key)
-# ==== インデックス I/O ====
 def _load_index() -> Tuple[np.ndarray, list, list]:
     if os.path.exists(VECS_PATH):
         try:
@@ -80,34 +113,42 @@ def _load_index() -> Tuple[np.ndarray, list, list]:
     return vecs, metas, texts
 def _save_index(vecs: np.ndarray, metas: list, texts: list) -> None:
-    # 念のため親ディレクトリを都度作成
-    os.makedirs(os.path.dirname(VECS_PATH), exist_ok=True)
-    os.makedirs(os.path.dirname(META_PATH), exist_ok=True)
-    os.makedirs(os.path.dirname(TEXT_PATH), exist_ok=True)
     if not _ensure_dir_writable(INDEX_DIR):
-        raise RuntimeError(f"INDEX_DIR not writable: {INDEX_DIR} (BASE_DIR={BASE_DIR})")
     try:
         np.save(VECS_PATH, vecs.astype(np.float32, copy=False))
-    except FileNotFoundError as e:
-        raise RuntimeError(f"Failed to save vectors at {VECS_PATH} (INDEX_DIR={INDEX_DIR}, BASE_DIR={BASE_DIR})") from e
     try:
         with open(META_PATH, "w", encoding="utf-8") as f:
             for m in metas:
                 f.write(json.dumps(m, ensure_ascii=False) + "\n")
-    except FileNotFoundError as e:
-        raise RuntimeError(f"Failed to save meta at {META_PATH} (INDEX_DIR={INDEX_DIR}, BASE_DIR={BASE_DIR})") from e
     try:
         with open(TEXT_PATH, "w", encoding="utf-8") as f:
             for t in texts:
                 f.write((t or "").replace("\n", "\\n") + "\n")
-    except FileNotFoundError as e:
-        raise RuntimeError(f"Failed to save texts at {TEXT_PATH} (INDEX_DIR={INDEX_DIR}, BASE_DIR={BASE_DIR})") from e
-# ==== Embedding ====
 def embed_texts(texts: List[str]) -> np.ndarray:
     client = _openai_client()
     model = os.environ.get("OPENAI_EMBED_MODEL", settings.OPENAI_EMBED_MODEL)
@@ -121,7 +162,8 @@ def embed_texts(texts: List[str]) -> np.ndarray:
     norms = np.linalg.norm(arr, axis=1, keepdims=True) + 1e-12
     return arr / norms
-# ==== 追加 ====
 def add_to_index(records: List[Dict]) -> int:
     if not records:
         return 0
@@ -135,6 +177,7 @@ def add_to_index(records: List[Dict]) -> int:
         old_texts = []
     else:
         if vecs.shape[1] != vecs_new.shape[1]:
             vecs = vecs_new
             metas = []
             old_texts = []
@@ -156,7 +199,8 @@ def add_to_index(records: List[Dict]) -> int:
     _save_index(vecs, metas, old_texts)
     return len(records)
-# ==== 検索 ====
 def search(query: str, top_k=8) -> List[Dict]:
     vecs, metas, texts = _load_index()
     if vecs.size == 0:
@@ -177,7 +221,6 @@ def search(query: str, top_k=8) -> List[Dict]:
         })
     return out
-# ==== 生成 ====
 def generate_chat(messages: List[Dict], max_new_tokens=600, temperature=0.2) -> str:
     client = _openai_client()
     model = os.environ.get("OPENAI_CHAT_MODEL", settings.OPENAI_CHAT_MODEL)

 import numpy as np
 from irpr.config import settings
+# ========= 書き込み可能ディレクトリの選定 =========
 def _ensure_dir_writable(path: str) -> bool:
+    """
+    path を作成し、テストファイルを書いて削除できるか検証。
+    """
     try:
         os.makedirs(path, exist_ok=True)
         try:
     except Exception:
         return False
+def _ensure_dir_tree(base: str, sub: str = "simple_index") -> bool:
+    """
+    base と base/sub の双方で書けるか検証。
+    """
+    if not _ensure_dir_writable(base):
+        return False
+    subdir = os.path.join(base, sub)
+    return _ensure_dir_writable(subdir)
 def _pick_writable_dir() -> str:
+    """
+    優先度順で書き込み可能な base dir を返す。
+    1) 環境変数 DATA_DIR
+    2) /tmp/irpr
+    3) /mnt/data
+    4) ./data （カレントに書ける場合のみ）
+    最後に /tmp
+    """
+    candidates: list[str] = []
     if settings.DATA_DIR:
         candidates.append(settings.DATA_DIR)
+    candidates += ["/tmp/irpr", "/mnt/data", os.path.join(os.getcwd(), "data")]
     for base in candidates:
+        if _ensure_dir_tree(base, "simple_index"):
             return base
+    # 最後の砦
+    fallback = "/tmp"
+    _ensure_dir_tree(fallback, "irpr_index")
+    return fallback
 BASE_DIR = _pick_writable_dir()
+# INDEX_DIR は明示指定があれば尊重するが、書けなければ BASE_DIR/simple_index にフォールバック
+if settings.INDEX_DIR and _ensure_dir_tree(settings.INDEX_DIR, ""):
+    INDEX_DIR = settings.INDEX_DIR
+else:
+    INDEX_DIR = os.path.join(BASE_DIR, "simple_index")
+    _ensure_dir_writable(INDEX_DIR)
 VECS_PATH = os.path.join(INDEX_DIR, "vectors.npy")
 META_PATH = os.path.join(INDEX_DIR, "meta.jsonl")
 TEXT_PATH = os.path.join(INDEX_DIR, "texts.jsonl")
+# ========= OpenAI =========
 def _openai_client():
     try:
         from openai import OpenAI
         raise RuntimeError("OPENAI_API_KEY が未設定です。環境変数に設定してください。")
     return OpenAI(api_key=key)
+# ========= インデックス I/O =========
 def _load_index() -> Tuple[np.ndarray, list, list]:
     if os.path.exists(VECS_PATH):
         try:
     return vecs, metas, texts
 def _save_index(vecs: np.ndarray, metas: list, texts: list) -> None:
+    """
+    保存直前にもパス全部を作成。PermissionError は詳細情報を付けて再送出。
+    """
+    try:
+        os.makedirs(os.path.dirname(VECS_PATH), exist_ok=True)
+        os.makedirs(os.path.dirname(META_PATH), exist_ok=True)
+        os.makedirs(os.path.dirname(TEXT_PATH), exist_ok=True)
+    except PermissionError as e:
+        raise RuntimeError(
+            f"INDEX_DIR にディレクトリを作成できません: INDEX_DIR={INDEX_DIR}, BASE_DIR={BASE_DIR}"
+        ) from e
     if not _ensure_dir_writable(INDEX_DIR):
+        raise RuntimeError(f"INDEX_DIR に書き込みできません: {INDEX_DIR} (BASE_DIR={BASE_DIR})")
     try:
         np.save(VECS_PATH, vecs.astype(np.float32, copy=False))
+    except PermissionError as e:
+        raise RuntimeError(f"ベクトル保存に失敗: {VECS_PATH} (INDEX_DIR={INDEX_DIR}, BASE_DIR={BASE_DIR})") from e
     try:
         with open(META_PATH, "w", encoding="utf-8") as f:
             for m in metas:
                 f.write(json.dumps(m, ensure_ascii=False) + "\n")
+    except PermissionError as e:
+        raise RuntimeError(f"メタ保存に失敗: {META_PATH} (INDEX_DIR={INDEX_DIR}, BASE_DIR={BASE_DIR})") from e
     try:
         with open(TEXT_PATH, "w", encoding="utf-8") as f:
             for t in texts:
                 f.write((t or "").replace("\n", "\\n") + "\n")
+    except PermissionError as e:
+        raise RuntimeError(f"本文保存に失敗: {TEXT_PATH} (INDEX_DIR={INDEX_DIR}, BASE_DIR={BASE_DIR})") from e
+# ========= Embedding =========
 def embed_texts(texts: List[str]) -> np.ndarray:
     client = _openai_client()
     model = os.environ.get("OPENAI_EMBED_MODEL", settings.OPENAI_EMBED_MODEL)
     norms = np.linalg.norm(arr, axis=1, keepdims=True) + 1e-12
     return arr / norms
+# ========= 追加 =========
 def add_to_index(records: List[Dict]) -> int:
     if not records:
         return 0
         old_texts = []
     else:
         if vecs.shape[1] != vecs_new.shape[1]:
+            # 次元不一致は全リビルド（安全第一）
             vecs = vecs_new
             metas = []
             old_texts = []
     _save_index(vecs, metas, old_texts)
     return len(records)
+# ========= 検索・生成 =========
 def search(query: str, top_k=8) -> List[Dict]:
     vecs, metas, texts = _load_index()
     if vecs.size == 0:
         })
     return out
 def generate_chat(messages: List[Dict], max_new_tokens=600, temperature=0.2) -> str:
     client = _openai_client()
     model = os.environ.get("OPENAI_CHAT_MODEL", settings.OPENAI_CHAT_MODEL)