Spaces:

vivekchakraverty
/

gdscript-assistant

Running on Zero

vivekchakraverty commited on 2 days ago

Commit

c314e63

verified ·

1 Parent(s): 777ea0e

Fix Colab OOM: cap seq length + smaller batch

Files changed (1) hide show

colab_build_index.py CHANGED Viewed

@@ -14,8 +14,10 @@ USAGE (paste into a Colab cell, or upload this file and `%run` it):
 Cell 0 (install):
     !pip install -q "transformers<5" sentence-transformers einops faiss-cpu huggingface_hub
 """
-import json
 import os
 import faiss
 import numpy as np
@@ -26,7 +28,8 @@ from sentence_transformers import SentenceTransformer
 SPACE_REPO = os.environ.get("SPACE_REPO", "<user>/gdscript-assistant")  # <-- set
 HF_TOKEN = os.environ.get("HF_TOKEN", "")                                # <-- set (write)
 MODEL = "jinaai/jina-embeddings-v2-base-code"
-BATCH = 256
 # ───────────────────────────────────────────────────────────────────────────
 login(token=HF_TOKEN)
@@ -49,6 +52,7 @@ print(f"Loaded {len(ids)} chunks")
 # 2. Embed on GPU (normalized -> cosine via inner product).
 model = SentenceTransformer(MODEL, trust_remote_code=True, device="cuda")
 vecs = model.encode(texts, batch_size=BATCH, normalize_embeddings=True,
                     convert_to_numpy=True, show_progress_bar=True)
 vecs = vecs.astype(np.float32)

 Cell 0 (install):
     !pip install -q "transformers<5" sentence-transformers einops faiss-cpu huggingface_hub
 """
 import os
+os.environ.setdefault("PYTORCH_CUDA_ALLOC_CONF", "expandable_segments:True")
+import json
 import faiss
 import numpy as np
 SPACE_REPO = os.environ.get("SPACE_REPO", "<user>/gdscript-assistant")  # <-- set
 HF_TOKEN = os.environ.get("HF_TOKEN", "")                                # <-- set (write)
 MODEL = "jinaai/jina-embeddings-v2-base-code"
+BATCH = 32        # small batch + capped length avoids T4 OOM on long chunks
+MAX_LEN = 1024    # chunks are mostly tiny (p90 ~242 tokens); cap bounds memory
 # ───────────────────────────────────────────────────────────────────────────
 login(token=HF_TOKEN)
 # 2. Embed on GPU (normalized -> cosine via inner product).
 model = SentenceTransformer(MODEL, trust_remote_code=True, device="cuda")
+model.max_seq_length = MAX_LEN
 vecs = model.encode(texts, batch_size=BATCH, normalize_embeddings=True,
                     convert_to_numpy=True, show_progress_bar=True)
 vecs = vecs.astype(np.float32)