Spaces:

lablab-ai-amd-developer-hackathon
/

ROCKIT-Vision-Intelligence

Sleeping

App Files Files Community

ROCKIT-Vision-Intelligence / vector_store.py

Billavenu

adding filleeeesssss

fb12ddc verified 19 days ago

raw

history blame contribute delete

16.5 kB

	# HF_Space_hipVS/vector_store.py
	# ================================
	# Multi-project vector store with 3-tier GPU acceleration.
	#
	# Key design:
	# - Each project gets its own VectorStore instances (image_index, video_index)
	# - CAGRA is rebuilt on every insert (optimized for query, not ingestion)
	# - Indexes swap between NVMe and VRAM via async pinned-memory DMA
	# - Multiple projects coexist by LRU-evicting cold indexes from VRAM
	#
	# Tiers:
	# 1. CAGRA graph (hipVS / cuVS) — ANN search in ~50us
	# 2. PyTorch flat tensor (hipBLAS matmul) — brute-force GPU
	# 3. NumPy CPU cosine similarity — works everywhere

	import json
	import logging
	import threading
	import numpy as np
	from pathlib import Path

	from config import USE_GPU, HF_TOKEN, HF_DATASET_REPO, SWAP_PATH, get_project_dir

	logger = logging.getLogger(__name__)

	# ── GPU Backend Detection ────────────────────────────────────────────────────

	_HIPVS_AVAILABLE = False
	_TORCH_CUDA_AVAILABLE = False
	_cagra = None

	if USE_GPU:
	try:
	from cuvs.neighbors import cagra as _cagra_mod
	_cagra = _cagra_mod
	_HIPVS_AVAILABLE = True
	logger.info("Tier 1: hipVS (cuvs) -- CAGRA index enabled")
	except ImportError:
	pass

	if not _HIPVS_AVAILABLE:
	try:
	import torch
	if torch.cuda.is_available():
	_TORCH_CUDA_AVAILABLE = True
	props = torch.cuda.get_device_properties(0)
	name = props.name.lower()
	backend = "ROCm" if ("amd" in name or "radeon" in name) else "CUDA"
	logger.info(f"Tier 2: PyTorch {backend} -- flat GPU search ({props.name})")
	except ImportError:
	pass

	if not _HIPVS_AVAILABLE and not _TORCH_CUDA_AVAILABLE:
	logger.info("Tier 3: NumPy CPU vector search")


	# ── HF Dataset Persistence ──────────────────────────────────────────────────

	def _hf_save(name: str, ids: list[str], vectors: np.ndarray, metadata: list[dict]):
	if not HF_DATASET_REPO or not HF_TOKEN:
	return
	try:
	from datasets import Dataset
	records = [
	{"id": ids[i], "vector": vectors[i].tolist(), "metadata": json.dumps(metadata[i])}
	for i in range(len(ids))
	]
	ds = Dataset.from_list(records)
	repo = f"{HF_DATASET_REPO}-{name}"
	ds.push_to_hub(repo, token=HF_TOKEN, private=True)
	logger.info(f"[{name}] Pushed {len(records)} vectors to HF Dataset")
	except Exception as e:
	logger.warning(f"[{name}] HF push failed: {e}")


	def _hf_load(name: str):
	if not HF_DATASET_REPO or not HF_TOKEN:
	return None
	try:
	from datasets import load_dataset
	repo = f"{HF_DATASET_REPO}-{name}"
	ds = load_dataset(repo, token=HF_TOKEN, split="train")
	logger.info(f"[{name}] Loaded {len(ds)} vectors from HF Dataset")
	return ds
	except Exception:
	return None


	# ── VectorStore ──────────────────────────────────────────────────────────────

	class VectorStore:
	"""
	GPU-backed vector store with NVMe swap and CAGRA rebuild-on-insert.

	Lifecycle:
	1. add(vectors, ids, meta) — bulk add + CAGRA rebuild + persist
	2. append(vector, id, meta) — single add, NO rebuild (caller decides)
	3. append_and_rebuild(v, id, meta) — single add + CAGRA rebuild + persist
	4. search(query, top_k) — search (auto-loads from NVMe if needed)
	5. evict() — free VRAM, keep NVMe
	6. restore() — NVMe -> VRAM (async, pinned DMA)
	"""

	def __init__(self, name: str, index_dir: Path \| None = None):
	self.name = name
	self._index_dir = index_dir or SWAP_PATH
	self._index_dir.mkdir(parents=True, exist_ok=True)

	self._vectors: np.ndarray \| None = None
	self._ids: list[str] = []
	self._metadata: list[dict] = []

	# GPU state
	self._gpu_index = None # CAGRA index object
	self._gpu_vecs = None # torch tensor (flat fallback)
	self._in_vram = False

	# File paths
	self._npz_file = self._index_dir / f"{name}.npz"
	self._meta_file = self._index_dir / f"{name}_meta.json"
	self._cagra_file = self._index_dir / f"{name}.cagra"

	# Load from disk on init
	if self._npz_file.exists():
	self._load_from_disk()
	else:
	self._load_from_hf()

	# ── Add / Append ─────────────────────────────────────────────────────────

	def add(self, vectors: np.ndarray, ids: list[str], metadata: list[dict] \| None = None):
	"""Bulk add vectors + rebuild CAGRA + persist."""
	if len(vectors) == 0:
	return
	self._vectors = vectors.astype(np.float32)
	self._ids = list(ids)
	self._metadata = metadata or [{} for _ in ids]
	self._normalize()
	self.rebuild_gpu_index()
	self._persist()
	logger.info(f"[{self.name}] Indexed {len(ids)} vectors (mode={self.mode})")

	def append(self, vector: np.ndarray, vid: str, meta: dict \| None = None):
	"""Append one vector. NO CAGRA rebuild (batch callers rebuild at end)."""
	vector = vector.astype(np.float32).reshape(1, -1)
	norm = np.linalg.norm(vector)
	if norm > 0:
	vector = vector / norm

	if self._vectors is not None and len(self._vectors) > 0:
	self._vectors = np.vstack([self._vectors, vector])
	else:
	self._vectors = vector

	self._ids.append(vid)
	self._metadata.append(meta or {})
	self._in_vram = False # invalidate GPU index

	def append_and_rebuild(self, vector: np.ndarray, vid: str, meta: dict \| None = None):
	"""Append one vector + rebuild CAGRA + persist."""
	self.append(vector, vid, meta)
	self.rebuild_gpu_index()
	self._persist()

	# ── Search ───────────────────────────────────────────────────────────────

	def search(self, query: np.ndarray, top_k: int = 10) -> list[dict]:
	"""
	Cosine similarity search. Auto-restores from NVMe if not in VRAM.
	Returns list of dicts: {id, score, ...metadata}
	"""
	if self._vectors is None or len(self._vectors) == 0:
	return []

	query = query.astype(np.float32)
	norm = np.linalg.norm(query)
	if norm > 0:
	query = query / norm

	# Auto-load GPU index if needed
	if ((_HIPVS_AVAILABLE or _TORCH_CUDA_AVAILABLE) and not self._in_vram):
	self.rebuild_gpu_index()

	if _HIPVS_AVAILABLE and self._gpu_index is not None:
	return self._search_cagra(query, top_k)
	elif _TORCH_CUDA_AVAILABLE and self._in_vram:
	return self._search_torch(query, top_k)
	return self._search_numpy(query, top_k)

	def _search_numpy(self, query: np.ndarray, top_k: int) -> list[dict]:
	scores = self._vectors @ query
	k = min(top_k, len(self._ids))
	if len(scores) > top_k:
	idx = np.argpartition(scores, -k)[-k:]
	idx = idx[np.argsort(scores[idx])[::-1]]
	else:
	idx = np.argsort(scores)[::-1][:k]
	return [{"id": self._ids[i], "score": float(scores[i]), **self._metadata[i]} for i in idx]

	def _search_cagra(self, query: np.ndarray, top_k: int) -> list[dict]:
	import cupy as cp
	q = cp.asarray(query.reshape(1, -1))
	search_params = _cagra.SearchParams()
	distances, indices = _cagra.search(search_params, self._gpu_index, q, top_k)
	results = []
	for idx, dist in zip(indices[0].get().tolist(), distances[0].get().tolist()):
	if 0 <= idx < len(self._ids):
	results.append({"id": self._ids[idx], "score": -float(dist), **self._metadata[idx]})
	return results

	def _search_torch(self, query: np.ndarray, top_k: int) -> list[dict]:
	import torch
	q = torch.from_numpy(query).to(self._gpu_vecs.device, dtype=self._gpu_vecs.dtype).unsqueeze(0)
	scores = (q @ self._gpu_vecs.T).squeeze(0)
	k = min(top_k, len(self._ids))
	top_scores, top_idx = torch.topk(scores, k=k)
	return [
	{"id": self._ids[i], "score": float(s), **self._metadata[i]}
	for i, s in zip(top_idx.cpu().tolist(), top_scores.cpu().tolist())
	]

	# ── GPU Index Build (CAGRA rebuilt on every insert) ──────────────────────

	def rebuild_gpu_index(self):
	"""Build/rebuild the GPU index from current vectors."""
	if self._vectors is None or len(self._vectors) == 0:
	return
	if _HIPVS_AVAILABLE:
	self._build_cagra()
	elif _TORCH_CUDA_AVAILABLE:
	self._build_torch()

	def _build_cagra(self):
	import cupy as cp
	d_vecs = cp.asarray(self._vectors)
	params = _cagra.IndexParams()
	params.metric = "sqeuclidean"
	params.graph_degree = 64
	params.intermediate_graph_degree = 128
	params.build_algo = "IVF_PQ"
	logger.info(f"[{self.name}] Building CAGRA ({self._vectors.shape}) ...")
	self._gpu_index = _cagra.build(params, d_vecs)
	# Serialize to NVMe for fast restore after eviction
	_cagra.serialize(str(self._cagra_file), self._gpu_index)
	self._in_vram = True
	logger.info(f"[{self.name}] CAGRA built + serialized")

	def _build_torch(self):
	import torch
	self._gpu_vecs = torch.from_numpy(self._vectors).cuda().half()
	self._in_vram = True

	# ── NVMe <-> VRAM Swap ───────────────────────────────────────────────────

	def evict(self):
	"""Free VRAM. NVMe files stay intact for fast restore()."""
	if not self._in_vram:
	return
	self._gpu_index = None
	self._gpu_vecs = None
	if _HIPVS_AVAILABLE or _TORCH_CUDA_AVAILABLE:
	import torch
	torch.cuda.empty_cache()
	self._in_vram = False
	logger.info(f"[{self.name}] Evicted from VRAM")

	def restore(self):
	"""
	Restore index from NVMe to VRAM via async pinned-memory copy.
	Does NOT re-embed or re-read source files.
	"""
	if self._in_vram:
	return

	if _HIPVS_AVAILABLE and self._cagra_file.exists():
	logger.info(f"[{self.name}] Restoring CAGRA from NVMe (async) ...")
	self._gpu_index = _cagra.deserialize(str(self._cagra_file))
	self._in_vram = True
	logger.info(f"[{self.name}] CAGRA restored to VRAM")
	elif _TORCH_CUDA_AVAILABLE and self._vectors is not None:
	import torch
	# Pinned memory -> VRAM (async DMA copy)
	pinned = torch.from_numpy(self._vectors).pin_memory()
	self._gpu_vecs = pinned.to("cuda", non_blocking=True, dtype=torch.float16)
	self._in_vram = True
	logger.info(f"[{self.name}] Flat tensor restored to VRAM (async)")

	# Load IDs if needed
	if not self._ids and self._npz_file.exists():
	data = np.load(self._npz_file, allow_pickle=True)
	self._ids = data["ids"].tolist()
	if self._meta_file.exists():
	with open(self._meta_file, "r") as f:
	self._metadata = json.load(f)

	# ── Persistence ──────────────────────────────────────────────────────────

	def _persist(self):
	self._save_to_disk()
	if HF_DATASET_REPO and HF_TOKEN:
	_hf_save(self.name, self._ids, self._vectors, self._metadata)

	def _save_to_disk(self):
	if self._vectors is None:
	return
	np.savez_compressed(self._npz_file, vectors=self._vectors, ids=np.array(self._ids, dtype=object))
	with open(self._meta_file, "w") as f:
	json.dump(self._metadata, f)

	def _load_from_disk(self):
	try:
	data = np.load(self._npz_file, allow_pickle=True)
	self._vectors = data["vectors"].astype(np.float32)
	self._ids = data["ids"].tolist()
	if self._meta_file.exists():
	with open(self._meta_file, "r") as f:
	self._metadata = json.load(f)
	else:
	self._metadata = [{} for _ in self._ids]
	logger.info(f"[{self.name}] Loaded {len(self._ids)} vectors from disk")
	except Exception as e:
	logger.error(f"[{self.name}] Disk load failed: {e}")

	def _load_from_hf(self):
	ds = _hf_load(self.name)
	if ds is None or len(ds) == 0:
	return
	try:
	self._ids = ds["id"]
	self._vectors = np.array(ds["vector"], dtype=np.float32)
	self._metadata = [json.loads(m) for m in ds["metadata"]]
	self._save_to_disk()
	except Exception as e:
	logger.error(f"[{self.name}] HF load failed: {e}")

	def _normalize(self):
	if self._vectors is None:
	return
	norms = np.linalg.norm(self._vectors, axis=1, keepdims=True)
	norms = np.where(norms == 0, 1, norms)
	self._vectors = self._vectors / norms

	# ── Utilities ────────────────────────────────────────────────────────────

	def clear(self):
	self._vectors = None
	self._ids = []
	self._metadata = []
	self._gpu_index = None
	self._gpu_vecs = None
	self._in_vram = False
	for f in (self._npz_file, self._meta_file, self._cagra_file):
	if f.exists():
	f.unlink()

	def has_data(self) -> bool:
	return self._vectors is not None and len(self._ids) > 0

	@property
	def count(self) -> int:
	return len(self._ids) if self._ids else 0

	@property
	def in_vram(self) -> bool:
	return self._in_vram

	@property
	def mode(self) -> str:
	if _HIPVS_AVAILABLE:
	return "CAGRA (hipVS GPU)"
	elif _TORCH_CUDA_AVAILABLE:
	return "Flat Tensor (GPU)"
	return "NumPy (CPU)"

	def __len__(self):
	return self.count

	def __repr__(self):
	vram = "VRAM" if self._in_vram else "NVMe"
	return f"VectorStore('{self.name}', n={self.count}, {self.mode}, {vram})"


	# ── Multi-Project Store Registry ────────────────────────────────────────────

	_stores: dict[str, VectorStore] = {}
	_lock = threading.Lock()


	def get_store(project: str, index_name: str) -> VectorStore:
	"""
	Get or create a VectorStore for a specific project + index.
	Stores are cached globally and share the same GPU memory pool.
	"""
	key = f"{project}/{index_name}"
	with _lock:
	if key not in _stores:
	proj_dir = get_project_dir(project)
	idx_dir = proj_dir / "indexes"
	_stores[key] = VectorStore(index_name, index_dir=idx_dir)
	logger.info(f"Store created: {_stores[key]}")
	return _stores[key]


	def list_projects() -> list[str]:
	"""List all projects that have at least one index file."""
	from config import PROJECTS_DIR
	projects = []
	if PROJECTS_DIR.exists():
	for p in sorted(PROJECTS_DIR.iterdir()):
	if p.is_dir():
	projects.append(p.name)
	return projects


	def evict_all():
	"""Evict all stores from VRAM."""
	with _lock:
	for store in _stores.values():
	if store.in_vram:
	store.evict()