Spaces:

quickgrid
/

RAG-Visualizer

Running

App Files Files Community

quickgrid commited on 10 days ago

Commit

c2e2021

verified ·

1 Parent(s): 8a5dba2

Update index.html

Browse files

Files changed (1) hide show

index.html +23 -2

index.html CHANGED Viewed

@@ -451,10 +451,10 @@ async function loadModel(type, modelId) {
         device: 'webgpu'
       });
     } else if (type === 'embedder') {
-      STATE.models.embedder = await tf.pipeline('feature-extraction', modelId, { progress_callback: handleProgress });
     } else if (type === 'reranker') {
       try {
-        STATE.models.reranker = await tf.pipeline('text-classification', modelId, { progress_callback: handleProgress });
       } catch {
         STATE.models.reranker = 'heuristic';
         toast('Reranker model unavailable, using heuristic fallback', 'info');
@@ -474,6 +474,7 @@ async function loadModel(type, modelId) {
 async function loadAllModels() {
   await loadModel('embedder', STATE.modelIds.embedder);
   await loadModel('llm', STATE.modelIds.llm);
   await loadModel('reranker', STATE.modelIds.reranker);
   document.getElementById('sendBtn').disabled = !STATE.models.llm;
@@ -1173,6 +1174,26 @@ function initEvents() {
   });
 }
 // =============================================
 // Init
 // =============================================

         device: 'webgpu'
       });
     } else if (type === 'embedder') {
+      STATE.models.embedder = await tf.pipeline('feature-extraction', modelId, { progress_callback: handleProgress, device: 'webgpu' });
     } else if (type === 'reranker') {
       try {
+        STATE.models.reranker = await tf.pipeline('text-classification', modelId, { progress_callback: handleProgress, device: 'webgpu' });
       } catch {
         STATE.models.reranker = 'heuristic';
         toast('Reranker model unavailable, using heuristic fallback', 'info');
 async function loadAllModels() {
   await loadModel('embedder', STATE.modelIds.embedder);
+  await seedVectorDB();  // ADD THIS LINE
   await loadModel('llm', STATE.modelIds.llm);
   await loadModel('reranker', STATE.modelIds.reranker);
   document.getElementById('sendBtn').disabled = !STATE.models.llm;
   });
 }
+async function seedVectorDB() {
+  const seeds = [
+    { text: "Transformers.js is a library that enables running machine learning models directly in the browser using ONNX Runtime. It supports text generation, image classification, audio processing, and more without requiring a server.", metadata: { source: "docs", topic: "transformers.js" } },
+    { text: "Vector databases store data as high-dimensional numerical vectors. They enable fast similarity search by comparing vector distances using metrics like cosine similarity, euclidean distance, or dot product.", metadata: { source: "docs", topic: "vector-db" } },
+    { text: "RAG (Retrieval-Augmented Generation) combines information retrieval with language model generation. It first searches a knowledge base for relevant passages, then feeds those passages as context to an LLM to produce grounded answers.", metadata: { source: "docs", topic: "rag" } },
+    { text: "LanceDB is an open-source vector database designed for fast similarity search. It uses the Lance columnar format for efficient storage and retrieval of vector embeddings, supporting ANN indexes and full-text search.", metadata: { source: "docs", topic: "lancedb" } },
+    { text: "Embedding models convert text into fixed-size numerical vectors that capture semantic meaning. Popular models include all-MiniLM-L6-v2 (384 dimensions), BGE embeddings, and E5 models. Higher dimensions generally capture more nuance.", metadata: { source: "docs", topic: "embeddings" } },
+    { text: "Reranking improves search quality by re-scoring initially retrieved results with a more expensive cross-encoder model. Cross-encoders jointly process the query and each document, producing more accurate relevance scores than bi-encoder similarity.", metadata: { source: "docs", topic: "reranking" } },
+    { text: "Quantization reduces model size by lowering numerical precision. Q4 uses 4-bit integers, Q4F16 uses 4-bit weights with 16-bit activations for WebGPU. Q4 runs on CPU/WASM, Q4F16 requires WebGPU due to specialized GPU-only operators.", metadata: { source: "docs", topic: "quantization" } },
+    { text: "WebGPU is a modern browser API for general-purpose GPU computation. It replaces WebGL for compute workloads and is required for running quantized models like Q4F16 in transformers.js. Chrome 113+ supports WebGPU natively.", metadata: { source: "docs", topic: "webgpu" } }
+  ];
+  for (const s of seeds) {
+    const vector = await embedText(s.text);
+    const entry = { id: STATE.nextId++, text: s.text, metadata: s.metadata, vector, date: new Date().toISOString() };
+    STATE.entries.push(entry);
+    vTable.add([{ ...entry }]);
+  }
+  renderTable();
+}
 // =============================================
 // Init
 // =============================================