Spaces:

shreyask
/

qmd-web

Running

App Files Files Community

shreyask Claude Opus 4.6 commited on Mar 12

Commit

a6ac99b

verified ·

1 Parent(s): bdf3c61

fix: use AutoModelForCausalLM for reranker (yes/no token scoring)

Browse files

Matches the working pattern from shreyask/Qwen3-Reranker-0.6B-Web.
The reranker is a causal LM that scores query-document pairs by
comparing logits for "yes" vs "no" tokens, not a text-classification
pipeline.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>

Files changed (1) hide show

src/pipeline/models.ts +40 -14

src/pipeline/models.ts CHANGED Viewed

@@ -1,8 +1,11 @@
 import {
   pipeline,
   type FeatureExtractionPipeline,
   type TextGenerationPipeline,
-  type TextClassificationPipeline,
   type ProgressInfo,
 } from "@huggingface/transformers";
 import { MODEL_EMBEDDING, MODEL_RERANKER, MODEL_EXPANSION } from "../constants";
@@ -12,9 +15,14 @@ type ProgressCallback = (state: ModelState) => void;
 // Singleton model instances
 let embeddingPipeline: FeatureExtractionPipeline | null = null;
-let rerankerPipeline: TextClassificationPipeline | null = null;
 let generationPipeline: TextGenerationPipeline | null = null;
 /** Check whether WebGPU is available in this browser. */
 export async function checkWebGPU(): Promise<boolean> {
   if (!navigator.gpu) return false;
@@ -101,18 +109,28 @@ export async function loadEmbeddingModel(
 export async function loadRerankerModel(
   onProgress?: ProgressCallback,
 ): Promise<void> {
-  if (rerankerPipeline) return;
   const name = "reranker";
   onProgress?.({ name, status: "pending", progress: 0 });
   try {
-    rerankerPipeline = await pipeline(
-      "text-classification",
-      MODEL_RERANKER,
-      {
-        device: "webgpu",
-        progress_callback: makeProgressHandler(name, onProgress),
-      },
-    );
     onProgress?.({ name, status: "ready", progress: 1 });
   } catch (err) {
     onProgress?.({
@@ -184,8 +202,16 @@ export function getEmbeddingPipeline(): FeatureExtractionPipeline | null {
   return embeddingPipeline;
 }
-export function getRerankerPipeline(): TextClassificationPipeline | null {
-  return rerankerPipeline;
 }
 export function getExpansionPipeline(): TextGenerationPipeline | null {
@@ -195,7 +221,7 @@ export function getExpansionPipeline(): TextGenerationPipeline | null {
 export function isAllModelsReady(): boolean {
   return (
     embeddingPipeline !== null &&
-    rerankerPipeline !== null &&
     generationPipeline !== null
   );
 }

 import {
   pipeline,
+  AutoTokenizer,
+  AutoModelForCausalLM,
   type FeatureExtractionPipeline,
   type TextGenerationPipeline,
+  type PreTrainedTokenizer,
+  type PreTrainedModel,
   type ProgressInfo,
 } from "@huggingface/transformers";
 import { MODEL_EMBEDDING, MODEL_RERANKER, MODEL_EXPANSION } from "../constants";
 // Singleton model instances
 let embeddingPipeline: FeatureExtractionPipeline | null = null;
 let generationPipeline: TextGenerationPipeline | null = null;
+// Reranker uses AutoModel + AutoTokenizer (not a pipeline)
+let rerankerModel: PreTrainedModel | null = null;
+let rerankerTokenizer: PreTrainedTokenizer | null = null;
+let rerankerTokenYes = -1;
+let rerankerTokenNo = -1;
 /** Check whether WebGPU is available in this browser. */
 export async function checkWebGPU(): Promise<boolean> {
   if (!navigator.gpu) return false;
 export async function loadRerankerModel(
   onProgress?: ProgressCallback,
 ): Promise<void> {
+  if (rerankerModel) return;
   const name = "reranker";
   onProgress?.({ name, status: "pending", progress: 0 });
   try {
+    const progressHandler = makeProgressHandler(name, onProgress);
+    // Load tokenizer and model separately (cross-encoder pattern)
+    rerankerTokenizer = await AutoTokenizer.from_pretrained(MODEL_RERANKER, {
+      progress_callback: progressHandler,
+    });
+    // Pre-compute "yes" and "no" token IDs for scoring
+    const yesIds = rerankerTokenizer("yes", { add_special_tokens: false }).input_ids.data;
+    const noIds = rerankerTokenizer("no", { add_special_tokens: false }).input_ids.data;
+    rerankerTokenYes = Number(yesIds[yesIds.length - 1]);
+    rerankerTokenNo = Number(noIds[noIds.length - 1]);
+    rerankerModel = await AutoModelForCausalLM.from_pretrained(MODEL_RERANKER, {
+      device: "webgpu",
+      progress_callback: progressHandler,
+    });
     onProgress?.({ name, status: "ready", progress: 1 });
   } catch (err) {
     onProgress?.({
   return embeddingPipeline;
 }
+export function getRerankerModel(): PreTrainedModel | null {
+  return rerankerModel;
+}
+export function getRerankerTokenizer(): PreTrainedTokenizer | null {
+  return rerankerTokenizer;
+}
+export function getRerankerTokenIds(): { yes: number; no: number } {
+  return { yes: rerankerTokenYes, no: rerankerTokenNo };
 }
 export function getExpansionPipeline(): TextGenerationPipeline | null {
 export function isAllModelsReady(): boolean {
   return (
     embeddingPipeline !== null &&
+    rerankerModel !== null &&
     generationPipeline !== null
   );
 }