Spaces:

d3evil4
/

Image2Caption

Running

App Files Files Community

khushalcodiste commited on Mar 8

Commit

b02d5c5

1 Parent(s): c356756

feat: added

Browse files

Files changed (4) hide show

README.md +2 -0
docker-compose.yml +3 -0
src/model.js +30 -3
src/server.js +7 -3

README.md CHANGED Viewed

@@ -9,3 +9,5 @@ pinned: false
 ---
 Image captioning API using FastVLM (ONNX). Open `/docs` for Swagger UI.

 ---
 Image captioning API using FastVLM (ONNX). Open `/docs` for Swagger UI.
+Speed tuning env vars: `DEFAULT_MAX_TOKENS` (default `64`), `MAX_IMAGE_SIDE` (default `896`), `MAX_MAX_TOKENS` (default `256`).

docker-compose.yml CHANGED Viewed

@@ -5,4 +5,7 @@ services:
       - "7860:7860"
     environment:
       - PORT=7860
     restart: unless-stopped

       - "7860:7860"
     environment:
       - PORT=7860
+      - DEFAULT_MAX_TOKENS=64
+      - MAX_IMAGE_SIDE=896
+      - MAX_MAX_TOKENS=256
     restart: unless-stopped

src/model.js CHANGED Viewed

@@ -3,8 +3,12 @@ import {
   AutoProcessor,
   RawImage,
 } from "@huggingface/transformers";
 const MODEL_ID = "onnx-community/FastVLM-0.5B-ONNX";
 let model = null;
 let processor = null;
@@ -53,11 +57,33 @@ export async function generateCaption(
   imageBuffer,
   task = "caption",
   textInput = null,
-  maxTokens = 100
 ) {
   const { model: m, processor: p } = await loadModel();
-  const image = await RawImage.fromBlob(new Blob([imageBuffer]));
   const baseInstruction = TASKS[task] || TASKS.caption;
   const instruction = textInput
@@ -69,7 +95,8 @@ export async function generateCaption(
   const generatedIds = await m.generate({
     ...inputs,
-    max_new_tokens: maxTokens,
   });
   const generatedText = p.batch_decode(generatedIds, {

   AutoProcessor,
   RawImage,
 } from "@huggingface/transformers";
+import sharp from "sharp";
 const MODEL_ID = "onnx-community/FastVLM-0.5B-ONNX";
+const DEFAULT_MAX_TOKENS = parseInt(process.env.DEFAULT_MAX_TOKENS || "64", 10);
+const MAX_MAX_TOKENS = parseInt(process.env.MAX_MAX_TOKENS || "256", 10);
+const MAX_IMAGE_SIDE = parseInt(process.env.MAX_IMAGE_SIDE || "896", 10);
 let model = null;
 let processor = null;
   imageBuffer,
   task = "caption",
   textInput = null,
+  maxTokens = DEFAULT_MAX_TOKENS
 ) {
   const { model: m, processor: p } = await loadModel();
+  const safeMaxTokens = Number.isFinite(maxTokens)
+    ? Math.min(Math.max(maxTokens, 8), MAX_MAX_TOKENS)
+    : DEFAULT_MAX_TOKENS;
+  // Downscale large uploads to reduce encoder latency.
+  const metadata = await sharp(imageBuffer).metadata();
+  let preparedBuffer = imageBuffer;
+  if (
+    metadata.width &&
+    metadata.height &&
+    (metadata.width > MAX_IMAGE_SIDE || metadata.height > MAX_IMAGE_SIDE)
+  ) {
+    preparedBuffer = await sharp(imageBuffer)
+      .resize({
+        width: MAX_IMAGE_SIDE,
+        height: MAX_IMAGE_SIDE,
+        fit: "inside",
+        withoutEnlargement: true,
+      })
+      .toBuffer();
+  }
+  const image = await RawImage.fromBlob(new Blob([preparedBuffer]));
   const baseInstruction = TASKS[task] || TASKS.caption;
   const instruction = textInput
   const generatedIds = await m.generate({
     ...inputs,
+    do_sample: false,
+    max_new_tokens: safeMaxTokens,
   });
   const generatedText = p.batch_decode(generatedIds, {

src/server.js CHANGED Viewed

@@ -6,6 +6,7 @@ import cors from "@fastify/cors";
 import { generateCaption, loadModel, TASKS } from "./model.js";
 const app = Fastify({ logger: true });
 // --- Plugins ---
 await app.register(cors);
@@ -99,7 +100,7 @@ h1{font-size:1.8rem;margin-bottom:.5rem}
 <ul style="margin:.5rem 0 0 1.2rem;color:#94a3b8">
 <li><code>file</code> — image (required)</li>
 <li><code>task</code> — caption, detailed_caption, more_detailed_caption, ocr, ocr_with_region, object_detection, dense_region_caption, region_proposal</li>
-<li><code>max_tokens</code> — default 100</li>
 </ul>
 </div>
 </div></body></html>`);
@@ -153,7 +154,10 @@ app.post(
     const task = data.fields.task?.value || "caption";
     const textInput = data.fields.text?.value || null;
-    const maxTokens = parseInt(data.fields.max_tokens?.value || "100", 10);
     if (!TASKS[task]) {
       return reply
@@ -188,7 +192,7 @@ app.post(
     const files = [];
     let task = "caption";
     let textInput = null;
-    let maxTokens = 100;
     for await (const part of parts) {
       if (part.type === "file") {

 import { generateCaption, loadModel, TASKS } from "./model.js";
 const app = Fastify({ logger: true });
+const DEFAULT_MAX_TOKENS = parseInt(process.env.DEFAULT_MAX_TOKENS || "64", 10);
 // --- Plugins ---
 await app.register(cors);
 <ul style="margin:.5rem 0 0 1.2rem;color:#94a3b8">
 <li><code>file</code> — image (required)</li>
 <li><code>task</code> — caption, detailed_caption, more_detailed_caption, ocr, ocr_with_region, object_detection, dense_region_caption, region_proposal</li>
+<li><code>max_tokens</code> — default 64 (smaller = faster)</li>
 </ul>
 </div>
 </div></body></html>`);
     const task = data.fields.task?.value || "caption";
     const textInput = data.fields.text?.value || null;
+    const maxTokens = parseInt(
+      data.fields.max_tokens?.value || String(DEFAULT_MAX_TOKENS),
+      10
+    );
     if (!TASKS[task]) {
       return reply
     const files = [];
     let task = "caption";
     let textInput = null;
+    let maxTokens = DEFAULT_MAX_TOKENS;
     for await (const part of parts) {
       if (part.type === "file") {