Update code snippet (#10)

Files changed (2) hide show

README.md CHANGED Viewed

@@ -24,35 +24,33 @@ npm i @huggingface/transformers
 import {
     Florence2ForConditionalGeneration,
     AutoProcessor,
-    AutoTokenizer,
-    RawImage,
 } from '@huggingface/transformers';
 // Load model, processor, and tokenizer
 const model_id = 'onnx-community/Florence-2-base-ft';
 const model = await Florence2ForConditionalGeneration.from_pretrained(model_id, { dtype: 'fp32' });
 const processor = await AutoProcessor.from_pretrained(model_id);
-const tokenizer = await AutoTokenizer.from_pretrained(model_id);
 // Load image and prepare vision inputs
 const url = 'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg';
-const image = await RawImage.fromURL(url);
-const vision_inputs = await processor(image);
 // Specify task and prepare text inputs
 const task = '<MORE_DETAILED_CAPTION>';
 const prompts = processor.construct_prompts(task);
-const text_inputs = tokenizer(prompts);
 // Generate text
 const generated_ids = await model.generate({
-    ...text_inputs,
-    ...vision_inputs,
     max_new_tokens: 100,
 });
 // Decode generated text
-const generated_text = tokenizer.batch_decode(generated_ids, { skip_special_tokens: false })[0];
 // Post-process the generated text
 const result = processor.post_process_generation(generated_text, task, image.size);

 import {
     Florence2ForConditionalGeneration,
     AutoProcessor,
+    load_image,
 } from '@huggingface/transformers';
 // Load model, processor, and tokenizer
 const model_id = 'onnx-community/Florence-2-base-ft';
 const model = await Florence2ForConditionalGeneration.from_pretrained(model_id, { dtype: 'fp32' });
 const processor = await AutoProcessor.from_pretrained(model_id);
 // Load image and prepare vision inputs
 const url = 'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg';
+const image = await load_image(url);
 // Specify task and prepare text inputs
 const task = '<MORE_DETAILED_CAPTION>';
 const prompts = processor.construct_prompts(task);
+// Pre-process the image and text inputs
+const inputs = await processor(image, prompts);
 // Generate text
 const generated_ids = await model.generate({
+    ...inputs,
     max_new_tokens: 100,
 });
 // Decode generated text
+const generated_text = processor.batch_decode(generated_ids, { skip_special_tokens: false })[0];
 // Post-process the generated text
 const result = processor.post_process_generation(generated_text, task, image.size);

config.json CHANGED Viewed

@@ -7,6 +7,7 @@
   "eos_token_id": 2,
   "ignore_index": -100,
   "is_encoder_decoder": true,
   "model_type": "florence2",
   "pad_token_id": 1,
   "projection_dim": 768,

   "eos_token_id": 2,
   "ignore_index": -100,
   "is_encoder_decoder": true,
+  "num_image_tokens": 577,
   "model_type": "florence2",
   "pad_token_id": 1,
   "projection_dim": 768,