Spaces:

mrdbourke
/

FoodExtract-Vision-v1

Paused

mrdbourke commited on Jan 15

Commit

2db2a85

verified ·

1 Parent(s): 644f18e

Uploading FoodExtract-Vision demo app.py

Files changed (5) hide show

.gitattributes CHANGED Viewed

@@ -33,3 +33,6 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+examples/Tandoori-Chicken.jpg filter=lfs diff=lfs merge=lfs -text
+examples/camera.jpeg filter=lfs diff=lfs merge=lfs -text
+examples/fries.jpeg filter=lfs diff=lfs merge=lfs -text

app.py CHANGED Viewed

@@ -9,6 +9,7 @@ FINE_TUNED_MODEL_ID = "mrdbourke/FoodExtract-Vision-SmolVLM2-500M-fine-tune-v1"
 OUTPUT_TOKENS = 256
 # Load original base model (no fine-tuning)
 original_pipeline = pipeline(
     "image-text-to-text",
     model=BASE_MODEL_ID,
@@ -17,6 +18,7 @@ original_pipeline = pipeline(
 )
 # Load fine-tuned model
 ft_pipe = pipeline(
     "image-text-to-text",
     model=FINE_TUNED_MODEL_ID,
@@ -43,9 +45,9 @@ def extract_foods_from_image(input_image):
     outputs_pretrained = original_pipeline_output[0][0]["generated_text"][-1]["content"]
     # Get outputs from fine-tuned model (fine-tuned on food images)
-    ft_pipe = ft_pipe(text=[input_message],
-                      max_new_tokens=OUTPUT_TOKENS)
-    outputs_fine_tuned = ft_pipe[0][0]["generated_text"][-1]["content"]
     return outputs_pretrained, outputs_fine_tuned
@@ -92,7 +94,10 @@ demo = gr.Interface(
     title=demo_title,
     description=demo_description,
     outputs=[gr.Textbox(lines=4, label="Original Model (not fine-tuned)"),
-             gr.Textbox(lines=4, label="Fine-tuned Model")]
 )
 if __name__ == "__main__":

 OUTPUT_TOKENS = 256
 # Load original base model (no fine-tuning)
+print(f"[INFO] Loading Original Model")
 original_pipeline = pipeline(
     "image-text-to-text",
     model=BASE_MODEL_ID,
 )
 # Load fine-tuned model
+print(f"[INFO] Loading Fine-tuned Model")
 ft_pipe = pipeline(
     "image-text-to-text",
     model=FINE_TUNED_MODEL_ID,
     outputs_pretrained = original_pipeline_output[0][0]["generated_text"][-1]["content"]
     # Get outputs from fine-tuned model (fine-tuned on food images)
+    ft_pipe_output = ft_pipe(text=[input_message],
+                             max_new_tokens=OUTPUT_TOKENS)
+    outputs_fine_tuned = ft_pipe_output[0][0]["generated_text"][-1]["content"]
     return outputs_pretrained, outputs_fine_tuned
     title=demo_title,
     description=demo_description,
     outputs=[gr.Textbox(lines=4, label="Original Model (not fine-tuned)"),
+             gr.Textbox(lines=4, label="Fine-tuned Model")],
+    examples=[["examples/camera.jpeg"],
+              ["examples/Tandoori-Chicken.jpg"],
+              ["examples/fries.jpeg"]],
 )
 if __name__ == "__main__":

examples/Tandoori-Chicken.jpg ADDED Viewed

examples/camera.jpeg ADDED Viewed

examples/fries.jpeg ADDED Viewed