Spaces:

PatrickRedStar
/

video_image

Sleeping

App Files Files Community

PatrickRedStar commited on Dec 16, 2025

Commit

e4b559c

1 Parent(s): e0b9d86

123

Browse files

Files changed (2) hide show

app.py +19 -3
requirements.txt +1 -0

app.py CHANGED Viewed

@@ -145,7 +145,13 @@ def image_captioning(image):
 def visual_question_answering(image, question):
     vqa_pipeline = load_image_model("vqa")
-    result = vqa_pipeline(image, question)
     return f"{result[0]['answer']} (confidence: {result[0]['score']:.3f})"
 def zero_shot_classification(image, classes):
@@ -175,7 +181,17 @@ def image_retrieval(images, query):
     processor = models["clip_processor"]
     # Обрабатываем все изображения
-    image_inputs = processor(images=images, return_tensors="pt", padding=True)
     with torch.no_grad():
         image_embeddings = model.get_image_features(**image_inputs)
         image_embeddings = image_embeddings / image_embeddings.norm(dim=-1, keepdim=True)
@@ -193,7 +209,7 @@ def image_retrieval(images, query):
     best_idx = similarities.argmax().item()
     best_score = similarities[best_idx].item()
-    return f"Лучшее изображение: #{best_idx + 1} (схожесть: {best_score:.4f})", images[best_idx]
 # Создаем интерфейс Gradio
 with gr.Blocks(title="Multimodal AI Demo", theme=gr.themes.Soft()) as demo:

 def visual_question_answering(image, question):
     vqa_pipeline = load_image_model("vqa")
+    cleaned_question = (question or "").strip()
+    result = vqa_pipeline(
+        image=image,
+        question=cleaned_question,
+        truncation=True,  # keep text within ViLT max sequence length (40)
+        max_length=40,
+    )
     return f"{result[0]['answer']} (confidence: {result[0]['score']:.3f})"
 def zero_shot_classification(image, classes):
     processor = models["clip_processor"]
     # Обрабатываем все изображения
+    if isinstance(images, tuple):
+        images = list(images)
+    normalized_images = []
+    for item in images:
+        # Gallery может вернуть (image, caption); берем только картинку
+        if isinstance(item, (list, tuple)) and item:
+            normalized_images.append(item[0])
+        else:
+            normalized_images.append(item)
+    image_inputs = processor(images=normalized_images, return_tensors="pt", padding=True)
     with torch.no_grad():
         image_embeddings = model.get_image_features(**image_inputs)
         image_embeddings = image_embeddings / image_embeddings.norm(dim=-1, keepdim=True)
     best_idx = similarities.argmax().item()
     best_score = similarities[best_idx].item()
+    return f"Лучшее изображение: #{best_idx + 1} (схожесть: {best_score:.4f})", normalized_images[best_idx]
 # Создаем интерфейс Gradio
 with gr.Blocks(title="Multimodal AI Demo", theme=gr.themes.Soft()) as demo:

requirements.txt CHANGED Viewed

@@ -10,3 +10,4 @@ sentence-transformers>=2.2.0
 librosa>=0.10.0
 requests>=2.28.0
 accelerate>=0.20.0

 librosa>=0.10.0
 requests>=2.28.0
 accelerate>=0.20.0
+timm>=0.6.12