Spaces:

aiivar
/

Transformers

Running

App Files Files Community

MinAA commited on Jan 9

Commit

693999e

1 Parent(s): 5cccb5d

init

Browse files

Files changed (1) hide show

app.py +6 -62

app.py CHANGED Viewed

@@ -955,13 +955,15 @@ def visual_qa(image, question, model_name):
             # Для BLIP VQA используем формат "Question: {question} Answer:"
             prompt = f"Question: {question} Answer:"
             inputs = processor(image, prompt, return_tensors="pt")
             # Используем параметры генерации, которые помогают получить ответ, а не вопрос
             out = model.generate(
                 **inputs,
                 max_length=50,
                 num_beams=3,
-                do_sample=False,
-                pad_token_id=processor.tokenizer.pad_token_id or processor.tokenizer.eos_token_id
             )
             answer = processor.decode(out[0], skip_special_tokens=True)
             # Убираем промпт из ответа, если он там остался
@@ -990,70 +992,13 @@ def visual_qa(image, question, model_name):
                     **inputs,
                     max_length=50,
                     num_beams=5,
-                    do_sample=False,
-                    pad_token_id=processor.tokenizer.pad_token_id or processor.tokenizer.eos_token_id
                 )
                 answer = processor.decode(out[0], skip_special_tokens=True)
                 # Убираем вопрос из ответа
                 if question.lower() in answer.lower():
                     answer = answer.replace(question, "").replace("?", "").strip()
             return f"Ответ: {answer}"
-        elif "git" in model_name.lower():
-            # GIT модели для VQA требуют специальный формат
-            # Внимание: microsoft/git-base - это модель для captioning, не для VQA
-            # Но можно попробовать использовать её для VQA с правильным форматом
-            cache_key = f"vqa_git_{model_name}"
-            cached = model_cache.get(cache_key)
-            if cached is None:
-                processor = AutoProcessor.from_pretrained(model_name)
-                from transformers import AutoModelForCausalLM
-                model = AutoModelForCausalLM.from_pretrained(model_name)
-                cached = (processor, model)
-                model_cache.put(cache_key, cached)
-            processor, model = cached
-            # Для GIT используем формат "Question: {question} Answer:"
-            prompt = f"Question: {question} Answer:"
-            inputs = processor(images=image, text=prompt, return_tensors="pt")
-            generated_ids = model.generate(
-                pixel_values=inputs.pixel_values,
-                input_ids=inputs.input_ids,
-                max_length=50,
-                num_beams=3,
-                do_sample=False,
-                pad_token_id=processor.tokenizer.pad_token_id or processor.tokenizer.eos_token_id
-            )
-            generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
-            # Извлекаем только ответ (часть после "Answer:")
-            if "Answer:" in generated_text:
-                answer = generated_text.split("Answer:")[-1].strip()
-            else:
-                # Убираем промпт из ответа
-                answer = generated_text.replace(prompt, "").strip()
-                # Убираем вопрос, если он там остался
-                if question.lower() in answer.lower():
-                    answer = answer.replace(question, "").strip()
-            # Проверяем, не является ли ответ вопросом
-            if answer.lower().strip().startswith(("which", "what", "where", "when", "who", "how", "why")):
-                # Если ответ начинается с вопросительного слова, это может быть вопрос
-                # Пробуем еще раз с другим форматом
-                prompt = f"{question}?"
-                inputs = processor(images=image, text=prompt, return_tensors="pt")
-                generated_ids = model.generate(
-                    pixel_values=inputs.pixel_values,
-                    input_ids=inputs.input_ids,
-                    max_length=50,
-                    num_beams=5,
-                    do_sample=False,
-                    pad_token_id=processor.tokenizer.pad_token_id or processor.tokenizer.eos_token_id
-                )
-                generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
-                # Убираем вопрос из ответа
-                if question.lower() in generated_text.lower():
-                    answer = generated_text.replace(question, "").replace("?", "").strip()
-                else:
-                    answer = generated_text.strip()
-            return f"Ответ: {answer}"
         else:
             vqa = get_pipeline("visual-question-answering", model_name)
             result = vqa(image=image, question=question)
@@ -1654,8 +1599,7 @@ with gr.Blocks(title="Трансформеры Hugging Face", theme=gr.themes.So
                         vqa_model = gr.Dropdown(
                             choices=[
                                 "dandelin/vilt-b32-finetuned-vqa",
-                                "Salesforce/blip-vqa-base",
-                                "microsoft/git-base"
                             ],
                             value="dandelin/vilt-b32-finetuned-vqa",
                             label="Выберите модель"

             # Для BLIP VQA используем формат "Question: {question} Answer:"
             prompt = f"Question: {question} Answer:"
             inputs = processor(image, prompt, return_tensors="pt")
+            # Устанавливаем pad_token_id в модели, если его нет
+            if model.config.pad_token_id is None:
+                model.config.pad_token_id = processor.tokenizer.pad_token_id or processor.tokenizer.eos_token_id
             # Используем параметры генерации, которые помогают получить ответ, а не вопрос
             out = model.generate(
                 **inputs,
                 max_length=50,
                 num_beams=3,
+                do_sample=False
             )
             answer = processor.decode(out[0], skip_special_tokens=True)
             # Убираем промпт из ответа, если он там остался
                     **inputs,
                     max_length=50,
                     num_beams=5,
+                    do_sample=False
                 )
                 answer = processor.decode(out[0], skip_special_tokens=True)
                 # Убираем вопрос из ответа
                 if question.lower() in answer.lower():
                     answer = answer.replace(question, "").replace("?", "").strip()
             return f"Ответ: {answer}"
         else:
             vqa = get_pipeline("visual-question-answering", model_name)
             result = vqa(image=image, question=question)
                         vqa_model = gr.Dropdown(
                             choices=[
                                 "dandelin/vilt-b32-finetuned-vqa",
+                                "Salesforce/blip-vqa-base"
                             ],
                             value="dandelin/vilt-b32-finetuned-vqa",
                             label="Выберите модель"