Spaces:

IES-Rafael-Alberti
/

OscarProjecto1

Build error

App Files Files Community

oscargargom commited on Nov 6, 2023

Commit

0115f6d

1 Parent(s): 7e7e6dc

Update app.py

Browse files

Files changed (1) hide show

app.py +65 -21

app.py CHANGED Viewed

@@ -1,11 +1,3 @@
-from transformers import DetrImageProcessor, DetrForObjectDetection
-import torch
-from PIL import Image
-import requests
-from huggingface_hub import InferenceClient
-import numpy as np
-import gradio as gr
 from transformers import DetrImageProcessor, DetrForObjectDetection
 import torch
 from PIL import Image
@@ -13,8 +5,13 @@ import requests
 import gradio as gr
 from huggingface_hub import InferenceClient
-# Define una función que toma una imagen como entrada y obtiene el resultado
 def detect_objects(image):
     processor = DetrImageProcessor.from_pretrained("facebook/detr-resnet-50", revision="no_timm")
     model = DetrForObjectDetection.from_pretrained("facebook/detr-resnet-50", revision="no_timm")
@@ -22,31 +19,78 @@ def detect_objects(image):
     outputs = model(**inputs)
     # Convierte las salidas a formato COCO
-    target_sizes = torch.tensor([image.size[::-1])
-    results = processor.post_process_object_detection(outputs, target_sizes=target_sizes, threshold=0.9)[0]
     # Formatea los resultados
     formatted_results = format_detection_results(model, results)
-    # Convierte los resultados en una cadena de texto separada por comas
-    result = ", ".join(formatted_results)
     return result
 # Define la función para generar la respuesta con el modelo Zephyr
 def generate_response(result):
-    zephyrToDo = "clasificame la palabra " + result + " en persona, paisaje u objeto"
     prompt = ""
-    history = []  # Puedes proporcionar un historial de conversaciones si es necesario
     response = generate(prompt, history)
-    return response
 # Define la interfaz de Gradio con entrada de imagen
 iface = gr.Interface(
-    fn=detect_objects,  # La función que procesa la imagen y obtiene el resultado
-    inputs=gr.inputs.Image(type="pil", label="Sube una imagen"),  # Entrada de imagen
     outputs="text"  # Salida de texto
 )
 # Ejecuta la interfaz Gradio
-iface.launch()

 from transformers import DetrImageProcessor, DetrForObjectDetection
 import torch
 from PIL import Image
 import gradio as gr
 from huggingface_hub import InferenceClient
+# Tamaño esperado de la imagen para el modelo DETR
+target_size = 800  # Ajusta el tamaño según las especificaciones del modelo
 def detect_objects(image):
+    # Asegúrate de que la imagen sea cuadrada y del tamaño esperado
+    image = image.resize((target_size, target_size))
     processor = DetrImageProcessor.from_pretrained("facebook/detr-resnet-50", revision="no_timm")
     model = DetrForObjectDetection.from_pretrained("facebook/detr-resnet-50", revision="no_timm")
     outputs = model(**inputs)
     # Convierte las salidas a formato COCO
+    results = processor.post_process_object_detection(outputs, target_sizes=torch.tensor([image.size[::-1]]), threshold=0.9)[0]
+    def format_detection_results(model, results):
+        formatted_results = []
+        for score, label, box in zip(results["scores"], results["labels"], results["boxes"]):
+            box = [round(i, 2) for i in box.tolist()]
+            result_str = f"{model.config.id2label[label.item()]}"
+            formatted_results.append(result_str)
+        return formatted_results
     # Formatea los resultados
     formatted_results = format_detection_results(model, results)
+    for result in formatted_results:
+      print(result)
     return result
 # Define la función para generar la respuesta con el modelo Zephyr
 def generate_response(result):
+    client = InferenceClient("HuggingFaceH4/zephyr-7b-alpha")
+    zephyrToDo = "clasificame la palabra " + result + " en persona, paisaje o objeto"
+    def format_prompt(message, history):
+        system = "\nYou are a helpful virtual assistant that answers user's questions with easy-to-understand words.</s>\n"
+        prompt = ""
+        for user_prompt, bot_response in history:
+            prompt += f"\n{user_prompt}</s>\n"
+            prompt += f"\n{bot_response}</s>\n"
+        prompt += f"\n{zephyrToDo}</s>\n"
+        return prompt
+    def generate(
+        prompt, history, temperature=0.9, max_new_tokens=10, top_p=0.95, repetition_penalty=1.0,
+    ):
+        temperature = float(temperature)
+        if temperature < 1e-2:
+            temperature = 1e-2
+        top_p = float(top_p)
+        generate_kwargs = dict(
+            temperature=temperature,
+            max_new_tokens=max_new_tokens,
+            top_p=top_p,
+            repetition_penalty=repetition_penalty,
+            do_sample=True,
+            seed=42,
+        )
+        formatted_prompt = format_prompt(prompt, history)
+        stream = client.text_generation(formatted_prompt, **generate_kwargs, stream=True, details=True, return_full_text=False)
+        response_text = ""
+        for response in stream:
+            response_text += response.token.text
+        return response_text
+# Example usage:
     prompt = ""
+    history = []  # You can provide a history of conversations if needed
     response = generate(prompt, history)
+    print(response)  # This will print the model's response
 # Define la interfaz de Gradio con entrada de imagen
 iface = gr.Interface(
+    fn=lambda image: generate_response(detect_objects(image)),  # Llama a detect_objects y luego a generate_response
+    inputs=gr.Image(type="pil", label="Sube una imagen"),  # Entrada de imagen
     outputs="text"  # Salida de texto
 )
 # Ejecuta la interfaz Gradio
+iface.launch(debug=True)