prueba / appDiffuserDiscapacidad.py
adri017's picture
error en modelo
bad0877
import gradio as gr
import torch
from PIL import Image
from diffusers import DiffusionPipeline
from transformers import pipeline
import numpy as np
modelo_descripcion = pipeline("image-to-text", model="Salesforce/blip-image-captioning-base")
audioModelo = pipeline("text-to-speech", model="suno/bark-small")
def describir_imagen(imagen):
descripcion = modelo_descripcion(Image.fromarray(imagen))[0]['generated_text']
return descripcion
def generar_audio(texto):
audio = audioModelo(texto)
array_audio = np.array(audio["audio"][0], dtype=np.float32)
return (audio["sampling_rate"], array_audio)
with gr.Blocks() as demo:
gr.Markdown(
"""
# Asistente Accesible para Personas con Discapacidad Visual
Este sistema **describe im谩genes** autom谩ticamente y **lee en voz alta** lo que aparece.
"""
)
with gr.Row():
with gr.Column(scale=1):
imagen_input = gr.Image(label="Sube una imagen")
generar_btn = gr.Button("Obtener descripci贸n")
with gr.Column(scale=1):
descripcion_output = gr.Textbox(label="Descripci贸n generada")
audio_output = gr.Audio(label="Audio descriptivo")
generar_btn.click(fn=describir_imagen, inputs=imagen_input, outputs=descripcion_output)
descripcion_output.change(fn=generar_audio, inputs=descripcion_output, outputs=audio_output)
demo.launch(theme=gr.themes.Soft())