Spaces:

SandraCLV
/

injectModel1intoModel2

Sleeping

SandraCLV commited on Oct 29, 2023

Commit

9e26359

1 Parent(s): 1cca5e2

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,27 +1,35 @@
 import gradio as gr
-from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 import torch
-# Cargar el modelo y el procesador
-model = Wav2Vec2ForCTC.from_pretrained("openai/whisper-large-v2")
-processor = Wav2Vec2Processor.from_pretrained("openai/whisper-large-v2")
-def asr(audio_file_path):
-    # Cargar archivo de audio
-    input_audio, _ = librosa.load(audio_file_path, sr=16000)
-    # Preprocesar audio
-    input_values = processor(input_audio, return_tensors="pt", sampling_rate=16000).input_values
-    # Realizar inferencia
-    logits = model(input_values).logits
-    # Decodificar los logits a texto
-    predicted_ids = torch.argmax(logits, dim=-1)
-    transcription = processor.decode(predicted_ids[0])
-    return transcription
 # Crear interfaz de Gradio
-iface = gr.Interface(fn=asr, inputs=gr.inputs.Audio(source="microphone", type="file"), outputs="text")
-iface.launch()

 import gradio as gr
+from transformers import pipeline
 import torch
+# Cargar el modelo que convierte imagen a texto
+image_to_text_model = pipeline("image-classification")
+# Cargar el modelo que genera audio a partir de texto
+text_to_audio_model = pipeline("text-to-speech")
+# Función para la interfaz de Gradio
+def image_to_audio(input_image):
+    # Convertir la imagen a texto
+    text_output = image_to_text_model(input_image)[0]['label']
+    # Generar audio a partir del texto
+    audio_output = text_to_audio_model(text_output)[0]['audio']
+    return audio_output
+# Interfaz Gradio
+iface = gr.Interface(
+    fn=image_to_audio,
+    inputs=gr.Image(),
+    outputs="audio",
+    live=True,
+    interpretation="default",
+    capture_session=True
+)
+# Ejecutar la interfaz
+iface.launch()
 # Crear interfaz de Gradio
+#iface = gr.Interface(fn=asr, inputs=gr.inputs.Audio(source="microphone", type="file"), outputs="text")
+#iface.launch()