Spaces:

B1J1M1
/

IA

Sleeping

App Files Files Community

mrnoisette commited on Sep 16, 2024

Commit

bfd317a

verified ·

1 Parent(s): fdb437e

Update app.py

Browse files

Files changed (1) hide show

app.py +4 -73

app.py CHANGED Viewed

@@ -1,74 +1,5 @@
-import gradio as gr
-from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
-from diffusers import StableDiffusionPipeline
-import torch
-import librosa
-import matplotlib.pyplot as plt
-import os
-# Initialiser les modèles Speech-to-Text et Text-to-Image
-# 1. Modèle Speech-to-Text (Wav2Vec2)
-model_name_stt = "facebook/wav2vec2-large-960h"
-processor = Wav2Vec2Processor.from_pretrained(model_name_stt)
-model_stt = Wav2Vec2ForCTC.from_pretrained(model_name_stt)
-# 2. Modèle Text-to-Image (Stable Diffusion)
-model_name_t2i = "CompVis/stable-diffusion-v1-4"
-pipe = StableDiffusionPipeline.from_pretrained(model_name_t2i)
-pipe.to("cuda")  # Si tu as une GPU, sinon utilise "cpu"
-# Fonction Speech-to-Text (STT)
-def speech_to_text(audio_file):
-    # Charger l'audio et le convertir au format compatible
-    audio_input, _ = librosa.load(audio_file, sr=16000)
-    input_values = processor(audio_input, return_tensors="pt", sampling_rate=16000).input_values
-    logits = model_stt(input_values).logits
-    predicted_ids = torch.argmax(logits, dim=-1)
-    transcription = processor.decode(predicted_ids[0])
-    return transcription
-# Fonction Text-to-Image (T2I)
-def text_to_image(prompt):
-    image = pipe(prompt).images[0]
-    return image
-# Fonction pour générer une diapositive à partir d'un fichier audio
-def generate_slide(audio_file):
-    # Convertir l'audio en texte (STT)
-    transcription = speech_to_text(audio_file)
-    # Utiliser le texte pour générer une image (T2I)
-    image = text_to_image(transcription)
-    # Sauvegarder l'image en tant que diapositive
-    slide_path = "slide.png"
-    image.save(slide_path)
-    # Retourner la transcription et la diapo générée
-    return transcription, slide_path
-# Interface utilisateur avec Gradio
-def create_gradio_interface():
-    with gr.Blocks() as demo:
-        gr.Markdown("## Générateur de Diapositives - Speech to Text et Text to Image")
-        # Input: audio
-        audio_input = gr.Audio(label="Télécharger un fichier audio", source="upload", type="filepath")
-        # Output: transcription et image générée
-        transcription_output = gr.Textbox(label="Texte Transcrit")
-        image_output = gr.Image(label="Image Générée")
-        # Bouton pour lancer la génération
-        submit_btn = gr.Button("Générer la Diapositive")
-        # Fonction associée au bouton
-        submit_btn.click(fn=generate_slide, inputs=audio_input, outputs=[transcription_output, image_output])
-    return demo
-# Lancer l'interface
-if __name__ == "__main__":
-    demo = create_gradio_interface()
-    demo.launch()

+# Load model directly
+from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
+processor = AutoProcessor.from_pretrained("openai/whisper-large-v3")
+model = AutoModelForSpeechSeq2Seq.from_pretrained("openai/whisper-large-v3")