Spaces:

VeuReu
/

asr

Sleeping

App Files Files Community

VeuReu commited on Nov 19, 2025

Commit

18e066a

verified ·

1 Parent(s): 5782742

Update app.py

Browse files

Files changed (1) hide show

app.py +227 -46

app.py CHANGED Viewed

@@ -425,88 +425,269 @@ def extract_audio_ffmpeg(video_file, sr: int = 16000, mono: bool = True):
     return convertir_a_temporal(audio_out+".mp3")
-# =================
-# UI de demostración
-# =================
-with gr.Blocks(title="Aina faster-whisper (Català) · ZeroGPU") as demo:
-    gr.Markdown("## Aina faster-whisper (Català) · ZeroGPU\nReconocimiento de voz en catalán finetune projecte-aina.")
     with gr.Row():
         with gr.Column():
-            inp = gr.Audio(sources=["upload", "microphone"], type="filepath", label="Audio (WAV/MP3/MP4, etc.)")
-            lang = gr.Textbox(label="language", value="ca")
-            ts = gr.Checkbox(label="timestamps", value=True)
-            vad = gr.Checkbox(label="VAD filter", value=True)
-            btn = gr.Button("Transcribir (ENGINE /predict)", variant="primary")
         with gr.Column():
-            out = gr.JSON(label="Salida /predict")
     btn.click(predict_for_engine, [inp, lang, ts, vad], out, api_name="predict", concurrency_limit=1)
-    # Sección avanzada
-    gr.Markdown("---\n### Avanzado (/transcribe)")
     with gr.Row():
         with gr.Column():
-            inp2 = gr.Audio(sources=["upload", "microphone"], type="filepath", label="Audio")
-            lang2 = gr.Textbox(label="language", value="ca")
-            task2 = gr.Dropdown(["transcribe", "translate"], value="transcribe", label="task")
-            vad2 = gr.Checkbox(label="VAD filter", value=True)
-            beam2 = gr.Slider(1, 10, value=5, step=1, label="beam_size")
-            temp2 = gr.Slider(0.0, 1.5, value=0.0, step=0.1, label="temperature")
-            wts2 = gr.Checkbox(label="word_timestamps", value=False)
-            btn2 = gr.Button("Transcribir (avanzado)")
         with gr.Column():
-            out2 = gr.JSON(label="Salida /transcribe")
-    btn2.click(transcribe_advanced, [inp2, lang2, task2, vad2, beam2, temp2, wts2], out2, api_name="transcribe", concurrency_limit=1)
-    # Diarización
-    gr.Markdown('<h2 style="text-align:center">Diarització del vídeo</h2>')
     with gr.Row():
         audio_input = gr.Audio(label="Àudio per diaritzar", type="filepath")
         process_btn = gr.Button("Diaritzar àudio", variant="primary")
-        clips_output = gr.File(label="Clips d'àudio generats", file_types=[".wav"], file_count="multiple")
         diarization_output = gr.JSON(label="Resultat de la diarització")
-    process_btn.click(diarize_audio, inputs=[audio_input], outputs=[clips_output,diarization_output], api_name="diaritzar_audio", concurrency_limit=1)
-    # Embeddings de veu
     gr.Markdown('<h2 style="text-align:center">Obtenir l\'embedding d\'un àudio</h2>')
     with gr.Row():
-        audio_input = gr.Audio(label="Àudio per obtenir l'embedding", type="filepath")
         process_btn = gr.Button("Obtenir embedding", variant="primary")
         clip_out = gr.JSON(label="Embedding de veu (vector)")
-    process_btn.click(voice_embedder, [audio_input], clip_out, api_name="voice_embedding", concurrency_limit=1)
-    gr.Markdown("---")
-    # Identificació de parlants
     gr.Markdown('<h2 style="text-align:center">Identificació de parlants</h2>')
     with gr.Row():
-        audio_input = gr.Audio(label="Àudio per obtenir l'parlant", type="filepath")
         voice_col_input = gr.Textbox(
-            label="Llistat de diccionaris voice_col (format JSON)",
-            placeholder='[{"nombre": "Anna", "embedding": [0.12, 0.88, ...]}, ...]',
             lines=5
         )
         process_btn = gr.Button("Processar àudio (Persones)", variant="primary")
         output_json = gr.JSON(label="Resultat complet")
-    process_btn.click(identify_speaker, inputs=[audio_input, voice_col_input], outputs=output_json, api_name="identificar_veu", concurrency_limit=1)
     with gr.Row():
-        gr.Markdown("## Extract Audio from Video using FFmpeg")
-        # Input component: user uploads a video file
-        video_input = gr.Video(label="Upload a video")
-        # Output component: returns a WAV file path
-        audio_output = gr.Audio(label="Extracted audio (WAV)", type="filepath")
-        # Button to trigger extraction
-        extract_btn = gr.Button("Extract audio")
-    # Link button click to processing function
     extract_btn.click(
         fn=extract_audio_ffmpeg,
         inputs=video_input,
         outputs=audio_output
     )
 demo.queue(max_size=8).launch()

     return convertir_a_temporal(audio_out+".mp3")
+import torch
+import torchaudio
+from dataclasses import dataclass
+from transformers import WhisperProcessor, WhisperForConditionalGeneration
+import logging
+def load_audio(path, target_sr=16000):
+    waveform, sr = torchaudio.load(path)
+    if sr != target_sr:
+        waveform = torchaudio.transforms.Resample(orig_freq=sr, new_freq=target_sr)(waveform)
+    return waveform.squeeze().numpy()
+def transcribe_wav(wav_path: str) -> str:
+    model_name = "projecte-aina/whisper-large-v3-ca-3catparla"
+    device = "cuda"
+    dev = device
+    if dev == "cuda" and not torch.cuda.is_available():
+        dev = "cpu"
+    processor = WhisperProcessor.from_pretrained(model_name)
+    model = WhisperForConditionalGeneration.from_pretrained(model_name).to(dev)
+    device = dev
+    # Carga el archivo WAV
+    waveform, sr = torchaudio.load(wav_path)
+    target_sr = 16000
+    if sr != target_sr:
+        waveform = torchaudio.transforms.Resample(orig_freq=sr, new_freq=target_sr)(waveform)
+        sr = target_sr
+    # Preprocesamos el audio
+    inputs = processor(
+        waveform.numpy(), sampling_rate=sr, return_tensors="pt"
+    ).input_features.to(model.device)
+    # Genera la transcripción con el modelo
+    with torch.no_grad():
+        ids = model.generate(inputs, max_new_tokens=440)[0]
+    # Decodifica la transcripción
+    txt = processor.decode(ids)
+    # Normaliza el texto si es necesario
+    norm = getattr(processor.tokenizer, "_normalize", None)
+    return norm(txt) if callable(norm) else txt
+def transcribe_long_audio(
+        wav_path: str,
+        chunk_length_s: int = 20,
+        overlap_s: int = 2,
+) -> str:
+    model_name = "projecte-aina/whisper-large-v3-ca-3catparla"
+    device = "cuda"
+    dev = device
+    if dev == "cuda" and not torch.cuda.is_available():
+        dev = "cpu"
+    processor = WhisperProcessor.from_pretrained(model_name)
+    model = WhisperForConditionalGeneration.from_pretrained(model_name).to(dev)
+    device = dev
+    # Carga el archivo WAV completo
+    waveform, sr = torchaudio.load(wav_path)
+    target_sr = 16000
+    if sr != target_sr:
+        waveform = torchaudio.transforms.Resample(orig_freq=sr, new_freq=target_sr)(waveform)
+        sr = target_sr
+    total_samples = waveform.shape[1]
+    # Calculamos el tamaño de los chunks y el solapamiento en muestras
+    chunk_size = chunk_length_s * sr
+    overlap_size = overlap_s * sr
+    transcriptions = []
+    start = 0
+    while start < total_samples:
+        end = min(start + chunk_size, total_samples)
+        chunk = waveform[:, start:end] # Se transcribe como en fragmentos pequeños
+        input_features = processor(
+            chunk.numpy(),
+            sampling_rate=sr,
+            return_tensors="pt"
+        ).input_features.to(model.device)
+        with torch.no_grad():
+            predicted_ids = model.generate(
+                input_features,
+                max_new_tokens=440,
+                num_beams=1,
+            )[0]
+        text = processor.decode(predicted_ids, skip_special_tokens=True)
+        transcriptions.append(text.strip())
+        # avanzar con solapamiento
+        start += chunk_size - overlap_size
+    return " ".join(transcriptions).strip()
+"""
+# ==============================================================================
+# UI & Endpoints
+# ==============================================================================
+Collection of Gradio interface elements and API endpoints used by the application.
+This section defines the user-facing interface for Salamandra Vision 7B,
+allowing users to interact with the model through images, text prompts,
+video uploads, and batch operations.
+The components and endpoints in this module typically:
+- Accept images, text, or video files from the user
+- Apply optional parameters such as temperature, token limits, or crop ratios
+- Preprocess inputs and invoke internal inference or utility functions
+- Return structured outputs, including text descriptions, JSON metadata,
+  or image galleries
+All endpoints are designed to be stateless, safe for concurrent calls,
+and compatible with both interactive UI usage and programmatic API access.
+# ==============================================================================
+"""
+custom_css = """
+h2 {
+    background: #e3e4e6 !important;
+    padding: 14px 22px !important;
+    border-radius: 14px !important;
+    box-shadow: 0 4px 12px rgba(0,0,0,0.08) !important;
+    display: block !important;       /* ocupa tot l'ample */
+    width: 100% !important;          /* assegura 100% */
+    margin: 20px auto !important;
+    text-align:center;
+}
+"""
+with gr.Blocks(title="Aina faster-whisper (Català) · ZeroGPU", css=custom_css,theme=gr.themes.Soft()) as demo:
+    # Header
+    gr.Markdown("## Aina faster-whisper (Català) · ZeroGPU\nReconeixement de veu en català finetune projecte-aina.")
+    # Main transcription section
     with gr.Row():
         with gr.Column():
+            inp = gr.Audio(sources=["upload", "microphone"], type="filepath", label="Àudio (WAV/MP3/MP4, etc.)")
+            lang = gr.Textbox(label="Idioma", value="ca")
+            ts = gr.Checkbox(label="Marques de temps", value=True)
+            vad = gr.Checkbox(label="Filtre VAD", value=True)
+            btn = gr.Button("Transcriure (ENGINE /predict)", variant="primary")
         with gr.Column():
+            out = gr.JSON(label="Sortida /predict")
+    # Button callback
     btn.click(predict_for_engine, [inp, lang, ts, vad], out, api_name="predict", concurrency_limit=1)
+    # Advanced transcription section
+    gr.Markdown("---\n### Avançat (/transcribe)")
     with gr.Row():
         with gr.Column():
+            inp2 = gr.Audio(sources=["upload", "microphone"], type="filepath", label="Àudio")
+            lang2 = gr.Textbox(label="Idioma", value="ca")
+            task2 = gr.Dropdown(["transcribe", "translate"], value="transcribe", label="Tasques")
+            vad2 = gr.Checkbox(label="Filtre VAD", value=True)
+            beam2 = gr.Slider(1, 10, value=5, step=1, label="Mida del feix")
+            temp2 = gr.Slider(0.0, 1.5, value=0.0, step=0.1, label="Temperatura")
+            wts2 = gr.Checkbox(label="Marques de temps per paraula", value=False)
+            btn2 = gr.Button("Transcriure (avançat)")
         with gr.Column():
+            out2 = gr.JSON(label="Sortida /transcribe")
+    # Button callback advanced
+    btn2.click(
+        transcribe_advanced,
+        [inp2, lang2, task2, vad2, beam2, temp2, wts2],
+        out2,
+        api_name="transcribe",
+        concurrency_limit=1
+    )
+    # Diarization section
+    gr.Markdown('<h2 style="text-align:center">Diarització de l\'àudio</h2>')
     with gr.Row():
         audio_input = gr.Audio(label="Àudio per diaritzar", type="filepath")
         process_btn = gr.Button("Diaritzar àudio", variant="primary")
+        clips_output = gr.File(label="Clips d\'àudio generats", file_types=[".wav"], file_count="multiple")
         diarization_output = gr.JSON(label="Resultat de la diarització")
+    process_btn.click(
+        diarize_audio,
+        inputs=[audio_input],
+        outputs=[clips_output, diarization_output],
+        api_name="diaritzar_audio",
+        concurrency_limit=1
+    )
+    # Voice embeddings section
     gr.Markdown('<h2 style="text-align:center">Obtenir l\'embedding d\'un àudio</h2>')
     with gr.Row():
+        audio_input = gr.Audio(label="Àudio per obtenir l\'embedding", type="filepath")
         process_btn = gr.Button("Obtenir embedding", variant="primary")
         clip_out = gr.JSON(label="Embedding de veu (vector)")
+    process_btn.click(
+        voice_embedder,
+        [audio_input],
+        clip_out,
+        api_name="voice_embedding",
+        concurrency_limit=1
+    )
+    gr.Markdown("---")
+    # Speaker identification
     gr.Markdown('<h2 style="text-align:center">Identificació de parlants</h2>')
     with gr.Row():
+        audio_input = gr.Audio(label="Àudio per identificar el parlant", type="filepath")
         voice_col_input = gr.Textbox(
+            label="Llista de diccionaris voice_col (format JSON)",
+            placeholder='[{"nom": "Anna", "embedding": [0.12, 0.88, ...]}, ...]',
             lines=5
         )
         process_btn = gr.Button("Processar àudio (Persones)", variant="primary")
         output_json = gr.JSON(label="Resultat complet")
+    process_btn.click(
+        identify_speaker,
+        inputs=[audio_input, voice_col_input],
+        outputs=output_json,
+        api_name="identificar_veu",
+        concurrency_limit=1
+    )
+    # Extract audio from video
     with gr.Row():
+        gr.Markdown('<h2 style="text-align:center">Extreure àudio d\'un vídeo (FFmpeg)</h2>')
+        video_input = gr.Video(label="Puja un vídeo")
+        audio_output = gr.Audio(label="Àudio extret (WAV)", type="filepath")
+        extract_btn = gr.Button("Extreure àudio", variant="primary")
     extract_btn.click(
         fn=extract_audio_ffmpeg,
         inputs=video_input,
         outputs=audio_output
     )
+    # Short audio transcription
+    gr.Markdown('<h2 style="text-align:center">Àudio curt → text</h2>')
+    with gr.Row():
+        audio_input = gr.Audio(type="filepath", label="Puja el teu àudio")
+        output_text = gr.Textbox(label="Text transcrit")
+        boton = gr.Button("Transcriure", variant="primary")
+    boton.click(
+        fn=transcribe_wav,
+        inputs=audio_input,
+        outputs=output_text
+    )
+    # Long audio transcription
+    gr.Markdown('<h2 style="text-align:center">Àudio llarg → text</h2>')
+    with gr.Row():
+        audio_input = gr.Audio(type="filepath", label="Puja el teu àudio")
+        output_text = gr.Textbox(label="Text transcrit")
+        boton = gr.Button("Transcriure", variant="primary")
+    boton.click(
+        fn=transcribe_long_audio,
+        inputs=audio_input,
+        outputs=output_text
+    )
 demo.queue(max_size=8).launch()