Spaces:

Woziii
/

datasetTTS

Sleeping

App Files Files Community

Woziii commited on Jan 29, 2025

Commit

7ef7a21

verified ·

1 Parent(s): 7a0082f

Update app.py

Browse files

Files changed (1) hide show

app.py +33 -8

app.py CHANGED Viewed

@@ -8,22 +8,37 @@ from pydub import AudioSegment
 from transformers import pipeline
 # Configuration
-MODEL_NAME = "openai/whisper-large-v3"
 device = "cuda" if torch.cuda.is_available() else "cpu"
 pipe = pipeline(
     task="automatic-speech-recognition",
     model=MODEL_NAME,
     device=device,
     model_kwargs={
         "low_cpu_mem_usage": True,
-        "attn_implementation": "eager",  # Pour éviter l'avertissement d'attention
     },
     generate_kwargs={
-        "language": "french",  # Forcer la détection en français
-        "task": "transcribe",  # Tâche de transcription (pas de traduction)
-        "return_timestamps": True,  # Activer la génération des timestamps
-        "use_cache": False  # Éviter les problèmes de cache
     }
 )
@@ -37,8 +52,18 @@ def transcribe_audio(audio_path):
     if not audio_path:
         return "Aucun fichier audio fourni", [], None
-    # Utilisation explicite des timestamps au niveau des mots
-    result = pipe(audio_path, return_timestamps="word")
     # Extraction du texte complet
     text = result["text"]

 from transformers import pipeline
 # Configuration
+MODEL_NAME = "openai/whisper-medium"  # Modèle plus léger
 device = "cuda" if torch.cuda.is_available() else "cpu"
+# Configuration de la mémoire CUDA
+if device == "cuda":
+    import os
+    os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True"
+    # Libération de la mémoire CUDA
+    import gc
+    import torch
+    gc.collect()
+    torch.cuda.empty_cache()
 pipe = pipeline(
     task="automatic-speech-recognition",
     model=MODEL_NAME,
     device=device,
     model_kwargs={
         "low_cpu_mem_usage": True,
+        "attn_implementation": "eager",
+        "use_flash_attention_2": True,  # Optimisation de la mémoire
     },
     generate_kwargs={
+        "language": "french",
+        "task": "transcribe",
+        "return_timestamps": True,
+        "use_cache": True,
+        "max_new_tokens": 448,  # Limite la taille de la sortie
+        "chunk_length_s": 30,  # Traitement par chunks de 30 secondes
+        "batch_size": 1,  # Réduit l'utilisation de la mémoire
     }
 )
     if not audio_path:
         return "Aucun fichier audio fourni", [], None
+    try:
+        # Libération de la mémoire avant la transcription
+        if device == "cuda":
+            torch.cuda.empty_cache()
+        # Utilisation explicite des timestamps au niveau des mots
+        result = pipe(
+            audio_path,
+            return_timestamps="word",
+            chunk_length_s=30,  # Traitement par chunks
+            stride_length_s=5   # Chevauchement pour une meilleure continuité
+        )
     # Extraction du texte complet
     text = result["text"]