Spaces:

Woziii
/

datasetTTS

Sleeping

App Files Files Community

Woziii commited on Jan 30, 2025

Commit

72cecc5

verified ·

1 Parent(s): 6b565a1

Update app.py

Browse files

Files changed (1) hide show

app.py +38 -21

app.py CHANGED Viewed

@@ -1,3 +1,9 @@
 import os
 import shutil
 import zipfile
@@ -60,7 +66,6 @@ def transcribe_audio(audio_path):
 def preprocess_segments(table_data, word_timestamps):
     print("[LOG] Début du prétraitement des segments...")
     formatted_data = []
     for i, row in enumerate(table_data):
         if not row or len(row) < 1 or not row[0].strip():
             print(f"[LOG WARNING] Ignoré : ligne vide à l'index {i}.")
@@ -68,12 +73,14 @@ def preprocess_segments(table_data, word_timestamps):
         text = row[0].strip()
         segment_id = f"seg_{i+1:02d}"
-        start_time = next((start for word, start in word_timestamps if word in text.split()), None)
-        end_time = next((start for word, start in word_timestamps if word in text.split()), None)
-        if start_time is not None and end_time is not None:
-            end_time += 0.5  # Ajout d'un délai de sécurité pour ne pas couper trop court
         formatted_data.append([text, start_time, end_time, segment_id])
         print(f"[LOG] Segment ajouté : {text} | Début: {start_time}, Fin: {end_time}, ID: {segment_id}")
@@ -83,26 +90,24 @@ def preprocess_segments(table_data, word_timestamps):
 # -------------------------------------------------
 # 4. Validation et découpage des extraits audio
 # -------------------------------------------------
-def validate_segments(audio_path, table_data, metadata_state):
     print("[LOG] Début de la validation des segments...")
-    if not audio_path:
-        print("[LOG ERROR] Erreur : Aucun fichier audio fourni !")
         return [], metadata_state
     if os.path.exists(TEMP_DIR):
         shutil.rmtree(TEMP_DIR)
     os.makedirs(TEMP_DIR, exist_ok=True)
     original_audio = AudioSegment.from_file(audio_path)
     segment_paths = []
     updated_metadata = []
     for row in table_data:
         if len(row) < 4:
-            print("[LOG ERROR] Données invalides pour un segment.")
             continue
         text, start_time, end_time, segment_id = row
         if start_time is None or end_time is None:
@@ -113,7 +118,7 @@ def validate_segments(audio_path, table_data, metadata_state):
         if start_ms < 0 or end_ms <= start_ms:
             print(f"[LOG ERROR] Problème de découpage : {text} | {start_time}s - {end_time}s")
             continue
         segment_filename = f"{Path(audio_path).stem}_{segment_id}.wav"
         segment_path = os.path.join(TEMP_DIR, segment_filename)
@@ -131,7 +136,6 @@ def validate_segments(audio_path, table_data, metadata_state):
         print(f"[LOG] Extrait généré : {segment_filename}")
     return segment_paths, updated_metadata
 # -------------------------------------------------
 # 5. Génération du fichier ZIP
 # -------------------------------------------------
@@ -141,7 +145,17 @@ def generate_zip(metadata_state):
         return None
     zip_path = os.path.join(TEMP_DIR, "dataset.zip")
     with zipfile.ZipFile(zip_path, "w", zipfile.ZIP_DEFLATED) as zf:
         for seg in metadata_state:
             file_path = os.path.join(TEMP_DIR, seg["audio_file"])
             if os.path.exists(file_path):
@@ -149,24 +163,27 @@ def generate_zip(metadata_state):
     print("[LOG] Fichier ZIP généré avec succès.")
     return zip_path
 # -------------------------------------------------
 # 6. Interface utilisateur Gradio
 # -------------------------------------------------
 with gr.Blocks() as demo:
     gr.Markdown("# Application de Découpe Audio")
     metadata_state = gr.State(init_metadata_state())
     audio_input = gr.Audio(type="filepath", label="Fichier audio")
     raw_transcription = gr.Textbox(label="Transcription", interactive=False)
     transcription_timestamps = gr.Textbox(label="Transcription avec Timestamps", interactive=False)
     table = gr.Dataframe(headers=["Texte"], datatype=["str"], row_count=(1, "dynamic"), col_count=1)
     validate_button = gr.Button("Valider")
     generate_button = gr.Button("Générer ZIP")
     zip_file = gr.File(label="Télécharger le ZIP")
-    audio_input.change(transcribe_audio, inputs=audio_input, outputs=[raw_transcription, table, audio_input, transcription_timestamps])
-    validate_button.click(validate_segments, inputs=[audio_input, table, metadata_state], outputs=[table, metadata_state])
     generate_button.click(generate_zip, inputs=metadata_state, outputs=zip_file)
-demo.queue().launch()

+# Version: Corrected After Test 4 (V2.4.1 - Fixed Validation & Timestamps Button Restored)
+# Description: Cette version corrige la validation des segments modifiés manuellement.
+# Réintégration du bouton "Générer les timestamps".
+# Correction du bug "too many values to unpack".
+# La génération du fichier ZIP fonctionne correctement après validation.
 import os
 import shutil
 import zipfile
 def preprocess_segments(table_data, word_timestamps):
     print("[LOG] Début du prétraitement des segments...")
     formatted_data = []
     for i, row in enumerate(table_data):
         if not row or len(row) < 1 or not row[0].strip():
             print(f"[LOG WARNING] Ignoré : ligne vide à l'index {i}.")
         text = row[0].strip()
         segment_id = f"seg_{i+1:02d}"
+        start_time = None
+        end_time = None
+        for j, (word, start) in enumerate(word_timestamps):
+            if word in text.split():
+                if start_time is None:
+                    start_time = start
+                end_time = word_timestamps[j+1][1] - 0.01 if j+1 < len(word_timestamps) else start + 0.5
         formatted_data.append([text, start_time, end_time, segment_id])
         print(f"[LOG] Segment ajouté : {text} | Début: {start_time}, Fin: {end_time}, ID: {segment_id}")
 # -------------------------------------------------
 # 4. Validation et découpage des extraits audio
 # -------------------------------------------------
+def validate_segments(audio_path, table_data, metadata_state, word_timestamps):
     print("[LOG] Début de la validation des segments...")
+    if not audio_path or not word_timestamps:
+        print("[LOG ERROR] Erreur : Aucun timestamp valide trouvé !")
         return [], metadata_state
     if os.path.exists(TEMP_DIR):
         shutil.rmtree(TEMP_DIR)
     os.makedirs(TEMP_DIR, exist_ok=True)
     original_audio = AudioSegment.from_file(audio_path)
     segment_paths = []
     updated_metadata = []
     for row in table_data:
         if len(row) < 4:
+            print(f"[LOG ERROR] Données incorrectes pour la validation : {row}")
             continue
         text, start_time, end_time, segment_id = row
         if start_time is None or end_time is None:
         if start_ms < 0 or end_ms <= start_ms:
             print(f"[LOG ERROR] Problème de découpage : {text} | {start_time}s - {end_time}s")
             continue
         segment_filename = f"{Path(audio_path).stem}_{segment_id}.wav"
         segment_path = os.path.join(TEMP_DIR, segment_filename)
         print(f"[LOG] Extrait généré : {segment_filename}")
     return segment_paths, updated_metadata
 # -------------------------------------------------
 # 5. Génération du fichier ZIP
 # -------------------------------------------------
         return None
     zip_path = os.path.join(TEMP_DIR, "dataset.zip")
+    if os.path.exists(zip_path):
+        os.remove(zip_path)
+    metadata_csv_path = os.path.join(TEMP_DIR, "metadata.csv")
+    with open(metadata_csv_path, "w", encoding="utf-8") as f:
+        f.write("audio_file|text|speaker_name|API\n")
+        for seg in metadata_state:
+            f.write(f"{seg['audio_file']}|{seg['text']}|projectname|/API_PHONETIC/\n")
     with zipfile.ZipFile(zip_path, "w", zipfile.ZIP_DEFLATED) as zf:
+        zf.write(metadata_csv_path, "metadata.csv")
         for seg in metadata_state:
             file_path = os.path.join(TEMP_DIR, seg["audio_file"])
             if os.path.exists(file_path):
     print("[LOG] Fichier ZIP généré avec succès.")
     return zip_path
 # -------------------------------------------------
 # 6. Interface utilisateur Gradio
 # -------------------------------------------------
 with gr.Blocks() as demo:
     gr.Markdown("# Application de Découpe Audio")
     metadata_state = gr.State(init_metadata_state())
+    extracted_segments = gr.State([])
     audio_input = gr.Audio(type="filepath", label="Fichier audio")
     raw_transcription = gr.Textbox(label="Transcription", interactive=False)
     transcription_timestamps = gr.Textbox(label="Transcription avec Timestamps", interactive=False)
     table = gr.Dataframe(headers=["Texte"], datatype=["str"], row_count=(1, "dynamic"), col_count=1)
+    generate_timestamps_button = gr.Button("Générer les timestamps")
     validate_button = gr.Button("Valider")
     generate_button = gr.Button("Générer ZIP")
     zip_file = gr.File(label="Télécharger le ZIP")
+    word_timestamps = gr.State()
+    audio_input.change(transcribe_audio, inputs=audio_input, outputs=[raw_transcription, table, audio_input, word_timestamps, transcription_timestamps])
+    generate_timestamps_button.click(preprocess_segments, inputs=[table, word_timestamps], outputs=table)
+    validate_button.click(validate_segments, inputs=[audio_input, table, metadata_state, word_timestamps], outputs=[extracted_segments, metadata_state])
     generate_button.click(generate_zip, inputs=metadata_state, outputs=zip_file)
+demo.queue().launch()