Spaces:

Pragmaticl
/

TTSDatasets

Running

App Files Files Community

Pragmaticl commited on Jan 14

Commit

63396da

verified ·

1 Parent(s): 930eb08

Update app.py

Browse files

Files changed (1) hide show

app.py +109 -12

app.py CHANGED Viewed

@@ -172,7 +172,11 @@ def process_audio_background(task_id: str, input_file: str, original_filename: s
     """Xử lý audio trong background"""
     try:
         update_task_status(task_id, TaskStatus.PROCESSING, {
-            'progress': 'Đang giải nén và phát hiện file audio...'
         })
         task_dir = os.path.join(STORAGE_DIR, task_id)
@@ -191,21 +195,34 @@ def process_audio_background(task_id: str, input_file: str, original_filename: s
         if not audio_files:
             update_task_status(task_id, TaskStatus.ERROR, {
-                'error': 'Không tìm thấy file audio nào trong file tải lên!'
             })
             return
         update_task_status(task_id, TaskStatus.PROCESSING, {
-            'progress': f'Tìm thấy {len(audio_files)} file audio. Đang transcribe...',
-            'total_files': len(audio_files)
         })
         all_records = []
         # Xử lý từng file audio
         for idx, audio_file in enumerate(audio_files):
             update_task_status(task_id, TaskStatus.PROCESSING, {
-                'progress': f'Đang xử lý file {idx+1}/{len(audio_files)}: {Path(audio_file).name}'
             })
             base_name = Path(audio_file).stem
@@ -213,6 +230,17 @@ def process_audio_background(task_id: str, input_file: str, original_filename: s
             # Transcribe
             segments = transcribe_with_timestamps(audio_file)
             # Gộp các segment ngắn
             merged_segments = merge_short_segments(segments, min_duration=2.0)
@@ -227,12 +255,25 @@ def process_audio_background(task_id: str, input_file: str, original_filename: s
             all_records.extend(records)
         update_task_status(task_id, TaskStatus.PROCESSING, {
-            'progress': f'Đã tạo {len(all_records)} segments. Đang lưu vào Parquet...'
         })
         # Lưu vào parquet
         parquet_files = save_to_parquet(all_records, final_output_dir)
         # Copy audio folder vào output
         final_audio_dir = os.path.join(final_output_dir, 'audio')
         shutil.copytree(audio_output_dir, final_audio_dir)
@@ -256,17 +297,22 @@ def process_audio_background(task_id: str, input_file: str, original_filename: s
         update_task_status(task_id, TaskStatus.SUCCESS, {
             'progress': 'Hoàn thành!',
             'input_files': len(audio_files),
             'total_segments': len(all_records),
             'parquet_files': len(parquet_files),
             'output_zip': zip_path,
-            'zip_size_mb': round(zip_size_mb, 2)
         })
     except Exception as e:
         error_msg = f"{str(e)}\n\n{traceback.format_exc()}"
         update_task_status(task_id, TaskStatus.ERROR, {
-            'error': error_msg
         })
 def submit_task(input_file):
@@ -333,6 +379,10 @@ def get_task_info(task_id):
         task = TASKS[task_id]
     info = f"""
 ## 📋 Thông tin Task: {task_id}
@@ -343,30 +393,77 @@ def get_task_info(task_id):
 ---
-### 📊 Chi tiết
-**Tiến trình:** {task.get('progress', 'N/A')}
 """
     if task['status'] == TaskStatus.SUCCESS:
         info += f"""
 **Số file audio đầu vào:** {task.get('input_files', 'N/A')}
-**Tổng số segments:** {task.get('total_segments', 'N/A')}
 **Số file Parquet:** {task.get('parquet_files', 'N/A')}
 **Kích thước ZIP:** {task.get('zip_size_mb', 'N/A')} MB
 """
         zip_path = task.get('output_zip')
         if zip_path and os.path.exists(zip_path):
             return info, zip_path
     elif task['status'] == TaskStatus.ERROR:
         info += f"""
-**Lỗi:**
 ```
 {task.get('error', 'Unknown error')}
 ```
 """
     return info, None
 def refresh_task_list():

     """Xử lý audio trong background"""
     try:
         update_task_status(task_id, TaskStatus.PROCESSING, {
+            'progress': 'Đang giải nén và phát hiện file audio...',
+            'step': 1,
+            'total_steps': 5,
+            'step_name': 'Giải nén file',
+            'percent': 0
         })
         task_dir = os.path.join(STORAGE_DIR, task_id)
         if not audio_files:
             update_task_status(task_id, TaskStatus.ERROR, {
+                'error': 'Không tìm thấy file audio nào trong file tải lên!',
+                'percent': 0
             })
             return
         update_task_status(task_id, TaskStatus.PROCESSING, {
+            'progress': f'Tìm thấy {len(audio_files)} file audio. Chuẩn bị transcribe...',
+            'step': 2,
+            'total_steps': 5,
+            'step_name': 'Phát hiện file audio',
+            'total_files': len(audio_files),
+            'percent': 20
         })
         all_records = []
         # Xử lý từng file audio
         for idx, audio_file in enumerate(audio_files):
+            file_percent = 20 + int((idx / len(audio_files)) * 50)
             update_task_status(task_id, TaskStatus.PROCESSING, {
+                'progress': f'Đang transcribe file {idx+1}/{len(audio_files)}: {Path(audio_file).name}',
+                'step': 3,
+                'total_steps': 5,
+                'step_name': f'Transcribe audio ({idx+1}/{len(audio_files)})',
+                'current_file': idx + 1,
+                'total_files': len(audio_files),
+                'percent': file_percent
             })
             base_name = Path(audio_file).stem
             # Transcribe
             segments = transcribe_with_timestamps(audio_file)
+            update_task_status(task_id, TaskStatus.PROCESSING, {
+                'progress': f'Đang cắt audio file {idx+1}/{len(audio_files)}: {len(segments)} segments',
+                'step': 3,
+                'total_steps': 5,
+                'step_name': f'Cắt audio ({idx+1}/{len(audio_files)})',
+                'current_file': idx + 1,
+                'total_files': len(audio_files),
+                'segments_found': len(segments),
+                'percent': file_percent + 2
+            })
             # Gộp các segment ngắn
             merged_segments = merge_short_segments(segments, min_duration=2.0)
             all_records.extend(records)
         update_task_status(task_id, TaskStatus.PROCESSING, {
+            'progress': f'Đã tạo {len(all_records)} segments. Đang lưu vào Parquet...',
+            'step': 4,
+            'total_steps': 5,
+            'step_name': 'Lưu Parquet',
+            'total_segments': len(all_records),
+            'percent': 75
         })
         # Lưu vào parquet
         parquet_files = save_to_parquet(all_records, final_output_dir)
+        update_task_status(task_id, TaskStatus.PROCESSING, {
+            'progress': f'Đang tạo file ZIP...',
+            'step': 5,
+            'total_steps': 5,
+            'step_name': 'Tạo file ZIP',
+            'percent': 85
+        })
         # Copy audio folder vào output
         final_audio_dir = os.path.join(final_output_dir, 'audio')
         shutil.copytree(audio_output_dir, final_audio_dir)
         update_task_status(task_id, TaskStatus.SUCCESS, {
             'progress': 'Hoàn thành!',
+            'step': 5,
+            'total_steps': 5,
+            'step_name': 'Hoàn thành',
             'input_files': len(audio_files),
             'total_segments': len(all_records),
             'parquet_files': len(parquet_files),
             'output_zip': zip_path,
+            'zip_size_mb': round(zip_size_mb, 2),
+            'percent': 100
         })
     except Exception as e:
         error_msg = f"{str(e)}\n\n{traceback.format_exc()}"
         update_task_status(task_id, TaskStatus.ERROR, {
+            'error': error_msg,
+            'percent': 0
         })
 def submit_task(input_file):
         task = TASKS[task_id]
+    # Progress bar
+    percent = task.get('percent', 0)
+    progress_bar = "🟦" * (percent // 5) + "⬜" * (20 - percent // 5)
     info = f"""
 ## 📋 Thông tin Task: {task_id}
 ---
+### 📊 Tiến độ tổng thể
+{progress_bar} **{percent}%**
+"""
+    # Hiển thị steps
+    if 'step' in task and 'total_steps' in task:
+        step = task.get('step', 0)
+        total_steps = task.get('total_steps', 5)
+        step_name = task.get('step_name', 'N/A')
+        info += f"""
+**Bước hiện tại:** {step}/{total_steps} - {step_name}
+"""
+    # Hiển thị tiến trình con
+    if task['status'] == TaskStatus.PROCESSING:
+        info += "### 🔄 Chi tiết tiến trình\n\n"
+        if 'current_file' in task and 'total_files' in task:
+            current = task.get('current_file', 0)
+            total = task.get('total_files', 0)
+            file_progress = int((current / total) * 100) if total > 0 else 0
+            file_bar = "🟩" * (file_progress // 5) + "⬜" * (20 - file_progress // 5)
+            info += f"""
+**Xử lý file:** {current}/{total}
+{file_bar} {file_progress}%
 """
+        if 'segments_found' in task:
+            info += f"**Segments phát hiện:** {task['segments_found']}\n"
+        info += f"\n**Trạng thái:** {task.get('progress', 'Đang xử lý...')}\n"
     if task['status'] == TaskStatus.SUCCESS:
+        info += """
+---
+### ✅ Kết quả
+"""
         info += f"""
 **Số file audio đầu vào:** {task.get('input_files', 'N/A')}
+**Tổng số segments đã tạo:** {task.get('total_segments', 'N/A')}
 **Số file Parquet:** {task.get('parquet_files', 'N/A')}
 **Kích thước ZIP:** {task.get('zip_size_mb', 'N/A')} MB
+💾 **File ZIP sẵn sàng tải về bên dưới!**
 """
         zip_path = task.get('output_zip')
         if zip_path and os.path.exists(zip_path):
             return info, zip_path
     elif task['status'] == TaskStatus.ERROR:
+        info += """
+---
+### ❌ Lỗi
+"""
         info += f"""
 ```
 {task.get('error', 'Unknown error')}
 ```
 """
+    elif task['status'] == TaskStatus.WAITING:
+        info += "\n⏳ Task đang trong hàng đợi...\n"
     return info, None
 def refresh_task_list():