Spaces:

ASesYusuf1
/

SESA_Audio_Separation

Running

App Files Files Community

ASesYusuf1 commited on 29 days ago

Commit

ddadeb4

1 Parent(s): 24d9ef5

SESA: GitHub'dan güncel dosyalar aktarıldı - 2026-03-18 23:04

Browse files

Files changed (35) hide show

assets/config.json +5 -0
assets/custom_models.json +1 -0
assets/i18n/languages/ar_sa.json +196 -131
assets/i18n/languages/de_de.json +186 -120
assets/i18n/languages/en_us.json +100 -1
assets/i18n/languages/es_es.json +199 -100
assets/i18n/languages/fr_fr.json +87 -3
assets/i18n/languages/hi_in.json +225 -167
assets/i18n/languages/it_it.json +222 -123
assets/i18n/languages/ja_jp.json +203 -138
assets/i18n/languages/ru_ru.json +178 -112
assets/i18n/languages/tr_tr.json +192 -114
assets/i18n/languages/zn_cn.json +187 -121
benchmark_pytorch.py +252 -0
config_manager.py +5 -1
download.py +87 -18
ensemble.py +417 -256
gui.py +648 -116
helpers.py +25 -8
inference.py +154 -180
inference_pytorch.py +390 -0
main.py +12 -1
model.py +1126 -32
models/bs_roformer/attend_sage.py +145 -0
models/bs_roformer/bs_roformer_experimental.py +686 -0
models/bs_roformer/mel_band_roformer_experimental.py +733 -0
models/conformer_model.py +188 -0
models/mel_band_conformer.py +424 -0
models/scnet/scnet_masked.py +419 -0
models/scnet/scnet_tran.py +668 -0
phase_fixer.py +139 -0
processing.py +543 -242
pytorch_backend.py +621 -0
requirements.txt +9 -2
utils.py +455 -130

assets/config.json CHANGED Viewed

@@ -2,5 +2,10 @@
   "lang": {
     "override": true,
     "selected_lang": "en_us"
   }
 }

   "lang": {
     "override": true,
     "selected_lang": "en_us"
+  },
+  "sharing": {
+    "method": "gradio",
+    "ngrok_token": "",
+    "port": 8142
   }
 }

assets/custom_models.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {}

assets/i18n/languages/ar_sa.json CHANGED Viewed

@@ -17,11 +17,10 @@
   "overlap": "التداخل",
   "overlap_info": "موصى به: 2-10 (القيم الأعلى تزيد من الجودة ولكن تتطلب المزيد من VRAM)",
   "tta_boost": "تعزيز TTA",
-  "tta_info": "يحسن الجودة ولكنه يبطئ سرعة المعالجة",
   "phase_fix": "تصحيح الطور",
   "phase_fix_info": "تصحيح طور متقدم للمسارات الآلية",
   "instrumental": "آلي",
-  "instrumental_info": "عادةً يعطي مخرجين، لكن هناك أوقات يعطي فيها مخرجًا واحدًا، تحتاج إلى التجربة :)",
   "process": "🚀 معالجة",
   "reset": "🧹 إعادة تعيين",
   "status": "الحالة",
@@ -71,99 +70,210 @@
   "output_preview": "معاينة الإخراج",
   "refresh_output": "🔄 تحديث الإخراج",
   "ensemble_copy_status": "سيتم نسخ مخرجات التجميع هنا...",
-  "guidelines": "<h4>إرشادات اختيار النموذج</h4><ul><li><strong>تجنب الخلط بين الفئات:</strong> قد يؤدي الجمع بين نماذج الأصوات والآلات إلى خلط غير مرغوب فيه</li><li><strong>ملاحظات نموذج خاصة:</strong><ul><li>نماذج الازدواجية (v1/v2) - تخرج كلا الجذعين</li><li>MDX23C Separator - نتائج هجينة</li></ul></li><li><strong>أفضل الممارسات:</strong> استخدم 3-5 نماذج متشابهة من نفس الفئة</li></ul><div>💡 نصيحة احترافية: ابدأ بتركيبة \"VOCALS-MelBand-Roformer BigBeta5e\" + \"VOCALS-BS-Roformer_1297\"</div>",
-  "download_sources_tab": "⬇️ تحميل المصادر",
-  "direct_links": "🌐 روابط مباشرة",
   "audio_file_url": "رابط ملف الصوت",
-  "download_from_url": "⬇️ تحميل من الرابط",
-  "download_status": "حالة التحميل",
   "downloaded_file": "الملف المحمل",
   "cookie_management": "🍪 إدارة الكوكيز",
-  "upload_cookies_txt": "رفع ملف Cookies.txt",
-  "cookie_info": "<div style=\"margin-left:15px; font-size:0.95em\">**📌 لماذا هو ضروري؟**<br>- الوصول إلى المحتوى المقيد بالعمر<br>- تحميل الفيديوهات الخاصة/غير المدرجة<br>- تجاوز القيود الإقليمية<br>- تجنب حدود تحميل يوتيوب<br><br>**⚠️ ملاحظات هامة**<br>- لا تشارك ملفات الكوكيز الخاصة بك أبدًا!<br>- قم بتحديث الكوكيز عندما:<br>  • تظهر أخطاء \"403 ممنوع\"<br>  • تتوقف التنزيلات فجأة<br>  • تظهر رسائل \"انتهت الجلسة\"<br><br>**🔄 خطوات التجديد**<br>1. قم بتثبيت هذا <a href=\"https://chromewebstore.google.com/detail/get-cookiestxt-clean/ahmnmhfbokciafffnknlekllgcnafnie\" target=\"_blank\">امتداد كروم</a><br>2. سجل الدخول إلى يوتيوب في كروم<br>3. انقر على أيقونة الامتداد → \"تصدير\"<br>4. ارفع الملف المحمل هنا<br><br>**⏳ عمر الكوكيز**<br>- الجلسات العادية: 24 ساعة<br>- العمليات الحساسة: ساعة واحدة<br>- تغييرات كلمة المرور: إبطال فوري</div>",
   "manual_ensemble_tab": "🎚️ التجميع اليدوي",
   "input_sources": "📂 مصادر الإدخال",
   "refresh": "🔄 تحديث",
   "ensemble_algorithm": "خوارزمية التجميع",
-  "select_audio_files": "اختر ملفات الصوت",
   "available_files": "الملفات المتاحة",
-  "custom_weights": "أوزان مخصصة (مفصولة بفواصل)",
-  "custom_weights_placeholder": "مثال: 0.8، 1.2، 1.0، ...",
-  "custom_weights_info": "اتركه فارغًا لأوزان متساوية",
   "result_preview_tab": "🎧 معاينة النتيجة",
-  "ensembled_output": "مخرج التجميع",
   "processing_log_tab": "📋 سجل المعالجة",
   "processing_details": "تفاصيل المعالجة",
   "process_ensemble": "⚡ معالجة التجميع",
   "languages_tab": "🌐 اللغات",
   "Vocal Models": "نماذج الأصوات",
-  "Instrumental Models": "نماذج الآلات",
-  "4-Stem Models": "نماذج 4 جذور",
   "Denoise Models": "نماذج إزالة الضوضاء",
   "Dereverb Models": "نماذج إزالة الصدى",
-  "Other Models": "نماذج أخرى",
-  "ensemble_files_description": "يجمع عدة ملفات صوتية في مخرج واحد باستخدام طرق التجميع المحددة.",
   "ensemble_files_help": "مسار جميع ملفات الصوت للتجميع",
-  "ensemble_type_help": "واحد من avg_wave، median_wave، min_wave، max_wave، avg_fft، median_fft، min_fft، max_fft",
-  "ensemble_weights_help": "الأوزان لإنشاء التجميع. يجب أن يتساوى عدد الأوزان مع عدد الملفات",
-  "ensemble_output_help": "مسار ملف WAV حيث سيتم حفظ نتيجة التجميع",
   "ensemble_type_print": "نوع التجميع: {}",
   "num_input_files_print": "عدد ملفات الإدخال: {}",
   "weights_print": "الأوزان: {}",
   "output_file_print": "ملف الإخراج: {}",
   "duration_mismatch_error": "يجب أن تكون جميع الملفات بنفس المدة",
-  "file_not_found_error": "خطأ. لا يمكن العثور على الملف: {}. تحقق من المسارات.",
   "reading_chunk_print": "قراءة قطعة من الملف: {} (البداية: {}ث، المدة: {}ث)",
   "chunk_result_shape_print": "شكل نتيجة القطعة: {}",
   "ensemble_completed_print": "اكتمل التجميع. تم حفظ الإخراج في: {}",
-  "file_deletion_error": "لا يمكن حذف {}: {}",
-  "directory_not_exist_warning": "⚠️ الدليل غير موجود: {}",
-  "not_a_directory_warning": "⚠️ المسار ليس دليلًا: {}",
   "item_deletion_error": "⚠️ خطأ في حذف {}: {}",
   "old_output_not_exist": "❌ مجلد الإخراج القديم غير موجود",
-  "old_outputs_cleared": "✅ تم مسح المخرجات القديمة بنجاح!",
   "error": "🔥 خطأ: {}",
   "ffmpeg_error": "خطأ FFmpeg ({}): {}",
   "file_saved_successfully": "تم حفظ الملف بنجاح: {}",
-  "total_files_found": "إجمالي الملفات الموجودة: {}. باستخدام معدل العينة: {}",
-  "total_progress": "التقدم الإجمالي",
-  "detailed_pbar_enabled": "تم تفعيل شريط التقدم التفصيلي: {}",
-  "loaded_audio": "الصوت المحمل: {}، الشكل: {}",
-  "cannot_read_track": "لا يمكن قراءة المسار: {}",
   "error_message": "رسالة الخطأ: {}",
   "demudding_track": "تنظيف المسار (إعادة مزج الطور - آلي): {}",
   "elapsed_time": "الوقت المنقضي: {:.2f} ثانية.",
-  "proc_folder_description": "يعالج ملفات الصوت في مجلد باستخدام نموذج محدد.",
-  "model_type_help": "نوع النموذج (bandit، bs_roformer، mdx23c، إلخ.)",
   "config_path_help": "مسار ملف التكوين",
-  "demud_phaseremix_help": "تفعيل إعادة مزج الطور للآلي",
-  "start_checkpoint_help": "نقطة التفتيش الأولية للأوزان الصالحة",
-  "input_folder_help": "مجلد يحتوي على الخلطات للمعالجة",
   "audio_path_help": "مسار ملف صوتي واحد للمعالجة",
-  "store_dir_help": "مسار لتخزين النتائج",
   "device_ids_help": "قائمة معرفات GPU",
-  "extract_instrumental_help": "قلب الأصوات للحصول على الآلي إذا تم توفيره",
-  "disable_detailed_pbar_help": "تعطيل شريط التقدم التفصيلي في الفصل",
-  "force_cpu_help": "فرض استخدام CPU حتى لو كان CUDA متاحًا",
   "flac_file_help": "إخراج ملف FLAC بدلاً من WAV",
-  "export_format_help": "صيغة التصدير ونوع PCM",
   "pcm_type_help": "نوع PCM لملفات FLAC",
-  "use_tta_help": "تفعيل التكبير في وقت الاختبار",
   "lora_checkpoint_help": "نقطة التفتيش الأولية لأوزان LoRA",
   "cuda_available": "CUDA متاح، استخدم --force_cpu لتعطيله.",
-  "using_device": "استخدام الجهاز: {}",
-  "instruments_print": "الآلات: {}",
   "model_load_time": "وقت تحميل النموذج: {:.2f} ثانية",
   "invalid_url": "❌ رابط غير صالح",
   "cookie_file_updated": "✅ تم تحديث ملف الكوكيز!",
   "cookie_installation_error": "⚠️ خطأ في تثبيت الكوكيز: {}",
   "file_size_zero_error": "حجم الملف صفر أو لم يتم إنشاء الملف",
-  "google_drive_error": "❌ خطأ في تحميل Google Drive: {}",
   "wav_conversion_failed": "فشل تحويل WAV",
-  "download_error": "❌ خطأ في التحميل: {}",
-  "download_success": "🎉 تم التحميل بنجاح!",
-  "download_failed": "❌ فشل التحميل",
-  "no_output_files_found": "❌ لم يتم العثور على ملفات إخراج.",
   "output_refreshed_successfully": "✅ تم تحديث الإخراج بنجاح!",
   "error_refreshing_output": "❌ خطأ في تحديث الإخراج: {}",
   "starting_audio_separation": "بدء فصل الصوت...",
@@ -172,109 +282,64 @@
   "separation_complete": "اكتمل الفصل!",
   "progress_parsing_error": "خطأ في تحليل التقدم: {}",
   "error_occurred": "حدث خطأ: {}",
-  "separation_process_completed": "اكتمل عملية الفصل!",
-  "no_audio_file_error": "❌ لم يتم توفير ملف صوتي ولا يوجد ملف موجود في دليل الإدخال.",
-  "no_input_progress_label": "خطأ: لم يتم توفير إدخال -- 0.0%",
   "processing_audio_print": "معالجة الصوت من: {} باستخدام النموذج: {}",
   "starting_audio_separation_progress_label": "بدء فصل الصوت... -- 0.0%",
   "separating_audio_progress_label": "فصل الصوت... -- {}.0%",
   "audio_processing_completed_progress_label": "اكتملت معالجة الصوت! -- 100.0%",
   "audio_processing_completed": "✅ اكتملت معالجة الصوت!",
   "error_occurred_progress_label": "حدث خطأ -- 0.0%",
-  "minimum_files_required": "⚠️ الحد الأدنى 2 ملف مطلوب",
   "valid_files_not_found": "❌ لم يتم العثور على ملفات صالحة",
   "starting_ensemble_process": "بدء عملية التجميع...",
-  "ensembling_progress": "التجميع... ({:.1f}%)",
   "finalizing_ensemble_output": "إنهاء إخراج التجميع...",
   "success_log": "✅ نجاح!\n{}",
   "error_log": "❌ خطأ!\n{}",
-  "critical_error": "⛔ خطأ حرج: {}",
   "ensemble_process_completed": "اكتملت عملية التجميع!",
-  "no_models_selected": "❌ لم يتم اختيار نماذج",
-  "no_input_audio_provided": "❌ لم يتم توفير صوت إدخال",
-  "loading_model": "تحميل النموذج {}/{}: {}...",
-  "loading_model_progress_label": "تحميل النموذج {}/{}: {}... -- {}.0%",
   "completed_model": "اكتمل النموذج {}/{}: {}",
   "completed_model_progress_label": "اكتمل النموذج {}/{}: {} -- {}.0%",
   "running_command": "تشغيل الأمر: {}",
   "model_failed": "فشل النموذج {}: {}",
-  "critical_error_with_model": "خطأ حرج مع {}: {}",
-  "model_output_failed": "فشل {} في إنتاج مخرج",
   "waiting_for_files": "في انتظار جاهزية جميع الملفات...",
   "waiting_for_files_progress_label": "في انتظار جاهزية جميع الملفات... -- 90.0%",
-  "performing_ensemble": "تنفيذ التجميع...",
-  "performing_ensemble_progress_label": "تنفيذ التجميع... -- 92.0%",
   "memory_usage_before_ensemble": "استخدام الذاكرة قبل التجميع: {}%",
   "memory_usage_after_ensemble": "استخدام الذاكرة بعد التجميع: {}%",
   "finalizing_ensemble_output_progress_label": "إنهاء إخراج التجميع... -- 98.0%",
-  "ensemble_file_creation_failed": "لم يتم إنشاء ملف التجميع: {}",
   "ensemble_completed_progress_label": "اكتمل التجميع بنجاح! -- 100.0%",
   "success_output_created": "✅ نجاح! تم إنشاء ملف الإخراج.",
-  "drive_mounted_copying_ensemble": "تم ربط Google Drive. يتم نسخ مخرج التجميع...",
-  "drive_already_mounted_copying_ensemble": "Google Drive مربوط بالفعل. يتم نسخ مخرج التجميع...",
-  "no_ensemble_output_files_found": "❌ لم يتم العثور على ملفات إخراج التجميع.",
-  "ensemble_output_copied": "✅ تم نسخ مخرج التجميع إلى {}",
-  "error_copying_ensemble_output": "❌ خطأ في نسخ مخرج التجميع: {}",
-  "drive_mounted_copying_files": "تم ربط Google Drive. يتم نسخ الملفات...",
-  "drive_already_mounted_copying_files": "Google Drive مربوط بالفعل. يتم نسخ الملفات...",
-  "files_copied_to_drive": "✅ تم نسخ الملفات إلى {}",
-  "error_copying_files": "❌ خطأ في نسخ الملفات: {}",
-  "mounting_drive": "ربط Google Drive...",
-  "settings_saved": "تم حفظ الإعدادات في config.json: اللغة={lang}، الطريقة={method}، المنفذ={port}",
-  "selected_language": "اللغة المختارة: {lang}",
-  "available_languages": "اللغات المتاحة: {langs}",
-  "select_language_prompt": "اختر لغة (الافتراضي: {default}): ",
-  "invalid_language": "اختيار لغة غير صالح! استخدام اللغة الافتراضية ({default}).",
-  "available_sharing_methods": "طرق المشاركة المتاحة: gradio، localtunnel، ngrok",
-  "select_sharing_method_prompt": "اختر طريقة مشاركة (الافتراضي: {default}): ",
-  "enter_ngrok_token_prompt": "أدخل رمز Ngrok الخاص بك (الافتراضي: {default}): ",
-  "ngrok_token_required": "خطأ: رمز Ngrok مطلوب لطريقة ngrok!",
-  "enter_port_prompt": "أدخل رقم المنفذ (الافتراضي: {default}): ",
-  "opening_previous_url": "فتح الرابط السابق: {url}",
-  "open_url_manually": "افتح الرابط يدويًا في Colab: {url}",
-  "invalid_previous_url": "رابط سابق غير صالح: {url}، لم يتم فتحه.",
-  "starting_method": "بدء {method} على المنفذ {port}...",
-  "process_stopped": "\n🛑 تم إيقاف العملية من قبل المستخدم",
-  "selected_port": "المنفذ المختار: {port}",
-  "starting_gradio_with_sharing": "بدء Gradio مع المشاركة المدمجة...",
-  "starting_localtunnel": "بدء Localtunnel على المنفذ {port}...",
-  "share_link": "رابط المشاركة: {url}",
-  "password_ip": "كلمة مرور IP: {ip}",
-  "starting_ngrok": "بدء Ngrok على المنفذ {port}...",
-  "ngrok_url": "رابط Ngrok: {url}",
-  "ngrok_error": "خطأ في بدء Ngrok: {error}",
-  "apollo_chunk_size": "حجم قطعة Apollo",
-  "apollo_chunk_size_info": "حجم القطعة لتحسين Apollo (موصى به: 19 للنموذج العام)",
-  "apollo_overlap": "تداخل Apollo",
-  "enhancing_with_apollo": "تحسين مع Apollo ({}/{} ملفات)...",
-  "apollo_processing_completed": "اكتملت معالجة Apollo!",
-  "apollo_overlap_info": "التداخل لتحسين Apollo (موصى به: 2)",
-  "invalid_method": "خطأ: طريقة غير صالحة! استخدم 'gradio'، 'localtunnel'، أو 'ngrok'.",
-  "apollo_enhancement_settings": "إعدادات تحسين Apollo",
-  "enhance_with_apollo": "تحسين مع Apollo",
-  "enhance_with_apollo_info": "تفعيل Apollo لتحسين الصوت بعد الفصل",
-  "apollo_method": "طريقة Apollo",
-  "apollo_method_info": "اختر طريقة المعالجة لـ Apollo",
-  "normal_method": "الطريقة العادية",
-  "mid_side_method": "طريقة الوسط/الجانب",
-  "apollo_normal_model": "نموذج Apollo العادي",
-  "apollo_normal_model_info": "النموذج المستخدم لمعالجة Apollo العادية",
-  "apollo_midside_model": "نموذج Apollo الوسط/الجانب",
-  "apollo_enhancement_info": "تحسين جودة الصوت",
-  "selected_models": "النماذج المختارة",
-  "save_preset": "حفظ الإعداد المسبق",
-  "delete_preset": "حذف الإعداد المسبق",
-  "refresh_presets": "تحديث الإعدادات المسبقة",
-  "preset_name": "اسم الإعداد المسبق",
-  "select_preset": "اختيار إعداد مسبق",
-  "add_favorite": "إضافة إلى المفضلة",
-  "apollo_midside_model_info": "النموذج المستخدم لمعالجة الوسط/الجانب (اختياري)",
-  "language_changed_message": "تم تغيير اللغة. يرجى إعادة تشغيل الخلية.",
-  "apply_matchering": "تطبيق Matchering",
-  "matchering_info": "تطبيق Matchering لتحسين جودة الصوت وتوازنه",
-  "matchering_passes": "تمريرات Matchering",
-  "matchering_passes_info": "عدد التكرارات لـ Matchering (1-5، القيم الأعلى تحسن الجودة ولكن تستغرق وقتًا أطول)",
-  "matchering_processing": "جارٍ تطبيق Matchering... ({:.1f}%)",
-  "matchering_completed": "✅ اكتمل معالجة Matchering!",
-  "matchering_error": "❌ حدث خطأ أثناء Matchering: {}"
 }

   "overlap": "التداخل",
   "overlap_info": "موصى به: 2-10 (القيم الأعلى تزيد من الجودة ولكن تتطلب المزيد من VRAM)",
   "tta_boost": "تعزيز TTA",
   "phase_fix": "تصحيح الطور",
+  "use_phase_correction": "تطبيق تصحيح طور متقدم",
   "phase_fix_info": "تصحيح طور متقدم للمسارات الآلية",
   "instrumental": "آلي",
   "process": "🚀 معالجة",
   "reset": "🧹 إعادة تعيين",
   "status": "الحالة",
   "output_preview": "معاينة الإخراج",
   "refresh_output": "🔄 تحديث الإخراج",
   "ensemble_copy_status": "سيتم نسخ مخرجات التجميع هنا...",
+  "guidelines": "<h4>إرشادات اختيار النموذج</h4><ul><li><strong>تجنب الخلط بين الفئات:</strong> قد يؤدي الجمع بين نماذج الأصوات والآلات إلى خلط غير مرغوب فيه</li><li><strong>ملاحظات نموذج خاصة:</strong><ul><li>نماذج الازدواجية (v1/v2) - تنتج كلا الستيمات</li><li>فاصل MDX23C - نتائج هجينة</li></ul></li><li><strong>أفضل ممارسة:</strong> استخدم 3-5 نماذج مشابهة من نفس الفئة</li></ul><div>💡 نصيحة محترف: ابدأ بمزيج \"VOCALS-MelBand-Roformer BigBeta5e\" + \"VOCALS-BS-Roformer_1297\"</div>",
+  "download_sources_tab": "⬇️ تنزيل المصادر",
+  "direct_links": "🌐 الروابط المباشرة",
   "audio_file_url": "رابط ملف الصوت",
+  "download_from_url": "⬇️ تنزيل من الرابط",
+  "download_status": "حالة التنزيل",
   "downloaded_file": "الملف المحمل",
   "cookie_management": "🍪 إدارة الكوكيز",
+  "upload_cookies_txt": "رفع Cookies.txt",
+  "cookie_info": "<div style=\"margin-left:15px; font-size:0.95em\">**📌 لماذا مطلوب؟**<br>- الوصول إلى المحتوى المقيد بالعمر<br>- تنزيل الفيديوهات الخاصة/غير المدرجة<br>- تجاوز القيود الإقليمية<br>- تجنب حدود تنزيل يوتيوب<br><br>**⚠️ ملاحظات مهمة**<br>- لا تشارك ملفات الكوكيز الخاصة بك أبدًا!<br>- قم بتحديث الكوكيز عند:<br>  • الحصول على أخطاء \"403 ممنوع\"<br>  • توقف التنزيلات فجأة<br>  • رؤية رسائل \"انتهت صلاحي�� الجلسة\"<br><br>**🔄 خطوات التحديث**<br>1. قم بتثبيت <a href=\"https://chromewebstore.google.com/detail/get-cookiestxt-clean/ahmnmhfbokciafffnknlekllgcnafnie\" target=\"_blank\">إضافة كروم هذه</a><br>2. تسجيل الدخول إلى يوتيوب في كروم<br>3. انقر على أيقونة الإضافة → \"تصدير\"<br>4. قم برفع الملف المحمل هنا<br><br>**⏳ عمر الكوكيز**<br>- الجلسات العادية: 24 ساعة<br>- العمليات الحساسة: 1 ساعة<br>- تغيير كلمة المرور: تحديث فوري</div>",
+  "ensemble_output_copied": "✅ تم نسخ إخراج التجميع إلى {}",
+  "error_copying_ensemble_output": "❌ خطأ في نسخ إخراج التجميع: {}",
+  "drive_mounted_copying_ensemble": "تم تحميل Google Drive. نسخ إخراج التجميع...",
+  "drive_already_mounted_copying_ensemble": "Google Drive محمل بالفعل. نسخ إخراج التجميع...",
+  "no_ensemble_output_files_found": "❌ لم يتم العثور على ملفات إخراج تجميع.",
+  "drive_mounted_copying_files": "تم تحميل Google Drive. نسخ الملفات...",
+  "drive_already_mounted_copying_files": "Google Drive محمل بالفعل. نسخ الملفات...",
+  "files_copied_to_drive": "✅ تم نسخ الملفات إلى {}",
+  "error_copying_files": "❌ خطأ في نسخ الملفات: {}",
+  "mounting_drive": "تحميل Google Drive...",
+  "settings_saved": "تم حفظ الإعدادات في config.json: اللغة={lang}, الطريقة={method}, المنفذ={port}",
+  "selected_language": "اللغة المختارة: {lang}",
+  "available_languages": "اللغات المتاحة: {langs}",
+  "select_language_prompt": "اختر لغة (افتراضي: {default}): ",
+  "invalid_language": "اختيار لغة غير صالح! استخدام اللغة الافتراضية ({default}).",
+  "available_sharing_methods": "طرق المشاركة المتاحة: gradio، localtunnel، ngrok",
+  "select_sharing_method_prompt": "اختر طريقة مشاركة (الافتراضي: {default}): ",
+  "enter_ngrok_token_prompt": "أدخل رمز Ngrok الخاص بك (الافتراضي: {default}): ",
+  "ngrok_token_required": "خطأ: رمز Ngrok مطلوب لطريقة ngrok!",
+  "enter_port_prompt": "أدخل رقم المنفذ (الافتراضي: {default}): ",
+  "opening_previous_url": "فتح الرابط السابق: {url}",
+  "open_url_manually": "افتح الرابط يدويًا في Colab: {url}",
+  "invalid_previous_url": "رابط سابق غير صالح: {url}، لم يتم فتحه.",
+  "starting_method": "بدء {method} على المنفذ {port}...",
+  "process_stopped": "\n🛑 تم إيقاف العملية من قبل المستخدم",
+  "selected_port": "المنفذ المختار: {port}",
+  "starting_gradio_with_sharing": "بدء Gradio مع المشاركة المدمجة...",
+  "starting_localtunnel": "بدء Localtunnel على المنفذ {port}...",
+  "share_link": "رابط المشاركة: {url}",
+  "password_ip": "كلمة مرور IP: {ip}",
+  "starting_ngrok": "بدء Ngrok على المنفذ {port}...",
+  "ngrok_url": "رابط Ngrok: {url}",
+  "ngrok_error": "خطأ في بدء Ngrok: {error}",
+  "auto_apollo_chunk_size": "حجم قطعة Apollo",
+  "auto_apollo_chunk_size_info": "حجم القطعة لتحسين Apollo (موصى به: 19 للنموذج العام)",
+  "auto_apollo_overlap": "تداخل Apollo",
+  "auto_enhancing_with_apollo": "تحسين مع Apollo ({}/{} ملفات)...",
+  "auto_apollo_processing_completed": "اكتملت معالجة Apollo!",
+  "auto_apollo_overlap_info": "التداخل لتحسين Apollo (موصى به: 2)",
+  "apollo_chunk_size": "حجم قطعة Apollo",
+  "apollo_chunk_size_info": "حجم القطعة لتحسين Apollo (موصى به: 19 للنموذج العام)",
+  "apollo_overlap": "تداخل Apollo",
+  "enhance_with_apollo": "تحسين مع Apollo",
+  "apollo_enhancement_info": "تحسين جودة الصوت",
+  "enhancing_with_apollo": "تحسين مع Apollo ({}/{} ملفات)...",
+  "apollo_processing_completed": "اكتملت معالجة Apollo!",
+  "apollo_overlap_info": "التداخل لتحسين Apollo (موصى به: 2)",
+  "selected_models": "النماذج المختارة",
+  "save_preset": "حفظ الإعداد المسبق",
+  "delete_preset": "حذف الإعداد المسبق",
+  "refresh_presets": "تحديث الإعدادات المسبقة",
+  "preset_name": "اسم الإعداد المسبق",
+  "select_preset": "اختيار إعداد مسبق",
+  "add_favorite": "إضافة إلى المفضلة",
+  "apply_matchering": "تطبيق Matchering",
+  "matchering_info": "تطبيق Matchering لتحسين جودة الصوت وتوازنه",
+  "matchering_passes": "تمريرات Matchering",
+  "matchering_passes_info": "عدد التكر��رات لـ Matchering (1-5، القيم الأعلى تحسن الجودة ولكن تستغرق وقتًا أطول)",
+  "matchering_processing": "جارٍ تطبيق Matchering... ({:.1f}%)",
+  "matchering_completed": "✅ اكتمل معالجة Matchering!",
+  "matchering_error": "❌ حدث خطأ أثناء Matchering: {}",
+  "invalid_method": "خطأ: طريقة غير صالحة! استخدم 'gradio'، 'localtunnel'، أو 'ngrok'.",
+  "language_changed_message": "تم تغيير اللغة. يرجى إعادة تشغيل الخلية.",
+  "backend_settings": "🚀 إعدادات الخلفية",
+  "inference_backend": "خلفية الاستدلال",
+  "optimization_mode": "وضع التحسين",
+  "optimization_mode_info": "اختيار وضع تحسين PyTorch",
+  "mixed_precision_amp": "الدقة المختلطة (AMP)",
+  "mixed_precision_info": "استدلال أسرع 2x - موصى به",
+  "tf32_acceleration": "تسريع TF32",
+  "tf32_acceleration_info": "زيادة سرعة إضافية لـ RTX 30xx+",
+  "cudnn_benchmark": "معيار cuDNN",
+  "cudnn_benchmark_info": "أبطأ في التشغيل الأول، أسرع بكثير في التشغيلات اللاحقة",
+  "ultra_optimized_pytorch": "خلفية PyTorch فائقة التحسين",
+  "default_active_max_speed": "نشط افتراضيًا - تحسين سرعة قصوى",
+  "channels_last_mode": "الأسرع لـ RTX GPUs",
+  "compile_mode": "سرعة إضافية لـ PyTorch 2.0+",
+  "default_mode": "قياسي",
+  "tta_info": "يزيد من الجودة لكنه يبطئ المعالجة",
+  "direct_download_error": "❌ خطأ في التنزيل المباشر: {}",
+  "invalid_google_drive_url": "❌ رابط Google Drive غير صالح",
+  "continuing_without_google_drive": "فشل الاتصال بـ Google Drive، الاستمرار بدونه...",
+  "skipping_drive_copy_no_mount": "⚠️ Google Drive غير محمل، تخطي النسخ إلى Drive...",
+  "direct_download_failed": "فشل تنزيل الملف مباشرة",
+  "instrumental_info": "عادةً ينتج 2 ستيمات، لكن أحيانًا واحدة فقط - تحتاج إلى التجربة! :)",
   "manual_ensemble_tab": "🎚️ التجميع اليدوي",
+  "phase_fixer_tab": "🔧 مصحح الطور",
+  "batch_processing_tab": "📦 المعالجة الدفعية",
+  "batch_description": "معالجة ملفات متعددة في وقت واحد بنفس النموذج",
+  "batch_input_folder": "مجلد الإدخال",
+  "batch_input_folder_placeholder": "أدخل مسار المجلد الذي يحتوي على ملفات الصوت",
+  "batch_output_folder": "مجلد الإخراج",
+  "batch_output_folder_placeholder": "أدخل مسار المجلد لملفات الإخراج",
+  "batch_file_list": "الملفات المراد معالجتها",
+  "batch_add_files": "إضافة ملفات",
+  "batch_clear_list": "مسح القائمة",
+  "batch_start": "🚀 بدء المعالجة الدفعية",
+  "batch_stop": "⏹️ إيقاف",
+  "batch_progress": "تقدم المعالجة الدفعية",
+  "batch_current_file": "يُعالَج حاليًا",
+  "batch_completed": "✅ اكتملت المعالجة الدفعية!",
+  "batch_stopped": "⏹️ تم إيقاف المعالجة الدفعية",
+  "batch_no_files": "❌ لم يتم اختيار ملفات للمعالجة",
+  "source_model": "النموذج المصدر (أصوات)",
+  "source_model_info": "نموذج لاستخراج الأصوات/بيانات الطور",
+  "target_model": "النموذج الهدف (آلي)",
+  "target_model_info": "النموذج الذي يتم تطبيق تصحيح الطور عليه",
   "input_sources": "📂 مصادر الإدخال",
   "refresh": "🔄 تحديث",
   "ensemble_algorithm": "خوارزمية التجميع",
+  "select_audio_files": "اختيار ملفات الصوت",
   "available_files": "الملفات المتاحة",
+  "custom_weights": "أوزان مخصصة (مفصولة بفاصلة)",
+  "custom_weights_placeholder": "مثال: 0.8, 1.2, 1.0, ...",
+  "custom_weights_info": "اتركه فارغًا للأوزان المتساوية",
   "result_preview_tab": "🎧 معاينة النتيجة",
+  "ensembled_output": "الإخراج المجمَّع",
   "processing_log_tab": "📋 سجل المعالجة",
   "processing_details": "تفاصيل المعالجة",
   "process_ensemble": "⚡ معالجة التجميع",
   "languages_tab": "🌐 اللغات",
   "Vocal Models": "نماذج الأصوات",
+  "Instrumental Models": "النماذج الآلية",
+  "4-Stem Models": "نماذج 4 مسارات",
   "Denoise Models": "نماذج إزالة الضوضاء",
   "Dereverb Models": "نماذج إزالة الصدى",
+  "Other Shapes": "نماذج أخرى",
+  "Custom Models": "النماذج المخصصة",
+  "ensemble_files_description": "يجمع ملفات صوتية متعددة في إخراج واحد باستخدام طرق تجميع محددة.",
   "ensemble_files_help": "مسار جميع ملفات الصوت للتجميع",
+  "ensemble_type_help": "أحد: avg_wave, median_wave, min_wave, max_wave, avg_fft, median_fft, min_fft, max_fft",
+  "ensemble_weights_help": "الأوزان لإنشاء التجميع. يجب أن يساوي عدد الأوزان عدد الملفات",
+  "ensemble_output_help": "مسار ملف WAV حيث سيتم تخزين نتيجة التجميع",
   "ensemble_type_print": "نوع التجميع: {}",
   "num_input_files_print": "عدد ملفات الإدخال: {}",
   "weights_print": "الأوزان: {}",
   "output_file_print": "ملف الإخراج: {}",
   "duration_mismatch_error": "يجب أن تكون جميع الملفات بنفس المدة",
+  "file_not_found_error": "خطأ. تعذر العثور على الملف: {}. تحقق من المسارات.",
   "reading_chunk_print": "قراءة قطعة من الملف: {} (البداية: {}ث، المدة: {}ث)",
   "chunk_result_shape_print": "شكل نتيجة القطعة: {}",
   "ensemble_completed_print": "اكتمل التجميع. تم حفظ الإخراج في: {}",
+  "file_deletion_error": "تعذر حذف {}: {}",
+  "directory_not_exist_warning": "⚠️ المجلد غير موجود: {}",
+  "not_a_directory_warning": "⚠️ المسار ليس مجلدًا: {}",
   "item_deletion_error": "⚠️ خطأ في حذف {}: {}",
+  "critical_error": "⛔ خطأ فادح: {}",
   "old_output_not_exist": "❌ مجلد الإخراج القديم غير موجود",
+  "old_outputs_cleared": "✅ تم مسح الإخراجات القديمة بنجاح!",
   "error": "🔥 خطأ: {}",
   "ffmpeg_error": "خطأ FFmpeg ({}): {}",
   "file_saved_successfully": "تم حفظ الملف بنجاح: {}",
+  "total_files_found": "إجمالي الملفات الموجودة: {}. معدل العينات المستخدم: {}",
+  "total_progress": "التقدم الكلي",
+  "detailed_pbar_enabled": "شريط التقدم التفصيلي مُفعَّل: {}",
+  "loaded_audio": "تم تحميل الصوت: {}، الشكل: {}",
+  "cannot_read_track": "تعذر قراءة المسار: {}",
   "error_message": "رسالة الخطأ: {}",
   "demudding_track": "تنظيف المسار (إعادة مزج الطور - آلي): {}",
   "elapsed_time": "الوقت المنقضي: {:.2f} ثانية.",
+  "proc_folder_description": "معالجة ملفات الصوت في مجلد باستخدام نموذج محدد.",
+  "model_type_help": "نوع النموذج (bandit, bs_roformer, mdx23c، إلخ)",
   "config_path_help": "مسار ملف التكوين",
+  "demud_phaseremix_help": "تمكين إعادة مزج الطور للآلات الموسيقية",
+  "start_checkpoint_help": "نقطة التفتيش الأولية للأوزان الصحيحة",
+  "input_folder_help": "المجلد الذي يحتوي على المزيجات للمعالجة",
   "audio_path_help": "مسار ملف صوتي واحد للمعالجة",
+  "store_dir_help": "مسار تخزين النتائج",
   "device_ids_help": "قائمة معرفات GPU",
+  "extract_instrumental_help": "عكس الأصوات للحصول على الآلي إذا كان متاحًا",
+  "disable_detailed_pbar_help": "تعطيل شريط التقدم التفصيلي في demix",
+  "force_cpu_help": "إجبار استخدام CPU حتى لو كانت CUDA متاحة",
   "flac_file_help": "إخراج ملف FLAC بدلاً من WAV",
+  "export_format_help": "تنسيق التصدير ونوع PCM",
   "pcm_type_help": "نوع PCM لملفات FLAC",
+  "use_tta_help": "تمكين زيادة وقت الاختبار",
   "lora_checkpoint_help": "نقطة التفتيش الأولية لأوزان LoRA",
   "cuda_available": "CUDA متاح، استخدم --force_cpu لتعطيله.",
+  "using_device": "الجهاز المستخدم: {}",
+  "instruments_print": "الأدوات الموسيقية: {}",
   "model_load_time": "وقت تحميل النموذج: {:.2f} ثانية",
   "invalid_url": "❌ رابط غير صالح",
   "cookie_file_updated": "✅ تم تحديث ملف الكوكيز!",
   "cookie_installation_error": "⚠️ خطأ في تثبيت الكوكيز: {}",
+  "google_drive_mount_error": "❌ خطأ في ربط Google Drive: {}",
   "file_size_zero_error": "حجم الملف صفر أو لم يتم إنشاء الملف",
+  "google_drive_error": "❌ خطأ في تنزيل Google Drive: {}",
   "wav_conversion_failed": "فشل تحويل WAV",
+  "download_error": "❌ خطأ في التنزيل: {}",
+  "file_copied_to_drive": "تم نسخ الملف إلى Google Drive: {}",
+  "copy_to_drive_error": "❌ خطأ في النسخ إلى Google Drive: {}",
+  "download_success": "🎉 تم التنزيل بنجاح!",
+  "download_failed": "❌ فشل التنزيل",
+  "no_output_files_found": "❌ لم يتم العثور على ملفات الإخراج.",
   "output_refreshed_successfully": "✅ تم تحديث الإخراج بنجاح!",
   "error_refreshing_output": "❌ خطأ في تحديث الإخراج: {}",
   "starting_audio_separation": "بدء فصل الصوت...",
   "separation_complete": "اكتمل الفصل!",
   "progress_parsing_error": "خطأ في تحليل التقدم: {}",
   "error_occurred": "حدث خطأ: {}",
+  "separation_process_completed": "اكتملت عملية الفصل!",
+  "no_audio_file_error": "❌ لم يتم تقديم ملف صوتي ولا يوجد ملف في مجلد الإدخال.",
+  "no_input_progress_label": "خطأ: لم يتم تقديم إدخال -- 0.0%",
   "processing_audio_print": "معالجة الصوت من: {} باستخدام النموذج: {}",
   "starting_audio_separation_progress_label": "بدء فصل الصوت... -- 0.0%",
   "separating_audio_progress_label": "فصل الصوت... -- {}.0%",
   "audio_processing_completed_progress_label": "اكتملت معالجة الصوت! -- 100.0%",
   "audio_processing_completed": "✅ اكتملت معالجة الصوت!",
   "error_occurred_progress_label": "حدث خطأ -- 0.0%",
+  "minimum_files_required": "⚠️ مطلوب ملفان على الأقل",
   "valid_files_not_found": "❌ لم يتم العثور على ملفات صالحة",
   "starting_ensemble_process": "بدء عملية التجميع...",
+  "ensembling_progress": "جارٍ التجميع... ({:.1f}%)",
   "finalizing_ensemble_output": "إنهاء إخراج التجميع...",
   "success_log": "✅ نجاح!\n{}",
   "error_log": "❌ خطأ!\n{}",
   "ensemble_process_completed": "اكتملت عملية التجميع!",
+  "no_models_selected": "❌ لم يتم اختيار أي نماذج",
+  "no_input_audio_provided": "❌ لم يتم تقديم صوت إدخال",
+  "loading_model": "جارٍ تحميل النموذج {}/{}: {}...",
+  "loading_model_progress_label": "جارٍ تحميل النموذج {}/{}: {}... -- {}.0%",
   "completed_model": "اكتمل النموذج {}/{}: {}",
   "completed_model_progress_label": "اكتمل النموذج {}/{}: {} -- {}.0%",
   "running_command": "تشغيل الأمر: {}",
   "model_failed": "فشل النموذج {}: {}",
+  "critical_error_with_model": "خطأ فادح مع {}: {}",
+  "model_output_failed": "فشل {} في إنتاج الإخراج",
   "waiting_for_files": "في انتظار جاهزية جميع الملفات...",
   "waiting_for_files_progress_label": "في انتظار جاهزية جميع الملفات... -- 90.0%",
+  "performing_ensemble": "جارٍ التجميع...",
+  "performing_ensemble_progress_label": "جارٍ التجميع... -- 92.0%",
   "memory_usage_before_ensemble": "استخدام الذاكرة قبل التجميع: {}%",
   "memory_usage_after_ensemble": "استخدام الذاكرة بعد التجميع: {}%",
   "finalizing_ensemble_output_progress_label": "إنهاء إخراج التجميع... -- 98.0%",
+  "ensemble_file_creation_failed": "تعذر إنشاء ملف التجميع: {}",
   "ensemble_completed_progress_label": "اكتمل التجميع بنجاح! -- 100.0%",
   "success_output_created": "✅ نجاح! تم إنشاء ملف الإخراج.",
+  "custom_models_tab": "⚡ النماذج المخصصة",
+  "add_custom_model": "➕ إضافة نموذج مخصص",
+  "custom_model_name": "اسم النموذج",
+  "custom_model_name_placeholder": "أدخل اسمًا لنموذجك",
+  "checkpoint_url": "رابط نقطة التفتيش (.ckpt/.pth)",
+  "checkpoint_url_placeholder": "https://huggingface.co/.../model.ckpt",
+  "config_url": "رابط التكوين (.yaml)",
+  "config_url_placeholder": "https://huggingface.co/.../config.yaml",
+  "custom_py_url": "رابط ملف Python المخصص (اختياري)",
+  "custom_py_url_placeholder": "https://huggingface.co/.../bs_roformer.py",
+  "auto_detect_type": "الكشف التلقائي عن نوع النموذج",
+  "model_type": "نوع النموذج",
+  "add_model_btn": "➕ إضافة نموذج",
+  "custom_models_list": "📋 قائمة النماذج المخصصة",
+  "delete_model": "🗑️ حذف",
+  "no_custom_models": "لم تتم إضافة نماذج مخصصة بعد",
+  "model_added_success": "✅ تم إضافة النموذج بنجاح!",
+  "model_deleted_success": "✅ تم حذف النموذج بنجاح!",
+  "model_add_error": "❌ خطأ في إضافة النموذج: {}",
+  "model_delete_error": "❌ خطأ في حذف النموذج: {}",
+  "refresh_models": "🔄 تحديث",
+  "custom_model_info": "أضف نماذج مخصصة عن طريق توفير روابط التنزيل. سيتم تنزيل النماذج تلقائيًا عند استخدامها.",
+  "select_model_to_delete": "اختر نموذجًا للحذف"
 }

assets/i18n/languages/de_de.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "select_language": "Sprache auswählen",
   "gecekondu_production": "Gecekondu Production",
-  "ultimate_audio_separation": "Deine ultimative Audio-Trennung",
   "presented_by": "Präsentiert von Gecekondu Production © 2025",
   "audio_separation_tab": "🎙️ Audio-Trennung",
   "input_model": "📥 Eingabe & Modell",
@@ -13,15 +13,16 @@
   "settings": "⚙ Einstellungen",
   "format": "Format",
   "chunk_size": "Chunk-Größe",
-  "chunk_size_info": "Nicht ändern, es sei denn, du hast spezifische Anforderungen",
   "overlap": "Überlappung",
-  "overlap_info": "Empfohlen: 2-10 (Höhere Werte verbessern die Qualität, benötigen aber mehr VRAM)",
-  "tta_boost": "TTA Boost",
-  "tta_info": "Verbessert die Qualität, verlangsamt aber die Verarbeitungsgeschwindigkeit",
   "phase_fix": "Phasenkorrektur",
-  "phase_fix_info": "Fortgeschrittene Phasenkorrektur für Instrumentalspuren",
   "instrumental": "Instrumental",
-  "instrumental_info": "Liefert normalerweise 2 Ausgaben, manchmal aber nur eine einzige Ausgabe, du musst es ausprobieren :)",
   "process": "🚀 Verarbeiten",
   "reset": "🧹 Zurücksetzen",
   "status": "Status",
@@ -37,28 +38,28 @@
   "drums": "Schlagzeug",
   "bass": "Bass",
   "effects": "Effekte",
-  "advanced_tab": "⚙ Fortgeschritten",
   "phase_remix": "Phasen-Remix",
   "dry": "Trocken",
   "music": "Musik",
   "karaoke": "Karaoke",
-  "bleed": "Überlauf",
-  "copy_to_drive": "📂 Auf Laufwerk kopieren",
   "copy_status": "Kopierstatus",
   "files_will_be_copied": "Dateien werden hierher kopiert...",
-  "processing_tip": "<b>🔈 Verarbeitungstipp:</b> Für verrauschte Ergebnisse verwende <code>bleed_suppressor_v1</code> oder <code>denoisedebleed</code> Modelle in der Kategorie <i>\"Rauschunterdrückung & Effektentfernung\"</i>, um die Ausgabe zu bereinigen",
   "waiting_for_processing": "Warten auf Verarbeitung...",
   "auto_ensemble_tab": "🤖 Auto-Ensemble",
   "upload_file": "Datei hochladen",
   "enter_file_path": "Oder Dateipfad eingeben",
   "file_path_placeholder": "Vollständigen Pfad zur Audiodatei eingeben",
-  "advanced_settings": "⚙️ Fortgeschrittene Einstellungen",
   "use_tta": "TTA verwenden",
   "instrumental_only": "Nur Instrumental",
   "auto_overlap": "Überlappung",
   "auto_chunk_size": "Chunk-Größe",
   "output_format": "Ausgabeformat",
-  "model_selection": "🧠 Modellwahl",
   "model_category": "Modellkategorie",
   "select_models": "Modelle aus Kategorie auswählen",
   "ensemble_settings": "⚡ Ensemble-Einstellungen",
@@ -68,10 +69,10 @@
   "original_audio_tab": "🔊 Original-Audio",
   "original_audio": "Original-Audio",
   "ensemble_result_tab": "🎚️ Ensemble-Ergebnis",
-  "output_preview": "Ausgabe-Vorschau",
   "refresh_output": "🔄 Ausgabe aktualisieren",
   "ensemble_copy_status": "Ensemble-Ausgabe wird hierher kopiert...",
-  "guidelines": "<h4>Richtlinien zur Modellwahl</h4><ul><li><strong>Vermeide das Mischen von Kategorien:</strong> Die Kombination von Gesangs- und Instrumentalmodellen kann unerwünschte Mischungen erzeugen</li><li><strong>Besondere Modellhinweise:</strong><ul><li>Dualitätsmodelle (v1/v2) - Geben beide Stems aus</li><li>MDX23C Separator - Hybride Ergebnisse</li></ul></li><li><strong>Beste Praxis:</strong> Verwende 3-5 ähnliche Modelle aus derselben Kategorie</li></ul><div>💡 Profi-Tipp: Beginne mit der Kombination \"VOCALS-MelBand-Roformer BigBeta5e\" + \"VOCALS-BS-Roformer_1297\"</div>",
   "download_sources_tab": "⬇️ Quellen herunterladen",
   "direct_links": "🌐 Direkte Links",
   "audio_file_url": "Audio-Datei-URL",
@@ -80,7 +81,85 @@
   "downloaded_file": "Heruntergeladene Datei",
   "cookie_management": "🍪 Cookie-Verwaltung",
   "upload_cookies_txt": "Cookies.txt hochladen",
-  "cookie_info": "<div style=\"margin-left:15px; font-size:0.95em\">**📌 Warum nötig?**<br>- Zugriff auf altersbeschränkte Inhalte<br>- Herunterladen privater/nicht gelisteter Videos<br>- Umgehen regionaler Einschränkungen<br>- Vermeiden von YouTube-Download-Limits<br><br>**⚠️ Wichtige Hinweise**<br>- TEILE NIEMALS deine Cookie-Dateien!<br>- Aktualisiere Cookies, wenn:<br>  • \"403 Forbidden\"-Fehler auftreten<br>  • Downloads plötzlich stoppen<br>  • \"Sitzung abgelaufen\"-Meldungen erscheinen<br><br>**🔄 Erneuerungsschritte**<br>1. Installiere diese <a href=\"https://chromewebstore.google.com/detail/get-cookiestxt-clean/ahmnmhfbokciafffnknlekllgcnafnie\" target=\"_blank\">Chrome-Erweiterung</a><br>2. Melde dich bei YouTube in Chrome an<br>3. Klicke auf das Erweiterungssymbol → \"Exportieren\"<br>4. Lade die heruntergeladene Datei hier hoch<br><br>**⏳ Cookie-Lebensdauer**<br>- Normale Sitzungen: 24 Stunden<br>- Sensible Operationen: 1 Stunde<br>- Passwortänderungen: Sofortige Ungültigkeit</div>",
   "manual_ensemble_tab": "🎚️ Manuelles Ensemble",
   "input_sources": "📂 Eingabequellen",
   "refresh": "🔄 Aktualisieren",
@@ -99,23 +178,24 @@
   "Vocal Models": "Gesangsmodelle",
   "Instrumental Models": "Instrumentalmodelle",
   "4-Stem Models": "4-Stem-Modelle",
-  "Denoise Models": "Rauschunterdrückungsmodelle",
-  "Dereverb Models": "Hallentfernungsmodelle",
   "Other Models": "Andere Modelle",
-  "ensemble_files_description": "Kombiniert mehrere Audiodateien zu einer einzigen Ausgabe unter Verwendung spezifizierter Ensemble-Methoden.",
   "ensemble_files_help": "Pfad zu allen Audiodateien für das Ensemble",
-  "ensemble_type_help": "Einer von avg_wave, median_wave, min_wave, max_wave, avg_fft, median_fft, min_fft, max_fft",
-  "ensemble_weights_help": "Gewichte zur Erstellung des Ensembles. Die Anzahl der Gewichte muss der Anzahl der Dateien entsprechen",
   "ensemble_output_help": "Pfad zur WAV-Datei, in der das Ensemble-Ergebnis gespeichert wird",
   "ensemble_type_print": "Ensemble-Typ: {}",
   "num_input_files_print": "Anzahl der Eingabedateien: {}",
   "weights_print": "Gewichte: {}",
   "output_file_print": "Ausgabedatei: {}",
   "duration_mismatch_error": "Alle Dateien müssen die gleiche Dauer haben",
-  "file_not_found_error": "Fehler. Datei nicht gefunden: {}. Überprüfe die Pfade.",
   "reading_chunk_print": "Lese Chunk aus Datei: {} (Start: {}s, Dauer: {}s)",
   "chunk_result_shape_print": "Chunk-Ergebnisform: {}",
-  "ensemble_completed_print": "Ensemble abgeschlossen. Ausgabe gespeichert unter: {}",
   "file_deletion_error": "{} konnte nicht gelöscht werden: {}",
   "directory_not_exist_warning": "⚠️ Verzeichnis existiert nicht: {}",
   "not_a_directory_warning": "⚠️ Pfad ist kein Verzeichnis: {}",
@@ -125,42 +205,50 @@
   "error": "🔥 Fehler: {}",
   "ffmpeg_error": "FFmpeg-Fehler ({}): {}",
   "file_saved_successfully": "Datei erfolgreich gespeichert: {}",
-  "total_files_found": "Gesamtzahl gefundener Dateien: {}. Verwende Abtastrate: {}",
   "total_progress": "Gesamtfortschritt",
-  "detailed_pbar_enabled": "Detaillierter Fortschrittsbalken aktiviert: {}",
-  "loaded_audio": "Geladenes Audio: {}, Form: {}",
-  "cannot_read_track": "Spur kann nicht gelesen werden: {}",
   "error_message": "Fehlermeldung: {}",
-  "demudding_track": "Spur entmischen (Phasen-Remix - Instrumental): {}",
   "elapsed_time": "Verstrichene Zeit: {:.2f} Sekunden.",
-  "proc_folder_description": "Verarbeitet Audiodateien in einem Ordner mit einem spezifizierten Modell.",
   "model_type_help": "Modelltyp (bandit, bs_roformer, mdx23c, etc.)",
   "config_path_help": "Pfad zur Konfigurationsdatei",
   "demud_phaseremix_help": "Phasen-Remix für Instrumental aktivieren",
-  "start_checkpoint_help": "Initialer Checkpoint für gültige Gewichte",
-  "input_folder_help": "Ordner mit Mischungen zur Verarbeitung",
-  "audio_path_help": "Pfad zu einer einzelnen Audiodatei zur Verarbeitung",
   "store_dir_help": "Pfad zum Speichern der Ergebnisse",
   "device_ids_help": "Liste der GPU-IDs",
   "extract_instrumental_help": "Gesang invertieren, um Instrumental zu erhalten, falls vorhanden",
-  "disable_detailed_pbar_help": "Detaillierten Fortschrittsbalken in Demix deaktivieren",
-  "force_cpu_help": "CPU erzwingen, selbst wenn CUDA verfügbar ist",
-  "flac_file_help": "FLAC-Datei anstelle von WAV ausgeben",
   "export_format_help": "Exportformat und PCM-Typ",
   "pcm_type_help": "PCM-Typ für FLAC-Dateien",
-  "use_tta_help": "Testzeit-Augmentation aktivieren",
-  "lora_checkpoint_help": "Initialer Checkpoint für LoRA-Gewichte",
-  "cuda_available": "CUDA ist verfügbar, verwende --force_cpu, um es zu deaktivieren.",
   "using_device": "Verwendetes Gerät: {}",
   "instruments_print": "Instrumente: {}",
   "model_load_time": "Modell-Ladezeit: {:.2f} Sek.",
   "invalid_url": "❌ Ungültige URL",
   "cookie_file_updated": "✅ Cookie-Datei aktualisiert!",
-  "cookie_installation_error": "⚠️ Fehler bei der Cookie-Installation: {}",
-  "file_size_zero_error": "Dateigröße null oder Datei nicht erstellt",
-  "google_drive_error": "❌ Google Drive Download-Fehler: {}",
   "wav_conversion_failed": "WAV-Konvertierung fehlgeschlagen",
   "download_error": "❌ Download-Fehler: {}",
   "download_success": "🎉 Erfolgreich heruntergeladen!",
   "download_failed": "❌ Download fehlgeschlagen",
   "no_output_files_found": "❌ Keine Ausgabedateien gefunden.",
@@ -170,19 +258,19 @@
   "processing_audio": "Audio wird verarbeitet",
   "separating_audio": "Audio wird getrennt... ({:.1f}%)",
   "separation_complete": "Trennung abgeschlossen!",
-  "progress_parsing_error": "Fortschrittsanalyse-Fehler: {}",
   "error_occurred": "Ein Fehler ist aufgetreten: {}",
   "separation_process_completed": "Trennungsprozess abgeschlossen!",
-  "no_audio_file_error": "❌ Keine Audiodatei bereitgestellt und keine vorhandene Datei im Eingabeordner.",
   "no_input_progress_label": "Fehler: Keine Eingabe bereitgestellt -- 0.0%",
   "processing_audio_print": "Verarbeite Audio von: {} mit Modell: {}",
   "starting_audio_separation_progress_label": "Audio-Trennung wird gestartet... -- 0.0%",
   "separating_audio_progress_label": "Audio wird getrennt... -- {}.0%",
-  "audio_processing_completed_progress_label": "Audioverarbeitung abgeschlossen! -- 100.0%",
-  "audio_processing_completed": "✅ Audioverarbeitung abgeschlossen!",
   "error_occurred_progress_label": "Fehler aufgetreten -- 0.0%",
   "minimum_files_required": "⚠️ Mindestens 2 Dateien erforderlich",
-  "valid_files_not_found": "❌ Gültige Dateien nicht gefunden",
   "starting_ensemble_process": "Ensemble-Prozess wird gestartet...",
   "ensembling_progress": "Ensemble wird erstellt... ({:.1f}%)",
   "finalizing_ensemble_output": "Ensemble-Ausgabe wird finalisiert...",
@@ -194,87 +282,65 @@
   "no_input_audio_provided": "❌ Kein Eingabe-Audio bereitgestellt",
   "loading_model": "Lade Modell {}/{}: {}...",
   "loading_model_progress_label": "Lade Modell {}/{}: {}... -- {}.0%",
-  "completed_model": "Abgeschlossenes Modell {}/{}: {}",
-  "completed_model_progress_label": "Abgeschlossenes Modell {}/{}: {} -- {}.0%",
   "running_command": "Führe Befehl aus: {}",
   "model_failed": "Modell {} fehlgeschlagen: {}",
   "critical_error_with_model": "Kritischer Fehler mit {}: {}",
   "model_output_failed": "{} konnte keine Ausgabe erzeugen",
-  "waiting_for_files": "Warten auf die Bereitschaft aller Dateien...",
-  "waiting_for_files_progress_label": "Warten auf die Bereitschaft aller Dateien... -- 90.0%",
   "performing_ensemble": "Ensemble wird durchgeführt...",
   "performing_ensemble_progress_label": "Ensemble wird durchgeführt... -- 92.0%",
-  "memory_usage_before_ensemble": "Speicherauslastung vor Ensemble: {}%",
-  "memory_usage_after_ensemble": "Speicherauslastung nach Ensemble: {}%",
   "finalizing_ensemble_output_progress_label": "Ensemble-Ausgabe wird finalisiert... -- 98.0%",
   "ensemble_file_creation_failed": "Ensemble-Datei konnte nicht erstellt werden: {}",
   "ensemble_completed_progress_label": "Ensemble erfolgreich abgeschlossen! -- 100.0%",
   "success_output_created": "✅ Erfolg! Ausgabedatei erstellt.",
-  "drive_mounted_copying_ensemble": "Google Drive eingebunden. Ensemble-Ausgabe wird kopiert...",
-  "drive_already_mounted_copying_ensemble": "Google Drive bereits eingebunden. Ensemble-Ausgabe wird kopiert...",
-  "no_ensemble_output_files_found": "❌ Keine Ensemble-Ausgabedateien gefunden.",
-  "ensemble_output_copied": "✅ Ensemble-Ausgabe kopiert nach {}",
-  "error_copying_ensemble_output": "❌ Fehler beim Kopieren der Ensemble-Ausgabe: {}",
-  "drive_mounted_copying_files": "Google Drive eingebunden. Dateien werden kopiert...",
-  "drive_already_mounted_copying_files": "Google Drive bereits eingebunden. Dateien werden kopiert...",
-  "files_copied_to_drive": "✅ Dateien kopiert nach {}",
-  "error_copying_files": "❌ Fehler beim Kopieren der Dateien: {}",
-  "mounting_drive": "Google Drive wird eingebunden...",
-  "settings_saved": "Einstellungen in config.json gespeichert: Sprache={lang}, Methode={method}, Port={port}",
-  "selected_language": "Ausgewählte Sprache: {lang}",
-  "available_languages": "Verfügbare Sprachen: {langs}",
-  "select_language_prompt": "Wähle eine Sprache (Standard: {default}): ",
-  "invalid_language": "Ungültige Sprachauswahl! Verwende Standardsprache ({default}).",
-  "available_sharing_methods": "Verfügbare Freigabemethoden: gradio, localtunnel, ngrok",
-  "select_sharing_method_prompt": "Wähle eine Freigabemethode (Standard: {default}): ",
-  "enter_ngrok_token_prompt": "Gib deinen Ngrok-Token ein (Standard: {default}): ",
-  "ngrok_token_required": "Fehler: Ngrok-Token ist für die ngrok-Methode erforderlich!",
-  "enter_port_prompt": "Gib die Portnummer ein (Standard: {default}): ",
-  "opening_previous_url": "Öffne vorherige URL: {url}",
-  "open_url_manually": "Öffne die URL manuell in Colab: {url}",
-  "invalid_previous_url": "Ungültige vorherige URL: {url}, nicht geöffnet.",
-  "starting_method": "Starte {method} auf Port {port}...",
-  "process_stopped": "\n🛑 Prozess vom Benutzer gestoppt",
-  "selected_port": "Ausgewählter Port: {port}",
-  "starting_gradio_with_sharing": "Starte Gradio mit integrierter Freigabe...",
-  "starting_localtunnel": "Starte Localtunnel auf Port {port}...",
-  "share_link": "Freigabe-Link: {url}",
-  "password_ip": "Passwort-IP: {ip}",
-  "starting_ngrok": "Starte Ngrok auf Port {port}...",
-  "ngrok_url": "Ngrok-URL: {url}",
-  "ngrok_error": "Fehler beim Starten von Ngrok: {error}",
-  "apollo_chunk_size": "Apollo Chunk-Größe",
-  "apollo_chunk_size_info": "Chunk-Größe für Apollo-Verbesserung (empfohlen: 19 für Universalmodell)",
-  "apollo_overlap": "Apollo-Überlappung",
-  "enhancing_with_apollo": "Verbessere mit Apollo ({}/{} Dateien)...",
-  "apollo_processing_completed": "Apollo-Verarbeitung abgeschlossen!",
-  "apollo_overlap_info": "Überlappung für Apollo-Verbesserung (empfohlen: 2)",
-  "invalid_method": "Fehler: Ungültige Methode! Verwende 'gradio', 'localtunnel' oder 'ngrok'.",
-  "apollo_enhancement_settings": "Apollo-Verbesserungseinstellungen",
-  "enhance_with_apollo": "Mit Apollo verbessern",
-  "enhance_with_apollo_info": "Apollo für Audioverbesserung nach der Trennung aktivieren",
-  "apollo_method": "Apollo-Methode",
-  "apollo_method_info": "Wähle die Verarbeitungsmethode für Apollo",
-  "normal_method": "Normale Methode",
-  "mid_side_method": "Mitte/Seite-Methode",
-  "apollo_normal_model": "Apollo Normalmodell",
-  "apollo_normal_model_info": "Modell für normale Apollo-Verarbeitung",
-  "apollo_midside_model": "Apollo Mitte/Seite-Modell",
-  "apollo_enhancement_info": "Verbesserung der Klangqualität",
-  "selected_models": "Ausgewählte Modelle",
-  "save_preset": "Voreinstellung Speichern",
-  "delete_preset": "Voreinstellung Löschen",
-  "refresh_presets": "Voreinstellungen Aktualisieren",
-  "preset_name": "Name der Voreinstellung",
-  "select_preset": "Voreinstellung Auswählen",
-  "add_favorite": "Zu Favoriten Hinzufügen",
-  "apollo_midside_model_info": "Modell für Mitte/Seite-Verarbeitung (optional)",
-  "language_changed_message": "Sprache geändert. Bitte starte die Zelle neu.",
-  "apply_matchering": "Matchering anwenden",
-  "matchering_info": "Matchering anwenden, um Audio-Mastering und -Balance zu verbessern",
-  "matchering_passes": "Matchering-Durchgänge",
-  "matchering_passes_info": "Anzahl der Matchering-Iterationen (1-5, höhere Werte verbessern die Qualität, dauern aber länger)",
-  "matchering_processing": "Matchering wird angewendet... ({:.1f}%)",
-  "matchering_completed": "✅ Matchering-Verarbeitung abgeschlossen!",
-  "matchering_error": "❌ Fehler während Matchering: {}"
-}

 {
   "select_language": "Sprache auswählen",
   "gecekondu_production": "Gecekondu Production",
+  "ultimate_audio_separation": "Ihre ultimative Audio-Trennung",
   "presented_by": "Präsentiert von Gecekondu Production © 2025",
   "audio_separation_tab": "🎙️ Audio-Trennung",
   "input_model": "📥 Eingabe & Modell",
   "settings": "⚙ Einstellungen",
   "format": "Format",
   "chunk_size": "Chunk-Größe",
+  "chunk_size_info": "Nicht ändern, es sei denn, Sie haben spezifische Anforderungen",
   "overlap": "Überlappung",
+  "overlap_info": "Empfohlen: 2-10 (höhere Werte erhöhen die Qualität, erfordern aber mehr VRAM)",
+  "tta_boost": "TTA-Boost",
+  "tta_info": "Erhöht die Qualität, verlangsamt aber die Verarbeitung",
   "phase_fix": "Phasenkorrektur",
+  "use_phase_correction": "Erweiterte Phasenkorrektur anwenden",
+  "phase_fix_info": "Erweiterte Phasenkorrektur für Instrumentalspuren",
   "instrumental": "Instrumental",
+  "instrumental_info": "Gibt normalerweise 2 Ausgaben, manchmal nur eine - Sie müssen es ausprobieren! :)",
   "process": "🚀 Verarbeiten",
   "reset": "🧹 Zurücksetzen",
   "status": "Status",
   "drums": "Schlagzeug",
   "bass": "Bass",
   "effects": "Effekte",
+  "advanced_tab": "⚙ Erweitert",
   "phase_remix": "Phasen-Remix",
   "dry": "Trocken",
   "music": "Musik",
   "karaoke": "Karaoke",
+  "bleed": "Übersprechen",
+  "copy_to_drive": "📂 Auf Drive kopieren",
   "copy_status": "Kopierstatus",
   "files_will_be_copied": "Dateien werden hierher kopiert...",
+  "processing_tip": "<b>🔈 Verarbeitungstipp:</b> Für verrauschte Ergebnisse verwenden Sie die Modelle <code>bleed_suppressor_v1</code> oder <code>denoisedebleed</code> in der Kategorie <i>\"Entrauschen & Effektentfernung\"</i>, um die Ausgabe zu bereinigen",
   "waiting_for_processing": "Warten auf Verarbeitung...",
   "auto_ensemble_tab": "🤖 Auto-Ensemble",
   "upload_file": "Datei hochladen",
   "enter_file_path": "Oder Dateipfad eingeben",
   "file_path_placeholder": "Vollständigen Pfad zur Audiodatei eingeben",
+  "advanced_settings": "⚙️ Erweiterte Einstellungen",
   "use_tta": "TTA verwenden",
   "instrumental_only": "Nur Instrumental",
   "auto_overlap": "Überlappung",
   "auto_chunk_size": "Chunk-Größe",
   "output_format": "Ausgabeformat",
+  "model_selection": "🧠 Modellauswahl",
   "model_category": "Modellkategorie",
   "select_models": "Modelle aus Kategorie auswählen",
   "ensemble_settings": "⚡ Ensemble-Einstellungen",
   "original_audio_tab": "🔊 Original-Audio",
   "original_audio": "Original-Audio",
   "ensemble_result_tab": "🎚️ Ensemble-Ergebnis",
+  "output_preview": "Ausgabevorschau",
   "refresh_output": "🔄 Ausgabe aktualisieren",
   "ensemble_copy_status": "Ensemble-Ausgabe wird hierher kopiert...",
+  "guidelines": "<h4>Richtlinien zur Modellauswahl</h4><ul><li><strong>Kategorien nicht mischen:</strong> Das Kombinieren von Gesangs- und Instrumentalmodellen kann unerwünschte Mischungen erzeugen</li><li><strong>Hinweise zu Spezialmodellen:</strong><ul><li>Dualitätsmodelle (v1/v2) - Geben beide Stems aus</li><li>MDX23C Separator - Hybride Ergebnisse</li></ul></li><li><strong>Best Practice:</strong> Verwenden Sie 3-5 ähnliche Modelle aus derselben Kategorie</li></ul><div>💡 Pro-Tipp: Starten Sie mit der Kombination \"VOCALS-MelBand-Roformer BigBeta5e\" + \"VOCALS-BS-Roformer_1297\"</div>",
   "download_sources_tab": "⬇️ Quellen herunterladen",
   "direct_links": "🌐 Direkte Links",
   "audio_file_url": "Audio-Datei-URL",
   "downloaded_file": "Heruntergeladene Datei",
   "cookie_management": "🍪 Cookie-Verwaltung",
   "upload_cookies_txt": "Cookies.txt hochladen",
+  "cookie_info": "<div style=\"margin-left:15px; font-size:0.95em\">**📌 Warum notwendig?**<br>- Zugriff auf altersbeschränkte Inhalte<br>- Herunterladen privater/nicht gelisteter Videos<br>- Umgehung regionaler Einschränkungen<br>- Vermeidung von YouTube-Download-Limits<br><br>**⚠️ Wichtige Hinweise**<br>- Teilen Sie Ihre Cookie-Dateien NIEMALS!<br>- Aktualisieren Sie Cookies, wenn:<br>  • \"403 Verboten\"-Fehler auftreten<br>  • Downloads plötzlich stoppen<br>  • \"Sitzung abgelaufen\"-Meldungen erscheinen<br><br>**🔄 Aktualisierungsschritte**<br>1. Installieren Sie diese <a href=\"https://chromewebstore.google.com/detail/get-cookiestxt-clean/ahmnmhfbokciafffnknlekllgcnafnie\" target=\"_blank\">Chrome-Erweiterung</a><br>2. Melden Sie sich in Chrome bei YouTube an<br>3. Klicken Sie auf das Erweiterungs-Symbol → \"Exportieren\"<br>4. Laden Sie die heruntergeladene Datei hier hoch<br><br>**⏳ Cookie-Lebensdauer**<br>- Normale Sitzungen: 24 Stunden<br>- Sensible Operationen: 1 Stunde<br>- Passwortänderung: Sofortige Aktualisierung</div>",
+  "ensemble_output_copied": "✅ Ensemble-Ausgabe nach {} kopiert",
+  "error_copying_ensemble_output": "❌ Fehler beim Kopieren der Ensemble-Ausgabe: {}",
+  "drive_mounted_copying_ensemble": "Google Drive gemountet. Kopiere Ensemble-Ausgabe...",
+  "drive_already_mounted_copying_ensemble": "Google Drive bereits gemountet. Kopiere Ensemble-Ausgabe...",
+  "no_ensemble_output_files_found": "❌ Keine Ensemble-Ausgabedateien gefunden.",
+  "drive_mounted_copying_files": "Google Drive gemountet. Kopiere Dateien...",
+  "drive_already_mounted_copying_files": "Google Drive bereits gemountet. Kopiere Dateien...",
+  "files_copied_to_drive": "✅ Dateien nach {} kopiert",
+  "error_copying_files": "❌ Fehler beim Kopieren der Dateien: {}",
+  "mounting_drive": "Google Drive wird gemountet...",
+  "settings_saved": "Einstellungen in config.json gespeichert: Sprache={lang}, Methode={method}, Port={port}",
+  "selected_language": "Ausgewählte Sprache: {lang}",
+  "available_languages": "Verfügbare Sprachen: {langs}",
+  "select_language_prompt": "Wählen Sie eine Sprache (Standard: {default}): ",
+  "invalid_language": "Ungültige Sprachauswahl! Verwende Standardsprache ({default}).",
+  "available_sharing_methods": "Verfügbare Freigabemethoden: gradio, localtunnel, ngrok",
+  "select_sharing_method_prompt": "Wählen Sie eine Freigabemethode (Standard: {default}): ",
+  "enter_ngrok_token_prompt": "Geben Sie Ihren Ngrok-Token ein (Standard: {default}): ",
+  "ngrok_token_required": "Fehler: Ngrok-Token für ngrok-Methode erforderlich!",
+  "enter_port_prompt": "Geben Sie die Portnummer ein (Standard: {default}): ",
+  "opening_previous_url": "Öffne vorherige URL: {url}",
+  "open_url_manually": "Öffnen Sie die URL manuell in Colab: {url}",
+  "invalid_previous_url": "Ungültige vorherige URL: {url}, nicht geöffnet.",
+  "starting_method": "Starte {method} auf Port {port}...",
+  "process_stopped": "\n🛑 Prozess vom Benutzer gestoppt",
+  "selected_port": "Ausgewählter Port: {port}",
+  "starting_gradio_with_sharing": "Starte Gradio mit integrierter Freigabe...",
+  "starting_localtunnel": "Starte Localtunnel auf Port {port}...",
+  "share_link": "Freigabelink: {url}",
+  "password_ip": "Passwort-IP: {ip}",
+  "starting_ngrok": "Starte Ngrok auf Port {port}...",
+  "ngrok_url": "Ngrok-URL: {url}",
+  "ngrok_error": "Fehler beim Starten von Ngrok: {error}",
+  "auto_apollo_chunk_size": "Apollo-Chunk-Größe",
+  "auto_apollo_chunk_size_info": "Chunk-Größe für Apollo-Verbesserung (empfohlen: 19 für Universal-Modell)",
+  "auto_apollo_overlap": "Apollo-Überlappung",
+  "auto_enhancing_with_apollo": "Verbesserung mit Apollo ({}/{} Dateien)...",
+  "auto_apollo_processing_completed": "Apollo-Verarbeitung abgeschlossen!",
+  "auto_apollo_overlap_info": "Überlappung für Apollo-Verbesserung (empfohlen: 2)",
+  "apollo_chunk_size": "Apollo-Chunk-Größe",
+  "apollo_chunk_size_info": "Chunk-Größe für Apollo-Verbesserung (empfohlen: 19 für Universal-Modell)",
+  "apollo_overlap": "Apollo-Überlappung",
+  "enhance_with_apollo": "Mit Apollo verbessern",
+  "apollo_enhancement_info": "Audioqualitätsverbesserung",
+  "enhancing_with_apollo": "Verbesserung mit Apollo ({}/{} Dateien)...",
+  "apollo_processing_completed": "Apollo-Verarbeitung abgeschlossen!",
+  "apollo_overlap_info": "Überlappung für Apollo-Verbesserung (empfohlen: 2)",
+  "selected_models": "Ausgewählte Modelle",
+  "save_preset": "Preset speichern",
+  "delete_preset": "Preset löschen",
+  "refresh_presets": "Presets aktualisieren",
+  "preset_name": "Preset-Name",
+  "select_preset": "Preset auswählen",
+  "add_favorite": "Zu Favoriten hinzufügen",
+  "apply_matchering": "Matchering anwenden",
+  "matchering_info": "Matchering anwenden, um Audio-Mastering und -Balance zu verbessern",
+  "matchering_passes": "Matchering-Durchläufe",
+  "matchering_passes_info": "Anzahl der Matchering-Iterationen (1-5, höhere Werte verbessern die Qualität, dauern aber länger)",
+  "matchering_processing": "Matchering wird angewendet... ({:.1f}%)",
+  "matchering_completed": "✅ Matchering-Verarbeitung abgeschlossen!",
+  "matchering_error": "❌ Fehler während Matchering: {}",
+  "invalid_method": "Fehler: Ungültige Methode! Verwenden Sie 'gradio', 'localtunnel' oder 'ngrok'.",
+  "language_changed_message": "Sprache geändert. Bitte starten Sie die Zelle neu.",
+  "backend_settings": "🚀 Backend-Einstellungen",
+  "inference_backend": "Inference-Backend",
+  "optimization_mode": "Optimierungsmodus",
+  "optimization_mode_info": "Auswahl des PyTorch-Optimierungsmodus",
+  "mixed_precision_amp": "Gemischte Präzision (AMP)",
+  "mixed_precision_info": "2x schnellere Inference - empfohlen",
+  "tf32_acceleration": "TF32-Beschleunigung",
+  "tf32_acceleration_info": "Zusätzlicher Geschwindigkeitsboost für RTX 30xx+",
+  "cudnn_benchmark": "cuDNN-Benchmark",
+  "cudnn_benchmark_info": "Langsamer beim ersten Lauf, viel schneller bei nachfolgenden Läufen",
+  "ultra_optimized_pytorch": "ULTRA-OPTIMIERTES PyTorch-Backend",
+  "default_active_max_speed": "Standardmäßig aktiv - Maximale Geschwindigkeitsoptimierung",
+  "channels_last_mode": "Schnellstes für RTX-GPUs",
+  "compile_mode": "Zusätzliche Geschwindigkeit für PyTorch 2.0+",
+    "default_mode": "Standard",
   "manual_ensemble_tab": "🎚️ Manuelles Ensemble",
   "input_sources": "📂 Eingabequellen",
   "refresh": "🔄 Aktualisieren",
   "Vocal Models": "Gesangsmodelle",
   "Instrumental Models": "Instrumentalmodelle",
   "4-Stem Models": "4-Stem-Modelle",
+  "Denoise Models": "Entrauschungsmodelle",
+  "Dereverb Models": "Nachhallentfernungsmodelle",
   "Other Models": "Andere Modelle",
+  "Other Shapes": "Andere Modelle",
+  "ensemble_files_description": "Kombiniert mehrere Audiodateien zu einer einzigen Ausgabe unter Verwendung angegebener Ensemble-Methoden.",
   "ensemble_files_help": "Pfad zu allen Audiodateien für das Ensemble",
+  "ensemble_type_help": "Einer von: avg_wave, median_wave, min_wave, max_wave, avg_fft, median_fft, min_fft, max_fft",
+  "ensemble_weights_help": "Gewichte zum Erstellen des Ensembles. Anzahl der Gewichte muss der Anzahl der Dateien entsprechen",
   "ensemble_output_help": "Pfad zur WAV-Datei, in der das Ensemble-Ergebnis gespeichert wird",
   "ensemble_type_print": "Ensemble-Typ: {}",
   "num_input_files_print": "Anzahl der Eingabedateien: {}",
   "weights_print": "Gewichte: {}",
   "output_file_print": "Ausgabedatei: {}",
   "duration_mismatch_error": "Alle Dateien müssen die gleiche Dauer haben",
+  "file_not_found_error": "Fehler. Datei nicht gefunden: {}. Überprüfen Sie die Pfade.",
   "reading_chunk_print": "Lese Chunk aus Datei: {} (Start: {}s, Dauer: {}s)",
   "chunk_result_shape_print": "Chunk-Ergebnisform: {}",
+  "ensemble_completed_print": "Ensemble abgeschlossen. Ausgabe gespeichert in: {}",
   "file_deletion_error": "{} konnte nicht gelöscht werden: {}",
   "directory_not_exist_warning": "⚠️ Verzeichnis existiert nicht: {}",
   "not_a_directory_warning": "⚠️ Pfad ist kein Verzeichnis: {}",
   "error": "🔥 Fehler: {}",
   "ffmpeg_error": "FFmpeg-Fehler ({}): {}",
   "file_saved_successfully": "Datei erfolgreich gespeichert: {}",
+  "total_files_found": "Gesamtzahl gefundener Dateien: {}. Verwendete Abtastrate: {}",
   "total_progress": "Gesamtfortschritt",
+  "detailed_pbar_enabled": "Detaillierte Fortschrittsanzeige aktiviert: {}",
+  "loaded_audio": "Audio geladen: {}, Form: {}",
+  "cannot_read_track": "Track kann nicht gelesen werden: {}",
   "error_message": "Fehlermeldung: {}",
+  "demudding_track": "Track wird bereinigt (Phasen-Remix - Instrumental): {}",
   "elapsed_time": "Verstrichene Zeit: {:.2f} Sekunden.",
+  "proc_folder_description": "Verarbeitet Audiodateien in einem Ordner mit einem angegebenen Modell.",
   "model_type_help": "Modelltyp (bandit, bs_roformer, mdx23c, etc.)",
   "config_path_help": "Pfad zur Konfigurationsdatei",
   "demud_phaseremix_help": "Phasen-Remix für Instrumental aktivieren",
+  "start_checkpoint_help": "Anfangs-Checkpoint für gültige Gewichte",
+  "input_folder_help": "Ordner mit zu verarbeitenden Mischungen",
+  "audio_path_help": "Pfad zu einer einzelnen zu verarbeitenden Audiodatei",
   "store_dir_help": "Pfad zum Speichern der Ergebnisse",
   "device_ids_help": "Liste der GPU-IDs",
   "extract_instrumental_help": "Gesang invertieren, um Instrumental zu erhalten, falls vorhanden",
+  "disable_detailed_pbar_help": "Detaillierte Fortschrittsanzeige beim Demix deaktivieren",
+  "force_cpu_help": "CPU-Nutzung erzwingen, auch wenn CUDA verfügbar ist",
+  "flac_file_help": "FLAC-Datei statt WAV ausgeben",
   "export_format_help": "Exportformat und PCM-Typ",
   "pcm_type_help": "PCM-Typ für FLAC-Dateien",
+  "use_tta_help": "Test-Time-Augmentation aktivieren",
+  "lora_checkpoint_help": "Anfangs-Checkpoint für LoRA-Gewichte",
+  "cuda_available": "CUDA ist verfügbar, verwenden Sie --force_cpu zum Deaktivieren.",
   "using_device": "Verwendetes Gerät: {}",
   "instruments_print": "Instrumente: {}",
   "model_load_time": "Modell-Ladezeit: {:.2f} Sek.",
   "invalid_url": "❌ Ungültige URL",
   "cookie_file_updated": "✅ Cookie-Datei aktualisiert!",
+  "cookie_installation_error": "⚠️ Cookie-Installationsfehler: {}",
+  "google_drive_mount_error": "❌ Google Drive-Verbindungsfehler: {}",
+  "file_size_zero_error": "Dateigröße Null oder Datei nicht erstellt",
+  "google_drive_error": "❌ Google Drive-Download-Fehler: {}",
   "wav_conversion_failed": "WAV-Konvertierung fehlgeschlagen",
   "download_error": "❌ Download-Fehler: {}",
+  "file_copied_to_drive": "Datei nach Google Drive kopiert: {}",
+  "copy_to_drive_error": "❌ Fehler beim Kopieren nach Google Drive: {}",
+  "direct_download_failed": "Direkter Download der Datei fehlgeschlagen",
+  "direct_download_error": "❌ Direkter Download-Fehler: {}",
+  "invalid_google_drive_url": "❌ Ungültige Google Drive-URL",
+  "continuing_without_google_drive": "Google Drive-Verbindung fehlgeschlagen, fahre ohne fort...",
+  "skipping_drive_copy_no_mount": "⚠️ Google Drive nicht gemountet, überspringe Drive-Kopie...",
   "download_success": "🎉 Erfolgreich heruntergeladen!",
   "download_failed": "❌ Download fehlgeschlagen",
   "no_output_files_found": "❌ Keine Ausgabedateien gefunden.",
   "processing_audio": "Audio wird verarbeitet",
   "separating_audio": "Audio wird getrennt... ({:.1f}%)",
   "separation_complete": "Trennung abgeschlossen!",
+  "progress_parsing_error": "Fortschritts-Parsing-Fehler: {}",
   "error_occurred": "Ein Fehler ist aufgetreten: {}",
   "separation_process_completed": "Trennungsprozess abgeschlossen!",
+  "no_audio_file_error": "❌ Keine Audiodatei bereitgestellt und keine vorhandene Datei im Eingabeverzeichnis.",
   "no_input_progress_label": "Fehler: Keine Eingabe bereitgestellt -- 0.0%",
   "processing_audio_print": "Verarbeite Audio von: {} mit Modell: {}",
   "starting_audio_separation_progress_label": "Audio-Trennung wird gestartet... -- 0.0%",
   "separating_audio_progress_label": "Audio wird getrennt... -- {}.0%",
+  "audio_processing_completed_progress_label": "Audio-Verarbeitung abgeschlossen! -- 100.0%",
+  "audio_processing_completed": "✅ Audio-Verarbeitung abgeschlossen!",
   "error_occurred_progress_label": "Fehler aufgetreten -- 0.0%",
   "minimum_files_required": "⚠️ Mindestens 2 Dateien erforderlich",
+  "valid_files_not_found": "❌ Keine gültigen Dateien gefunden",
   "starting_ensemble_process": "Ensemble-Prozess wird gestartet...",
   "ensembling_progress": "Ensemble wird erstellt... ({:.1f}%)",
   "finalizing_ensemble_output": "Ensemble-Ausgabe wird finalisiert...",
   "no_input_audio_provided": "❌ Kein Eingabe-Audio bereitgestellt",
   "loading_model": "Lade Modell {}/{}: {}...",
   "loading_model_progress_label": "Lade Modell {}/{}: {}... -- {}.0%",
+  "completed_model": "Modell abgeschlossen {}/{}: {}",
+  "completed_model_progress_label": "Modell abgeschlossen {}/{}: {} -- {}.0%",
   "running_command": "Führe Befehl aus: {}",
   "model_failed": "Modell {} fehlgeschlagen: {}",
   "critical_error_with_model": "Kritischer Fehler mit {}: {}",
   "model_output_failed": "{} konnte keine Ausgabe erzeugen",
+  "waiting_for_files": "Warten auf Bereitstellung aller Dateien...",
+  "waiting_for_files_progress_label": "Warten auf Bereitstellung aller Dateien... -- 90.0%",
   "performing_ensemble": "Ensemble wird durchgeführt...",
   "performing_ensemble_progress_label": "Ensemble wird durchgeführt... -- 92.0%",
+  "memory_usage_before_ensemble": "Speichernutzung vor Ensemble: {}%",
+  "memory_usage_after_ensemble": "Speichernutzung nach Ensemble: {}%",
   "finalizing_ensemble_output_progress_label": "Ensemble-Ausgabe wird finalisiert... -- 98.0%",
   "ensemble_file_creation_failed": "Ensemble-Datei konnte nicht erstellt werden: {}",
   "ensemble_completed_progress_label": "Ensemble erfolgreich abgeschlossen! -- 100.0%",
   "success_output_created": "✅ Erfolg! Ausgabedatei erstellt.",
+  "phase_fixer_tab": "🔧 Phasenkorrektor",
+  "batch_processing_tab": "📦 Stapelverarbeitung",
+  "batch_description": "Mehrere Dateien gleichzeitig mit demselben Modell verarbeiten",
+  "batch_input_folder": "Eingabeordner",
+  "batch_input_folder_placeholder": "Pfad zum Ordner mit Audiodateien eingeben",
+  "batch_output_folder": "Ausgabeordner",
+  "batch_output_folder_placeholder": "Pfad zum Ausgabeordner eingeben",
+  "batch_file_list": "Zu verarbeitende Dateien",
+  "batch_add_files": "Dateien hinzufügen",
+  "batch_clear_list": "Liste leeren",
+  "batch_start": "🚀 Stapelverarbeitung starten",
+  "batch_stop": "⏹️ Stopp",
+  "batch_progress": "Stapelverarbeitungsfortschritt",
+  "batch_current_file": "Aktuell in Bearbeitung",
+  "batch_completed": "✅ Stapelverarbeitung abgeschlossen!",
+  "batch_stopped": "⏹️ Stapelverarbeitung gestoppt",
+  "batch_no_files": "❌ Keine Dateien für die Verarbeitung ausgewählt",
+  "source_model": "Quellmodell (Gesang)",
+  "source_model_info": "Modell zur Extraktion von Gesang/Phasendaten",
+  "target_model": "Zielmodell (Instrumental)",
+  "target_model_info": "Modell zur Anwendung der Phasenkorrektur",
+  "custom_models_tab": "⚡ Benutzerdefinierte Modelle",
+  "Custom Models": "Benutzerdefinierte Modelle",
+  "add_custom_model": "➕ Benutzerdefiniertes Modell hinzufügen",
+  "custom_model_name": "Modellname",
+  "custom_model_name_placeholder": "Geben Sie einen Namen für Ihr Modell ein",
+  "checkpoint_url": "Checkpoint-URL (.ckpt/.pth)",
+  "checkpoint_url_placeholder": "https://huggingface.co/.../model.ckpt",
+  "config_url": "Konfigurations-URL (.yaml)",
+  "config_url_placeholder": "https://huggingface.co/.../config.yaml",
+  "custom_py_url": "Benutzerdefinierte Python-Datei URL (optional)",
+  "custom_py_url_placeholder": "https://huggingface.co/.../bs_roformer.py",
+  "auto_detect_type": "Modelltyp automatisch erkennen",
+  "model_type": "Modelltyp",
+  "add_model_btn": "➕ Modell hinzufügen",
+  "custom_models_list": "📋 Liste benutzerdefinierter Modelle",
+  "delete_model": "🗑️ Löschen",
+  "no_custom_models": "Noch keine benutzerdefinierten Modelle hinzugefügt",
+  "model_added_success": "✅ Modell erfolgreich hinzugefügt!",
+  "model_deleted_success": "✅ Modell erfolgreich gelöscht!",
+  "model_add_error": "❌ Fehler beim Hinzufügen des Modells: {}",
+  "model_delete_error": "❌ Fehler beim Löschen des Modells: {}",
+  "refresh_models": "🔄 Aktualisieren",
+  "custom_model_info": "Fügen Sie benutzerdefinierte Modelle durch Angabe von Download-Links hinzu. Modelle werden bei Verwendung automatisch heruntergeladen.",
+  "select_model_to_delete": "Wählen Sie ein Modell zum Löschen aus",
+  "downloading_model_file": "Modell wird heruntergeladen: {}",

assets/i18n/languages/en_us.json CHANGED Viewed

@@ -81,6 +81,27 @@
   "upload_cookies_txt": "Upload Cookies.txt",
   "cookie_info": "<div style=\"margin-left:15px; font-size:0.95em\">**📌 Why Needed?**<br>- Access age-restricted content<br>- Download private/unlisted videos<br>- Bypass regional restrictions<br>- Avoid YouTube download limits<br><br>**⚠️ Important Notes**<br>- NEVER share your cookie files!<br>- Refresh cookies when:<br>  • Getting \"403 Forbidden\" errors<br>  • Downloads suddenly stop<br>  • Seeing \"Session expired\" messages<br><br>**🔄 Renewal Steps**<br>1. Install this <a href=\"https://chromewebstore.google.com/detail/get-cookiestxt-clean/ahmnmhfbokciafffnknlekllgcnafnie\" target=\"_blank\">Chrome extension</a><br>2. Login to YouTube in Chrome<br>3. Click extension icon → \"Export\"<br>4. Upload the downloaded file here<br><br>**⏳ Cookie Lifespan**<br>- Normal sessions: 24 hours<br>- Sensitive operations: 1 hour<br>- Password changes: Immediate invalidation</div>",
   "manual_ensemble_tab": "🎚️ Manual Ensemble",
   "input_sources": "📂 Input Sources",
   "refresh": "🔄 Refresh",
   "ensemble_algorithm": "Ensemble Algorithm",
@@ -165,6 +186,10 @@
   "file_copied_to_drive": "File copied to Google Drive: {}",
   "copy_to_drive_error": "❌ Error copying to Google Drive: {}",
   "direct_download_failed": "Failed to download the file directly",
   "download_success": "🎉 Downloaded successfully!",
   "download_failed": "❌ Download failed",
   "no_output_files_found": "❌ No output files found.",
@@ -275,5 +300,79 @@
   "matchering_completed": "✅ Matchering processing completed!",
   "matchering_error": "❌ Error during Matchering: {}",
   "invalid_method": "Error: Invalid method! Use 'gradio', 'localtunnel', or 'ngrok'.",
-  "language_changed_message": "Language changed. please restart the cell."
 }

   "upload_cookies_txt": "Upload Cookies.txt",
   "cookie_info": "<div style=\"margin-left:15px; font-size:0.95em\">**📌 Why Needed?**<br>- Access age-restricted content<br>- Download private/unlisted videos<br>- Bypass regional restrictions<br>- Avoid YouTube download limits<br><br>**⚠️ Important Notes**<br>- NEVER share your cookie files!<br>- Refresh cookies when:<br>  • Getting \"403 Forbidden\" errors<br>  • Downloads suddenly stop<br>  • Seeing \"Session expired\" messages<br><br>**🔄 Renewal Steps**<br>1. Install this <a href=\"https://chromewebstore.google.com/detail/get-cookiestxt-clean/ahmnmhfbokciafffnknlekllgcnafnie\" target=\"_blank\">Chrome extension</a><br>2. Login to YouTube in Chrome<br>3. Click extension icon → \"Export\"<br>4. Upload the downloaded file here<br><br>**⏳ Cookie Lifespan**<br>- Normal sessions: 24 hours<br>- Sensitive operations: 1 hour<br>- Password changes: Immediate invalidation</div>",
   "manual_ensemble_tab": "🎚️ Manual Ensemble",
+  "phase_fixer_tab": "🔧 Phase Fixer",
+  "batch_processing_tab": "📦 Batch Processing",
+  "batch_description": "Process multiple files at once with the same model",
+  "batch_input_folder": "Input Folder",
+  "batch_input_folder_placeholder": "Enter folder path containing audio files",
+  "batch_output_folder": "Output Folder",
+  "batch_output_folder_placeholder": "Enter folder path for output files",
+  "batch_file_list": "Files to Process",
+  "batch_add_files": "Add Files",
+  "batch_clear_list": "Clear List",
+  "batch_start": "🚀 Start Batch Processing",
+  "batch_stop": "⏹️ Stop",
+  "batch_progress": "Batch Progress",
+  "batch_current_file": "Currently Processing",
+  "batch_completed": "✅ Batch processing completed!",
+  "batch_stopped": "⏹️ Batch processing stopped",
+  "batch_no_files": "❌ No files selected for processing",
+  "source_model": "Source Model (Vocals)",
+  "source_model_info": "Model for extracting vocals/phase data",
+  "target_model": "Target Model (Instrumental)",
+  "target_model_info": "Model to apply phase correction",
   "input_sources": "📂 Input Sources",
   "refresh": "🔄 Refresh",
   "ensemble_algorithm": "Ensemble Algorithm",
   "file_copied_to_drive": "File copied to Google Drive: {}",
   "copy_to_drive_error": "❌ Error copying to Google Drive: {}",
   "direct_download_failed": "Failed to download the file directly",
+  "direct_download_error": "❌ Direct download error: {}",
+  "invalid_google_drive_url": "❌ Invalid Google Drive URL",
+  "continuing_without_google_drive": "Google Drive connection failed, continuing without it...",
+  "skipping_drive_copy_no_mount": "⚠️ Google Drive not mounted, skipping Drive copy...",
   "download_success": "🎉 Downloaded successfully!",
   "download_failed": "❌ Download failed",
   "no_output_files_found": "❌ No output files found.",
   "matchering_completed": "✅ Matchering processing completed!",
   "matchering_error": "❌ Error during Matchering: {}",
   "invalid_method": "Error: Invalid method! Use 'gradio', 'localtunnel', or 'ngrok'.",
+  "language_changed_message": "Language changed. please restart the cell.",
+  "backend_settings": "🚀 Backend Settings",
+  "inference_backend": "Inference Backend",
+  "optimization_mode": "Optimization Mode",
+  "optimization_mode_info": "PyTorch optimization mode selection",
+  "mixed_precision_amp": "Mixed Precision (AMP)",
+  "mixed_precision_info": "2x faster inference - recommended",
+  "tf32_acceleration": "TF32 Acceleration",
+  "tf32_acceleration_info": "Extra speed boost for RTX 30xx+",
+  "cudnn_benchmark": "cuDNN Benchmark",
+  "cudnn_benchmark_info": "Slower at first run, much faster on subsequent runs",
+  "ultra_optimized_pytorch": "ULTRA-OPTIMIZED PyTorch Backend",
+  "default_active_max_speed": "Active by default - Maximum speed optimization",
+  "channels_last_mode": "Fastest for RTX GPUs",
+  "compile_mode": "Extra speed for PyTorch 2.0+",
+  "default_mode": "Standard",
+  "tta_info": "Increases quality but slows down processing",
+  "instrumental_info": "Usually outputs 2 stems, but sometimes only one - you need to try! :)",
+  "custom_models_tab": "⚡ Custom Models",
+  "Custom Models": "Custom Models",
+  "add_custom_model": "➕ Add Custom Model",
+  "custom_model_name": "Model Name",
+  "custom_model_name_placeholder": "Enter a name for your model",
+  "checkpoint_url": "Checkpoint URL (.ckpt/.pth)",
+  "checkpoint_url_placeholder": "https://huggingface.co/.../model.ckpt",
+  "config_url": "Config URL (.yaml)",
+  "config_url_placeholder": "https://huggingface.co/.../config.yaml",
+  "custom_py_url": "Custom Python File URL (optional)",
+  "custom_py_url_placeholder": "https://huggingface.co/.../bs_roformer.py",
+  "auto_detect_type": "Auto-detect model type",
+  "model_type": "Model Type",
+  "add_model_btn": "➕ Add Model",
+  "custom_models_list": "📋 Custom Models List",
+  "delete_model": "🗑️ Delete",
+  "no_custom_models": "No custom models added yet",
+  "model_added_success": "✅ Model added successfully!",
+  "model_deleted_success": "✅ Model deleted successfully!",
+  "model_add_error": "❌ Error adding model: {}",
+  "model_delete_error": "❌ Error deleting model: {}",
+  "refresh_models": "🔄 Refresh",
+  "custom_model_info": "Add custom models by providing download links. Models will be downloaded automatically when used.",
+  "select_model_to_delete": "Select a model to delete",
+  "downloading_model_file": "Downloading model: {}",
+  "downloading_file_progress": "Downloading: {} - {}%",
+  "chunk_size_mode": "Chunk Size Mode",
+  "chunk_size_mode_info": "base: standard presets | custom: enter your own value | yaml: read from model YAML after download",
+  "chunk_size_custom_label": "Custom Chunk Size",
+  "chunk_size_custom_info": "Enter a custom chunk size value",
+  "chunk_size_yaml_label": "YAML Chunk Size",
+  "chunk_size_yaml_display_info": "Will be read from the model's YAML config after download",
+  "chunk_size_yaml_not_downloaded": "⏳ Model YAML not downloaded yet — value will be read during processing",
+  "chunk_size_yaml_detected": "✅ From YAML: {}",
+  "remove_favorite": "Remove from Favorites",
+  "normal_method": "Normal method",
+  "mid_side_method": "Mid-side method",
+  "apollo_processing_method": "Apollo Processing Method",
+  "apollo_normal_model": "Apollo Normal Model",
+  "apollo_mid_side_model": "Apollo Mid-Side Model",
+  "scale_factor": "Scale Factor",
+  "scale_factor_info": "Phase scaling factor (recommended: 1.4)",
+  "source_file_label": "Source File (Vocals)",
+  "target_file_label": "Target File (Instrumental)",
+  "run_phase_fixer": "🔧 Run Phase Fixer",
+  "phase_fixed_output": "Phase-Fixed Output",
+  "phase_fixer_settings": "Phase Fixer Settings",
+  "low_cutoff": "Low Cutoff (Hz)",
+  "high_cutoff": "High Cutoff (Hz)",
+  "low_cutoff_info": "Low frequency cutoff for phase correction",
+  "high_cutoff_info": "High frequency cutoff for phase correction",
+  "no_preset_name_provided": "⚠️ No preset name provided",
+  "no_models_selected_for_preset": "⚠️ No models selected for preset",
+  "preset_saved": "✅ Preset '{}' saved!",
+  "please_upload_both_files": "⚠️ Please upload both source and target files",
+  "processing_log_placeholder": "Processing log will appear here...",
+  "enter_preset_name": "Enter preset name..."
 }

assets/i18n/languages/es_es.json CHANGED Viewed

@@ -17,11 +17,10 @@
   "overlap": "Solapamiento",
   "overlap_info": "Recomendado: 2-10 (valores más altos mejoran la calidad pero requieren más VRAM)",
   "tta_boost": "Impulso TTA",
-  "tta_info": "Mejora la calidad pero ralentiza la velocidad de procesamiento",
   "phase_fix": "Corrección de fase",
   "phase_fix_info": "Corrección avanzada de fase para pistas instrumentales",
   "instrumental": "Instrumental",
-  "instrumental_info": "Normalmente da 2 salidas, pero a veces da una sola salida, ¡tienes que probar! :)",
   "process": "🚀 Procesar",
   "reset": "🧹 Restablecer",
   "status": "Estado",
@@ -80,7 +79,87 @@
   "downloaded_file": "Archivo descargado",
   "cookie_management": "🍪 Gestión de cookies",
   "upload_cookies_txt": "Subir Cookies.txt",
-  "cookie_info": "<div style=\"margin-left:15px; font-size:0.95em\">**📌 ¿Por qué es necesario?**<br>- Acceso a contenido restringido por edad<br>- Descarga de videos privados/no listados<br>- Evitar restricciones regionales<br>- Evitar límites de descarga de YouTube<br><br>**⚠️ Notas importantes**<br>- ¡NUNCA compartas tus archivos de cookies!<br>- Actualiza las cookies cuando:<br>  • Recibes errores \"403 Prohibido\"<br>  • Las descargas se detienen repentinamente<br>  • Ves mensajes de \"Sesión expirada\"<br><br>**🔄 Pasos para renovar**<br>1. Instala esta <a href=\"https://chromewebstore.google.com/detail/get-cookiestxt-clean/ahmnmhfbokciafffnknlekllgcnafnie\" target=\"_blank\">extensión de Chrome</a><br>2. Inicia sesión en YouTube en Chrome<br>3. Haz clic en el ícono de la extensión → \"Exportar\"<br>4. Sube el archivo descargado aquí<br><br>**⏳ Vida útil de las cookies**<br>- Sesiones normales: 24 horas<br>- Operaciones sensibles: 1 hora<br>- Cambios de contraseña: Invalidación inmediata</div>",
   "manual_ensemble_tab": "🎚️ Ensamblaje manual",
   "input_sources": "📂 Fuentes de entrada",
   "refresh": "🔄 Actualizar",
@@ -93,19 +172,20 @@
   "result_preview_tab": "🎧 Vista previa del resultado",
   "ensembled_output": "Salida ensamblada",
   "processing_log_tab": "📋 Registro de procesamiento",
-  "processing_details": "Detalles de procesamiento",
   "process_ensemble": "⚡ Procesar ensamblaje",
   "languages_tab": "🌐 Idiomas",
   "Vocal Models": "Modelos vocales",
   "Instrumental Models": "Modelos instrumentales",
-  "4-Stem Models": "Modelos de 4 stems",
   "Denoise Models": "Modelos de eliminación de ruido",
   "Dereverb Models": "Modelos de eliminación de reverberación",
   "Other Models": "Otros modelos",
-  "ensemble_files_description": "Combina varios archivos de audio en una sola salida usando métodos de ensamblaje especificados.",
-  "ensemble_files_help": "Ruta a todos los archivos de audio para el ensamblaje",
-  "ensemble_type_help": "Uno de avg_wave, median_wave, min_wave, max_wave, avg_fft, median_fft, min_fft, max_fft",
-  "ensemble_weights_help": "Pesos para crear el ensamblaje. El número de pesos debe igualar el número de archivos",
   "ensemble_output_help": "Ruta al archivo WAV donde se almacenará el resultado del ensamblaje",
   "ensemble_type_print": "Tipo de ensamblaje: {}",
   "num_input_files_print": "Número de archivos de entrada: {}",
@@ -116,7 +196,7 @@
   "reading_chunk_print": "Leyendo fragmento del archivo: {} (inicio: {}s, duración: {}s)",
   "chunk_result_shape_print": "Forma del resultado del fragmento: {}",
   "ensemble_completed_print": "Ensamblaje completado. Salida guardada en: {}",
-  "file_deletion_error": "{} no pudo ser eliminado: {}",
   "directory_not_exist_warning": "⚠️ El directorio no existe: {}",
   "not_a_directory_warning": "⚠️ La ruta no es un directorio: {}",
   "item_deletion_error": "⚠️ Error al eliminar {}: {}",
@@ -125,67 +205,75 @@
   "error": "🔥 Error: {}",
   "ffmpeg_error": "Error de FFmpeg ({}): {}",
   "file_saved_successfully": "Archivo guardado con éxito: {}",
-  "total_files_found": "Total de archivos encontrados: {}. Usando tasa de muestreo: {}",
   "total_progress": "Progreso total",
-  "detailed_pbar_enabled": "Barra de progreso detallada activada: {}",
   "loaded_audio": "Audio cargado: {}, forma: {}",
   "cannot_read_track": "No se puede leer la pista: {}",
   "error_message": "Mensaje de error: {}",
-  "demudding_track": "Desm Mezclando pista (remezcla de fase - instrumental): {}",
   "elapsed_time": "Tiempo transcurrido: {:.2f} segundos.",
   "proc_folder_description": "Procesa archivos de audio en una carpeta usando un modelo especificado.",
   "model_type_help": "Tipo de modelo (bandit, bs_roformer, mdx23c, etc.)",
   "config_path_help": "Ruta al archivo de configuración",
   "demud_phaseremix_help": "Habilitar remezcla de fase para instrumental",
   "start_checkpoint_help": "Punto de control inicial para pesos válidos",
-  "input_folder_help": "Carpeta con mezclas para procesar",
-  "audio_path_help": "Ruta a un solo archivo de audio para procesar",
-  "store_dir_help": "Ruta para almacenar los resultados",
   "device_ids_help": "Lista de IDs de GPU",
-  "extract_instrumental_help": "Invertir las voces para obtener instrumental si se proporciona",
-  "disable_detailed_pbar_help": "Deshabilitar barra de progreso detallada en la desmezcla",
   "force_cpu_help": "Forzar el uso de CPU incluso si CUDA está disponible",
   "flac_file_help": "Generar archivo FLAC en lugar de WAV",
   "export_format_help": "Formato de exportación y tipo PCM",
   "pcm_type_help": "Tipo PCM para archivos FLAC",
   "use_tta_help": "Habilitar aumento en tiempo de prueba",
   "lora_checkpoint_help": "Punto de control inicial para pesos LoRA",
-  "cuda_available": "CUDA está disponible, usa --force_cpu para deshabilitarlo.",
   "using_device": "Usando dispositivo: {}",
   "instruments_print": "Instrumentos: {}",
   "model_load_time": "Tiempo de carga del modelo: {:.2f} seg",
   "invalid_url": "❌ URL inválida",
   "cookie_file_updated": "✅ ¡Archivo de cookies actualizado!",
-  "cookie_installation_error": "⚠️ Error en la instalación de cookies: {}",
-  "file_size_zero_error": "Tamaño del archivo cero o archivo no creado",
   "google_drive_error": "❌ Error de descarga de Google Drive: {}",
-  "wav_conversion_failed": "Fallo en la conversión a WAV",
   "download_error": "❌ Error de descarga: {}",
   "download_success": "🎉 ¡Descargado con éxito!",
-  "download_failed": "❌ Fallo en la descarga",
   "no_output_files_found": "❌ No se encontraron archivos de salida.",
   "output_refreshed_successfully": "✅ ¡Salida actualizada con éxito!",
-  "error_refreshing_output": "❌ Error al actualizar la salida: {}",
   "starting_audio_separation": "Iniciando separación de audio...",
   "processing_audio": "Procesando audio",
   "separating_audio": "Separando audio... ({:.1f}%)",
-  "separation_complete": "¡Separación completada!",
-  "progress_parsing_error": "Error al analizar el progreso: {}",
   "error_occurred": "Ocurrió un error: {}",
   "separation_process_completed": "¡Proceso de separación completado!",
   "no_audio_file_error": "❌ No se proporcionó archivo de audio y no hay archivo existente en el directorio de entrada.",
   "no_input_progress_label": "Error: No se proporcionó entrada -- 0.0%",
-  "processing_audio_print": "Procesando audio desde: {} usando el modelo: {}",
   "starting_audio_separation_progress_label": "Iniciando separación de audio... -- 0.0%",
   "separating_audio_progress_label": "Separando audio... -- {}.0%",
   "audio_processing_completed_progress_label": "¡Procesamiento de audio completado! -- 100.0%",
   "audio_processing_completed": "✅ ¡Procesamiento de audio completado!",
   "error_occurred_progress_label": "Ocurrió un error -- 0.0%",
-  "minimum_files_required": "⚠️ Se requieren al menos 2 archivos",
   "valid_files_not_found": "❌ No se encontraron archivos válidos",
   "starting_ensemble_process": "Iniciando proceso de ensamblaje...",
   "ensembling_progress": "Ensamblando... ({:.1f}%)",
-  "finalizing_ensemble_output": "Finalizando salida del ensamblaje...",
   "success_log": "✅ ¡Éxito!\n{}",
   "error_log": "❌ ¡Error!\n{}",
   "critical_error": "⛔ Error crítico: {}",
@@ -197,84 +285,95 @@
   "completed_model": "Modelo completado {}/{}: {}",
   "completed_model_progress_label": "Modelo completado {}/{}: {} -- {}.0%",
   "running_command": "Ejecutando comando: {}",
-  "model_failed": "El modelo {} falló: {}",
   "critical_error_with_model": "Error crítico con {}: {}",
-  "model_output_failed": "{} falló al producir salida",
-  "waiting_for_files": "Esperando a que todos los archivos estén listos...",
-  "waiting_for_files_progress_label": "Esperando a que todos los archivos estén listos... -- 90.0%",
   "performing_ensemble": "Realizando ensamblaje...",
   "performing_ensemble_progress_label": "Realizando ensamblaje... -- 92.0%",
   "memory_usage_before_ensemble": "Uso de memoria antes del ensamblaje: {}%",
   "memory_usage_after_ensemble": "Uso de memoria después del ensamblaje: {}%",
-  "finalizing_ensemble_output_progress_label": "Finalizando salida del ensamblaje... -- 98.0%",
   "ensemble_file_creation_failed": "No se pudo crear el archivo de ensamblaje: {}",
   "ensemble_completed_progress_label": "¡Ensamblaje completado con éxito! -- 100.0%",
   "success_output_created": "✅ ¡Éxito! Archivo de salida creado.",
-  "drive_mounted_copying_ensemble": "Google Drive montado. Copiando salida del ensamblaje...",
-  "drive_already_mounted_copying_ensemble": "Google Drive ya montado. Copiando salida del ensamblaje...",
-  "no_ensemble_output_files_found": "❌ No se encontraron archivos de salida de ensamblaje.",
-  "ensemble_output_copied": "✅ Salida del ensamblaje copiada a {}",
-  "error_copying_ensemble_output": "❌ Error al copiar la salida del ensamblaje: {}",
-  "drive_mounted_copying_files": "Google Drive montado. Copiando archivos...",
-  "drive_already_mounted_copying_files": "Google Drive ya montado. Copiando archivos...",
-  "files_copied_to_drive": "✅ Archivos copiados a {}",
-  "error_copying_files": "❌ Error al copiar archivos: {}",
-  "mounting_drive": "Montando Google Drive...",
-  "settings_saved": "Configuración guardada en config.json: Idioma={lang}, Método={method}, Puerto={port}",
-  "selected_language": "Idioma seleccionado: {lang}",
-  "available_languages": "Idiomas disponibles: {langs}",
-  "select_language_prompt": "Selecciona un idioma (predeterminado: {default}): ",
-  "invalid_language": "¡Selección de idioma inválida! Usando idioma predeterminado ({default}).",
-  "available_sharing_methods": "Métodos de compartición disponibles: gradio, localtunnel, ngrok",
-  "select_sharing_method_prompt": "Elige un método de compartición (predeterminado: {default}): ",
-  "enter_ngrok_token_prompt": "Ingresa tu token de Ngrok (predeterminado: {default}): ",
-  "ngrok_token_required": "Error: ¡Se requiere un token de Ngrok para el método ngrok!",
-  "enter_port_prompt": "Ingresa el número de puerto (predeterminado: {default}): ",
-  "opening_previous_url": "Abriendo URL anterior: {url}",
-  "open_url_manually": "Abre la URL manualmente en Colab: {url}",
-  "invalid_previous_url": "URL anterior inválida: {url}, no abierta.",
-  "starting_method": "Iniciando {method} en el puerto {port}...",
-  "process_stopped": "\n🛑 Proceso detenido por el usuario",
-  "selected_port": "Puerto seleccionado: {port}",
-  "starting_gradio_with_sharing": "Iniciando Gradio con compartición integrada...",
-  "starting_localtunnel": "Iniciando Localtunnel en el puerto {port}...",
-  "share_link": "Enlace para compartir: {url}",
-  "password_ip": "Contraseña IP: {ip}",
-  "starting_ngrok": "Iniciando Ngrok en el puerto {port}...",
-  "ngrok_url": "URL de Ngrok: {url}",
-  "ngrok_error": "Error al iniciar Ngrok: {error}",
-  "apollo_chunk_size": "Tamaño de fragmento Apollo",
-  "apollo_chunk_size_info": "Tamaño de fragmento para mejora Apollo (recomendado: 19 para modelo universal)",
-  "apollo_overlap": "Solapamiento Apollo",
-  "enhancing_with_apollo": "Mejorando con Apollo ({}/{} archivos)...",
-  "apollo_processing_completed": "¡Procesamiento Apollo completado!",
-  "apollo_overlap_info": "Solapamiento para mejora Apollo (recomendado: 2)",
-  "invalid_method": "Error: ¡Método inválido! Usa 'gradio', 'localtunnel' o 'ngrok'.",
-  "apollo_enhancement_settings": "Configuración de mejora Apollo",
-  "enhance_with_apollo": "Mejorar con Apollo",
-  "enhance_with_apollo_info": "Habilitar Apollo para mejora de audio después de la separación",
-  "apollo_method": "Método Apollo",
-  "apollo_method_info": "Selecciona el método de procesamiento para Apollo",
   "normal_method": "Método normal",
-  "mid_side_method": "Método centro/lateral",
-  "apollo_normal_model": "Modelo Apollo normal",
-  "apollo_normal_model_info": "Modelo a usar para procesamiento Apollo normal",
-  "apollo_midside_model": "Modelo Apollo centro/lateral",
-  "apollo_enhancement_info": "Mejora de la calidad del sonido",
-  "selected_models": "Modelos Seleccionados",
-  "save_preset": "Guardar Preajuste",
-  "delete_preset": "Eliminar Preajuste",
-  "refresh_presets": "Actualizar Preajustes",
-  "preset_name": "Nombre del Preajuste",
-  "select_preset": "Seleccionar Preajuste",
-  "add_favorite": "Añadir a Favoritos",
-  "apollo_midside_model_info": "Modelo a usar para procesamiento centro/lateral (opcional)",
-  "language_changed_message": "Idioma cambiado. Por favor, reinicia la celda.",
-  "apply_matchering": "Aplicar Matchering",
-  "matchering_info": "Aplicar Matchering para mejorar el masterizado y el balance del audio",
-  "matchering_passes": "Pasadas de Matchering",
-  "matchering_passes_info": "Número de iteraciones de Matchering (1-5, valores más altos mejoran la calidad pero toman más tiempo)",
-  "matchering_processing": "Aplicando Matchering... ({:.1f}%)",
-  "matchering_completed": "✅ ¡Procesamiento de Matchering completado!",
-  "matchering_error": "❌ Error durante Matchering: {}"
 }

   "overlap": "Solapamiento",
   "overlap_info": "Recomendado: 2-10 (valores más altos mejoran la calidad pero requieren más VRAM)",
   "tta_boost": "Impulso TTA",
   "phase_fix": "Corrección de fase",
+  "use_phase_correction": "Aplicar Corrección de Fase Avanzada",
   "phase_fix_info": "Corrección avanzada de fase para pistas instrumentales",
   "instrumental": "Instrumental",
   "process": "🚀 Procesar",
   "reset": "🧹 Restablecer",
   "status": "Estado",
   "downloaded_file": "Archivo descargado",
   "cookie_management": "🍪 Gestión de cookies",
   "upload_cookies_txt": "Subir Cookies.txt",
+  "cookie_info": "<div style=\"margin-left:15px; font-size:0.95em\">**📌 ¿Por qué es necesario?**<br>- Acceso a contenido con restricción de edad<br>- Descarga de videos privados/no listados<br>- Evitar restricciones regionales<br>- Evitar límites de descarga de YouTube<br><br>**⚠️ Notas Importantes**<br>- ¡NUNCA compartas tus archivos de cookies!<br>- Actualiza cookies cuando:<br>  • Obtengas errores \"403 Prohibido\"<br>  • Las descargas se detengan de repente<br>  • Veas mensajes \"Sesión expirada\"<br><br>**🔄 Pasos de Renovación**<br>1. Instala esta <a href=\"https://chromewebstore.google.com/detail/get-cookiestxt-clean/ahmnmhfbokciafffnknlekllgcnafnie\" target=\"_blank\">extensión de Chrome</a><br>2. Inicia sesión en YouTube en Chrome<br>3. Haz clic en el icono de la extensión → \"Exportar\"<br>4. Sube el archivo descargado aquí<br><br>**⏳ Vida Útil de Cookies**<br>- Sesiones normales: 24 horas<br>- Operaciones sensibles: 1 hora<br>- Cambio de contraseña: Actualización inmediata</div>",
+  "ensemble_output_copied": "✅ Salida del ensamblaje copiada a {}",
+  "error_copying_ensemble_output": "❌ Error al copiar salida del ensamblaje: {}",
+  "drive_mounted_copying_ensemble": "Google Drive montado. Copiando salida del ensamblaje...",
+  "drive_already_mounted_copying_ensemble": "Google Drive ya montado. Copiando salida del ensamblaje...",
+  "no_ensemble_output_files_found": "❌ No se encontraron archivos de salida del ensamblaje.",
+  "drive_mounted_copying_files": "Google Drive montado. Copiando archivos...",
+  "drive_already_mounted_copying_files": "Google Drive ya montado. Copiando archivos...",
+  "files_copied_to_drive": "✅ Archivos copiados a {}",
+  "error_copying_files": "❌ Error al copiar archivos: {}",
+  "mounting_drive": "Montando Google Drive...",
+  "settings_saved": "Configuración guardada en config.json: Idioma={lang}, Método={method}, Puerto={port}",
+  "selected_language": "Idioma seleccionado: {lang}",
+  "available_languages": "Idiomas disponibles: {langs}",
+  "select_language_prompt": "Selecciona un idioma (predeterminado: {default}): ",
+  "invalid_language": "¡Selección de idioma inválida! Usando idioma predeterminado ({default}).",
+  "available_sharing_methods": "Métodos de compartición disponibles: gradio, localtunnel, ngrok",
+  "select_sharing_method_prompt": "Elige un método de compartición (predeterminado: {default}): ",
+  "enter_ngrok_token_prompt": "Ingresa tu token de Ngrok (predeterminado: {default}): ",
+  "ngrok_token_required": "Error: ¡Se requiere un token de Ngrok para el método ngrok!",
+  "enter_port_prompt": "Ingresa el número de puerto (predeterminado: {default}): ",
+  "opening_previous_url": "Abriendo URL anterior: {url}",
+  "open_url_manually": "Abre la URL manualmente en Colab: {url}",
+  "invalid_previous_url": "URL anterior inválida: {url}, no abierta.",
+  "starting_method": "Iniciando {method} en el puerto {port}...",
+  "process_stopped": "\n🛑 Proceso detenido por el usuario",
+  "selected_port": "Puerto seleccionado: {port}",
+  "starting_gradio_with_sharing": "Iniciando Gradio con compartición integrada...",
+  "starting_localtunnel": "Iniciando Localtunnel en el puerto {port}...",
+  "share_link": "Enlace para compartir: {url}",
+  "password_ip": "Contraseña IP: {ip}",
+  "starting_ngrok": "Iniciando Ngrok en el puerto {port}...",
+  "ngrok_url": "URL de Ngrok: {url}",
+  "ngrok_error": "Error al iniciar Ngrok: {error}",
+  "auto_apollo_chunk_size": "Tamaño de fragmento Apollo",
+  "auto_apollo_chunk_size_info": "Tamaño de fragmento para mejora Apollo (recomendado: 19 para modelo universal)",
+  "auto_apollo_overlap": "Solapamiento Apollo",
+  "auto_enhancing_with_apollo": "Mejorando con Apollo ({}/{} archivos)...",
+  "auto_apollo_processing_completed": "¡Procesamiento Apollo completado!",
+  "auto_apollo_overlap_info": "Solapamiento para mejora Apollo (recomendado: 2)",
+  "apollo_chunk_size": "Tamaño de fragmento Apollo",
+  "apollo_chunk_size_info": "Tamaño de fragmento para mejora Apollo (recomendado: 19 para modelo universal)",
+  "apollo_overlap": "Solapamiento Apollo",
+  "enhance_with_apollo": "Mejorar con Apollo",
+  "apollo_enhancement_info": "Mejora de la calidad del sonido",
+  "enhancing_with_apollo": "Mejorando con Apollo ({}/{} archivos)...",
+  "apollo_processing_completed": "¡Procesamiento Apollo completado!",
+  "apollo_overlap_info": "Solapamiento para mejora Apollo (recomendado: 2)",
+  "selected_models": "Modelos seleccionados",
+  "save_preset": "Guardar preajuste",
+  "delete_preset": "Eliminar preajuste",
+  "refresh_presets": "Actualizar preajustes",
+  "preset_name": "Nombre del preajuste",
+  "select_preset": "Seleccionar preajuste",
+  "add_favorite": "Añadir a favoritos",
+  "apply_matchering": "Aplicar Matchering",
+  "matchering_info": "Aplicar Matchering para mejorar el masterizado y el balance del audio",
+  "matchering_passes": "Pasadas de Matchering",
+  "matchering_passes_info": "Número de iteraciones de Matchering (1-5, valores más altos mejoran la calidad pero toman más tiempo)",
+  "matchering_processing": "Aplicando Matchering... ({:.1f}%)",
+  "matchering_completed": "✅ ¡Procesamiento de Matchering completado!",
+  "matchering_error": "❌ Error durante Matchering: {}",
+  "invalid_method": "Error: ¡Método inválido! Usa 'gradio', 'localtunnel' o 'ngrok'.",
+  "language_changed_message": "Idioma cambiado. Por favor, reinicia la celda.",
+  "backend_settings": "🚀 Configuración de backend",
+  "inference_backend": "Backend de inferencia",
+  "optimization_mode": "Modo de optimización",
+  "optimization_mode_info": "Selección de modo de optimización PyTorch",
+  "mixed_precision_amp": "Precisión mixta (AMP)",
+  "mixed_precision_info": "Inferencia 2x más rápida - recomendado",
+  "tf32_acceleration": "Aceleración TF32",
+  "tf32_acceleration_info": "Aumento de velocidad extra para RTX 30xx+",
+  "cudnn_benchmark": "Benchmark cuDNN",
+  "cudnn_benchmark_info": "Más lento en la primera ejecución, mucho más rápido en ejecuciones posteriores",
+  "ultra_optimized_pytorch": "Backend PyTorch ULTRA-OPTIMIZADO",
+  "default_active_max_speed": "Activo por defecto - Optimización de velocidad máxima",
+  "channels_last_mode": "El más rápido para GPUs RTX",
+  "compile_mode": "Velocidad extra para PyTorch 2.0+",
+  "default_mode": "Estándar",
+  "tta_info": "Aumenta la calidad pero ralentiza el procesamiento",
+    "instrumental_info": "Normalmente produce 2 tallos, pero a veces solo uno - ¡tienes que probar! :)",
   "manual_ensemble_tab": "🎚️ Ensamblaje manual",
   "input_sources": "📂 Fuentes de entrada",
   "refresh": "🔄 Actualizar",
   "result_preview_tab": "🎧 Vista previa del resultado",
   "ensembled_output": "Salida ensamblada",
   "processing_log_tab": "📋 Registro de procesamiento",
+  "processing_details": "Detalles del procesamiento",
   "process_ensemble": "⚡ Procesar ensamblaje",
   "languages_tab": "🌐 Idiomas",
   "Vocal Models": "Modelos vocales",
   "Instrumental Models": "Modelos instrumentales",
+  "4-Stem Models": "Modelos de 4 tallos",
   "Denoise Models": "Modelos de eliminación de ruido",
   "Dereverb Models": "Modelos de eliminación de reverberación",
   "Other Models": "Otros modelos",
+  "Other Shapes": "Otros modelos",
+  "ensemble_files_description": "Combina múltiples archivos de audio en una sola salida usando métodos de ensamblaje especificados.",
+  "ensemble_files_help": "Ruta a todos los archivos de audio para ensamblaje",
+  "ensemble_type_help": "Uno de: avg_wave, median_wave, min_wave, max_wave, avg_fft, median_fft, min_fft, max_fft",
+  "ensemble_weights_help": "Pesos para crear el ensamblaje. El número de pesos debe ser igual al número de archivos",
   "ensemble_output_help": "Ruta al archivo WAV donde se almacenará el resultado del ensamblaje",
   "ensemble_type_print": "Tipo de ensamblaje: {}",
   "num_input_files_print": "Número de archivos de entrada: {}",
   "reading_chunk_print": "Leyendo fragmento del archivo: {} (inicio: {}s, duración: {}s)",
   "chunk_result_shape_print": "Forma del resultado del fragmento: {}",
   "ensemble_completed_print": "Ensamblaje completado. Salida guardada en: {}",
+  "file_deletion_error": "{} no se pudo eliminar: {}",
   "directory_not_exist_warning": "⚠️ El directorio no existe: {}",
   "not_a_directory_warning": "⚠️ La ruta no es un directorio: {}",
   "item_deletion_error": "⚠️ Error al eliminar {}: {}",
   "error": "🔥 Error: {}",
   "ffmpeg_error": "Error de FFmpeg ({}): {}",
   "file_saved_successfully": "Archivo guardado con éxito: {}",
+  "total_files_found": "Total de archivos encontrados: {}. Tasa de muestreo utilizada: {}",
   "total_progress": "Progreso total",
+  "detailed_pbar_enabled": "Barra de progreso detallada habilitada: {}",
   "loaded_audio": "Audio cargado: {}, forma: {}",
   "cannot_read_track": "No se puede leer la pista: {}",
   "error_message": "Mensaje de error: {}",
+  "demudding_track": "Limpiando pista (remezcla de fase - instrumental): {}",
   "elapsed_time": "Tiempo transcurrido: {:.2f} segundos.",
   "proc_folder_description": "Procesa archivos de audio en una carpeta usando un modelo especificado.",
   "model_type_help": "Tipo de modelo (bandit, bs_roformer, mdx23c, etc.)",
   "config_path_help": "Ruta al archivo de configuración",
   "demud_phaseremix_help": "Habilitar remezcla de fase para instrumental",
   "start_checkpoint_help": "Punto de control inicial para pesos válidos",
+  "input_folder_help": "Carpeta con mezclas a procesar",
+  "audio_path_help": "Ruta a un solo archivo de audio a procesar",
+  "store_dir_help": "Ruta para almacenar resultados",
   "device_ids_help": "Lista de IDs de GPU",
+  "extract_instrumental_help": "Invertir voces para obtener instrumental si se proporciona",
+  "disable_detailed_pbar_help": "Desactivar barra de progreso detallada en demix",
   "force_cpu_help": "Forzar el uso de CPU incluso si CUDA está disponible",
   "flac_file_help": "Generar archivo FLAC en lugar de WAV",
   "export_format_help": "Formato de exportación y tipo PCM",
   "pcm_type_help": "Tipo PCM para archivos FLAC",
   "use_tta_help": "Habilitar aumento en tiempo de prueba",
   "lora_checkpoint_help": "Punto de control inicial para pesos LoRA",
+  "cuda_available": "CUDA está disponible, use --force_cpu para desactivarlo.",
   "using_device": "Usando dispositivo: {}",
   "instruments_print": "Instrumentos: {}",
   "model_load_time": "Tiempo de carga del modelo: {:.2f} seg",
   "invalid_url": "❌ URL inválida",
   "cookie_file_updated": "✅ ¡Archivo de cookies actualizado!",
+  "cookie_installation_error": "⚠️ Error de instalación de cookies: {}",
+  "google_drive_mount_error": "❌ Error de conexión de Google Drive: {}",
+  "file_size_zero_error": "Tamaño de archivo cero o archivo no creado",
   "google_drive_error": "❌ Error de descarga de Google Drive: {}",
+  "wav_conversion_failed": "Conversión WAV fallida",
   "download_error": "❌ Error de descarga: {}",
+  "file_copied_to_drive": "Archivo copiado a Google Drive: {}",
+  "copy_to_drive_error": "❌ Error al copiar a Google Drive: {}",
+  "direct_download_failed": "Falló la descarga directa del archivo",
+  "direct_download_error": "❌ Error de descarga directa: {}",
+  "invalid_google_drive_url": "❌ URL de Google Drive no válida",
+  "continuing_without_google_drive": "Falló la conexión con Google Drive, continuando sin él...",
+  "skipping_drive_copy_no_mount": "⚠️ Google Drive no montado, omitiendo copia a Drive...",
   "download_success": "🎉 ¡Descargado con éxito!",
+  "download_failed": "❌ Descarga fallida",
   "no_output_files_found": "❌ No se encontraron archivos de salida.",
   "output_refreshed_successfully": "✅ ¡Salida actualizada con éxito!",
+  "error_refreshing_output": "❌ Error al actualizar salida: {}",
   "starting_audio_separation": "Iniciando separación de audio...",
   "processing_audio": "Procesando audio",
   "separating_audio": "Separando audio... ({:.1f}%)",
+  "separation_complete": "¡Separación completa!",
+  "progress_parsing_error": "Error de análisis de progreso: {}",
   "error_occurred": "Ocurrió un error: {}",
   "separation_process_completed": "¡Proceso de separación completado!",
   "no_audio_file_error": "❌ No se proporcionó archivo de audio y no hay archivo existente en el directorio de entrada.",
   "no_input_progress_label": "Error: No se proporcionó entrada -- 0.0%",
+  "processing_audio_print": "Procesando audio desde: {} usando modelo: {}",
   "starting_audio_separation_progress_label": "Iniciando separación de audio... -- 0.0%",
   "separating_audio_progress_label": "Separando audio... -- {}.0%",
   "audio_processing_completed_progress_label": "¡Procesamiento de audio completado! -- 100.0%",
   "audio_processing_completed": "✅ ¡Procesamiento de audio completado!",
   "error_occurred_progress_label": "Ocurrió un error -- 0.0%",
+  "minimum_files_required": "⚠️ Se requieren mínimo 2 archivos",
   "valid_files_not_found": "❌ No se encontraron archivos válidos",
   "starting_ensemble_process": "Iniciando proceso de ensamblaje...",
   "ensembling_progress": "Ensamblando... ({:.1f}%)",
+  "finalizing_ensemble_output": "Finalizando salida de ensamblaje...",
   "success_log": "✅ ¡Éxito!\n{}",
   "error_log": "❌ ¡Error!\n{}",
   "critical_error": "⛔ Error crítico: {}",
   "completed_model": "Modelo completado {}/{}: {}",
   "completed_model_progress_label": "Modelo completado {}/{}: {} -- {}.0%",
   "running_command": "Ejecutando comando: {}",
+  "model_failed": "Modelo {} falló: {}",
   "critical_error_with_model": "Error crítico con {}: {}",
+  "model_output_failed": "{} no pudo producir salida",
+  "waiting_for_files": "Esperando que todos los archivos estén listos...",
+  "waiting_for_files_progress_label": "Esperando que todos los archivos estén listos... -- 90.0%",
   "performing_ensemble": "Realizando ensamblaje...",
   "performing_ensemble_progress_label": "Realizando ensamblaje... -- 92.0%",
   "memory_usage_before_ensemble": "Uso de memoria antes del ensamblaje: {}%",
   "memory_usage_after_ensemble": "Uso de memoria después del ensamblaje: {}%",
+  "finalizing_ensemble_output_progress_label": "Finalizando salida de ensamblaje... -- 98.0%",
   "ensemble_file_creation_failed": "No se pudo crear el archivo de ensamblaje: {}",
   "ensemble_completed_progress_label": "¡Ensamblaje completado con éxito! -- 100.0%",
   "success_output_created": "✅ ¡Éxito! Archivo de salida creado.",
+  "phase_fixer_tab": "🔧 Corrector de fase",
+  "batch_processing_tab": "📦 Procesamiento por lotes",
+  "batch_description": "Procesa múltiples archivos a la vez con el mismo modelo",
+  "batch_input_folder": "Carpeta de entrada",
+  "batch_input_folder_placeholder": "Ingresa la ruta de la carpeta con archivos de audio",
+  "batch_output_folder": "Carpeta de salida",
+  "batch_output_folder_placeholder": "Ingresa la ruta de la carpeta de salida",
+  "batch_file_list": "Archivos a procesar",
+  "batch_add_files": "Añadir archivos",
+  "batch_clear_list": "Limpiar lista",
+  "batch_start": "🚀 Iniciar procesamiento por lotes",
+  "batch_stop": "⏹️ Detener",
+  "batch_progress": "Progreso del lote",
+  "batch_current_file": "Procesando actualmente",
+  "batch_completed": "✅ ¡Procesamiento por lotes completado!",
+  "batch_stopped": "⏹️ Procesamiento por lotes detenido",
+  "batch_no_files": "❌ No se seleccionaron archivos para procesar",
+  "source_model": "Modelo fuente (Voces)",
+  "source_model_info": "Modelo para extraer voces/datos de fase",
+  "target_model": "Modelo objetivo (Instrumental)",
+  "target_model_info": "Modelo al que se aplica la corrección de fase",
+  "custom_models_tab": "⚡ Modelos personalizados",
+  "Custom Models": "Modelos personalizados",
+  "add_custom_model": "➕ Añadir modelo personalizado",
+  "custom_model_name": "Nombre del modelo",
+  "custom_model_name_placeholder": "Ingresa un nombre para tu modelo",
+  "checkpoint_url": "URL del Checkpoint (.ckpt/.pth)",
+  "checkpoint_url_placeholder": "https://huggingface.co/.../model.ckpt",
+  "config_url": "URL de configuración (.yaml)",
+  "config_url_placeholder": "https://huggingface.co/.../config.yaml",
+  "custom_py_url": "URL de archivo Python personalizado (opcional)",
+  "custom_py_url_placeholder": "https://huggingface.co/.../bs_roformer.py",
+  "auto_detect_type": "Detectar tipo de modelo automáticamente",
+  "model_type": "Tipo de modelo",
+  "add_model_btn": "➕ Añadir modelo",
+  "custom_models_list": "📋 Lista de modelos personalizados",
+  "delete_model": "🗑️ Eliminar",
+  "no_custom_models": "Aún no se han añadido modelos personalizados",
+  "model_added_success": "✅ ¡Modelo añadido con éxito!",
+  "model_deleted_success": "✅ ¡Modelo eliminado con éxito!",
+  "model_add_error": "❌ Error al añadir el modelo: {}",
+  "model_delete_error": "❌ Error al eliminar el modelo: {}",
+  "refresh_models": "🔄 Actualizar",
+  "custom_model_info": "Añade modelos personalizados proporcionando enlaces de descarga. Los modelos se descargarán automáticamente cuando se utilicen.",
+  "select_model_to_delete": "Selecciona un modelo para eliminar",
+  "downloading_model_file": "Descargando modelo: {}",
+  "downloading_file_progress": "Descargando: {} - {}%",
+  "chunk_size_mode": "Modo de Tamaño de Fragmento",
+  "chunk_size_mode_info": "base: presets estándar | custom: introduce tu propio valor | yaml: leer del YAML del modelo",
+  "chunk_size_custom_label": "Tamaño de Fragmento Personalizado",
+  "chunk_size_custom_info": "Introduce un valor personalizado de tamaño de fragmento",
+  "chunk_size_yaml_label": "Tamaño de Fragmento YAML",
+  "chunk_size_yaml_display_info": "Se leerá del archivo de configuración YAML del modelo tras la descarga",
+  "chunk_size_yaml_not_downloaded": "⏳ YAML del modelo aún no descargado — el valor se leerá durante el procesamiento",
+  "chunk_size_yaml_detected": "✅ Del YAML: {}",
+  "remove_favorite": "Eliminar de Favoritos",
   "normal_method": "Método normal",
+  "mid_side_method": "Método Mid-Side",
+  "apollo_processing_method": "Método de Procesamiento Apollo",
+  "apollo_normal_model": "Modelo Normal Apollo",
+  "apollo_mid_side_model": "Modelo Mid-Side Apollo",
+  "scale_factor": "Factor de Escala",
+  "scale_factor_info": "Factor de escala de fase (recomendado: 1.4)",
+  "source_file_label": "Archivo Fuente (Voces)",
+  "target_file_label": "Archivo Destino (Instrumental)",
+  "run_phase_fixer": "🔧 Ejecutar Corrector de Fase",
+  "phase_fixed_output": "Salida con Fase Corregida",
+  "phase_fixer_settings": "Ajustes del Corrector de Fase",
+  "low_cutoff": "Corte Bajo (Hz)",
+  "high_cutoff": "Corte Alto (Hz)",
+  "low_cutoff_info": "Frecuencia de corte baja para la corrección de fase",
+  "high_cutoff_info": "Frecuencia de corte alta para la corrección de fase",
+  "no_preset_name_provided": "⚠️ No se proporcionó nombre de preset",
+  "no_models_selected_for_preset": "⚠️ No se seleccionaron modelos para el preset",
+  "preset_saved": "✅ ¡Preset '{}' guardado!",
+  "please_upload_both_files": "⚠️ Por favor sube tanto el archivo fuente como el destino",
+  "processing_log_placeholder": "El registro de procesamiento aparecerá aquí...",
+  "enter_preset_name": "Introduce el nombre del preset..."
 }

assets/i18n/languages/fr_fr.json CHANGED Viewed

@@ -209,7 +209,6 @@
   "finalizing_ensemble_output_progress_label": "Finalisation de la sortie de l'assemblage... -- 98.0%",
   "ensemble_file_creation_failed": "Le fichier d'assemblage n'a pas pu être créé : {}",
   "ensemble_completed_progress_label": "Assemblage terminé avec succès ! -- 100.0%",
-  "success_output_created": "✅ Succès ! Fichier de sortie créé.",
   "drive_mounted_copying_ensemble": "Google Drive monté. Copie de la sortie de l'assemblage...",
   "drive_already_mounted_copying_ensemble": "Google Drive déjà monté. Copie de la sortie de l'assemblage...",
   "no_ensemble_output_files_found": "❌ Aucun fichier de sortie d'assemblage trouvé.",
@@ -269,5 +268,90 @@
   "select_preset": "Sélectionner un Préréglage",
   "add_favorite": "Ajouter aux Favoris",
   "apollo_midside_model_info": "Modèle à utiliser pour le traitement centre/côté (optionnel)",
-  "language_changed_message": "Langue modifiée. Veuillez redémarrer la cellule."
-}

   "finalizing_ensemble_output_progress_label": "Finalisation de la sortie de l'assemblage... -- 98.0%",
   "ensemble_file_creation_failed": "Le fichier d'assemblage n'a pas pu être créé : {}",
   "ensemble_completed_progress_label": "Assemblage terminé avec succès ! -- 100.0%",
   "drive_mounted_copying_ensemble": "Google Drive monté. Copie de la sortie de l'assemblage...",
   "drive_already_mounted_copying_ensemble": "Google Drive déjà monté. Copie de la sortie de l'assemblage...",
   "no_ensemble_output_files_found": "❌ Aucun fichier de sortie d'assemblage trouvé.",
   "select_preset": "Sélectionner un Préréglage",
   "add_favorite": "Ajouter aux Favoris",
   "apollo_midside_model_info": "Modèle à utiliser pour le traitement centre/côté (optionnel)",
+    "language_changed_message": "Langue modifiée. Veuillez redémarrer la cellule.",
+  "Other Shapes": "Autres modèles",
+  "use_phase_correction": "Appliquer la correction de phase avancée",
+  "google_drive_mount_error": "❌ Erreur de liaison Google Drive : {}",
+  "file_copied_to_drive": "Fichier copié sur Google Drive : {}",
+  "copy_to_drive_error": "❌ Erreur lors de la copie sur Google Drive : {}",
+  "direct_download_failed": "Échec du téléchargement direct du fichier",
+  "direct_download_error": "❌ Erreur de téléchargement direct : {}",
+  "invalid_google_drive_url": "❌ URL Google Drive non valide",
+  "continuing_without_google_drive": "La connexion Google Drive a échoué, poursuite sans...",
+  "skipping_drive_copy_no_mount": "⚠️ Google Drive non monté, omission de la copie sur Drive...",
+  "auto_apollo_chunk_size": "Taille de fragment Apollo",
+  "auto_apollo_chunk_size_info": "Taille de fragment pour l'amélioration Apollo (recommandé : 19 pour le modèle universel)",
+  "auto_apollo_overlap": "Chevauchement Apollo",
+  "auto_enhancing_with_apollo": "Amélioration avec Apollo ({}/{} fichiers)...",
+  "auto_apollo_processing_completed": "Traitement Apollo terminé !",
+  "auto_apollo_overlap_info": "Chevauchement pour l'amélioration Apollo (recommandé : 2)",
+  "apply_matchering": "Appliquer Matchering",
+  "matchering_info": "Appliquer Matchering pour améliorer le mastering et l'équilibre audio",
+  "matchering_passes": "Passages Matchering",
+  "matchering_passes_info": "Nombre d'itérations Matchering (1-5, des valeurs plus élevées améliorent la qualité mais prennent plus de temps)",
+  "matchering_processing": "Application de Matchering... ({:.1f}%)",
+  "matchering_completed": "✅ Traitement Matchering terminé !",
+  "matchering_error": "❌ Erreur pendant Matchering : {}",
+  "backend_settings": "🚀 Paramètres Backend",
+  "inference_backend": "Backend d'Inference",
+  "optimization_mode": "Mode d'Optimisation",
+  "optimization_mode_info": "Sélection du mode d'optimisation PyTorch",
+  "mixed_precision_amp": "Précision Mixte (AMP)",
+  "mixed_precision_info": "Inférence 2x plus rapide - recommandé",
+  "tf32_acceleration": "Accélération TF32",
+  "tf32_acceleration_info": "Augmentation de vitesse supplémentaire pour RTX 30xx+",
+  "cudnn_benchmark": "Benchmark cuDNN",
+  "cudnn_benchmark_info": "Plus lent lors de la première exécution, beaucoup plus rapide lors des exécutions suivantes",
+  "ultra_optimized_pytorch": "Backend PyTorch ULTRA-OPTIMISÉ",
+  "default_active_max_speed": "Actif par défaut - Optimisation de vitesse maximale",
+  "channels_last_mode": "Le plus rapide pour les GPU RTX",
+  "compile_mode": "Vitesse supplémentaire pour PyTorch 2.0+",
+  "default_mode": "Standard",
+  "phase_fixer_tab": "🔧 Correcteur de phase",
+  "batch_processing_tab": "📦 Traitement par lots",
+  "batch_description": "Traiter plusieurs fichiers à la fois avec le même modèle",
+  "batch_input_folder": "Dossier d'entrée",
+  "batch_input_folder_placeholder": "Entrez le chemin du dossier contenant les fichiers audio",
+  "batch_output_folder": "Dossier de sortie",
+  "batch_output_folder_placeholder": "Entrez le chemin du dossier de sortie",
+  "batch_file_list": "Fichiers à traiter",
+  "batch_add_files": "Ajouter des fichiers",
+  "batch_clear_list": "Vider la liste",
+  "batch_start": "🚀 Démarrer le traitement par lots",
+  "batch_stop": "⏹️ Arrêter",
+  "batch_progress": "Progression du lot",
+  "batch_current_file": "En cours de traitement",
+  "batch_completed": "✅ Traitement par lots terminé !",
+  "batch_stopped": "⏹️ Traitement par lots arrêté",
+  "batch_no_files": "❌ Aucun fichier sélectionné pour le traitement",
+  "source_model": "Modèle source (Voix)",
+  "source_model_info": "Modèle pour extraire les voix/données de phase",
+  "target_model": "Modèle cible (Instrumental)",
+  "target_model_info": "Modèle auquel appliquer la correction de phase",
+  "custom_models_tab": "⚡ Modèles personnalisés",
+  "Custom Models": "Modèles personnalisés",
+  "add_custom_model": "➕ Ajouter un modèle personnalisé",
+  "custom_model_name": "Nom du modèle",
+  "custom_model_name_placeholder": "Entrez un nom pour votre modèle",
+  "checkpoint_url": "URL du Checkpoint (.ckpt/.pth)",
+  "checkpoint_url_placeholder": "https://huggingface.co/.../model.ckpt",
+  "config_url": "URL de configuration (.yaml)",
+  "config_url_placeholder": "https://huggingface.co/.../config.yaml",
+  "custom_py_url": "URL du fichier Python personnalisé (optionnel)",
+  "custom_py_url_placeholder": "https://huggingface.co/.../bs_roformer.py",
+  "auto_detect_type": "Détecter automatiquement le type de modèle",
+  "model_type": "Type de modèle",
+  "add_model_btn": "➕ Ajouter le modèle",
+  "custom_models_list": "📋 Liste des modèles personnalisés",
+  "delete_model": "🗑️ Supprimer",
+  "no_custom_models": "Aucun modèle personnalisé ajouté pour l'instant",
+  "model_added_success": "✅ Modèle ajouté avec succès !",
+  "model_deleted_success": "✅ Modèle supprimé avec succès !",
+  "model_add_error": "❌ Erreur lors de l'ajout du modèle : {}",
+  "model_delete_error": "❌ Erreur lors de la suppression du modèle : {}",
+  "refresh_models": "🔄 Actualiser",
+  "custom_model_info": "Ajoutez des modèles personnalisés en fournissant des liens de téléchargement. Les modèles seront téléchargés automatiquement lors de leur utilisation.",
+  "select_model_to_delete": "Sélectionnez un modèle à supprimer",
+  "success_output_created": "✅ Succès ! Fichier de sortie créé.",
+  "downloading_model_file": "Téléchargement du modèle : {}",
+  "downloading_file_progress": "Téléchargement : {} - {}%",

assets/i18n/languages/hi_in.json CHANGED Viewed

@@ -17,11 +17,10 @@
   "overlap": "ओवरलैप",
   "overlap_info": "अनुशंसित: 2-10 (उच्च मान गुणवत्ता बढ़ाते हैं लेकिन अधिक VRAM की आवश्यकता होती है)",
   "tta_boost": "TTA बूस्ट",
-  "tta_info": "गुणवत्ता में सुधार करता है लेकिन प्रसंस्करण गति को धीमा करता है",
   "phase_fix": "फेज सुधार",
   "phase_fix_info": "वाद्य ट्रैक के लिए उन्नत फेज सुधार",
   "instrumental": "वाद्य",
-  "instrumental_info": "आमतौर पर 2 आउटपुट देता है, लेकिन कभी-कभी एक ही आउटपुट देता है, आपको कोशिश करनी होगी :)",
   "process": "🚀 प्रक्रिया करें",
   "reset": "🧹 रीसेट करें",
   "status": "स्थिति",
@@ -73,215 +72,274 @@
   "ensemble_copy_status": "संयोजन आउटपुट यहाँ कॉपी किया जाएगा...",
   "guidelines": "<h4>मॉडल चयन दिशानिर्देश</h4><ul><li><strong>क्रॉस-श्रेणी मिश्रण से बचें:</strong> स्वर और वाद्य मॉडल का संयोजन अवांछित मिश्रण बना सकता है</li><li><strong>विशेष मॉडल नोट्स:</strong><ul><li>द्वैत मॉडल (v1/v2) - दोनों स्टेम्स आउटपुट करते हैं</li><li>MDX23C सेपरेटर - हाइब्रिड परिणाम</li></ul></li><li><strong>सर्वोत्तम अभ्यास:</strong> एक ही श्रेणी से 3-5 समान मॉडल का उपयोग करें</li></ul><div>💡 प्रो टिप: \"VOCALS-MelBand-Roformer BigBeta5e\" + \"VOCALS-BS-Roformer_1297\" संयोजन से शुरू करें</div>",
   "download_sources_tab": "⬇️ स्रोत डाउनलोड करें",
-  "direct_links": "🌐 सीधे लिंक",
   "audio_file_url": "ऑडियो फाइल URL",
   "download_from_url": "⬇️ URL से डाउनलोड करें",
   "download_status": "डाउनलोड स्थिति",
   "downloaded_file": "डाउनलोड की गई फाइल",
   "cookie_management": "🍪 कुकी प्रबंधन",
-  "upload_cookies_txt": "Cookies.txt अपलोड करें",
-  "cookie_info": "<div style=\"margin-left:15px; font-size:0.95em\">**📌 क्यों जरूरी?**<br>- आयु-प्रतिबंधित सामग्री तक पहुंच<br>- निजी/असूचीबद्ध वीडियो डाउनलोड करें<br>- क्षेत्रीय प्रतिबंधों को बायपास करें<br>- यूट्यूब डाउनलोड सीमाओं से बचें<br><br>**⚠️ महत्वपूर्ण नोट्स**<br>- अपनी कुकी फाइलें कभी साझा न करें!<br>- कुकीज़ को ताज़ा करें जब:<br>  • \"403 निषिद्ध\" त्रुटियाँ मिलें<br>  • डाउनलोड अचानक रुक जाएँ<br>  • \"सत्र समाप्त\" संदेश दिखें<br><br>**🔄 नवीकरण चरण**<br>1. इस <a href=\"https://chromewebstore.google.com/detail/get-cookiestxt-clean/ahmnmhfbokciafffnknlekllgcnafnie\" target=\"_blank\">क्रोम एक्सटेंशन</a> को स्थापित करें<br>2. क्रोम में यूट्यूब में लॉगिन करें<br>3. एक्सटेंशन आइकन पर क्लिक करें → \"निर्यात\"<br>4. डाउनलोड की गई फाइल यहाँ अपलोड करें<br><br>**⏳ कुकी जीवनकाल**<br>- सामान्य सत्र: 24 घंटे<br>- संवेदनशील संचालन: 1 घंटा<br>- पासवर्ड परिवर्तन: तत्काल अमान्यता</div>",
-  "manual_ensemble_tab": "🎚️ मैनुअल संयोजन",
   "input_sources": "📂 इनपुट स्रोत",
-  "refresh": "🔄 ताज़ा करें",
-  "ensemble_algorithm": "संयोजन एल्गोरिदम",
   "select_audio_files": "ऑडियो फाइलें चुनें",
   "available_files": "उपलब्ध फाइलें",
-  "custom_weights": "कस्टम वेट्स (अल्पविराम से अलग)",
   "custom_weights_placeholder": "उदाहरण: 0.8, 1.2, 1.0, ...",
-  "custom_weights_info": "समान वेट्स के लिए खाली छोड़ें",
   "result_preview_tab": "🎧 परिणाम पूर्वावलोकन",
-  "ensembled_output": "संयोजित आउटपुट",
-  "processing_log_tab": "📋 प्रसंस्करण लॉग",
-  "processing_details": "प्रसंस्करण विवरण",
-  "process_ensemble": "⚡ संयोजन प्रक्रिया करें",
-  "languages_tab": "🌐 भाषाएँ",
   "Vocal Models": "स्वर मॉडल",
   "Instrumental Models": "वाद्य मॉडल",
   "4-Stem Models": "4-स्टेम मॉडल",
-  "Denoise Models": "शोर हटाने के मॉडल",
-  "Dereverb Models": "रिवर्ब हटाने के मॉडल",
-  "Other Models": "अन्य मॉडल",
-  "ensemble_files_description": "निर्दिष्ट संयोजन विधियों का उपयोग करके कई ऑडियो फाइलों को एक ��ी आउटपुट में जोड़ता है।",
-  "ensemble_files_help": "संयोजन के लिए सभी ऑडियो फाइलों का पथ",
-  "ensemble_type_help": "avg_wave, median_wave, min_wave, max_wave, avg_fft, median_fft, min_fft, max_fft में से एक",
-  "ensemble_weights_help": "संयोजन बनाने के लिए वेट्स। वेट्स की संख्या फाइलों की संख्या के बराबर होनी चाहिए",
-  "ensemble_output_help": "WAV फाइल का पथ जहां संयोजन परिणाम संग्रहीत होगा",
-  "ensemble_type_print": "संयोजन प्रकार: {}",
   "num_input_files_print": "इनपुट फाइलों की संख्या: {}",
-  "weights_print": "वेट्स: {}",
   "output_file_print": "आउटपुट फाइल: {}",
   "duration_mismatch_error": "सभी फाइलों की अवधि समान होनी चाहिए",
-  "file_not_found_error": "त्रुटि। फाइल नहीं मिली: {}। पथ जांचें।",
-  "reading_chunk_print": "फाइल से खंड पढ़ रहा है: {} (शुरुआत: {}सेकंड, अवधि: {}सेकंड)",
-  "chunk_result_shape_print": "खंड परिणाम आकार: {}",
-  "ensemble_completed_print": "संयोजन पूरा हुआ। आउटपुट यहाँ संग्रहीत: {}",
   "file_deletion_error": "{} हटाया नहीं जा सका: {}",
-  "directory_not_exist_warning": "⚠️ डायरेक्टरी मौजूद नहीं है: {}",
-  "not_a_directory_warning": "⚠️ पथ डायरेक्टरी नहीं है: {}",
   "item_deletion_error": "⚠️ {} हटाने में त्रुटि: {}",
-  "old_output_not_exist": "❌ पुराना आउटपुट फ़ोल्डर मौजूद नहीं है",
-  "old_outputs_cleared": "✅ पुराने आउटपुट सफलतापूर्वक हटा दिए गए!",
   "error": "🔥 त्रुटि: {}",
   "ffmpeg_error": "FFmpeg त्रुटि ({}): {}",
-  "file_saved_successfully": "फाइल सफलतापूर्वक संग्रहीत: {}",
-  "total_files_found": "कुल फाइलें मिलीं: {}। सैंपल रेट का उपयोग: {}",
   "total_progress": "कुल प्रगति",
   "detailed_pbar_enabled": "विस्तृत प्रगति बार सक्षम: {}",
-  "loaded_audio": "लोड किया गया ऑडियो: {}, आकार: {}",
-  "cannot_read_track": "ट्रैक पढ़ा नहीं जा सकता: {}",
   "error_message": "त्रुटि संदेश: {}",
-  "demudding_track": "ट्रैक को डिमड कर रहा है (फेज रीमिक्स - वाद्य): {}",
   "elapsed_time": "बीता हुआ समय: {:.2f} सेकंड।",
-  "proc_folder_description": "एक निर्दिष्ट मॉडल का उपयोग करके फ़ोल्डर में ऑडियो फाइलों को प्रोसेस करता है।",
   "model_type_help": "मॉडल प्रकार (bandit, bs_roformer, mdx23c, आदि)",
   "config_path_help": "कॉन्फ़िग फाइल का पथ",
-  "demud_phaseremix_help": "वाद्य के लिए फेज रीमिक्स सक्षम करें",
-  "start_checkpoint_help": "मान्य वेट्स के लिए प्रारंभिक चेकपॉइंट",
-  "input_folder_help": "प्रोसेस करने के लिए मिश्रणों वाला फ़ोल्डर",
-  "audio_path_help": "प्रोसेस करने के लिए एकल ऑडियो फाइल का पथ",
   "store_dir_help": "परिणाम संग्रहीत करने का पथ",
-  "device_ids_help": "GPU IDs की सूची",
-  "extract_instrumental_help": "यदि प्रदान किया गया हो तो स्वर को उलटकर वाद्य प्राप्त करें",
-  "disable_detailed_pbar_help": "डिमिक्स में विस्तृत प्रगति बार अक्षम करें",
-  "force_cpu_help": "CUDA उपलब्ध होने पर भी CPU का उपयोग करें",
   "flac_file_help": "WAV के बजाय FLAC फाइल आउटपुट करें",
   "export_format_help": "निर्यात प्रारूप और PCM प्रकार",
   "pcm_type_help": "FLAC फाइलों के लिए PCM प्रकार",
-  "use_tta_help": "टेस्ट टाइम ऑगमेंटेशन सक्षम करें",
-  "lora_checkpoint_help": "LoRA वेट्स के लिए प्रारंभिक चेकपॉइंट",
   "cuda_available": "CUDA उपलब्ध है, इसे अक्षम करने के लिए --force_cpu का उपयोग करें।",
-  "using_device": "उपयोग किया जा रहा डिवाइस: {}",
-  "instruments_print": "वाद्य: {}",
   "model_load_time": "मॉडल लोड समय: {:.2f} सेकंड",
   "invalid_url": "❌ अमान्य URL",
-  "cookie_file_updated": "✅ कुकी फाइल अपडेट की गई!",
-  "cookie_installation_error": "⚠️ कुकी स्थापना त्रुटि: {}",
-  "file_size_zero_error": "फाइल आकार शून्य या फाइल नहीं बनाई गई",
   "google_drive_error": "❌ Google Drive डाउनलोड त्रुटि: {}",
   "wav_conversion_failed": "WAV रूपांतरण विफल",
   "download_error": "❌ डाउनलोड त्रुटि: {}",
-  "download_success": "🎉 सफलतापूर्वक डाउनलोड किया गया!",
   "download_failed": "❌ डाउनलोड विफल",
-  "no_output_files_found": "❌ कोई आउटपुट फाइलें नहीं मिलीं।",
-  "output_refreshed_successfully": "✅ आउटपुट सफलतापूर्वक ताज़ा किया गया!",
-  "error_refreshing_output": "❌ आउटपुट ताज़ा करने में त्रुटि: {}",
   "starting_audio_separation": "ऑडियो पृथक्करण शुरू हो रहा है...",
-  "processing_audio": "ऑडियो प्रोसेसिंग",
-  "separating_audio": "ऑडियो अलग कर रहा है... ({:.1f}%)",
-  "separation_complete": "पृथक्करण पूरा!",
   "progress_parsing_error": "प्रगति पार्सिंग त्रुटि: {}",
   "error_occurred": "एक त्रुटि हुई: {}",
-  "separation_process_completed": "पृथक्करण प्रक्रिया पूरी हुई!",
-  "no_audio_file_error": "❌ कोई ऑडियो फाइल प्रदान नहीं की गई और इनपुट डायरेक्टरी में कोई मौजूदा फाइल नहीं है।",
-  "no_input_progress_label": "त्रुटि: कोई इनपुट प्रदान नहीं किया गया -- 0.0%",
-  "processing_audio_print": "ऑडियो प्रोसेसिंग: {} से मॉडल का उपयोग करके: {}",
   "starting_audio_separation_progress_label": "ऑडियो पृथक्करण शुरू हो रहा है... -- 0.0%",
-  "separating_audio_progress_label": "ऑडियो अलग कर रहा है... -- {}.0%",
-  "audio_processing_completed_progress_label": "ऑडियो प्रोसेसिंग पूरी हुई! -- 100.0%",
-  "audio_processing_completed": "✅ ऑडियो प्रोसेसिंग पूरी हुई!",
   "error_occurred_progress_label": "त्रुटि ह���ई -- 0.0%",
   "minimum_files_required": "⚠️ न्यूनतम 2 फाइलें आवश्यक",
-  "valid_files_not_found": "❌ मान्य फाइलें नहीं मिलीं",
-  "starting_ensemble_process": "संयोजन प्रक्रिया शुरू हो रही है...",
-  "ensembling_progress": "संयोजन कर रहा है... ({:.1f}%)",
-  "finalizing_ensemble_output": "संयोजन आउटपुट को अंतिम रूप दे रहा है...",
-  "success_log": "✅ सफलता!\n{}",
   "error_log": "❌ त्रुटि!\n{}",
-  "critical_error": "⛔ गंभीर त्रुटि: {}",
-  "ensemble_process_completed": "संयोजन प्रक्रिया पूरी हुई!",
-  "no_models_selected": "❌ कोई मॉडल चयनित नहीं",
-  "no_input_audio_provided": "❌ कोई इनपुट ऑडियो प्रदान नहीं किया गया",
-  "loading_model": "मॉडल लोड कर रहा है {}/{}: {}...",
-  "loading_model_progress_label": "मॉडल लोड कर रहा है {}/{}: {}... -- {}.0%",
-  "completed_model": "मॉडल पूरा हुआ {}/{}: {}",
-  "completed_model_progress_label": "मॉडल पूरा हुआ {}/{}: {} -- {}.0%",
-  "running_command": "कमांड चला रहा है: {}",
   "model_failed": "मॉडल {} विफल: {}",
   "critical_error_with_model": "{} के साथ गंभीर त्रुटि: {}",
-  "model_output_failed": "{} आउटपुट उत्पन्न करने में विफल",
-  "waiting_for_files": "सभी फाइलों के तैयार होने की प्रतीक्षा में...",
-  "waiting_for_files_progress_label": "सभी फाइलों के तैयार होने की प्रतीक्षा में... -- 90.0%",
-  "performing_ensemble": "संयोजन कर रहा है...",
-  "performing_ensemble_progress_label": "संयोजन कर रहा है... -- 92.0%",
-  "memory_usage_before_ensemble": "संयोजन से पहले मेमोरी उपयोग: {}%",
-  "memory_usage_after_ensemble": "संयोजन के बाद मेमोरी उपयोग: {}%",
-  "finalizing_ensemble_output_progress_label": "संयोजन आउटपुट को अंतिम रूप दे रहा है... -- 98.0%",
-  "ensemble_file_creation_failed": "संयोजन फाइल बनाई नहीं जा सकी: {}",
-  "ensemble_completed_progress_label": "संयोजन सफलतापूर्वक पूरा हुआ! -- 100.0%",
-  "success_output_created": "✅ सफलता! आउटपुट फाइल बनाई गई।",
-  "drive_mounted_copying_ensemble": "Google Drive माउंट किया गया। संयोजन आउटपुट कॉपी हो रहा है...",
-  "drive_already_mounted_copying_ensemble": "Google Drive पहले से माउंट है। संयोजन आउटपुट कॉपी हो रहा है...",
-  "no_ensemble_output_files_found": "❌ कोई संयोजन आउटपुट फाइलें नहीं मिलीं।",
-  "ensemble_output_copied": "✅ संयोजन आउटपुट {} पर कॉपी किया गया",
-  "error_copying_ensemble_output": "❌ संयोजन आउटपुट कॉपी करने में त्रुटि: {}",
-  "drive_mounted_copying_files": "Google Drive माउंट किया गया। फाइलें कॉपी हो ��ही हैं...",
-  "drive_already_mounted_copying_files": "Google Drive पहले से माउंट है। फाइलें कॉपी हो रही हैं...",
-  "files_copied_to_drive": "✅ फाइलें {} पर कॉपी की गईं",
-  "error_copying_files": "❌ फाइलें कॉपी करने में त्रुटि: {}",
-  "mounting_drive": "Google Drive माउंट कर रहा है...",
-  "settings_saved": "सेटिंग्स config.json में संग्रहीत: भाषा={lang}, विधि={method}, पोर्ट={port}",
-  "selected_language": "चयनित भाषा: {lang}",
-  "available_languages": "उपलब्ध भाषाएँ: {langs}",
-  "select_language_prompt": "एक भाषा चुनें (डिफ़ॉल्ट: {default}): ",
-  "invalid_language": "अमान्य भाषा चयन! डिफ़ॉल्ट भाषा का उपयोग कर रहा हूँ ({default})।",
-  "available_sharing_methods": "उपलब्ध साझाकरण विधियाँ: gradio, localtunnel, ngrok",
-  "select_sharing_method_prompt": "एक साझाकरण विधि चुनें (डिफ़ॉल्ट: {default}): ",
-  "enter_ngrok_token_prompt": "अपना Ngrok टोकन दर्ज करें (डिफ़ॉल्ट: {default}): ",
-  "ngrok_token_required": "त्रुटि: ngrok विधि के लिए Ngrok टोकन आवश्यक है!",
-  "enter_port_prompt": "पोर्ट नंबर दर्ज करें (डिफ़ॉल्ट: {default}): ",
-  "opening_previous_url": "पिछला URL खोल रहा है: {url}",
-  "open_url_manually": "Colab में URL मैन्युअल रूप से खोलें: {url}",
-  "invalid_previous_url": "अमान्य पिछला URL: {url}, खोला नहीं गया।",
-  "starting_method": "{method} को पोर्ट {port} पर शुरू कर रहा है...",
-  "process_stopped": "\n🛑 उपयोगकर्ता द्वारा प्रक्रिया रोक दी गई",
-  "selected_port": "चयनित पोर्ट: {port}",
-  "starting_gradio_with_sharing": "Gradio को अंतर्निहित साझाकरण के साथ शुरू कर रहा है...",
-  "starting_localtunnel": "Localtunnel को पोर्ट {port} पर शुरू कर रहा है...",
-  "share_link": "साझा लिंक: {url}",
-  "password_ip": "पासवर्ड IP: {ip}",
-  "starting_ngrok": "Ngrok को पोर्ट {port} पर शुरू कर रहा है...",
-  "ngrok_url": "Ngrok URL: {url}",
-  "ngrok_error": "Ngrok शुरू करने में त्रुटि: {error}",
-  "apollo_chunk_size": "Apollo खंड आकार",
-  "apollo_chunk_size_info": "Apollo सुधार के लिए खंड आकार (यूनिवर्सल मॉडल के लिए अनुशंसित: 19)",
-  "apollo_overlap": "Apollo ओवरलैप",
-  "enhancing_with_apollo": "Apollo के साथ सुधार कर रहा है ({}/{} फाइलें)...",
-  "apollo_processing_completed": "Apollo प्रसंस्करण पूरा!",
-  "apollo_overlap_info": "Apollo सुधार के लिए ओवरलैप (अनुशंसित: 2)",
-  "invalid_method": "त्रुटि: अमान्य विधि! 'gradio', 'localtunnel', या 'ngrok' का उपयोग करें।",
-  "apollo_enhancement_settings": "Apollo सुधार सेटिंग्स",
-  "enhance_with_apollo": "Apollo के साथ सुधार करें",
-  "enhance_with_apollo_info": "पृथक्करण के बाद ऑडियो सुधार के लिए Apollo सक्षम करें",
-  "apollo_method": "Apollo विधि",
-  "apollo_method_info": "Apollo के लिए प्रसंस्करण विधि चुनें",
-  "normal_method": "सामान्य विधि",
-  "mid_side_method": "मध्य/पार्श्व विधि",
-  "apollo_normal_model": "Apollo सामान्य मॉडल",
-  "apollo_normal_model_info": "सामान्य Apollo प्रसंस्करण के लिए उपयोग करने वाला मॉडल",
-  "apollo_midside_model": "Apollo मध्य/पार्श्व मॉडल",
-  "apollo_enhancement_info": "ध्वनि गुणवत्ता सुधार",
-  "selected_models": "चयनित मॉडल",
-  "save_preset": "प्रीसेट सहेजें",
-  "delete_preset": "प्रीसेट हटाएं",
-  "refresh_presets": "प्रीसेट रिफ्रेश करें",
-  "presets_name": "प्रीसेट का नाम",
-  "select_preset": "प्रीसेट चुनें",
-  "add_favorite": "पसंदीदा में जोड़ें",
-  "apollo_midside_model_info": "मध्य/पार्श्व प्रसंस्करण के लिए उपयोग करने वाला मॉडल (वैकल्पिक)",
-  "language_changed_message": "भाषा बदली गई। कृपया सेल को पुनः शुरू करें।"
-  "selected_models": "選択されたモデル",
-  "save_preset": "プリセットを保存",
-  "delete_preset": "プリセットを削除",
-  "refresh_presets": "プリセットを更新",
-  "preset_name": "プリセット名",
-  "select_preset": "プリセットを選択",
-  "add_favorite": "お気に入りに追加",
-  "apply_matchering": "मैचरिंग लागू करें",
-  "matchering_info": "ऑडियो मास्टरिंग और संतुलन को बढ़ाने के लिए मैचरिंग लागू करें",
-  "matchering_passes": "मैचरिंग पास",
-  "matchering_passes_info": "मैचरिंग की पुनरावृत्तियों की संख्या (1-5, उच्च मान गुणवत्ता को बेहतर बनाते हैं लेकिन अधिक समय लेते हैं)",
-  "matchering_processing": "मैचरिंग लागू किया जा रहा है... ({:.1f}%)",
-  "matchering_completed": "✅ मैचरिंग प्रक्रिया पूरी हुई!",
-  "matchering_error": "❌ मैचरिंग के दौरान त्रुटि: {}"
 }

   "overlap": "ओवरलैप",
   "overlap_info": "अनुशंसित: 2-10 (उच्च मान गुणवत्ता बढ़ाते हैं लेकिन अधिक VRAM की आवश्यकता होती है)",
   "tta_boost": "TTA बूस्ट",
   "phase_fix": "फेज सुधार",
+  "use_phase_correction": "उन्नत फेज सुधार लागू करें",
   "phase_fix_info": "वाद्य ट्रैक के लिए उन्नत फेज सुधार",
   "instrumental": "वाद्य",
   "process": "🚀 प्रक्रिया करें",
   "reset": "🧹 रीसेट करें",
   "status": "स्थिति",
   "ensemble_copy_status": "संयोजन आउटपुट यहाँ कॉपी किया जाएगा...",
   "guidelines": "<h4>मॉडल चयन दिशानिर्देश</h4><ul><li><strong>क्रॉस-श्रेणी मिश्रण से बचें:</strong> स्वर और वाद्य मॉडल का संयोजन अवांछित मिश्रण बना सकता है</li><li><strong>विशेष मॉडल नोट्स:</strong><ul><li>द्वैत मॉडल (v1/v2) - दोनों स्टेम्स आउटपुट करते हैं</li><li>MDX23C सेपरेटर - हाइब्रिड परिणाम</li></ul></li><li><strong>सर्वोत्तम अभ्यास:</strong> एक ही श्रेणी से 3-5 समान मॉडल का उपयोग करें</li></ul><div>💡 प्रो टिप: \"VOCALS-MelBand-Roformer BigBeta5e\" + \"VOCALS-BS-Roformer_1297\" संयोजन से शुरू करें</div>",
   "download_sources_tab": "⬇️ स्रोत डाउनलोड करें",
+  "direct_links": "🌐 डायरेक्ट लिंक्स",
   "audio_file_url": "ऑडियो फाइल URL",
   "download_from_url": "⬇️ URL से डाउनलोड करें",
   "download_status": "डाउनलोड स्थिति",
   "downloaded_file": "डाउनलोड की गई फाइल",
   "cookie_management": "🍪 कुकी प्रबंधन",
+  "upload_cookies_txt": "कुकीज.txt अपलोड करें",
+  "cookie_info": "<div style=\"margin-left:15px; font-size:0.95em\">**📌 क्यों आवश्यक?**<br>- आयु-प्रतिबंधित सामग्री तक पहुंच<br>- न��जी/अप्रकाशित वीडियो डाउनलोड<br>- क्षेत्रीय प्रतिबंधों को बायपास करें<br>- यूट्यूब डाउनलोड सीमाओं से बचें<br><br>**⚠️ महत्वपूर्ण नोट्स**<br>- कभी भी अपनी कुकी फाइलें साझा न करें!<br>- जब रिफ्रेश करें:<br>  • \"403 निषिद्ध\" त्रुटियां प्राप्त हो रही हों<br>  • डाउनलोड अचानक रुक जाएं<br>  • \"सत्र समाप्त\" संदेश देखें<br><br>**🔄 नवीनीकरण चरण**<br>1. इस <a href=\"https://chromewebstore.google.com/detail/get-cookiestxt-clean/ahmnmhfbokciafffnknlekllgcnafnie\" target=\"_blank\">क्रोम एक्सटेंशन</a> को इंस्टॉल करें<br>2. क्रोम में यूट्यूब पर लॉगिन करें<br>3. एक्सटेंशन आइकन पर क्लिक करें → \"एक्सपोर्ट\"<br>4. यहां डाउनलोड की गई फाइल अपलोड करें<br><br>**⏳ कुकी जीवनकाल**<br>- सामान्य सत्र: 24 घंटे<br>- संवेदनशील संचालन: 1 घंटा<br>- पासवर्ड परिवर्तन: तत्काल रिफ्रेश</div>",
+  "ensemble_output_copied": "✅ संयोजन आउटपुट {} में कॉपी किया गया",
+  "error_copying_ensemble_output": "❌ संयोजन आउटपुट कॉपी करने में त्रुटि: {}",
+  "drive_mounted_copying_ensemble": "गूगल ड्राइव माउंटेड। संयोजन आउटपुट कॉपी कर रहा है...",
+  "drive_already_mounted_copying_ensemble": "गूगल ड्राइव पहले से माउंटेड। संयोजन आउटपुट कॉपी कर रहा है...",
+  "no_ensemble_output_files_found": "❌ कोई संयोजन आउटपुट फाइल नहीं मिली।",
+  "drive_mounted_copying_files": "गूगल ड्राइव माउंटेड। फाइलें कॉपी कर रहा है...",
+  "drive_already_mounted_copying_files": "गूगल ड्राइव पहले से माउंटेड। फाइलें कॉपी कर रहा है...",
+  "files_copied_to_drive": "✅ फाइलें {} में कॉपी की गईं",
+  "error_copying_files": "❌ फाइलें कॉपी करने में त्रुटि: {}",
+  "mounting_drive": "गूगल ड्राइव माउंट कर रहा है...",
+  "settings_saved": "सेटिंग्स config.json में सहेजी गईं: भाषा={lang}, विधि={method}, पोर्ट={port}",
+  "selected_language": "चयनित भाषा: {lang}",
+  "available_languages": "उपलब्ध भाषाएं: {langs}",
+  "select_language_prompt": "भाषा चुनें (डिफ़ॉल्ट: {default}): ",
+  "invalid_language": "अमान्य भाषा चयन! डिफ़ॉल्ट भाषा ({default}) का उपयोग कर रहा है।",
+  "available_sharing_methods": "उपलब्ध साझाकरण विधियां: gradio, localtunnel, ngrok",
+  "select_sharing_method_prompt": "साझाकरण विधि चुनें (डिफ़ॉल्ट: {default}): ",
+  "enter_ngrok_token_prompt": "अपना Ngrok टोकन दर्ज करें (डिफ़ॉल्ट: {default}): ",
+  "ngrok_token_required": "त्रुटि: ngrok विधि के लिए Ngrok टोकन आवश्यक है!",
+  "enter_port_prompt": "पोर्ट नंबर दर्ज करें (डिफ़ॉल्ट: {default}): ",
+  "opening_previous_url": "पिछला URL खोल रहा है: {url}",
+  "open_url_manually": "Colab में URL मैन्युअल रूप से खोलें: {url}",
+  "invalid_previous_url": "अमान्य पिछला URL: {url}, नहीं खोला गया।",
+  "starting_method": "{method} को पोर्ट {port} पर शुरू कर रहा है...",
+  "process_stopped": "\n🛑 उपयोगकर्ता द्वारा प्रक्रिया रोक दी गई",
+  "selected_port": "चयनित पोर्ट: {port}",
+  "starting_gradio_with_sharing": "Gradio को अंतर्निहित साझाकरण के साथ शुरू कर रहा है...",
+  "starting_localtunnel": "Localtunnel को पोर्ट {port} प��� शुरू कर रहा है...",
+  "share_link": "साझा लिंक: {url}",
+  "password_ip": "पासवर्ड IP: {ip}",
+  "starting_ngrok": "Ngrok को पोर्ट {port} पर शुरू कर रहा है...",
+  "ngrok_url": "Ngrok URL: {url}",
+  "ngrok_error": "Ngrok शुरू करने में त्रुटि: {error}",
+  "auto_apollo_chunk_size": "Apollo खंड आकार",
+  "auto_apollo_chunk_size_info": "Apollo सुधार के लिए खंड आकार (यूनिवर्सल मॉडल के लिए अनुशंसित: 19)",
+  "auto_apollo_overlap": "Apollo ओवरलैप",
+  "auto_enhancing_with_apollo": "Apollo के साथ सुधार कर रहा है ({}/{} फाइलें)...",
+  "auto_apollo_processing_completed": "Apollo प्रसंस्करण पूरा!",
+  "auto_apollo_overlap_info": "Apollo सुधार के लिए ओवरलैप (अनुशंसित: 2)",
+  "apollo_chunk_size": "Apollo खंड आकार",
+  "apollo_chunk_size_info": "Apollo सुधार के लिए खंड आकार (यूनिवर्सल मॉडल के लिए अनुशंसित: 19)",
+  "apollo_overlap": "Apollo ओवरलैप",
+  "enhance_with_apollo": "Apollo के साथ सुधार करें",
+  "apollo_enhancement_info": "ध्वनि गुणवत्ता सुधार",
+  "enhancing_with_apollo": "Apollo के साथ सुधार कर रहा है ({}/{} फाइलें)...",
+  "apollo_processing_completed": "Apollo प्रसंस्करण पूरा!",
+  "apollo_overlap_info": "Apollo सुधार के लिए ओवरलैप (अनुशंसित: 2)",
+  "selected_models": "चयनित मॉडल",
+  "save_preset": "प्रीसेट सहेजें",
+  "delete_preset": "प्रीसेट हटाएं",
+  "refresh_presets": "प्रीसेट रिफ्रेश करें",
+  "preset_name": "प्रीसेट का नाम",
+  "select_preset": "प्रीसेट चुनें",
+  "add_favorite": "पसंदीदा में जोड़ें",
+  "apply_matchering": "मैचरिंग लागू करें",
+  "matchering_info": "ऑडियो मास्टरिंग और संतुलन को बढ़ाने के लिए मैचरिंग लागू करें",
+  "matchering_passes": "मैचरिंग पास",
+  "matchering_passes_info": "मैचरिंग की पुनरावृत्तियों की संख्या (1-5, उच्च मान गुणवत्ता को बेहतर बनाते हैं लेकिन अधिक समय लेते हैं)",
+  "matchering_processing": "मैचरिंग लागू किया जा रहा है... ({:.1f}%)",
+  "matchering_completed": "✅ मैचरिंग प्रक्रिया पूरी हुई!",
+  "matchering_error": "❌ मैचरिंग के दौरान त्रुटि: {}",
+  "invalid_method": "त्रुटि: अमान्य विधि! 'gradio', 'localtunnel', या 'ngrok' का उपयोग करें।",
+  "language_changed_message": "भाषा बदली गई। कृपया सेल को पुनः शुरू करें।",
+  "backend_settings": "🚀 बैकएंड सेटिंग्स",
+  "inference_backend": "इन्फरेंस बैकएंड",
+  "optimization_mode": "ऑप्टिमाइजेशन मोड",
+  "optimization_mode_info": "PyTorch ऑप्टिमाइजेशन मोड चयन",
+  "mixed_precision_amp": "मिश्रित प्रेसिजन (AMP)",
+  "mixed_precision_info": "2x तेज इन्फरेंस - अनुशंसित",
+  "tf32_acceleration": "TF32 असेलरेशन",
+  "tf32_acceleration_info": "RTX 30xx+ के लिए अतिरिक्त गति बूस्ट",
+  "cudnn_benchmark": "cuDNN बेंचमार्क",
+  "cudnn_benchmark_info": "पहले रन में धीमा, बाद के रनों में बहुत तेज",
+  "ultra_optimized_pytorch": "अल्ट्रा-ऑप्टिमाइज्ड PyTorch बैकएंड",
+  "default_active_max_speed": "डिफ़ॉल्ट रूप से सक्रिय - अधिकतम गति ऑप्टिमाइजेशन",
+  "channels_last_mode": "RTX GPUs के लिए सबसे तेज",
+  "compile_mode": "PyTorch 2.0+ के लिए अतिरिक्त गति",
+  "default_mode": "मानक",
+  "tta_info": "गुणवत्ता बढ़ाता है लेकिन प्रसंस्करण को धीमा करता है",
+  "instrumental_info": "आमतौर पर 2 स���टेम आउटपुट करता है, लेकिन कभी-कभी केवल एक - आपको कोशिश करनी होगी! :)",
+  "direct_download_error": "❌ सीधा डाउनलोड त्रुटि: {}",
+  "invalid_google_drive_url": "❌ अमान्य Google Drive URL",
+  "continuing_without_google_drive": "Google Drive कनेक्शन विफल, इसके बिना जारी रखते हुए...",
+  "skipping_drive_copy_no_mount": "⚠️ Google Drive माउंट नहीं है, Drive पर कॉपी छोड़ रहे हैं...",
+  "direct_download_failed": "फ़ाइल को सीधे डाउनलोड करना विफल रहा",
+  "manual_ensemble_tab": "🎚️ मैनुअल एन्सेम्बल",
+  "phase_fixer_tab": "🔧 फेज़ फिक्सर",
+  "batch_processing_tab": "📦 बैच प्रोसेसिंग",
+  "batch_description": "एक ही मॉडल से एक साथ कई फाइलें प्रोसेस करें",
+  "batch_input_folder": "इनपुट फोल्डर",
+  "batch_input_folder_placeholder": "ऑडियो फाइलों वाले फोल्डर का पथ दर्ज करें",
+  "batch_output_folder": "आउटपुट फोल्डर",
+  "batch_output_folder_placeholder": "आउटपुट फाइलों के लिए फोल्डर पथ दर्ज करें",
+  "batch_file_list": "प्रोसेस करने के लिए फाइलें",
+  "batch_add_files": "फाइलें जोड़ें",
+  "batch_clear_list": "सूची साफ करें",
+  "batch_start": "🚀 बैच प्रोसेसिंग शुरू करें",
+  "batch_stop": "⏹️ रोकें",
+  "batch_progress": "बैच प्रगति",
+  "batch_current_file": "वर्तमान में प्रक्रिया हो रही है",
+  "batch_completed": "✅ बैच प्रोसेसिंग पूर्ण!",
+  "batch_stopped": "⏹️ बैच प्रोसेसिंग रोकी गई",
+  "batch_no_files": "❌ प्रोसेसिंग के लिए कोई फाइल नहीं चुनी गई",
+  "source_model": "स्रोत मॉडल (स्वर)",
+  "source_model_info": "स्वर/फेज़ डेटा निकालने के लिए मॉडल",
+  "target_model": "लक्ष्य मॉडल (वाद्य)",
+  "target_model_info": "फेज़ सुधार लागू करने के लिए मॉडल",
   "input_sources": "📂 इनपुट स्रोत",
+  "refresh": "🔄 रिफ्रेश",
+  "ensemble_algorithm": "एन्सेम्बल एल्गोरिदम",
   "select_audio_files": "ऑडियो फाइलें चुनें",
   "available_files": "उपलब्ध फाइलें",
+  "custom_weights": "कस्टम वज़न (अल्पविराम से अलग)",
   "custom_weights_placeholder": "उदाहरण: 0.8, 1.2, 1.0, ...",
+  "custom_weights_info": "समान वज़न के लिए खाली छोड़ें",
   "result_preview_tab": "🎧 परिणाम पूर्वावलोकन",
+  "ensembled_output": "एन्सेम्बल आउटपुट",
+  "processing_log_tab": "📋 प्रोसेसिंग लॉग",
+  "processing_details": "प्रोसेसिंग विवरण",
+  "process_ensemble": "⚡ एन्सेम्बल प्रोसेस करें",
+  "languages_tab": "🌐 भाषाएं",
   "Vocal Models": "स्वर मॉडल",
   "Instrumental Models": "वाद्य मॉडल",
   "4-Stem Models": "4-स्टेम मॉडल",
+  "Denoise Models": "डीनॉइज़ मॉडल",
+  "Dereverb Models": "डीरिवर्ब मॉडल",
+  "Other Shapes": "अन्य मॉडल",
+  "Custom Models": "कस्टम मॉडल",
+  "ensemble_files_description": "निर्दिष्ट एन्सेम्बल विधियों का उपयोग करके कई ऑडियो फाइलों को एक आउटपुट में जोड़ता है।",
+  "ensemble_files_help": "एन्सेम्बल के लिए सभी ऑडियो फाइलों का पथ",
+  "ensemble_type_help": "इनमें से एक: avg_wave, median_wave, min_wave, max_wave, avg_fft, median_fft, min_fft, max_fft",
+  "ensemble_weights_help": "एन्सेम्बल बनाने के लिए वज़न। वज़न की संख्या फाइलों की संख्या के बराबर होनी चाहिए",
+  "ensemble_output_help": "WAV फाइल का पथ जहाँ एन्सेम्बल परिणाम संग्रहीत होगा",
+  "ensemble_type_print": "एन्सेम्बल प्रकार: {}",
   "num_input_files_print": "इनपुट फाइलों की संख्या: {}",
+  "weights_print": "वज़न: {}",
   "output_file_print": "आउटपुट फाइल: {}",
   "duration_mismatch_error": "सभी फाइलों की अवधि समान होनी चाहिए",
+  "file_not_found_error": "त्रुटि। फाइल नहीं मिली: {}। पथ जाँचें।",
+  "reading_chunk_print": "फाइल से खंड पढ़ रहे हैं: {} (शुरू: {}s, अवधि: {}s)",
+  "chunk_result_shape_print": "खंड परिणाम का आकार: {}",
+  "ensemble_completed_print": "एन्सेम्बल पूर्ण। आउटपुट यहाँ सहेजा गया: {}",
   "file_deletion_error": "{} हटाया नहीं जा सका: {}",
+  "directory_not_exist_warning": "⚠️ डायरेक्टरी मौजूद नहीं: {}",
+  "not_a_directory_warning": "⚠️ पथ एक डायरेक्टरी नहीं है: {}",
   "item_deletion_error": "⚠️ {} हटाने में त्रुटि: {}",
+  "critical_error": "⛔ गंभीर त्रुटि: {}",
+  "old_output_not_exist": "❌ पुराना आउटपुट फोल्डर मौजूद नहीं है",
+  "old_outputs_cleared": "✅ पुराने आउटपुट सफलतापूर्वक साफ किए गए!",
   "error": "🔥 त्रुटि: {}",
   "ffmpeg_error": "FFmpeg त्रुटि ({}): {}",
+  "file_saved_successfully": "फाइल सफलतापूर्वक सहेजी गई: {}",
+  "total_files_found": "कुल फा���लें मिलीं: {}। उपयोग की गई सैंपल रेट: {}",
   "total_progress": "कुल प्रगति",
   "detailed_pbar_enabled": "विस्तृत प्रगति बार सक्षम: {}",
+  "loaded_audio": "ऑडियो लोड हुआ: {}, आकार: {}",
+  "cannot_read_track": "ट्रैक नहीं पढ़ सकते: {}",
   "error_message": "त्रुटि संदेश: {}",
+  "demudding_track": "ट्रैक साफ कर रहे हैं (फेज़ रीमिक्स - वाद्य): {}",
   "elapsed_time": "बीता हुआ समय: {:.2f} सेकंड।",
+  "proc_folder_description": "निर्दिष्ट मॉडल का उपयोग करके फोल्डर में ऑडियो फाइलें प्रोसेस करता है।",
   "model_type_help": "मॉडल प्रकार (bandit, bs_roformer, mdx23c, आदि)",
   "config_path_help": "कॉन्फ़िग फाइल का पथ",
+  "demud_phaseremix_help": "वाद्य के लिए फेज़ रीमिक्स सक्षम करें",
+  "start_checkpoint_help": "वैध वज़न के लिए प्रारंभिक चेकपॉइंट",
+  "input_folder_help": "प्रक्रिया करने के लिए मिश्रण वाला फोल्डर",
+  "audio_path_help": "एकल ऑडियो फाइल का पथ",
   "store_dir_help": "परिणाम संग्रहीत करने का पथ",
+  "device_ids_help": "GPU आईडी की सूची",
+  "extract_instrumental_help": "यदि प्रदान किया गया हो तो वाद्य प्राप्त करने के लिए स्वर को उलटें",
+  "disable_detailed_pbar_help": "डीमिक्स में विस्तृत प्रगति बार अक्षम करें",
+  "force_cpu_help": "CUDA उपलब्ध होने पर भी CPU का उपयोग करने के लिए बाध्य करें",
   "flac_file_help": "WAV के बजाय FLAC फाइल आउटपुट करें",
   "export_format_help": "निर्यात प्रारूप और PCM प्रकार",
   "pcm_type_help": "FLAC फाइलों के लिए PCM प्रकार",
+  "use_tta_help": "टेस्ट टाइम ऑग्मेंटेशन सक्षम करें",
+  "lora_checkpoint_help": "LoRA वज़न के लिए प्रारंभिक चेकपॉइंट",
   "cuda_available": "CUDA उपलब्ध है, इसे अक्षम करने के लिए --force_cpu का उपयोग करें।",
+  "using_device": "डिवाइस उपयोग: {}",
+  "instruments_print": "वाद्ययंत्र: {}",
   "model_load_time": "मॉडल लोड समय: {:.2f} सेकंड",
   "invalid_url": "❌ अमान्य URL",
+  "cookie_file_updated": "✅ कुकी फाइल अपडेट हुई!",
+  "cookie_installation_error": "⚠️ कुकी इंस्टॉलेशन त्रुटि: {}",
+  "google_drive_mount_error": "❌ Google Drive लिंक त्रुटि: {}",
+  "file_size_zero_error": "फाइल का आकार शून्य है या फाइल नहीं बनाई गई",
   "google_drive_error": "❌ Google Drive डाउनलोड त्रुटि: {}",
   "wav_conversion_failed": "WAV रूपांतरण विफल",
   "download_error": "❌ डाउनलोड त्रुटि: {}",
+  "file_copied_to_drive": "फाइल Google Drive पर कॉपी की गई: {}",
+  "copy_to_drive_error": "❌ Google Drive पर कॉपी करने में त्रुटि: {}",
+  "download_success": "🎉 सफलतापूर्वक डाउनलोड हुआ!",
   "download_failed": "❌ डाउनलोड विफल",
+  "no_output_files_found": "❌ कोई आउटपुट फाइल नहीं मिली।",
+  "output_refreshed_successfully": "✅ आउटपुट सफलतापूर्वक रिफ्रेश हुआ!",
+  "error_refreshing_output": "❌ आउटपुट रिफ्रेश करने में त्रुटि: {}",
   "starting_audio_separation": "ऑडियो पृथक्करण शुरू हो रहा है...",
+  "processing_audio": "ऑडियो प्रोसेस हो रहा है",
+  "separating_audio": "ऑडियो अलग हो रहा है... ({:.1f}%)",
+  "separation_complete": "पृथक्करण पूर्ण!",
   "progress_parsing_error": "प्रगति पार्सिंग त्रुटि: {}",
   "error_occurred": "एक त्रुटि हुई: {}",
+  "separation_process_completed": "पृथक्करण प्रक्रिया पूर्ण!",
+  "no_audio_file_error": "❌ कोई ऑडियो फाइल नहीं दी गई और इनपुट डायरेक्टरी में कोई मौजूदा फाइल नहीं है।",
+  "no_input_progress_label": "त्रुटि: कोई इनपुट नहीं दिया गया -- 0.0%",
+  "processing_audio_print": "ऑडियो प्रोसेस हो रहा है: {} मॉडल: {}",
   "starting_audio_separation_progress_label": "ऑडियो पृथक्करण शुरू हो रहा है... -- 0.0%",
+  "separating_audio_progress_label": "ऑडियो अलग हो रहा है... -- {}.0%",
+  "audio_processing_completed_progress_label": "ऑडियो प्रक्रिया पूर्ण! -- 100.0%",
+  "audio_processing_completed": "✅ ऑडियो प्रक्रिया पूर्ण!",
   "error_occurred_progress_label": "त्रुटि ह���ई -- 0.0%",
   "minimum_files_required": "⚠️ न्यूनतम 2 फाइलें आवश्यक",
+  "valid_files_not_found": "❌ कोई वैध फाइल नहीं मिली",
+  "starting_ensemble_process": "एन्सेम्बल प्रक्रिया शुरू हो रही है...",
+  "ensembling_progress": "एन्सेम्बल हो रहा है... ({:.1f}%)",
+  "finalizing_ensemble_output": "एन्सेम्बल आउटपुट अंतिम रूप दे रहे हैं...",
+  "success_log": "✅ सफल!\n{}",
   "error_log": "❌ त्रुटि!\n{}",
+  "ensemble_process_completed": "एन्सेम्बल प्रक्रिया पूर्ण!",
+  "no_models_selected": "❌ कोई मॉडल नहीं चुना गया",
+  "no_input_audio_provided": "❌ कोई इनपुट ऑडियो नहीं दिया गया",
+  "loading_model": "मॉडल लोड हो रहा है {}/{}: {}...",
+  "loading_model_progress_label": "मॉडल लोड हो रहा है {}/{}: {}... -- {}.0%",
+  "completed_model": "मॉडल पूर्ण {}/{}: {}",
+  "completed_model_progress_label": "मॉडल पूर्ण {}/{}: {} -- {}.0%",
+  "running_command": "कमांड चला रहे हैं: {}",
   "model_failed": "मॉडल {} विफल: {}",
   "critical_error_with_model": "{} के साथ गंभीर त्रुटि: {}",
+  "model_output_failed": "{} आउटपुट नहीं दे सका",
+  "waiting_for_files": "सभी फाइलों के तैयार होने का इंतजार...",
+  "waiting_for_files_progress_label": "सभी फाइलों के तैयार होने का इंतजार... -- 90.0%",
+  "performing_ensemble": "एन्सेम्बल कर रहे हैं...",
+  "performing_ensemble_progress_label": "एन्सेम्बल कर रहे हैं... -- 92.0%",
+  "memory_usage_before_ensemble": "एन्सेम्बल से पहले मेमोरी उपयोग: {}%",
+  "memory_usage_after_ensemble": "एन्सेम्बल के बाद मेमोरी उपयोग: {}%",
+  "finalizing_ensemble_output_progress_label": "एन्सेम्बल आउटपुट अंतिम रूप दे रहे हैं... -- 98.0%",
+  "ensemble_file_creation_failed": "एन्सेम्बल फाइल नहीं बनाई जा सकी: {}",
+  "ensemble_completed_progress_label": "एन्सेम्बल सफलतापूर्वक पूर्ण! -- 100.0%",
+  "success_output_created": "✅ सफल! आउटपुट फाइल बनाई गई।",
+  "custom_models_tab": "⚡ कस्टम मॉडल",
+  "add_custom_model": "➕ कस्टम मॉडल जोड़ें",
+  "custom_model_name": "मॉडल नाम",
+  "custom_model_name_placeholder": "अपने मॉडल के लिए एक नाम दर्ज करें",
+  "checkpoint_url": "Checkpoint URL (.ckpt/.pth)",
+  "checkpoint_url_placeholder": "https://huggingface.co/.../model.ckpt",
+  "config_url": "Config URL (.yaml)",
+  "config_url_placeholder": "https://huggingface.co/.../config.yaml",
+  "custom_py_url": "कस्टम Python फाइल URL (वैकल्पिक)",
+  "custom_py_url_placeholder": "https://huggingface.co/.../bs_roformer.py",
+  "auto_detect_type": "मॉडल प्रकार स्वचालित रूप से पहचानें",
+  "model_type": "मॉडल प्रकार",
+  "add_model_btn": "➕ मॉडल जोड़ें",
+  "custom_models_list": "📋 कस्टम मॉडल सूची",
+  "delete_model": "🗑️ हटाएं",
+  "no_custom_models": "अभी तक कोई कस्टम मॉडल नहीं जोड़ा गया",
+  "model_added_success": "✅ मॉडल सफलतापूर्वक जोड़ा गया!",
+  "model_deleted_success": "✅ मॉडल सफलतापूर्वक हटाया गया!",
+  "model_add_error": "❌ मॉडल जोड़ने में त्रुटि: {}",
+  "model_delete_error": "❌ मॉडल हटाने में त्रुटि: {}",
+  "refresh_models": "🔄 रिफ्रेश",
+  "custom_model_info": "डाउनलोड लिंक प्रदान करके कस्टम मॉडल जोड़ें। मॉडल उपयोग होने पर स्वचालित रूप से डाउनलोड होंगे।",
+  "select_model_to_delete": "हटाने के लिए मॉडल चु��ें"
 }

assets/i18n/languages/it_it.json CHANGED Viewed

@@ -17,8 +17,8 @@
   "overlap": "Sovrapposizione",
   "overlap_info": "Consigliato: 2-10 (valori più alti migliorano la qualità ma richiedono più VRAM)",
   "tta_boost": "Boost TTA",
-  "tta_info": "Migliora la qualità ma rallenta la velocità di elaborazione",
   "phase_fix": "Correzione fase",
   "phase_fix_info": "Correzione avanzata della fase per tracce strumentali",
   "instrumental": "Strumentale",
   "instrumental_info": "Di solito produce 2 output, ma a volte solo uno, prova! :)",
@@ -80,111 +80,199 @@
   "downloaded_file": "File scaricato",
   "cookie_management": "🍪 Gestione cookie",
   "upload_cookies_txt": "Carica Cookies.txt",
-  "cookie_info": "<div style=\"margin-left:15px; font-size:0.95em\">**📌 Perché è necessario?**<br>- Accesso a contenuti con restrizione d'età<br>- Download di video privati/non elencati<br>- Superamento delle restrizioni regionali<br>- Evitare i limiti di download di YouTube<br><br>**⚠️ Note importanti**<br>- NON CONDIVIDERE MAI i tuoi file cookie!<br>- Aggiorna i cookie quando:<br>  • Ricevi errori \"403 Vietato\"<br>  • I download si interrompono improvvisamente<br>  • Vedi il messaggio \"Sessione scaduta\"<br><br>**🔄 Passaggi per l'aggiornamento**<br>1. Installa questa <a href=\"https://chromewebstore.google.com/detail/get-cookiestxt-clean/ahmnmhfbokciafffnknlekllgcnafnie\" target=\"_blank\">estensione Chrome</a><br>2. Accedi a YouTube su Chrome<br>3. Clicca sull'icona dell'estensione → \"Esporta\"<br>4. Carica il file scaricato qui<br><br>**⏳ Durata dei cookie**<br>- Sessioni normali: 24 ore<br>- Operazioni sensibili: 1 ora<br>- Cambio password: Invalidità immediata</div>",
   "manual_ensemble_tab": "🎚️ Ensemble manuale",
-  "input_sources": "📂 Sorgenti di input",
   "refresh": "🔄 Aggiorna",
   "ensemble_algorithm": "Algoritmo ensemble",
   "select_audio_files": "Seleziona file audio",
   "available_files": "File disponibili",
-  "custom_weights": "Pesi personalizzati (separati da virgole)",
   "custom_weights_placeholder": "Esempio: 0.8, 1.2, 1.0, ...",
   "custom_weights_info": "Lascia vuoto per pesi uguali",
   "result_preview_tab": "🎧 Anteprima risultato",
   "ensembled_output": "Output ensemble",
-  "processing_log_tab": "📋 Log di elaborazione",
   "processing_details": "Dettagli elaborazione",
   "process_ensemble": "⚡ Elabora ensemble",
   "languages_tab": "🌐 Lingue",
   "Vocal Models": "Modelli vocali",
   "Instrumental Models": "Modelli strumentali",
-  "4-Stem Models": "Modelli a 4 stem",
-  "Denoise Models": "Modelli di denoising",
-  "Dereverb Models": "Modelli di rimozione riverbero",
   "Other Models": "Altri modelli",
-  "ensemble_files_description": "Combina più file audio in un unico output utilizzando metodi di ensemble specificati.",
   "ensemble_files_help": "Percorso a tutti i file audio per l'ensemble",
-  "ensemble_type_help": "Uno tra: avg_wave, median_wave, min_wave, max_wave, avg_fft, median_fft, min_fft, max_fft",
-  "ensemble_weights_help": "Pesi per creare l'ensemble. Il numero di pesi deve corrispondere al numero di file",
-  "ensemble_output_help": "Percorso al file WAV dove verrà salvato il risultato dell'ensemble",
   "ensemble_type_print": "Tipo ensemble: {}",
   "num_input_files_print": "Numero file input: {}",
   "weights_print": "Pesi: {}",
   "output_file_print": "File output: {}",
   "duration_mismatch_error": "Tutti i file devono avere la stessa durata",
-  "file_not_found_error": "Errore. File non trovato: {}. Controlla i percorsi.",
-  "reading_chunk_print": "Lettura frammento dal file: {} (inizio: {}s, durata: {}s)",
-  "chunk_result_shape_print": "Forma risultato frammento: {}",
   "ensemble_completed_print": "Ensemble completato. Output salvato in: {}",
   "file_deletion_error": "{} non può essere eliminato: {}",
   "directory_not_exist_warning": "⚠️ La directory non esiste: {}",
   "not_a_directory_warning": "⚠️ Il percorso non è una directory: {}",
-  "item_deletion_error": "⚠️ Errore durante l'eliminazione di {}: {}",
   "old_output_not_exist": "❌ La cartella output vecchia non esiste",
-  "old_outputs_cleared": "✅ Output vecchi eliminati con successo!",
   "error": "🔥 Errore: {}",
   "ffmpeg_error": "Errore FFmpeg ({}): {}",
   "file_saved_successfully": "File salvato con successo: {}",
-  "total_files_found": "Totale file trovati: {}. Frequenza di campionamento usata: {}",
   "total_progress": "Progresso totale",
-  "detailed_pbar_enabled": "Barra di progresso dettagliata abilitata: {}",
   "loaded_audio": "Audio caricato: {}, forma: {}",
-  "cannot_read_track": "Impossibile leggere la traccia: {}",
-  "error_message": "Messaggio di errore: {}",
-  "demudding_track": "Pulizia traccia (remix fase - strumentale): {}",
   "elapsed_time": "Tempo trascorso: {:.2f} secondi.",
-  "proc_folder_description": "Elabora i file audio in una cartella usando un modello specificato.",
-  "model_type_help": "Tipo di modello (bandit, bs_roformer, mdx23c, ecc.)",
-  "config_path_help": "Percorso al file di configurazione",
-  "demud_phaseremix_help": "Abilita remix fase per lo strumentale",
-  "start_checkpoint_help": "Punto di controllo iniziale per pesi validi",
-  "input_folder_help": "Cartella contenente i mix da elaborare",
-  "audio_path_help": "Percorso a un singolo file audio da elaborare",
-  "store_dir_help": "Percorso per salvare i risultati",
-  "device_ids_help": "Lista di ID GPU",
-  "extract_instrumental_help": "Inverti le vocali per ottenere lo strumentale, se fornito",
-  "disable_detailed_pbar_help": "Disabilita barra di progresso dettagliata nel demixing",
-  "force_cpu_help": "Forza l'uso della CPU anche se CUDA è disponibile",
-  "flac_file_help": "Genera un file FLAC invece di WAV",
-  "export_format_help": "Formato di esportazione e tipo PCM",
   "pcm_type_help": "Tipo PCM per file FLAC",
-  "use_tta_help": "Abilita l'aumento del tempo di test",
-  "lora_checkpoint_help": "Punto di controllo iniziale per pesi LoRA",
-  "cuda_available": "CUDA disponibile, usa --force_cpu per disabilitarlo.",
-  "using_device": "Dispositivo in uso: {}",
   "instruments_print": "Strumenti: {}",
-  "model_load_time": "Tempo di caricamento modello: {:.2f} sec",
   "invalid_url": "❌ URL non valido",
   "cookie_file_updated": "✅ File cookie aggiornato!",
   "cookie_installation_error": "⚠️ Errore installazione cookie: {}",
   "file_size_zero_error": "Dimensione file zero o file non creato",
   "google_drive_error": "❌ Errore download Google Drive: {}",
   "wav_conversion_failed": "Conversione WAV fallita",
   "download_error": "❌ Errore download: {}",
-  "download_success": "🎉 Download completato con successo!",
   "download_failed": "❌ Download fallito",
   "no_output_files_found": "❌ Nessun file output trovato.",
   "output_refreshed_successfully": "✅ Output aggiornato con successo!",
-  "error_refreshing_output": "❌ Errore durante aggiornamento output: {}",
-  "starting_audio_separation": "Inizio separazione audio...",
   "processing_audio": "Elaborazione audio",
   "separating_audio": "Separazione audio... ({:.1f}%)",
   "separation_complete": "Separazione completata!",
-  "progress_parsing_error": "Errore analisi progresso: {}",
   "error_occurred": "Si è verificato un errore: {}",
-  "separation_process_completed": "Processo di separazione completato!",
-  "no_audio_file_error": "❌ Nessun file audio fornito e nessun file esistente nella directory di input.",
   "no_input_progress_label": "Errore: Nessun input fornito -- 0.0%",
-  "processing_audio_print": "Elaborazione audio da: {} usando il modello: {}",
-  "starting_audio_separation_progress_label": "Inizio separazione audio... -- 0.0%",
   "separating_audio_progress_label": "Separazione audio... -- {}.0%",
   "audio_processing_completed_progress_label": "Elaborazione audio completata! -- 100.0%",
   "audio_processing_completed": "✅ Elaborazione audio completata!",
   "error_occurred_progress_label": "Errore verificato -- 0.0%",
-  "minimum_files_required": "⚠️ Richiesti minimo 2 file",
   "valid_files_not_found": "❌ Nessun file valido trovato",
-  "starting_ensemble_process": "Inizio processo ensemble...",
-  "ensembling_progress": "Elaborazione ensemble... ({:.1f}%)",
   "finalizing_ensemble_output": "Finalizzazione output ensemble...",
   "success_log": "✅ Successo!\n{}",
   "error_log": "❌ Errore!\n{}",
@@ -200,81 +288,92 @@
   "model_failed": "Modello {} fallito: {}",
   "critical_error_with_model": "Errore critico con {}: {}",
   "model_output_failed": "{} non è riuscito a produrre output",
-  "waiting_for_files": "In attesa che tutti i file siano pronti...",
-  "waiting_for_files_progress_label": "In attesa che tutti i file siano pronti... -- 90.0%",
   "performing_ensemble": "Esecuzione ensemble...",
   "performing_ensemble_progress_label": "Esecuzione ensemble... -- 92.0%",
-  "memory_usage_before_ensemble": "Uso memoria prima dell'ensemble: {}%",
-  "memory_usage_after_ensemble": "Uso memoria dopo l'ensemble: {}%",
   "finalizing_ensemble_output_progress_label": "Finalizzazione output ensemble... -- 98.0%",
-  "ensemble_file_creation_failed": "Creazione file ensemble fallita: {}",
   "ensemble_completed_progress_label": "Ensemble completato con successo! -- 100.0%",
   "success_output_created": "✅ Successo! File output creato.",
-  "drive_mounted_copying_ensemble": "Google Drive montato. Copia output ensemble...",
-  "drive_already_mounted_copying_ensemble": "Google Drive già montato. Copia output ensemble...",
-  "no_ensemble_output_files_found": "❌ Nessun file output ensemble trovato.",
-  "ensemble_output_copied": "✅ Output ensemble copiato in {}",
-  "error_copying_ensemble_output": "❌ Errore durante copia output ensemble: {}",
-  "drive_mounted_copying_files": "Google Drive montato. Copia file...",
-  "drive_already_mounted_copying_files": "Google Drive già montato. Copia file...",
-  "files_copied_to_drive": "✅ File copiati in {}",
-  "error_copying_files": "❌ Errore durante copia file: {}",
-  "mounting_drive": "Montaggio Google Drive...",
-  "settings_saved": "Impostazioni salvate in config.json: Lingua={lang}, Metodo={method}, Porta={port}",
-  "selected_language": "Lingua selezionata: {lang}",
-  "available_languages": "Lingue disponibili: {langs}",
-  "select_language_prompt": "Seleziona una lingua (default: {default}): ",
-  "invalid_language": "Selezione lingua non valida! Uso lingua default ({default}).",
-  "available_sharing_methods": "Metodi di condivisione disponibili: gradio, localtunnel, ngrok",
-  "select_sharing_method_prompt": "Scegli un metodo di condivisione (default: {default}): ",
-  "enter_ngrok_token_prompt": "Inserisci il tuo token Ngrok (default: {default}): ",
-  "ngrok_token_required": "Errore: Token Ngrok richiesto per il metodo ngrok!",
-  "enter_port_prompt": "Inserisci il numero di porta (default: {default}): ",
-  "opening_previous_url": "Apertura URL precedente: {url}",
-  "open_url_manually": "Apri l'URL manualmente in Colab: {url}",
-  "invalid_previous_url": "URL precedente non valido: {url}, non aperto.",
-  "starting_method": "Avvio di {method} sulla porta {port}...",
-  "process_stopped": "\n🛑 Processo fermato dall'utente",
-  "selected_port": "Porta selezionata: {port}",
-  "starting_gradio_with_sharing": "Avvio Gradio con condivisione integrata...",
-  "starting_localtunnel": "Avvio Localtunnel sulla porta {port}...",
-  "share_link": "Link di condivisione: {url}",
-  "password_ip": "Password IP: {ip}",
-  "starting_ngrok": "Avvio Ngrok sulla porta {port}...",
-  "ngrok_url": "URL Ngrok: {url}",
-  "ngrok_error": "Errore avvio Ngrok: {error}",
-  "apollo_chunk_size": "Dimensione frammento Apollo",
-  "apollo_chunk_size_info": "Dimensione frammento per miglioramento Apollo (consigliato: 19 per modello universale)",
-  "apollo_overlap": "Sovrapposizione Apollo",
-  "enhancing_with_apollo": "Miglioramento con Apollo ({}/{} file)...",
-  "apollo_processing_completed": "Elaborazione Apollo completata!",
-  "apollo_overlap_info": "Sovrapposizione per miglioramento Apollo (consigliato: 2)",
-  "invalid_method": "Errore: Metodo non valido! Usa 'gradio', 'localtunnel' o 'ngrok'.",
-  "apollo_enhancement_settings": "Impostazioni miglioramento Apollo",
-  "enhance_with_apollo": "Migliora con Apollo",
-  "enhance_with_apollo_info": "Abilita Apollo per migliorare l'audio dopo la separazione",
-  "apollo_method": "Metodo Apollo",
-  "apollo_method_info": "Seleziona il metodo di elaborazione per Apollo",
   "normal_method": "Metodo normale",
-  "mid_side_method": "Metodo mid/side",
-  "apollo_normal_model": "Modello Apollo normale",
-  "apollo_normal_model_info": "Modello da usare per l'elaborazione Apollo normale",
-  "apollo_midside_model": "Modello Apollo mid/side",
-  "apollo_enhancement_info": "Miglioramento qualità audio",
-  "selected_models": "Modelli Selezionati",
-  "save_preset": "Salva Preimpostazione",
-  "delete_preset": "Elimina Preimpostazione",
-  "refresh_presets": "Aggiorna Preimpostazioni",
-  "preset_name": "Nome Preimpostazione",
-  "select_preset": "Seleziona Preimpostazione",
-  "add_favorite": "Aggiungi ai Preferiti",
-  "apollo_midside_model_info": "Modello da usare per l'elaborazione mid/side (opzionale)",
-  "language_changed_message": "Lingua cambiata. Riavvia la cella.",
-  "apply_matchering": "Applica Matchering",
-  "matchering_info": "Applica Matchering per migliorare il mastering e il bilanciamento dell'audio",
-  "matchering_passes": "Passaggi di Matchering",
-  "matchering_passes_info": "Numero di iterazioni di Matchering (1-5, valori più alti migliorano la qualità ma richiedono più tempo)",
-  "matchering_processing": "Applicazione di Matchering in corso... ({:.1f}%)",
-  "matchering_completed": "✅ Elaborazione Matchering completata!",
-  "matchering_error": "❌ Errore durante Matchering: {}"
 }

   "overlap": "Sovrapposizione",
   "overlap_info": "Consigliato: 2-10 (valori più alti migliorano la qualità ma richiedono più VRAM)",
   "tta_boost": "Boost TTA",
   "phase_fix": "Correzione fase",
+  "use_phase_correction": "Applica Correzione Fase Avanzata",
   "phase_fix_info": "Correzione avanzata della fase per tracce strumentali",
   "instrumental": "Strumentale",
   "instrumental_info": "Di solito produce 2 output, ma a volte solo uno, prova! :)",
   "downloaded_file": "File scaricato",
   "cookie_management": "🍪 Gestione cookie",
   "upload_cookies_txt": "Carica Cookies.txt",
+  "cookie_info": "<div style=\"margin-left:15px; font-size:0.95em\">**📌 Perché è necessario?**<br>- Accesso a contenuti con restrizione d'età<br>- Download di video privati/non elencati<br>- Superamento delle restrizioni regionali<br>- Evitare i limiti di download di YouTube<br><br>**⚠️ Note Importanti**<br>- NON condividere mai i tuoi file cookie!<br>- Aggiorna i cookie quando:<br>  • Ricevi errori \"403 Vietato\"<br>  • I download si fermano improvvisamente<br>  • Vedi messaggi \"Sessione scaduta\"<br><br>**🔄 Passi per il Rinnovo**<br>1. Installa questa <a href=\"https://chromewebstore.google.com/detail/get-cookiestxt-clean/ahmnmhfbokciafffnknlekllgcnafnie\" target=\"_blank\">estensione Chrome</a><br>2. Accedi a YouTube su Chrome<br>3. Clicca sull'icona dell'estensione → \"Esporta\"<br>4. Carica il file scaricato qui<br><br>**⏳ Durata Cookie**<br>- Sessioni normali: 24 ore<br>- Operazioni sensibili: 1 ora<br>- Cambio password: Rinnovo immediato</div>",
+  "ensemble_output_copied": "✅ Output ensemble copiato in {}",
+  "error_copying_ensemble_output": "❌ Errore copia output ensemble: {}",
+  "drive_mounted_copying_ensemble": "Google Drive montato. Copia output ensemble...",
+  "drive_already_mounted_copying_ensemble": "Google Drive già montato. Copia output ensemble...",
+  "no_ensemble_output_files_found": "❌ Nessun file output ensemble trovato.",
+  "drive_mounted_copying_files": "Google Drive montato. Copia file...",
+  "drive_already_mounted_copying_files": "Google Drive già montato. Copia file...",
+  "files_copied_to_drive": "✅ File copiati in {}",
+  "error_copying_files": "❌ Errore copia file: {}",
+  "mounting_drive": "Montaggio Google Drive...",
+  "settings_saved": "Impostazioni salvate in config.json: Lingua={lang}, Metodo={method}, Porta={port}",
+  "selected_language": "Lingua selezionata: {lang}",
+  "available_languages": "Lingue disponibili: {langs}",
+  "select_language_prompt": "Seleziona una lingua (default: {default}): ",
+  "invalid_language": "Selezione lingua non valida! Uso lingua default ({default}).",
+  "available_sharing_methods": "Metodi di condivisione disponibili: gradio, localtunnel, ngrok",
+  "select_sharing_method_prompt": "Scegli un metodo di condivisione (default: {default}): ",
+  "enter_ngrok_token_prompt": "Inserisci il tuo token Ngrok (default: {default}): ",
+  "ngrok_token_required": "Errore: Token Ngrok richiesto per il metodo ngrok!",
+  "enter_port_prompt": "Inserisci il numero di porta (default: {default}): ",
+  "opening_previous_url": "Apertura URL precedente: {url}",
+  "open_url_manually": "Apri l'URL manualmente in Colab: {url}",
+  "invalid_previous_url": "URL precedente non valido: {url}, non aperto.",
+  "starting_method": "Avvio di {method} sulla porta {port}...",
+  "process_stopped": "\n🛑 Processo fermato dall'utente",
+  "selected_port": "Porta selezionata: {port}",
+  "starting_gradio_with_sharing": "Avvio Gradio con condivisione integrata...",
+  "starting_localtunnel": "Avvio Localtunnel sulla porta {port}...",
+  "share_link": "Link di condivisione: {url}",
+  "password_ip": "Password IP: {ip}",
+  "starting_ngrok": "Avvio Ngrok sulla porta {port}...",
+  "ngrok_url": "URL Ngrok: {url}",
+  "ngrok_error": "Errore avvio Ngrok: {error}",
+  "auto_apollo_chunk_size": "Dimensione frammento Apollo",
+  "auto_apollo_chunk_size_info": "Dimensione frammento per miglioramento Apollo (consigliato: 19 per modello universale)",
+  "auto_apollo_overlap": "Sovrapposizione Apollo",
+  "auto_enhancing_with_apollo": "Miglioramento con Apollo ({}/{} file)...",
+  "auto_apollo_processing_completed": "Elaborazione Apollo completata!",
+  "auto_apollo_overlap_info": "Sovrapposizione per miglioramento Apollo (consigliato: 2)",
+  "apollo_chunk_size": "Dimensione frammento Apollo",
+  "apollo_chunk_size_info": "Dimensione frammento per miglioramento Apollo (consigliato: 19 per modello universale)",
+  "apollo_overlap": "Sovrapposizione Apollo",
+  "enhance_with_apollo": "Migliora con Apollo",
+  "apollo_enhancement_info": "Miglioramento qualità audio",
+  "enhancing_with_apollo": "Miglioramento con Apollo ({}/{} file)...",
+  "apollo_processing_completed": "Elaborazione Apollo completata!",
+  "apollo_overlap_info": "Sovrapposizione per miglioramento Apollo (consigliato: 2)",
+  "selected_models": "Modelli selezionati",
+  "save_preset": "Salva preimpostazione",
+  "delete_preset": "Elimina preimpostazione",
+  "refresh_presets": "Aggiorna preimpostazioni",
+  "preset_name": "Nome preimpostazione",
+  "select_preset": "Seleziona preimpostazione",
+  "add_favorite": "Aggiungi ai preferiti",
+  "apply_matchering": "Applica Matchering",
+  "matchering_info": "Applica Matchering per migliorare il mastering e il bilanciamento dell'audio",
+  "matchering_passes": "Passi Matchering",
+  "matchering_passes_info": "Numero di iterazioni Matchering (1-5, valori più alti migliorano la qualità ma richiedono più tempo)",
+  "matchering_processing": "Applicazione Matchering in corso... ({:.1f}%)",
+  "matchering_completed": "✅ Elaborazione Matchering completata!",
+  "matchering_error": "❌ Errore durante Matchering: {}",
+  "invalid_method": "Errore: Metodo non valido! Usa 'gradio', 'localtunnel' o 'ngrok'.",
+  "language_changed_message": "Lingua cambiata. Riavvia la cella.",
+  "backend_settings": "🚀 Impostazioni backend",
+  "inference_backend": "Backend inferenza",
+  "optimization_mode": "Modalità ottimizzazione",
+  "optimization_mode_info": "Selezione modalità ottimizzazione PyTorch",
+  "mixed_precision_amp": "Precisione mista (AMP)",
+  "mixed_precision_info": "Inferenza 2x più veloce - consigliato",
+  "tf32_acceleration": "Accelerazione TF32",
+  "tf32_acceleration_info": "Boost di velocità extra per RTX 30xx+",
+  "cudnn_benchmark": "Benchmark cuDNN",
+  "cudnn_benchmark_info": "Più lento al primo run, molto più veloce nei run successivi",
+  "ultra_optimized_pytorch": "Backend PyTorch ULTRA-OTTIMIZZATO",
+  "default_active_max_speed": "Attivo per impostazione predefinita - Ottimizzazione velocità massima",
+  "channels_last_mode": "Il più veloce per GPU RTX",
+  "compile_mode": "Velocità extra per PyTorch 2.0+",
+  "default_mode": "Standard",
+  "tta_info": "Aumenta la qualità ma rallenta l'elaborazione",
   "manual_ensemble_tab": "🎚️ Ensemble manuale",
+  "input_sources": "📂 Sorgenti input",
   "refresh": "🔄 Aggiorna",
   "ensemble_algorithm": "Algoritmo ensemble",
   "select_audio_files": "Seleziona file audio",
   "available_files": "File disponibili",
+  "custom_weights": "Pesi personalizzati (separati da virgola)",
   "custom_weights_placeholder": "Esempio: 0.8, 1.2, 1.0, ...",
   "custom_weights_info": "Lascia vuoto per pesi uguali",
   "result_preview_tab": "🎧 Anteprima risultato",
   "ensembled_output": "Output ensemble",
+  "processing_log_tab": "📋 Registro elaborazione",
   "processing_details": "Dettagli elaborazione",
   "process_ensemble": "⚡ Elabora ensemble",
   "languages_tab": "🌐 Lingue",
   "Vocal Models": "Modelli vocali",
   "Instrumental Models": "Modelli strumentali",
+  "4-Stem Models": "Modelli 4-stem",
+  "Denoise Models": "Modelli denoising",
+  "Dereverb Models": "Modelli dereverb",
   "Other Models": "Altri modelli",
+  "Other Shapes": "Altri modelli",
+  "ensemble_files_description": "Combina più file audio in un singolo output usando metodi ensemble specificati.",
   "ensemble_files_help": "Percorso a tutti i file audio per l'ensemble",
+  "ensemble_type_help": "Uno di: avg_wave, median_wave, min_wave, max_wave, avg_fft, median_fft, min_fft, max_fft",
+  "ensemble_weights_help": "Pesi per creare l'ensemble. Il numero di pesi deve essere uguale al numero di file",
+  "ensemble_output_help": "Percorso al file WAV dove verrà memorizzato il risultato dell'ensemble",
   "ensemble_type_print": "Tipo ensemble: {}",
   "num_input_files_print": "Numero file input: {}",
   "weights_print": "Pesi: {}",
   "output_file_print": "File output: {}",
   "duration_mismatch_error": "Tutti i file devono avere la stessa durata",
+  "file_not_found_error": "Errore. Impossibile trovare il file: {}. Controlla i percorsi.",
+  "reading_chunk_print": "Lettura chunk dal file: {} (inizio: {}s, durata: {}s)",
+  "chunk_result_shape_print": "Forma risultato chunk: {}",
   "ensemble_completed_print": "Ensemble completato. Output salvato in: {}",
   "file_deletion_error": "{} non può essere eliminato: {}",
   "directory_not_exist_warning": "⚠️ La directory non esiste: {}",
   "not_a_directory_warning": "⚠️ Il percorso non è una directory: {}",
+  "item_deletion_error": "⚠️ Errore eliminazione {}: {}",
   "old_output_not_exist": "❌ La cartella output vecchia non esiste",
+  "old_outputs_cleared": "✅ Output vecchi cancellati con successo!",
   "error": "🔥 Errore: {}",
   "ffmpeg_error": "Errore FFmpeg ({}): {}",
   "file_saved_successfully": "File salvato con successo: {}",
+  "total_files_found": "File totali trovati: {}. Sample rate usato: {}",
   "total_progress": "Progresso totale",
+  "detailed_pbar_enabled": "Barra progresso dettagliata abilitata: {}",
   "loaded_audio": "Audio caricato: {}, forma: {}",
+  "cannot_read_track": "Impossibile leggere traccia: {}",
+  "error_message": "Messaggio errore: {}",
+  "demudding_track": "Pulizia traccia (phase remix - strumentale): {}",
   "elapsed_time": "Tempo trascorso: {:.2f} secondi.",
+  "proc_folder_description": "Elabora file audio in una cartella usando un modello specificato.",
+  "model_type_help": "Tipo modello (bandit, bs_roformer, mdx23c, ecc.)",
+  "config_path_help": "Percorso al file configurazione",
+  "demud_phaseremix_help": "Abilita phase remix per strumentale",
+  "start_checkpoint_help": "Checkpoint iniziale per pesi validi",
+  "input_folder_help": "Cartella con mix da elaborare",
+  "audio_path_help": "Percorso a singolo file audio da elaborare",
+  "store_dir_help": "Percorso per memorizzare risultati",
+  "device_ids_help": "Lista ID GPU",
+  "extract_instrumental_help": "Inverti vocali per ottenere strumentale se fornito",
+  "disable_detailed_pbar_help": "Disabilita barra progresso dettagliata in demix",
+  "force_cpu_help": "Forza uso CPU anche se CUDA è disponibile",
+  "flac_file_help": "Output file FLAC invece di WAV",
+  "export_format_help": "Formato export e tipo PCM",
   "pcm_type_help": "Tipo PCM per file FLAC",
+  "use_tta_help": "Abilita test time augmentation",
+  "lora_checkpoint_help": "Checkpoint iniziale per pesi LoRA",
+  "cuda_available": "CUDA è disponibile, usa --force_cpu per disabilitarlo.",
+  "using_device": "Uso dispositivo: {}",
   "instruments_print": "Strumenti: {}",
+  "model_load_time": "Tempo caricamento modello: {:.2f} sec",
   "invalid_url": "❌ URL non valido",
   "cookie_file_updated": "✅ File cookie aggiornato!",
   "cookie_installation_error": "⚠️ Errore installazione cookie: {}",
+  "google_drive_mount_error": "❌ Errore connessione Google Drive: {}",
   "file_size_zero_error": "Dimensione file zero o file non creato",
   "google_drive_error": "❌ Errore download Google Drive: {}",
   "wav_conversion_failed": "Conversione WAV fallita",
   "download_error": "❌ Errore download: {}",
+  "file_copied_to_drive": "File copiato su Google Drive: {}",
+  "copy_to_drive_error": "❌ Errore copia su Google Drive: {}",
+  "direct_download_failed": "Download diretto file fallito",
+  "direct_download_error": "❌ Errore download diretto: {}",
+  "invalid_google_drive_url": "❌ URL Google Drive non valido",
+  "continuing_without_google_drive": "Connessione Google Drive fallita, continuo senza...",
+  "skipping_drive_copy_no_mount": "⚠️ Google Drive non montato, salto copia su Drive...",
+  "download_success": "🎉 Scaricato con successo!",
   "download_failed": "❌ Download fallito",
   "no_output_files_found": "❌ Nessun file output trovato.",
   "output_refreshed_successfully": "✅ Output aggiornato con successo!",
+  "error_refreshing_output": "❌ Errore aggiornamento output: {}",
+  "starting_audio_separation": "Avvio separazione audio...",
   "processing_audio": "Elaborazione audio",
   "separating_audio": "Separazione audio... ({:.1f}%)",
   "separation_complete": "Separazione completata!",
+  "progress_parsing_error": "Errore parsing progresso: {}",
   "error_occurred": "Si è verificato un errore: {}",
+  "separation_process_completed": "Processo separazione completato!",
+  "no_audio_file_error": "❌ Nessun file audio fornito e nessun file esistente nella directory input.",
   "no_input_progress_label": "Errore: Nessun input fornito -- 0.0%",
+  "processing_audio_print": "Elaborazione audio da: {} usando modello: {}",
+  "starting_audio_separation_progress_label": "Avvio separazione audio... -- 0.0%",
   "separating_audio_progress_label": "Separazione audio... -- {}.0%",
   "audio_processing_completed_progress_label": "Elaborazione audio completata! -- 100.0%",
   "audio_processing_completed": "✅ Elaborazione audio completata!",
   "error_occurred_progress_label": "Errore verificato -- 0.0%",
+  "minimum_files_required": "⚠️ Minimo 2 file richiesti",
   "valid_files_not_found": "❌ Nessun file valido trovato",
+  "starting_ensemble_process": "Avvio processo ensemble...",
+  "ensembling_progress": "Ensemble in corso... ({:.1f}%)",
   "finalizing_ensemble_output": "Finalizzazione output ensemble...",
   "success_log": "✅ Successo!\n{}",
   "error_log": "❌ Errore!\n{}",
   "model_failed": "Modello {} fallito: {}",
   "critical_error_with_model": "Errore critico con {}: {}",
   "model_output_failed": "{} non è riuscito a produrre output",
+  "waiting_for_files": "Attesa che tutti i file siano pronti...",
+  "waiting_for_files_progress_label": "Attesa che tutti i file siano pronti... -- 90.0%",
   "performing_ensemble": "Esecuzione ensemble...",
   "performing_ensemble_progress_label": "Esecuzione ensemble... -- 92.0%",
+  "memory_usage_before_ensemble": "Uso memoria prima ensemble: {}%",
+  "memory_usage_after_ensemble": "Uso memoria dopo ensemble: {}%",
   "finalizing_ensemble_output_progress_label": "Finalizzazione output ensemble... -- 98.0%",
+  "ensemble_file_creation_failed": "Impossibile creare file ensemble: {}",
   "ensemble_completed_progress_label": "Ensemble completato con successo! -- 100.0%",
   "success_output_created": "✅ Successo! File output creato.",
+  "phase_fixer_tab": "🔧 Correttore di fase",
+  "batch_processing_tab": "📦 Elaborazione batch",
+  "batch_description": "Elabora più file contemporaneamente con lo stesso modello",
+  "batch_input_folder": "Cartella di input",
+  "batch_input_folder_placeholder": "Inserisci il percorso della cartella contenente i file audio",
+  "batch_output_folder": "Cartella di output",
+  "batch_output_folder_placeholder": "Inserisci il percorso della cartella di output",
+  "batch_file_list": "File da elaborare",
+  "batch_add_files": "Aggiungi file",
+  "batch_clear_list": "Svuota lista",
+  "batch_start": "🚀 Avvia elaborazione batch",
+  "batch_stop": "⏹️ Ferma",
+  "batch_progress": "Progresso batch",
+  "batch_current_file": "In elaborazione",
+  "batch_completed": "✅ Elaborazione batch completata!",
+  "batch_stopped": "⏹️ Elaborazione batch fermata",
+  "batch_no_files": "❌ Nessun file selezionato per l'elaborazione",
+  "source_model": "Modello sorgente (Vocali)",
+  "source_model_info": "Modello per estrarre vocali/dati di fase",
+  "target_model": "Modello destinazione (Strumentale)",
+  "target_model_info": "Modello a cui applicare la correzione di fase",
+  "custom_models_tab": "⚡ Modelli personalizzati",
+  "Custom Models": "Modelli personalizzati",
+  "add_custom_model": "➕ Aggiungi modello personalizzato",
+  "custom_model_name": "Nome modello",
+  "custom_model_name_placeholder": "Inserisci un nome per il tuo modello",
+  "checkpoint_url": "URL Checkpoint (.ckpt/.pth)",
+  "checkpoint_url_placeholder": "https://huggingface.co/.../model.ckpt",
+  "config_url": "URL Configurazione (.yaml)",
+  "config_url_placeholder": "https://huggingface.co/.../config.yaml",
+  "custom_py_url": "URL file Python personalizzato (opzionale)",
+  "custom_py_url_placeholder": "https://huggingface.co/.../bs_roformer.py",
+  "auto_detect_type": "Rileva automaticamente il tipo di modello",
+  "model_type": "Tipo modello",
+  "add_model_btn": "➕ Aggiungi modello",
+  "custom_models_list": "📋 Lista modelli personalizzati",
+  "delete_model": "🗑️ Elimina",
+  "no_custom_models": "Nessun modello personalizzato aggiunto",
+  "model_added_success": "✅ Modello aggiunto con successo!",
+  "model_deleted_success": "✅ Modello eliminato con successo!",
+  "model_add_error": "❌ Errore aggiunta modello: {}",
+  "model_delete_error": "❌ Errore eliminazione modello: {}",
+  "refresh_models": "🔄 Aggiorna",
+  "custom_model_info": "Aggiungi modelli personalizzati fornendo link di download. I modelli verranno scaricati automaticamente quando usati.",
+  "select_model_to_delete": "Seleziona un modello da eliminare",
+  "downloading_model_file": "Download modello: {}",
+  "downloading_file_progress": "Download: {} - {}%",
+  "chunk_size_mode": "Modalità Dimensione Frammento",
+  "chunk_size_mode_info": "base: preset standard | custom: inserisci il tuo valore | yaml: leggi dallo YAML del modello",
+  "chunk_size_custom_label": "Dimensione Frammento Personalizzata",
+  "chunk_size_custom_info": "Inserisci un valore personalizzato per la dimensione del frammento",
+  "chunk_size_yaml_label": "Dimensione Frammento YAML",
+  "chunk_size_yaml_display_info": "Verrà letta dal file di configurazione YAML del modello dopo il download",
+  "chunk_size_yaml_not_downloaded": "⏳ YAML del modello non ancora scaricato — il valore verrà letto durante l'elaborazione",
+  "chunk_size_yaml_detected": "✅ Da YAML: {}",
+  "remove_favorite": "Rimuovi dai Preferiti",
   "normal_method": "Metodo normale",
+  "mid_side_method": "Metodo Mid-Side",
+  "apollo_processing_method": "Metodo di Elaborazione Apollo",
+  "apollo_normal_model": "Modello Normale Apollo",
+  "apollo_mid_side_model": "Modello Mid-Side Apollo",
+  "scale_factor": "Fattore di Scala",
+  "scale_factor_info": "Fattore di scala della fase (consigliato: 1.4)",
+  "source_file_label": "File Sorgente (Voce)",
+  "target_file_label": "File di Destinazione (Strumentale)",
+  "run_phase_fixer": "🔧 Avvia Correttore di Fase",
+  "phase_fixed_output": "Output con Fase Corretta",
+  "phase_fixer_settings": "Impostazioni Correttore di Fase",
+  "low_cutoff": "Taglio Basso (Hz)",
+  "high_cutoff": "Taglio Alto (Hz)",
+  "low_cutoff_info": "Frequenza di taglio bassa per la correzione della fase",
+  "high_cutoff_info": "Frequenza di taglio alta per la correzione della fase",
+  "no_preset_name_provided": "⚠️ Nessun nome preset fornito",
+  "no_models_selected_for_preset": "⚠️ Nessun modello selezionato per il preset",
+  "preset_saved": "✅ Preset '{}' salvato!",
+  "please_upload_both_files": "⚠️ Carica sia il file sorgente che quello di destinazione",
+  "processing_log_placeholder": "Il registro di elaborazione apparirà qui...",
+  "enter_preset_name": "Inserisci il nome del preset..."
 }

assets/i18n/languages/ja_jp.json CHANGED Viewed

@@ -17,11 +17,10 @@
   "overlap": "オーバーラップ",
   "overlap_info": "推奨: 2-10 (高い値は品質を向上させますが、より多くのVRAMが必要です)",
   "tta_boost": "TTAブースト",
-  "tta_info": "品質を向上させますが、処理速度が遅くなります",
   "phase_fix": "位相補正",
   "phase_fix_info": "インストゥルメンタルトラックのための高度な位相補正",
   "instrumental": "インストゥルメンタル",
-  "instrumental_info": "通常2つの出力が得られますが、時には1つの出力だけの場合もあります。試してみてください :)",
   "process": "🚀 処理",
   "reset": "🧹 リセット",
   "status": "ステータス",
@@ -80,201 +79,267 @@
   "downloaded_file": "ダウンロードされたファイル",
   "cookie_management": "🍪 クッキー管理",
   "upload_cookies_txt": "Cookies.txtをアップロード",
-  "cookie_info": "<div style=\"margin-left:15px; font-size:0.95em\">**📌 なぜ必要か?**<br>- 年齢制限付きコンテンツへのアクセス<br>- プライベート/非公開ビデオのダウンロード<br>- 地域制限の回避<br>- YouTubeのダウンロード制限の回避<br><br>**⚠️ 重要な注意**<br>- クッキーファイルを決して共有しないでください!<br>- クッキーを更新するタイミング:<br>  • \"403 Forbidden\" エラーが出た場合<br>  • ダウンロードが突然停止した場合<br>  • \"セッションが期限切れ\" メッセージが表示された場合<br><br>**🔄 更新手順**<br>1. この <a href=\"https://chromewebstore.google.com/detail/get-cookiestxt-clean/ahmnmhfbokciafffnknlekllgcnafnie\" target=\"_blank\">Chrome拡張機能</a> をインストール<br>2. ChromeでYouTubeにログイン<br>3. 拡張機能アイコンをクリック → \"エクスポート\"<br>4. ダウンロードしたファイルをここにアップロード<br><br>**⏳ クッキーの寿命**<br>- 通常セッション: 24時間<br>- 機密操作: 1時間<br>- パスワード変更: 即時無効化</div>",
   "manual_ensemble_tab": "🎚️ 手動アンサンブル",
   "input_sources": "📂 入力ソース",
   "refresh": "🔄 更新",
   "ensemble_algorithm": "アンサンブルアルゴリズム",
   "select_audio_files": "オーディオファイルを選択",
   "available_files": "利用可能なファイル",
-  "custom_weights": "カスタムウェイト (カンマで区切り)",
   "custom_weights_placeholder": "例: 0.8, 1.2, 1.0, ...",
-  "custom_weights_info": "均等なウェイトの場合は空白のまま",
   "result_preview_tab": "🎧 結果プレビュー",
   "ensembled_output": "アンサンブル出力",
   "processing_log_tab": "📋 処理ログ",
-  "processing_details": "処理詳細",
   "process_ensemble": "⚡ アンサンブルを処理",
   "languages_tab": "🌐 言語",
   "Vocal Models": "ボーカルモデル",
   "Instrumental Models": "インストゥルメンタルモデル",
   "4-Stem Models": "4ステムモデル",
   "Denoise Models": "ノイズ除去モデル",
-  "Dereverb Models": "リバーブ除去モデル",
-  "Other Models": "その他のモデル",
-  "ensemble_files_description": "指定されたアンサンブル手法を使用して複数のオーディオファイルを1つの出力に統合します。",
   "ensemble_files_help": "アンサンブル用のすべてのオーディオファイルへのパス",
-  "ensemble_type_help": "avg_wave, median_wave, min_wave, max_wave, avg_fft, median_fft, min_fft, max_fft のいずれか",
-  "ensemble_weights_help": "アンサンブルを作成するためのウェイト。ウェイト数はファイル数と一致する必要があります",
-  "ensemble_output_help": "アンサンブル結果を保存するWAVファイルへのパス",
   "ensemble_type_print": "アンサンブルタイプ: {}",
   "num_input_files_print": "入力ファイル数: {}",
   "weights_print": "ウェイト: {}",
   "output_file_print": "出力ファイル: {}",
-  "duration_mismatch_error": "すべてのファイルは同じ長さでなければなりません",
   "file_not_found_error": "エラー。ファイルが見つかりません: {}。パスを確認してください。",
-  "reading_chunk_print": "ファイルからチャンクを読み込み: {} (開始: {}秒, 長さ: {}秒)",
   "chunk_result_shape_print": "チャンク結果の形状: {}",
-  "ensemble_completed_print": "アンサンブル完了。出力は以下に保存: {}",
   "file_deletion_error": "{} を削除できませんでした: {}",
   "directory_not_exist_warning": "⚠️ ディレクトリが存在しません: {}",
-  "not_a_directory_warning": "⚠️ パスはディレクトリではありません: {}",
   "item_deletion_error": "⚠️ {} の削除エラー: {}",
   "old_output_not_exist": "❌ 古い出力フォルダが存在しません",
-  "old_outputs_cleared": "✅ 古い出力が正常に削除されました!",
   "error": "🔥 エラー: {}",
   "ffmpeg_error": "FFmpegエラー ({}): {}",
   "file_saved_successfully": "ファイルが正常に保存されました: {}",
   "total_files_found": "見つかったファイルの総数: {}。使用サンプルレート: {}",
-  "total_progress": "総進捗",
-  "detailed_pbar_enabled": "詳細プログレスバー有効: {}",
-  "loaded_audio": "ロードされたオーディオ: {}, 形状: {}",
   "cannot_read_track": "トラックを読み込めません: {}",
   "error_message": "エラーメッセージ: {}",
-  "demudding_track": "トラックのデマッディング (位相リミックス - インストゥルメンタル): {}",
-  "elapsed_time": "経過時間: {:.2f} 秒。",
   "proc_folder_description": "指定されたモデルを使用してフォルダ内のオーディオファイルを処理します。",
-  "model_type_help": "モデルタイプ (bandit, bs_roformer, mdx23c など)",
   "config_path_help": "設定ファイルへのパス",
-  "demud_phaseremix_help": "インストゥルメンタルの位相リミックスを有効化",
   "start_checkpoint_help": "有効なウェイトの初期チェックポイント",
-  "input_folder_help": "処理するミックスを含むフォルダ",
-  "audio_path_help": "処理する単一のオーディオファイルへのパス",
   "store_dir_help": "結果を保存するパス",
   "device_ids_help": "GPU IDのリスト",
   "extract_instrumental_help": "提供されている場合、ボーカルを反転してインストゥルメンタルを取得",
-  "disable_detailed_pbar_help": "デミックスで詳細プログレスバーを無効化",
-  "force_cpu_help": "CUDAが利用可能でもCPUを強制使用",
   "flac_file_help": "WAVの代わりにFLACファイルを出力",
-  "export_format_help": "エクスポートフォーマットとPCMタイプ",
   "pcm_type_help": "FLACファイルのPCMタイプ",
-  "use_tta_help": "テスト時間増強を有効化",
   "lora_checkpoint_help": "LoRAウェイトの初期チェックポイント",
-  "cuda_available": "CUDAが利用可能です。無効化するには --force_cpu を使用してください。",
   "using_device": "使用デバイス: {}",
   "instruments_print": "楽器: {}",
-  "model_load_time": "モデルロード時間: {:.2f} 秒",
   "invalid_url": "❌ 無効なURL",
-  "cookie_file_updated": "✅ クッキーファイルが更新されました!",
-  "cookie_installation_error": "⚠️ クッキーインストールエラー: {}",
   "file_size_zero_error": "ファイルサイズがゼロまたはファイルが作成されていません",
   "google_drive_error": "❌ Google Driveダウンロードエラー: {}",
-  "wav_conversion_failed": "WAV変換に失敗",
   "download_error": "❌ ダウンロードエラー: {}",
-  "download_success": "🎉 ダウンロード成功!",
-  "download_failed": "❌ ダウンロード失敗",
   "no_output_files_found": "❌ 出力ファイルが見つかりません。",
-  "output_refreshed_successfully": "✅ 出力が正常に更新されました!",
   "error_refreshing_output": "❌ 出力更新エラー: {}",
-  "starting_audio_separation": "オーディオ分離を開始...",
-  "processing_audio": "オーディオ処理中",
-  "separating_audio": "オーディオ分離中... ({:.1f}%)",
-  "separation_complete": "分離完了!",
   "progress_parsing_error": "進捗解析エラー: {}",
   "error_occurred": "エラーが発生しました: {}",
-  "separation_process_completed": "分離プロセス完了!",
   "no_audio_file_error": "❌ オーディオファイルが提供されておらず、入力ディレクトリに既存のファイルもありません。",
   "no_input_progress_label": "エラー: 入力が提供されていません -- 0.0%",
-  "processing_audio_print": "{} からオーディオを処理中、モデル使用: {}",
-  "starting_audio_separation_progress_label": "オーディオ分離を開始... -- 0.0%",
-  "separating_audio_progress_label": "オーディオ分離中... -- {}.0%",
-  "audio_processing_completed_progress_label": "オーディオ処理完了! -- 100.0%",
-  "audio_processing_completed": "✅ オーディオ処理完了!",
   "error_occurred_progress_label": "エラーが発生しました -- 0.0%",
-  "minimum_files_required": "⚠️ 最低2ファイル必要",
   "valid_files_not_found": "❌ 有効なファイルが見つかりません",
-  "starting_ensemble_process": "アンサンブルプロセスを開始...",
   "ensembling_progress": "アンサンブル中... ({:.1f}%)",
-  "finalizing_ensemble_output": "アンサンブル出力を最終処理中...",
-  "success_log": "✅ 成功!\n{}",
-  "error_log": "❌ エラー!\n{}",
-  "critical_error": "⛔ 重大なエラー: {}",
-  "ensemble_process_completed": "アンサンブルプロセス完了!",
   "no_models_selected": "❌ モデルが選択されていません",
   "no_input_audio_provided": "❌ 入力オーディオが提供されていません",
-  "loading_model": "モデル {}/{} をロード中: {}...",
-  "loading_model_progress_label": "モデル {}/{} をロード中: {}... -- {}.0%",
-  "completed_model": "モデル {}/{} 完了: {}",
-  "completed_model_progress_label": "モデル {}/{} 完了: {} -- {}.0%",
-  "running_command": "コマンド実行中: {}",
-  "model_failed": "モデル {} が失敗: {}",
-  "critical_error_with_model": "{} で重大なエラー: {}",
-  "model_output_failed": "{} が出力を生成できませんでした",
-  "waiting_for_files": "すべてのファイルの準備を待機中...",
-  "waiting_for_files_progress_label": "すべてのファイルの準備を待機中... -- 90.0%",
-  "performing_ensemble": "アンサンブル実行中...",
-  "performing_ensemble_progress_label": "アンサンブル実行中... -- 92.0%",
   "memory_usage_before_ensemble": "アンサンブル前のメモリ使用量: {}%",
   "memory_usage_after_ensemble": "アンサンブル後のメモリ使用量: {}%",
-  "finalizing_ensemble_output_progress_label": "アンサンブル出力を最終処理中... -- 98.0%",
-  "ensemble_file_creation_failed": "アンサンブルファイルの作成に失敗: {}",
-  "ensemble_completed_progress_label": "アンサンブルが正常に完了しました! -- 100.0%",
-  "success_output_created": "✅ 成功! 出力ファイルが作成されました。",
-  "drive_mounted_copying_ensemble": "Google Driveがマウントされました。アンサンブル出力をコピー中...",
-  "drive_already_mounted_copying_ensemble": "Google Driveはすでにマウントされています。アンサンブル出力をコピー中...",
-  "no_ensemble_output_files_found": "❌ アンサンブル出力ファイルが見つかりません。",
-  "ensemble_output_copied": "✅ アンサンブル出力が {} にコピーされました",
-  "error_copying_ensemble_output": "❌ アンサンブル出力のコピーにエラー: {}",
-  "drive_mounted_copying_files": "Google Driveがマウントされました。ファイルをコピー中...",
-  "drive_already_mounted_copying_files": "Google Driveはすでにマウントされています。ファイルをコピー中...",
-  "files_copied_to_drive": "✅ ファイルが {} にコピーされました",
-  "error_copying_files": "❌ ファイルのコピーにエラー: {}",
-  "mounting_drive": "Google Driveをマウント中...",
-  "settings_saved": "設定が config.json に保存されました: 言語={lang}, メソッド={method}, ポート={port}",
-  "selected_language": "選択された言語: {lang}",
-  "available_languages": "利用可能な言語: {langs}",
-  "select_language_prompt": "言語を選択 (デフォルト: {default}): ",
-  "invalid_language": "無効な言語選択! デフォルト言語 ({default}) を使用します。",
-  "available_sharing_methods": "利用可能な共有方法: gradio, localtunnel, ngrok",
-  "select_sharing_method_prompt": "共有方法を選択 (デフォルト: {default}): ",
-  "enter_ngrok_token_prompt": "Ngrokトークンを入力 (デフォルト: {default}): ",
-  "ngrok_token_required": "エラー: ngrokメソッドにはNgrokトークンが必要です!",
-  "enter_port_prompt": "ポート番号を入力 (デフォルト: {default}): ",
-  "opening_previous_url": "前のURLを開く: {url}",
-  "open_url_manually": "ColabでURLを手動で開く: {url}",
-  "invalid_previous_url": "無効な前のURL: {url}, 開かれませんでした。",
-  "starting_method": "{method} をポート {port} で開始...",
-  "process_stopped": "\n🛑 ユーザーによってプロセスが停止されました",
-  "selected_port": "選択されたポート: {port}",
-  "starting_gradio_with_sharing": "Gradioを共有機能付きで開始...",
-  "starting_localtunnel": "Localtunnelをポート {port} で開始...",
-  "share_link": "共有リンク: {url}",
-  "password_ip": "パスワードIP: {ip}",
-  "starting_ngrok": "Ngrokをポート {port} で開始...",
-  "ngrok_url": "Ngrok URL: {url}",
-  "ngrok_error": "Ngrok開始エラー: {error}",
-  "apollo_chunk_size": "Apolloチャンクサイズ",
-  "apollo_chunk_size_info": "Apollo改善のためのチャンクサイズ (ユニバーサルモデル推奨: 19)",
-  "apollo_overlap": "Apolloオーバーラップ",
-  "enhancing_with_apollo": "Apolloで改善中 ({}/{} ファイル)...",
-  "apollo_processing_completed": "Apollo処理完了!",
-  "apollo_overlap_info": "Apollo改善のためのオーバーラップ (推奨: 2)",
-  "invalid_method": "エラー: 無効なメソッド! 'gradio', 'localtunnel', または 'ngrok' を使用してください。",
-  "apollo_enhancement_settings": "Apollo改善設定",
-  "enhance_with_apollo": "Apolloで改善",
-  "enhance_with_apollo_info": "分離後のオーディオ改善のためにApolloを有効化",
-  "apollo_method": "Apolloメソッド",
-  "apollo_method_info": "Apolloの処理メソッドを選択",
-  "normal_method": "通常メソッド",
-  "mid_side_method": "ミッド/サイドメソッド",
-  "apollo_normal_model": "Apollo通常モデル",
-  "apollo_normal_model_info": "通常Apollo処理に使用するモデル",
-  "apollo_midside_model": "Apolloミッド/サイドモデル",
-  "apollo_enhancement_info": "音質の改善",
-  "selected_models": "選択されたモデル",
-  "save_preset": "プリセットを保存",
-  "delete_preset": "プリセットを削除",
-  "refresh_presets": "プリセットを更新",
-  "preset_name": "プリセット名",
-  "select_preset": "プリセットを選択",
-  "add_favorite": "お気に入りに追加",
-  "apollo_midside_model_info": "ミッド/サイド処理に使用するモデル (オプション)",
-  "language_changed_message": "言語が変更されました。セルを再起動してください。",
-  "apply_matchering": "Matcheringを適用",
-  "matchering_info": "オーディオのマスタリングとバランスを向上させるためにMatcheringを適用",
-  "matchering_passes": "Matcheringの反復回数",
-  "matchering_passes_info": "Matcheringの反復回数（1-5、高い値は品質を向上させますが時間がかかります）",
-  "matchering_processing": "Matcheringを適用中... ({:.1f}%)",
-  "matchering_completed": "✅ Matchering処理が完了しました！",
-  "matchering_error": "❌ Matchering中にエラーが発生しました：{}"
 }

   "overlap": "オーバーラップ",
   "overlap_info": "推奨: 2-10 (高い値は品質を向上させますが、より多くのVRAMが必要です)",
   "tta_boost": "TTAブースト",
   "phase_fix": "位相補正",
+  "use_phase_correction": "高度な位相補正を適用",
   "phase_fix_info": "インストゥルメンタルトラックのための高度な位相補正",
   "instrumental": "インストゥルメンタル",
   "process": "🚀 処理",
   "reset": "🧹 リセット",
   "status": "ステータス",
   "downloaded_file": "ダウンロードされたファイル",
   "cookie_management": "🍪 クッキー管理",
   "upload_cookies_txt": "Cookies.txtをアップロード",
+  "cookie_info": "<div style=\"margin-left:15px; font-size:0.95em\">**📌 なぜ必要？**<br>- 年齢制限コンテンツへのアクセス<br>- プライベート/非公開ビデオのダウンロード<br>- 地域制限の回避<br>- YouTubeダウンロード制限の回避<br><br>**⚠️ 重要な注意**<br>- クッキーファイルを共有しないでください！<br>- 以下の時に更新:<br>  • \"403 Forbidden\"エラー<br>  • ダウンロードが突然停止<br>  • \"セッション期限切れ\"メッセージ<br><br>**🔄 更新手順**<br>1. この<a href=\"https://chromewebstore.google.com/detail/get-cookiestxt-clean/ahmnmhfbokciafffnknlekllgcnafnie\" target=\"_blank\">Chrome拡張</a>をインストール<br>2. ChromeでYouTubeにログイン<br>3. 拡張アイコンをクリック → \"エクスポート\"<br>4. ここにダウンロードしたファイルをアップロード<br><br>**⏳ クッキー寿命**<br>- 通常セッション: 24時間<br>- 敏感な操作: 1時間<br>- パスワード変更: 即時更新</div>",
+  "ensemble_output_copied": "✅ アンサンブル出力が {} にコピーされました",
+  "error_copying_ensemble_output": "❌ アンサンブル出力のコピーエラー: {}",
+  "drive_mounted_copying_ensemble": "Google Driveがマウントされました。アンサンブル出力をコピー中...",
+  "drive_already_mounted_copying_ensemble": "Google Driveはすでにマウントされています。アンサンブル出力をコピー中...",
+  "no_ensemble_output_files_found": "❌ アンサンブル出力ファイルが見つかりません。",
+  "drive_mounted_copying_files": "Google Driveがマウントされました。ファイルをコピー中...",
+  "drive_already_mounted_copying_files": "Google Driveはすでにマウントされています。ファイルをコピー中...",
+  "files_copied_to_drive": "✅ ファイルが {} にコピーされました",
+  "error_copying_files": "❌ ファイルのコピーエラー: {}",
+  "mounting_drive": "Google Driveをマウント中...",
+  "settings_saved": "設定が config.json に保存されました: 言語={lang}, メソッド={method}, ポート={port}",
+  "selected_language": "選択された言語: {lang}",
+  "available_languages": "利用可能な言語: {langs}",
+  "select_language_prompt": "言語を選択 (デフォルト: {default}): ",
+  "invalid_language": "無効な言語選択! デフォルト言語 ({default}) を使用します。",
+  "available_sharing_methods": "利用可能な共有方法: gradio, localtunnel, ngrok",
+  "select_sharing_method_prompt": "共有方法を選択 (デフォルト: {default}): ",
+  "enter_ngrok_token_prompt": "Ngrokトークンを入力 (デフォルト: {default}): ",
+  "ngrok_token_required": "エラー: ngrokメソッドにはNgrokトークンが必要です!",
+  "enter_port_prompt": "ポート���号を入力 (デフォルト: {default}): ",
+  "opening_previous_url": "前のURLを開く: {url}",
+  "open_url_manually": "ColabでURLを手動で開く: {url}",
+  "invalid_previous_url": "無効な前のURL: {url}, 開かれませんでした。",
+  "starting_method": "{method} をポート {port} で開始...",
+  "process_stopped": "\n🛑 ユーザーによってプロセスが停止されました",
+  "selected_port": "選択されたポート: {port}",
+  "starting_gradio_with_sharing": "Gradioを共有機能付きで開始...",
+  "starting_localtunnel": "Localtunnelをポート {port} で開始...",
+  "share_link": "共有リンク: {url}",
+  "password_ip": "パスワードIP: {ip}",
+  "starting_ngrok": "Ngrokをポート {port} で開始...",
+  "ngrok_url": "Ngrok URL: {url}",
+  "ngrok_error": "Ngrok開始エラー: {error}",
+  "auto_apollo_chunk_size": "Apolloチャンクサイズ",
+  "auto_apollo_chunk_size_info": "Apollo改善のためのチャンクサイズ (ユニバーサルモデル推奨: 19)",
+  "auto_apollo_overlap": "Apolloオーバーラップ",
+  "auto_enhancing_with_apollo": "Apolloで改善中 ({}/{} ファイル)...",
+  "auto_apollo_processing_completed": "Apollo処理完了!",
+  "auto_apollo_overlap_info": "Apollo改善のためのオーバーラップ (推奨: 2)",
+  "apollo_chunk_size": "Apolloチャンクサイズ",
+  "apollo_chunk_size_info": "Apollo改善のためのチャンクサイズ (ユニバーサルモデル推奨: 19)",
+  "apollo_overlap": "Apolloオーバーラップ",
+  "enhance_with_apollo": "Apolloで改善",
+  "apollo_enhancement_info": "音質の改善",
+  "enhancing_with_apollo": "Apolloで改善中 ({}/{} ファイル)...",
+  "apollo_processing_completed": "Apollo処理完了!",
+  "apollo_overlap_info": "Apollo改善のためのオーバーラップ (推奨: 2)",
+  "selected_models": "選択されたモデル",
+  "save_preset": "プリセットを保存",
+  "delete_preset": "プリセットを削除",
+  "refresh_presets": "プリセットを更新",
+  "preset_name": "プリセット名",
+  "select_preset": "プリセットを選択",
+  "add_favorite": "お気に入りに追加",
+  "apply_matchering": "Matcheringを適用",
+  "matchering_info": "オーディオのマスタリングとバランスを向上させるためにMatcheringを適用",
+  "matchering_passes": "Matcheringの反復回数",
+  "matchering_passes_info": "Matcheringの反復回数（1-5、高い値は品質を向上させますが時間がかかります）",
+  "matchering_processing": "Matcheringを適用中... ({:.1f}%)",
+  "matchering_completed": "✅ Matchering処理が完了しました！",
+  "matchering_error": "❌ Matchering中にエラーが発生しました：{}",
+  "invalid_method": "エラー: 無効なメソッド! 'gradio', 'localtunnel', または 'ngrok' を使用してください。",
+  "language_changed_message": "言語が変更されました。セルを再起動してください。",
+  "backend_settings": "🚀 バックエンド設定",
+  "inference_backend": "推論バックエンド",
+  "optimization_mode": "最適化モード",
+  "optimization_mode_info": "PyTorch最適化モードの選択",
+  "mixed_precision_amp": "混合精度 (AMP)",
+  "mixed_precision_info": "2x速い推論 - 推奨",
+  "tf32_acceleration": "TF32アクセラレーション",
+  "tf32_acceleration_info": "RTX 30xx+のための追加速度ブースト",
+  "cudnn_benchmark": "cuDNNベンチマーク",
+  "cudnn_benchmark_info": "最初の実行で遅い、後続の実行で非常に速い",
+  "ultra_optimized_pytorch": "超最適化PyTorchバックエンド",
+  "default_active_max_speed": "デフォルトでアクティブ - 最大速度最適化",
+  "channels_last_mode": "RTX GPUで最速",
+  "compile_mode": "PyTorch 2.0+のための追加速度",
+  "default_mode": "標準",
+  "tta_info": "品質を向上させますが、処理速度が遅くなります",
+  "instrumental_info": "通常2つのステムを出力しますが、時には1つだけ - 試してみてください！ :)",
+  "direct_download_error": "❌ 直接ダウンロードエラー：{}",
+  "invalid_google_drive_url": "❌ 無効な Google Drive URL",
+  "continuing_without_google_drive": "Google Drive接続に失敗しました。続行します...",
+  "skipping_drive_copy_no_mount": "⚠️ Google Driveがマウントされていません、Driveへのコピーをスキップします...",
+  "direct_download_failed": "ファイルの直接ダウンロードに失敗しました",
   "manual_ensemble_tab": "🎚️ 手動アンサンブル",
+  "phase_fixer_tab": "🔧 位相補正ツール",
+  "batch_processing_tab": "📦 バッチ処理",
+  "batch_description": "同じモデルで複数のファイルを一度に処理",
+  "batch_input_folder": "入力フォルダ",
+  "batch_input_folder_placeholder": "オーディオファイルを含むフォルダのパスを入力",
+  "batch_output_folder": "出力フォルダ",
+  "batch_output_folder_placeholder": "出力ファイル��フォルダのパスを入力",
+  "batch_file_list": "処理するファイル",
+  "batch_add_files": "ファイルを追加",
+  "batch_clear_list": "リストをクリア",
+  "batch_start": "🚀 バッチ処理を開始",
+  "batch_stop": "⏹️ 停止",
+  "batch_progress": "バッチ処理の進捗",
+  "batch_current_file": "現在処理中",
+  "batch_completed": "✅ バッチ処理が完了しました！",
+  "batch_stopped": "⏹️ バッチ処理が停止されました",
+  "batch_no_files": "❌ 処理するファイルが選択されていません",
+  "source_model": "ソースモデル（ボーカル）",
+  "source_model_info": "ボーカル/位相データを抽出するモデル",
+  "target_model": "ターゲットモデル（インストゥルメンタル）",
+  "target_model_info": "位相補正を適用するモデル",
   "input_sources": "📂 入力ソース",
   "refresh": "🔄 更新",
   "ensemble_algorithm": "アンサンブルアルゴリズム",
   "select_audio_files": "オーディオファイルを選択",
   "available_files": "利用可能なファイル",
+  "custom_weights": "カスタムウェイト（カンマ区切り）",
   "custom_weights_placeholder": "例: 0.8, 1.2, 1.0, ...",
+  "custom_weights_info": "等しいウェイトにするには空白のままにしてください",
   "result_preview_tab": "🎧 結果プレビュー",
   "ensembled_output": "アンサンブル出力",
   "processing_log_tab": "📋 処理ログ",
+  "processing_details": "処理の詳細",
   "process_ensemble": "⚡ アンサンブルを処理",
   "languages_tab": "🌐 言語",
   "Vocal Models": "ボーカルモデル",
   "Instrumental Models": "インストゥルメンタルモデル",
   "4-Stem Models": "4ステムモデル",
   "Denoise Models": "ノイズ除去モデル",
+  "Dereverb Models": "残響除去モデル",
+  "Other Shapes": "その他のモデル",
+  "Custom Models": "カスタムモデル",
+  "ensemble_files_description": "指定されたアンサンブル方法を使用して複数のオーディオファイルを1つの出力に結合します。",
   "ensemble_files_help": "アンサンブル用のすべてのオーディオファイルへのパス",
+  "ensemble_type_help": "次のいずれか: avg_wave, median_wave, min_wave, max_wave, avg_fft, median_fft, min_fft, max_fft",
+  "ensemble_weights_help": "アンサンブル作成のウェイト。ウェイトの数はファイルの数と同じである必要があります",
+  "ensemble_output_help": "アンサンブル結果を保存するWAVファイルのパス",
   "ensemble_type_print": "アンサンブルタイプ: {}",
   "num_input_files_print": "入力ファイル数: {}",
   "weights_print": "ウェイト: {}",
   "output_file_print": "出力ファイル: {}",
+  "duration_mismatch_error": "すべてのファイルの長さが同じである必要があります",
   "file_not_found_error": "エラー。ファイルが見つかりません: {}。パスを確認してください。",
+  "reading_chunk_print": "ファイルからチャンクを読み込み中: {} (開始: {}s, 長さ: {}s)",
   "chunk_result_shape_print": "チャンク結果の形状: {}",
+  "ensemble_completed_print": "アンサンブル完了。出力を保存: {}",
   "file_deletion_error": "{} を削除できませんでした: {}",
   "directory_not_exist_warning": "⚠️ ディレクトリが存在しません: {}",
+  "not_a_directory_warning": "⚠️ パスがディレクトリではありません: {}",
   "item_deletion_error": "⚠️ {} の削除エラー: {}",
+  "critical_error": "⛔ 致命的なエラー: {}",
   "old_output_not_exist": "❌ 古い出力フォルダが存在しません",
+  "old_outputs_cleared": "✅ 古い出��が正常に削除されました！",
   "error": "🔥 エラー: {}",
   "ffmpeg_error": "FFmpegエラー ({}): {}",
   "file_saved_successfully": "ファイルが正常に保存されました: {}",
   "total_files_found": "見つかったファイルの総数: {}。使用サンプルレート: {}",
+  "total_progress": "全体の進捗",
+  "detailed_pbar_enabled": "詳細プログレスバーが有効: {}",
+  "loaded_audio": "オーディオを読み込みました: {}、形状: {}",
   "cannot_read_track": "トラックを読み込めません: {}",
   "error_message": "エラーメッセージ: {}",
+  "demudding_track": "トラックをクリーニング中（位相リミックス - インストゥルメンタル）: {}",
+  "elapsed_time": "経過時間: {:.2f}秒。",
   "proc_folder_description": "指定されたモデルを使用してフォルダ内のオーディオファイルを処理します。",
+  "model_type_help": "モデルタイプ (bandit, bs_roformer, mdx23cなど)",
   "config_path_help": "設定ファイルへのパス",
+  "demud_phaseremix_help": "インストゥルメンタルの位相リミックスを有効にする",
   "start_checkpoint_help": "有効なウェイトの初期チェックポイント",
+  "input_folder_help": "処理するミックスが入ったフォルダ",
+  "audio_path_help": "処理する単一オーディオファイルのパス",
   "store_dir_help": "結果を保存するパス",
   "device_ids_help": "GPU IDのリスト",
   "extract_instrumental_help": "提供されている場合、ボーカルを反転してインストゥルメンタルを取得",
+  "disable_detailed_pbar_help": "デミックスの詳細プログレスバーを無効にする",
+  "force_cpu_help": "CUDAが利用可能でもCPUを強制使用する",
   "flac_file_help": "WAVの代わりにFLACファイルを出力",
+  "export_format_help": "エクスポート形式とPCMタイプ",
   "pcm_type_help": "FLACファイルのPCMタイプ",
+  "use_tta_help": "テスト時間拡張を有効にする",
   "lora_checkpoint_help": "LoRAウェイトの初期チェックポイント",
+  "cuda_available": "CUDAが利用可能です。無効にするには --force_cpu を使用してください。",
   "using_device": "使用デバイス: {}",
   "instruments_print": "楽器: {}",
+  "model_load_time": "モデル読み込み時間: {:.2f}秒",
   "invalid_url": "❌ 無効なURL",
+  "cookie_file_updated": "✅ Cookieファイルが更新されました！",
+  "cookie_installation_error": "⚠️ Cookieインストールエラー: {}",
+  "google_drive_mount_error": "❌ Google Drive接続エラー: {}",
   "file_size_zero_error": "ファイルサイズがゼロまたはファイルが作成されていません",
   "google_drive_error": "❌ Google Driveダウンロードエラー: {}",
+  "wav_conversion_failed": "WAV変換に失敗しました",
   "download_error": "❌ ダウンロードエラー: {}",
+  "file_copied_to_drive": "ファイルがGoogle Driveにコピーされました: {}",
+  "copy_to_drive_error": "❌ Google Driveへのコピーエラー: {}",
+  "download_success": "🎉 ダウンロードに成功しました！",
+  "download_failed": "❌ ダウンロードに失敗しました",
   "no_output_files_found": "❌ 出力ファイルが見つかりません。",
+  "output_refreshed_successfully": "✅ 出力が正常に更新されました！",
   "error_refreshing_output": "❌ 出力更新エラー: {}",
+  "starting_audio_separation": "オーディオ分離を開始しています...",
+  "processing_audio": "オーディオを処理中",
+  "separating_audio": "オーディオを分離中... ({:.1f}%)",
+  "separation_complete": "分離完了！",
   "progress_parsing_error": "進捗解析エラー: {}",
   "error_occurred": "エラーが発生しました: {}",
+  "separation_process_completed": "分離プロセスが完了しました！",
   "no_audio_file_error": "❌ オーディオファイルが提供されておらず、入力ディレクトリに既存のファイルもありません。",
   "no_input_progress_label": "エラー: 入力が提供されていません -- 0.0%",
+  "processing_audio_print": "オーディオを処理中: {}、モデル使用: {}",
+  "starting_audio_separation_progress_label": "オーディオ分離を開始しています... -- 0.0%",
+  "separating_audio_progress_label": "オーディオを分離中... -- {}.0%",
+  "audio_processing_completed_progress_label": "オーディオ処理が完了しました！ -- 100.0%",
+  "audio_processing_completed": "✅ オーディオ処理が完了しました！",
   "error_occurred_progress_label": "エラーが発生しました -- 0.0%",
+  "minimum_files_required": "⚠️ 最低2つのファイルが必要です",
   "valid_files_not_found": "❌ 有効なファイルが見つかりません",
+  "starting_ensemble_process": "アンサンブルプロセスを開始しています...",
   "ensembling_progress": "アンサンブル中... ({:.1f}%)",
+  "finalizing_ensemble_output": "アンサンブル出力を最終化中...",
+  "success_log": "✅ 成功！\n{}",
+  "error_log": "❌ エラー！\n{}",
+  "ensemble_process_completed": "アンサンブルプロセスが完了しました！",
   "no_models_selected": "❌ モデルが選択されていません",
   "no_input_audio_provided": "❌ 入力オーディオが提供されていません",
+  "loading_model": "モデルを読み込み中 {}/{}: {}...",
+  "loading_model_progress_label": "モデルを読み込み中 {}/{}: {}... -- {}.0%",
+  "completed_model": "モデル完了 {}/{}: {}",
+  "completed_model_progress_label": "モデル完了 {}/{}: {} -- {}.0%",
+  "running_command": "コマンドを実行中: {}",
+  "model_failed": "モデル {} が失敗しました: {}",
+  "critical_error_with_model": "{} で致命的なエラー: {}",
+  "model_output_failed": "{} は出力を生成できませんでした",
+  "waiting_for_files": "すべてのファイルが準備できるまで待機中...",
+  "waiting_for_files_progress_label": "すべてのファイルが準備できるまで待機中... -- 90.0%",
+  "performing_ensemble": "アンサンブルを実行中...",
+  "performing_ensemble_progress_label": "アンサンブルを実行中... -- 92.0%",
   "memory_usage_before_ensemble": "アンサンブル前のメモリ使用量: {}%",
   "memory_usage_after_ensemble": "アンサンブル後のメモリ使用量: {}%",
+  "finalizing_ensemble_output_progress_label": "アンサンブル出力を最終化中... -- 98.0%",
+  "ensemble_file_creation_failed": "アンサンブルファイルを作成できませんでした: {}",
+  "ensemble_completed_progress_label": "アンサンブルが正常に完了しました！ -- 100.0%",
+  "success_output_created": "✅ 成功！出力ファイルが作成されました。",
+  "custom_models_tab": "⚡ カスタムモデル",
+  "add_custom_model": "➕ カスタムモデルを追加",
+  "custom_model_name": "モデル名",
+  "custom_model_name_placeholder": "モデルの名前を入力してください",
+  "checkpoint_url": "チェックポイントURL (.ckpt/.pth)",
+  "checkpoint_url_placeholder": "https://huggingface.co/.../model.ckpt",
+  "config_url": "設定URL (.yaml)",
+  "config_url_placeholder": "https://huggingface.co/.../config.yaml",
+  "custom_py_url": "カスタムPythonファイルURL (オプション)",
+  "custom_py_url_placeholder": "https://huggingface.co/.../bs_roformer.py",
+  "auto_detect_type": "モデルタイプを自動検出",
+  "model_type": "モデルタイプ",
+  "add_model_btn": "➕ モデルを追加",
+  "custom_models_list": "📋 カスタムモデルリスト",
+  "delete_model": "🗑️ 削除",
+  "no_custom_models": "カスタムモデルはまだ追加されていません",
+  "model_added_success": "✅ モデルが正常に追加されました！",
+  "model_deleted_success": "✅ モデルが正常に削除されました！",
+  "model_add_error": "❌ モデル追加エラー: {}",
+  "model_delete_error": "❌ モデル削除エラー: {}",
+  "refresh_models": "🔄 更新",
+  "custom_model_info": "ダウンロードリンクを提供してカスタムモデルを追加します。モデルは使用時に自動的にダウンロードされます。",
+  "select_model_to_delete": "削除するモデルを選択してください"
 }

assets/i18n/languages/ru_ru.json CHANGED Viewed

@@ -19,6 +19,7 @@
   "tta_boost": "Усиление TTA",
   "tta_info": "Улучшает качество, но замедляет скорость обработки",
   "phase_fix": "Коррекция фазы",
   "phase_fix_info": "Расширенная коррекция фазы для инструментальных треков",
   "instrumental": "Инструментал",
   "instrumental_info": "Обычно дает 2 выхода, но иногда только один, нужно экспериментировать :)",
@@ -46,7 +47,7 @@
   "copy_to_drive": "📂 Копировать на Диск",
   "copy_status": "Статус копирования",
   "files_will_be_copied": "Файлы будут скопированы сюда...",
-  "processing_tip": "<b>🔈 Совет по обработке:</b> Для шумных результатов используйте модели <code>bleed_suppressor_v1</code> или <code>denoisedebleed</code> в категории <i>\"Удаление шума и эффектов\"</i>, чтобы очистить выходные данные",
   "waiting_for_processing": "Ожидание обработки...",
   "auto_ensemble_tab": "🤖 Автоматический ансамбль",
   "upload_file": "Загрузить файл",
@@ -71,68 +72,147 @@
   "output_preview": "Предпросмотр вывода",
   "refresh_output": "🔄 Обновить вывод",
   "ensemble_copy_status": "Вывод ансамбля будет скопирован сюда...",
-  "guidelines": "<h4>Руководство по выбору моделей</h4><ul><li><strong>Избегайте смешивания категорий:</strong> Сочетание вокальных и инструментальных моделей может привести к нежелательным смешиваниям</li><li><strong>Заметки о специальных моделях:</strong><ul><li>Модели дуальности (v1/v2) - выдают оба стема</li><li>Сепаратор MDX23C - гибридные результаты</li></ul></li><li><strong>Лучшая практика:</strong> Используйте 3-5 схожих моделей из одной категории</li></ul><div>💡 Профессиональный совет: Начните с комбинации \"VOCALS-MelBand-Roformer BigBeta5e\" + \"VOCALS-BS-Roformer_1297\"</div>",
   "download_sources_tab": "⬇️ Скачать источники",
   "direct_links": "🌐 Прямые ссылки",
   "audio_file_url": "URL аудиофайла",
-  "download_from_url": "⬇️ Скачать по URL",
   "download_status": "Статус загрузки",
-  "downloaded_file": "Скачанный файл",
-  "cookie_management": "🍪 Управление cookies",
   "upload_cookies_txt": "Загрузить Cookies.txt",
-  "cookie_info": "<div style=\"margin-left:15px; font-size:0.95em\">**📌 Зачем это нужно?**<br>- Доступ к контенту с возрастными ограничениями<br>- Скачивание приватных/неопубликованных видео<br>- Обход региональных ограничений<br>- Избежание лимитов скачивания YouTube<br><br>**⚠️ Важные заметки**<br>- НИКОГДА не делитесь своими файлами cookies!<br>- Обновляйте cookies, если:<br>  • П��являются ошибки \"403 Запрещено\"<br>  • Загрузки внезапно останавливаются<br>  • Появляется сообщение \"Сессия истекла\"<br><br>**🔄 Шаги обновления**<br>1. Установите это <a href=\"https://chromewebstore.google.com/detail/get-cookiestxt-clean/ahmnmhfbokciafffnknlekllgcnafnie\" target=\"_blank\">расширение Chrome</a><br>2. Войдите в YouTube в Chrome<br>3. Нажмите на иконку расширения → \"Экспорт\"<br>4. Загрузите скачанный файл сюда<br><br>**⏳ Срок действия cookies**<br>- Обычные сессии: 24 часа<br>- Чувствительные операции: 1 час<br>- Смена пароля: мгновенная недействительность</div>",
   "manual_ensemble_tab": "🎚️ Ручной ансамбль",
   "input_sources": "📂 Источники ввода",
   "refresh": "🔄 Обновить",
   "ensemble_algorithm": "Алгоритм ансамбля",
-  "select_audio_files": "Выберите аудиофайлы",
   "available_files": "Доступные файлы",
-  "custom_weights": "Пользовательские веса (разделены запятыми)",
   "custom_weights_placeholder": "Пример: 0.8, 1.2, 1.0, ...",
   "custom_weights_info": "Оставьте пустым для равных весов",
   "result_preview_tab": "🎧 Предпросмотр результата",
-  "ensembled_output": "Результат ансамбля",
   "processing_log_tab": "📋 Журнал обработки",
   "processing_details": "Детали обработки",
   "process_ensemble": "⚡ Обработать ансамбль",
   "languages_tab": "🌐 Языки",
   "Vocal Models": "Вокальные модели",
   "Instrumental Models": "Инструментальные модели",
-  "4-Stem Models": "Модели с 4 стемами",
   "Denoise Models": "Модели шумоподавления",
   "Dereverb Models": "Модели удаления реверберации",
   "Other Models": "Другие модели",
-  "ensemble_files_description": "Объединяет несколько аудиофайлов в один выход с использованием указанных методов ансамбля.",
   "ensemble_files_help": "Путь ко всем аудиофайлам для ансамбля",
   "ensemble_type_help": "Один из: avg_wave, median_wave, min_wave, max_wave, avg_fft, median_fft, min_fft, max_fft",
   "ensemble_weights_help": "Веса для создания ансамбля. Количество весов должно совпадать с количеством файлов",
-  "ensemble_output_help": "Путь к WAV-файлу, куда будет сохранен результат ансамбля",
   "ensemble_type_print": "Тип ансамбля: {}",
   "num_input_files_print": "Количество входных файлов: {}",
   "weights_print": "Веса: {}",
   "output_file_print": "Выходной файл: {}",
-  "duration_mismatch_error": "Все файлы должны иметь одинаковую длительность",
-  "file_not_found_error": "Ошибка. Файл не найден: {}. Проверьте пути.",
-  "reading_chunk_print": "Чтение фрагмента из файла: {} (начало: {} сек, длительность: {} сек)",
   "chunk_result_shape_print": "Форма результата фрагмента: {}",
-  "ensemble_completed_print": "Ансамбль завершен. Выход сохранен в: {}",
-  "file_deletion_error": "Не удалось удалить {}: {}",
-  "directory_not_exist_warning": "⚠️ Директория не существует: {}",
-  "not_a_directory_warning": "⚠️ Путь не является директорией: {}",
   "item_deletion_error": "⚠️ Ошибка удаления {}: {}",
   "old_output_not_exist": "❌ Старая папка вывода не существует",
-  "old_outputs_cleared": "✅ Старые выходные данные успешно удалены!",
   "error": "🔥 Ошибка: {}",
   "ffmpeg_error": "Ошибка FFmpeg ({}): {}",
   "file_saved_successfully": "Файл успешно сохранен: {}",
   "total_files_found": "Всего найдено файлов: {}. Используемая частота дискретизации: {}",
   "total_progress": "Общий прогресс",
-  "detailed_pbar_enabled": "Подробная шкала прогресса включена: {}",
-  "loaded_audio": "Загруженное аудио: {}, форма: {}",
   "cannot_read_track": "Не удается прочитать трек: {}",
   "error_message": "Сообщение об ошибке: {}",
   "demudding_track": "Очистка трека (ремикс фазы - инструментал): {}",
-  "elapsed_time": "Прошедшее время: {:.2f} сек.",
   "proc_folder_description": "Обрабатывает аудиофайлы в папке с использованием указанной модели.",
   "model_type_help": "Тип модели (bandit, bs_roformer, mdx23c и т.д.)",
   "config_path_help": "Путь к файлу конфигурации",
@@ -140,32 +220,40 @@
   "start_checkpoint_help": "Начальная контрольная точка для действительных весов",
   "input_folder_help": "Папка с миксами для обработки",
   "audio_path_help": "Путь к одному аудиофайлу для обработки",
-  "store_dir_help": "Путь для хранения результатов",
   "device_ids_help": "Список идентификаторов GPU",
-  "extract_instrumental_help": "Инвертировать вокал для получения инструментала, если предоставлено",
-  "disable_detailed_pbar_help": "Отключить подробную шкалу прогресса при демиксе",
-  "force_cpu_help": "Принудительно использовать CPU, даже если CUDA доступен",
-  "flac_file_help": "Выводить файл FLAC вместо WAV",
   "export_format_help": "Формат экспорта и тип PCM",
-  "pcm_type_help": "Тип PCM для файлов FLAC",
-  "use_tta_help": "Включить увеличение времени теста",
   "lora_checkpoint_help": "Начальная контрольная точка для весов LoRA",
-  "cuda_available": "CUDA доступен, используйте --force_cpu для отключения.",
   "using_device": "Используемое устройство: {}",
   "instruments_print": "Инструменты: {}",
   "model_load_time": "Время загрузки модели: {:.2f} сек",
-  "invalid_url": "❌ Неверный URL",
-  "cookie_file_updated": "✅ Файл cookies обновлен!",
-  "cookie_installation_error": "⚠️ Ошибка установки cookies: {}",
-  "file_size_zero_error": "Размер файла нулевой или файл не создан",
-  "google_drive_error": "❌ Ошибка загрузки с Google Drive: {}",
-  "wav_conversion_failed": "Не удалось конвертировать в WAV",
   "download_error": "❌ Ошибка загрузки: {}",
-  "download_success": "🎉 Загрузка успешно завершена!",
   "download_failed": "❌ Загрузка не удалась",
   "no_output_files_found": "❌ Выходные файлы не найдены.",
   "output_refreshed_successfully": "✅ Вывод успешно обновлен!",
-  "error_refreshing_output": "❌ Ошибка при обновлении вывода: {}",
   "starting_audio_separation": "Запуск разделения аудио...",
   "processing_audio": "Обработка аудио",
   "separating_audio": "Разделение аудио... ({:.1f}%)",
@@ -173,7 +261,7 @@
   "progress_parsing_error": "Ошибка разбора прогресса: {}",
   "error_occurred": "Произошла ошибка: {}",
   "separation_process_completed": "Процесс разделения завершен!",
-  "no_audio_file_error": "❌ Аудиофайл не предоставлен, и в директории ввода нет существующего файла.",
   "no_input_progress_label": "Ошибка: Ввод не предоставлен -- 0.0%",
   "processing_audio_print": "Обработка аудио из: {} с использованием модели: {}",
   "starting_audio_separation_progress_label": "Запуск разделения аудио... -- 0.0%",
@@ -182,11 +270,11 @@
   "audio_processing_completed": "✅ Обработка аудио завершена!",
   "error_occurred_progress_label": "Произошла ошибка -- 0.0%",
   "minimum_files_required": "⚠️ Требуется минимум 2 файла",
-  "valid_files_not_found": "❌ Валидные файлы не найдены",
   "starting_ensemble_process": "Запуск процесса ансамбля...",
-  "ensembling_progress": "Создание ансамбля... ({:.1f}%)",
   "finalizing_ensemble_output": "Завершение вывода ансамбля...",
-  "success_log": "✅ Успех!\n{}",
   "error_log": "❌ Ошибка!\n{}",
   "critical_error": "⛔ Критическая ошибка: {}",
   "ensemble_process_completed": "Процесс ансамбля завершен!",
@@ -204,77 +292,55 @@
   "waiting_for_files_progress_label": "Ожидание готовности всех файлов... -- 90.0%",
   "performing_ensemble": "Выполнение ансамбля...",
   "performing_ensemble_progress_label": "Выполнение ансамбля... -- 92.0%",
-  "memory_usage_before_ensemble": "Использование памяти перед ансамблем: {}%",
   "memory_usage_after_ensemble": "Использование памяти после ансамбля: {}%",
   "finalizing_ensemble_output_progress_label": "Завершение вывода ансамбля... -- 98.0%",
   "ensemble_file_creation_failed": "Не удалось создать файл ансамбля: {}",
   "ensemble_completed_progress_label": "Ансамбль успешно завершен! -- 100.0%",
-  "success_output_created": "✅ Успех! Выходной файл создан.",
-  "drive_mounted_copying_ensemble": "Google Drive подключен. Копирование вывода ансамбля...",
-  "drive_already_mounted_copying_ensemble": "Google Drive уже подключен. Копирование вывода ансамбля...",
-  "no_ensemble_output_files_found": "❌ Файлы вывода ансамбля не найдены.",
-  "ensemble_output_copied": "✅ Вывод ансамбля скопирован в {}",
-  "error_copying_ensemble_output": "❌ Ошибка копирования вывода ансамбля: {}",
-  "drive_mounted_copying_files": "Google Drive подключен. Копирование файлов...",
-  "drive_already_mounted_copying_files": "Google Drive уже подключен. Копирование файлов...",
-  "files_copied_to_drive": "✅ Файлы скопированы в {}",
-  "error_copying_files": "❌ Ошибка копирования файлов: {}",
-  "mounting_drive": "Подключение Google Drive...",
-  "settings_saved": "Настройки сохранены в config.json: Язык={lang}, Метод={method}, Порт={port}",
-  "selected_language": "Выбранный язык: {lang}",
-  "available_languages": "Доступные языки: {langs}",
-  "select_language_prompt": "Выберите язык (по умолчанию: {default}): ",
-  "invalid_language": "Неверный выбор языка! Используется язык по умолчанию ({default}).",
-  "available_sharing_methods": "Доступные методы совместного доступа: gradio, localtunnel, ngrok",
-  "select_sharing_method_prompt": "Выберите метод совместного доступа (по умолчанию: {default}): ",
-  "enter_ngrok_token_prompt": "Введите ваш токен Ngrok (по умолчанию: {default}): ",
-  "ngrok_token_required": "Ошибка: Для метода ngrok требуется токен Ngrok!",
-  "enter_port_prompt": "Введите номер порта (по умолчанию: {default}): ",
-  "opening_previous_url": "Открытие предыдущего URL: {url}",
-  "open_url_manually": "Откройте URL вручную в Colab: {url}",
-  "invalid_previous_url": "Неверный предыдущий URL: {url}, не открыт.",
-  "starting_method": "Запуск {method} на порту {port}...",
-  "process_stopped": "\n🛑 Процесс остановлен пользователем",
-  "selected_port": "Выбранный порт: {port}",
-  "starting_gradio_with_sharing": "Запуск Gradio с встроенным совместным доступом...",
-  "starting_localtunnel": "Запуск Localtunnel на порту {port}...",
-  "share_link": "Ссылка для совместного доступа: {url}",
-  "password_ip": "Пароль IP: {ip}",
-  "starting_ngrok": "Запуск Ngrok на порту {port}...",
-  "ngrok_url": "URL Ngrok: {url}",
-  "ngrok_error": "Ошибка запуска Ngrok: {error}",
-  "apollo_chunk_size": "Размер фрагмента Apollo",
-  "apollo_chunk_size_info": "Размер фрагмента для улучшения Apollo (рекомендуется: 19 для универсальной модели)",
-  "apollo_overlap": "Перекрытие Apollo",
-  "enhancing_with_apollo": "Улучшение с Apollo ({}/{} файлов)...",
-  "apollo_processing_completed": "Обработка Apollo завершена!",
-  "apollo_overlap_info": "Перекрытие для улучшения Apollo (рекомендуется: 2)",
-  "invalid_method": "Ошибка: Неверный метод! Используйте 'gradio', 'localtunnel' или 'ngrok'.",
-  "apollo_enhancement_settings": "Настройки улучшения Apollo",
-  "enhance_with_apollo": "Улучшить с Apollo",
-  "enhance_with_apollo_info": "Включить Apollo для улучшения аудио после разделения",
-  "apollo_method": "Метод Apollo",
-  "apollo_method_info": "Выберите метод обработки для Apollo",
-  "normal_method": "Обычный метод",
-  "mid_side_method": "Метод середины/сторон",
-  "apollo_normal_model": "Обычная модель Apollo",
-  "apollo_normal_model_info": "Модель, используемая для обычной обработки Apollo",
-  "apollo_midside_model": "Модель Apollo середины/сторон",
-  "apollo_enhancement_info": "Улучшение качества звука",
-  "selected_models": "Выбранные модели",
-  "save_preset": "Сохранить пресет",
-  "delete_preset": "Удалить пресет",
-  "refresh_presets": "Обновить пресеты",
-  "preset_name": "Имя пресета",
-  "select_preset": "Выбрать пресет",
-  "add_favorite": "Добавить в избранное",
-  "apollo_midside_model_info": "Модель, используемая для обработки середины/сторон (опционально)",
-  "language_changed_message": "Язык изменен. Пожалуйста, перезапустите ячейку.",
-  "apply_matchering": "Применить Matchering",
-  "matchering_info": "Применить Matchering для улучшения мастеринга и баланса звука",
-  "matchering_passes": "Проходы Matchering",
-  "matchering_passes_info": "Количество итераций Matchering (1-5, более высокие значения улучшают качество, но занимают больше времени)",
-  "matchering_processing": "Применение Matchering... ({:.1f}%)",
-  "matchering_completed": "✅ Обработка Matchering завершена!",
-  "matchering_error": "❌ Ошибка во время Matchering: {}"
 }

   "tta_boost": "Усиление TTA",
   "tta_info": "Улучшает качество, но замедляет скорость обработки",
   "phase_fix": "Коррекция фазы",
+  "use_phase_correction": "Применить расширенную коррекцию фазы",
   "phase_fix_info": "Расширенная коррекция фазы для инструментальных треков",
   "instrumental": "Инструментал",
   "instrumental_info": "Обычно дает 2 выхода, но иногда только один, нужно экспериментировать :)",
   "copy_to_drive": "📂 Копировать на Диск",
   "copy_status": "Статус копирования",
   "files_will_be_copied": "Файлы будут скопированы сюда...",
+  "processing_tip": "<b>🔈 Совет по обработке:</b> Для шумных результатов используйте модели <code>bleed_suppressor_v1</code> или <code>denoisedebleed</code> в категории <i>Удаление шума и эффектов</i>, чтобы очистить выходные данные",
   "waiting_for_processing": "Ожидание обработки...",
   "auto_ensemble_tab": "🤖 Автоматический ансамбль",
   "upload_file": "Загрузить файл",
   "output_preview": "Предпросмотр вывода",
   "refresh_output": "🔄 Обновить вывод",
   "ensemble_copy_status": "Вывод ансамбля будет скопирован сюда...",
+  "guidelines": "<h4>Руководство по выбору модели</h4><ul><li><strong>Избегайте смешивания категорий:</strong> Сочетание вокальных и инструментальных моделей может привести к нежелательным смесям</li><li><strong>Примечания к специальным моделям:</strong><ul><li>Модели двойственности (v1/v2) - Выводят оба стема</li><li>Разделитель MDX23C - Гибридные результаты</li></ul></li><li><strong>Лучшая практика:</strong> Используйте 3-5 похожих моделей из одной категории</li></ul><div>💡 Совет профессионала: Начните с комбинации \"VOCALS-MelBand-Roformer BigBeta5e\" + \"VOCALS-BS-Roformer_1297\"</div>",
   "download_sources_tab": "⬇️ Скачать источники",
   "direct_links": "🌐 Прямые ссылки",
   "audio_file_url": "URL аудиофайла",
+  "download_from_url": "⬇️ Скачать с URL",
   "download_status": "Статус загрузки",
+  "downloaded_file": "Загруженный файл",
+  "cookie_management": "🍪 Управление куки",
   "upload_cookies_txt": "Загрузить Cookies.txt",
+  "cookie_info": "<div style=\"margin-left:15px; font-size:0.95em\">**📌 Почему необходимо?**<br>- Доступ к контенту с ограничением по возрасту<br>- Скачивание приватных/неопубликованных видео<br>- Обход региональных ограничений<br>- Избежание лимитов скачивания YouTube<br><br>**⚠️ Важные замечания**<br>- НИКОГДА не делитесь своими файлами куки!<br>- Обновляйте куки, если:<br>  • Получаете ошибки \"403 Запрещено\"<br>  • Загрузки внезапно останавливаются<br>  • Видите сообщения \"Сессия истекла\"<br><br>**🔄 Шаги обновления**<br>1. Установите это <a href=\"https://chromewebstore.google.com/detail/get-cookiestxt-clean/ahmnmhfbokciafffnknlekllgcnafnie\" target=\"_blank\">расширение Chrome</a><br>2. Войдите в YouTube в Chrome<br>3. Нажмите на иконку расширения → \"Экспорт\"<br>4. Загрузите скачанный файл сюда<br><br>**⏳ Срок действия куки**<br>- Обычные сессии: 24 часа<br>- Чувствительные операции: 1 час<br>- Смена пароля: Немедленное обновление</div>",
+  "ensemble_output_copied": "✅ Вывод ансамбля скопирован в {}",
+  "error_copying_ensemble_output": "❌ Ошибка копирования вывода ансамбля: {}",
+  "drive_mounted_copying_ensemble": "Google Drive подключен. Копирование вывода ансамбля...",
+  "drive_already_mounted_copying_ensemble": "Google Drive уже подключен. Копирование вывода ансамбля...",
+  "no_ensemble_output_files_found": "❌ Файлы вывода ансамбля не найдены.",
+  "drive_mounted_copying_files": "Google Drive подключен. Копирование файлов...",
+  "drive_already_mounted_copying_files": "Google Drive уже подключен. Копирование файлов...",
+  "files_copied_to_drive": "✅ Файлы скопированы в {}",
+  "error_copying_files": "❌ Ошибка копирования файлов: {}",
+  "mounting_drive": "Подключение Google Drive...",
+  "settings_saved": "Настройки сохранены в config.json: Язык={lang}, Метод={method}, Порт={port}",
+  "selected_language": "Выбранный язык: {lang}",
+  "available_languages": "Доступные языки: {langs}",
+  "select_language_prompt": "Выберите язык (по умолчанию: {default}): ",
+  "invalid_language": "Неверный выбор языка! Используется язык по умолчанию ({default}).",
+  "available_sharing_methods": "Доступные методы совместного доступа: gradio, localtunnel, ngrok",
+  "select_sharing_method_prompt": "Выберите метод совместного доступа (по умолчанию: {default}): ",
+  "enter_ngrok_token_prompt": "Введите ваш токен Ngrok (по умолчанию: {default}): ",
+  "ngrok_token_required": "Ошибка: Для метода ngrok требуется токен Ngrok!",
+  "enter_port_prompt": "Введите номер порта (по умолчанию: {default}): ",
+  "opening_previous_url": "Открытие предыдущего URL: {url}",
+  "open_url_manually": "Вручную откройте URL в Colab: {url}",
+  "invalid_previous_url": "Неверный предыдущий URL: {url}, не открыт.",
+  "starting_method": "Запуск {method} на порту {port}...",
+  "process_stopped": "\n🛑 Процесс остановлен пользователем",
+  "selected_port": "Выбранный порт: {port}",
+  "starting_gradio_with_sharing": "Запуск Gradio с встроенным совместным до��тупом...",
+  "starting_localtunnel": "Запуск Localtunnel на порту {port}...",
+  "share_link": "Ссылка для совместного доступа: {url}",
+  "password_ip": "Пароль IP: {ip}",
+  "starting_ngrok": "Запуск Ngrok на порту {port}...",
+  "ngrok_url": "URL Ngrok: {url}",
+  "ngrok_error": "Ошибка запуска Ngrok: {error}",
+  "auto_apollo_chunk_size": "Размер фрагмента Apollo",
+  "auto_apollo_chunk_size_info": "Размер фрагмента для улучшения Apollo (рекомендуется: 19 для универсальной модели)",
+  "auto_apollo_overlap": "Перекрытие Apollo",
+  "auto_enhancing_with_apollo": "Улучшение с Apollo ({}/{} файлов)...",
+  "auto_apollo_processing_completed": "Обработка Apollo завершена!",
+  "auto_apollo_overlap_info": "Перекрытие для улучшения Apollo (рекомендуется: 2)",
+  "apollo_chunk_size": "Размер фрагмента Apollo",
+  "apollo_chunk_size_info": "Размер фрагмента для улучшения Apollo (рекомендуется: 19 для универсальной модели)",
+  "apollo_overlap": "Перекрытие Apollo",
+  "enhance_with_apollo": "Улучшить с Apollo",
+  "apollo_enhancement_info": "Улучшение качества звука",
+  "enhancing_with_apollo": "Улучшение с Apollo ({}/{} файлов)...",
+  "apollo_processing_completed": "Обработка Apollo завершена!",
+  "apollo_overlap_info": "Перекрытие для улучшения Apollo (рекомендуется: 2)",
+  "selected_models": "Выбранные модели",
+  "save_preset": "Сохранить пресет",
+  "delete_preset": "Удалить пресет",
+  "refresh_presets": "Обновить пресеты",
+  "preset_name": "Имя пресета",
+  "select_preset": "Выбрать пресет",
+  "add_favorite": "Добавить в избранное",
+  "apply_matchering": "Применить Matchering",
+  "matchering_info": "Применить Matchering для улучшения мастеринга и баланса звука",
+  "matchering_passes": "Проходы Matchering",
+  "matchering_passes_info": "Количество итераций Matchering (1-5, более высокие значения улучшают качество, но занимают больше времени)",
+  "matchering_processing": "Применение Matchering... ({:.1f}%)",
+  "matchering_completed": "✅ Обработка Matchering завершена!",
+  "matchering_error": "❌ Ошибка во время Matchering: {}",
+  "invalid_method": "Ошибка: Неверный метод! Используйте 'gradio', 'localtunnel' или 'ngrok'.",
+  "language_changed_message": "Язык изменен. Пожалуйста, перезапустите ячейку.",
+  "backend_settings": "🚀 Настройки Backend",
+  "inference_backend": "Backend инференса",
+  "optimization_mode": "Режим оптимизации",
+  "optimization_mode_info": "Выбор режима оптимизации PyTorch",
+  "mixed_precision_amp": "Смешанная точность (AMP)",
+  "mixed_precision_info": "Inference в 2 раза быстрее - рекомендуется",
+  "tf32_acceleration": "Ускорение TF32",
+  "tf32_acceleration_info": "Дополнительный прирост скорости для RTX 30xx+",
+  "cudnn_benchmark": "Бенчмарк cuDNN",
+  "cudnn_benchmark_info": "Медленнее на первом запуске, гораздо быстрее на последующих",
+  "ultra_optimized_pytorch": "УЛЬТРА-ОПТИМИЗИРОВАННЫЙ PyTorch Backend",
+  "default_active_max_speed": "Активен по умолчанию - Максимальная оптимизация скорости",
+  "channels_last_mode": "Самый быстрый для RTX GPU",
+  "compile_mode": "Дополнительная скорость для PyTorch 2.0+",
+    "default_mode": "Стандартный",
   "manual_ensemble_tab": "🎚️ Ручной ансамбль",
   "input_sources": "📂 Источники ввода",
   "refresh": "🔄 Обновить",
   "ensemble_algorithm": "Алгоритм ансамбля",
+  "select_audio_files": "Выбрать аудиофайлы",
   "available_files": "Доступные файлы",
+  "custom_weights": "Пользовательские веса (через запятую)",
   "custom_weights_placeholder": "Пример: 0.8, 1.2, 1.0, ...",
   "custom_weights_info": "Оставьте пустым для равных весов",
   "result_preview_tab": "🎧 Предпросмотр результата",
+  "ensembled_output": "Вывод ансамбля",
   "processing_log_tab": "📋 Журнал обработки",
   "processing_details": "Детали обработки",
   "process_ensemble": "⚡ Обработать ансамбль",
   "languages_tab": "🌐 Языки",
   "Vocal Models": "Вокальные модели",
   "Instrumental Models": "Инструментальные модели",
+  "4-Stem Models": "4-стемовые модели",
   "Denoise Models": "Модели шумоподавления",
   "Dereverb Models": "Модели удаления реверберации",
   "Other Models": "Другие модели",
+  "Other Shapes": "Другие модели",
+  "ensemble_files_description": "Объединяет несколько аудиофайлов в один выходной файл с использованием указанных методов ансамбля.",
   "ensemble_files_help": "Путь ко всем аудиофайлам для ансамбля",
   "ensemble_type_help": "Один из: avg_wave, median_wave, min_wave, max_wave, avg_fft, median_fft, min_fft, max_fft",
   "ensemble_weights_help": "Веса для создания ансамбля. Количество весов должно совпадать с количеством файлов",
+  "ensemble_output_help": "Путь к WAV-файлу, где будет сохранен результат ансамбля",
   "ensemble_type_print": "Тип ансамбля: {}",
   "num_input_files_print": "Количество входных файлов: {}",
   "weights_print": "Веса: {}",
   "output_file_print": "Выходной файл: {}",
+  "duration_mismatch_error": "Все файлы должны иметь одинаковую продолжительность",
+  "file_not_found_error": "Ошибка. Не удается найти файл: {}. Проверьте пути.",
+  "reading_chunk_print": "Чтение фрагмента из файла: {} (начало: {}с, продолжительность: {}с)",
   "chunk_result_shape_print": "Форма результата фрагмента: {}",
+  "ensemble_completed_print": "Ансамбль завершен. Вывод сохранен в: {}",
+  "file_deletion_error": "{} не удалось удалить: {}",
+  "directory_not_exist_warning": "⚠️ Каталог не существует: {}",
+  "not_a_directory_warning": "⚠️ Путь не является каталогом: {}",
   "item_deletion_error": "⚠️ Ошибка удаления {}: {}",
   "old_output_not_exist": "❌ Старая папка вывода не существует",
+  "old_outputs_cleared": "✅ Старые выходные данные успешно очищены!",
   "error": "🔥 Ошибка: {}",
   "ffmpeg_error": "Ошибка FFmpeg ({}): {}",
   "file_saved_successfully": "Файл успешно сохранен: {}",
   "total_files_found": "Всего найдено файлов: {}. Используемая частота дискретизации: {}",
   "total_progress": "Общий прогресс",
+  "detailed_pbar_enabled": "Подробная полоса прогресса включена: {}",
+  "loaded_audio": "Загружено аудио: {}, форма: {}",
   "cannot_read_track": "Не удается прочитать трек: {}",
   "error_message": "Сообщение об ошибке: {}",
   "demudding_track": "Очистка трека (ремикс фазы - инструментал): {}",
+  "elapsed_time": "Прошедшее время: {:.2f} секунд.",
   "proc_folder_description": "Обрабатывает аудиофайлы в папке с использованием указанной модели.",
   "model_type_help": "Тип модели (bandit, bs_roformer, mdx23c и т.д.)",
   "config_path_help": "Путь к файлу конфигурации",
   "start_checkpoint_help": "Начальная контрольная точка для действительных весов",
   "input_folder_help": "Папка с миксами для обработки",
   "audio_path_help": "Путь к одному аудиофайлу для обработки",
+  "store_dir_help": "Путь для сохранения результатов",
   "device_ids_help": "Список идентификаторов GPU",
+  "extract_instrumental_help": "Инвертировать вокал для получения инструментала, если предоставлен",
+  "disable_detailed_pbar_help": "Отключить подробную полосу прогресса в демиксе",
+  "force_cpu_help": "Принудительно использовать CPU, даже если доступна CUDA",
+  "flac_file_help": "Вывод FLAC-файла вместо WAV",
   "export_format_help": "Формат экспорта и тип PCM",
+  "pcm_type_help": "Тип PCM для FLAC-файлов",
+  "use_tta_help": "Включить тестовое усиление времени",
   "lora_checkpoint_help": "Начальная контрольная точка для весов LoRA",
+  "cuda_available": "CUDA доступна, используйте --force_cpu для отключения.",
   "using_device": "Используемое устройство: {}",
   "instruments_print": "Инструменты: {}",
   "model_load_time": "Время загрузки модели: {:.2f} сек",
+  "invalid_url": "❌ Недействительный URL",
+  "cookie_file_updated": "✅ Файл куки обновлен!",
+  "cookie_installation_error": "⚠️ Ошибка установки куки: {}",
+  "google_drive_mount_error": "❌ Ошибка подключения Google Drive: {}",
+  "file_size_zero_error": "Размер файла ноль или файл не создан",
+  "google_drive_error": "❌ Ошибка загрузки Google Drive: {}",
+  "wav_conversion_failed": "Конвертация WAV не удалась",
   "download_error": "❌ Ошибка загрузки: {}",
+  "file_copied_to_drive": "Файл скопирован в Google Drive: {}",
+  "copy_to_drive_error": "❌ Ошибка копирования в Google Drive: {}",
+  "direct_download_failed": "Прямая загрузка файла не удалась",
+  "direct_download_error": "❌ Ошибка прямой загрузки: {}",
+  "invalid_google_drive_url": "❌ Недействительный URL Google Drive",
+  "continuing_without_google_drive": "Подключение Google Drive не удалось, продолжаем без него...",
+  "skipping_drive_copy_no_mount": "⚠️ Google Drive не подключен, пропуск копирования на Drive...",
+  "download_success": "🎉 Успешно загружено!",
   "download_failed": "❌ Загрузка не удалась",
   "no_output_files_found": "❌ Выходные файлы не найдены.",
   "output_refreshed_successfully": "✅ Вывод успешно обновлен!",
+  "error_refreshing_output": "❌ Ошибка обновления вывода: {}",
   "starting_audio_separation": "Запуск разделения аудио...",
   "processing_audio": "Обработка аудио",
   "separating_audio": "Разделение аудио... ({:.1f}%)",
   "progress_parsing_error": "Ошибка разбора прогресса: {}",
   "error_occurred": "Произошла ошибка: {}",
   "separation_process_completed": "Процесс разделения завершен!",
+  "no_audio_file_error": "❌ Аудиофайл не предоставлен и нет существующего файла в каталоге ввода.",
   "no_input_progress_label": "Ошибка: Ввод не предоставлен -- 0.0%",
   "processing_audio_print": "Обработка аудио из: {} с использованием модели: {}",
   "starting_audio_separation_progress_label": "Запуск разделения аудио... -- 0.0%",
   "audio_processing_completed": "✅ Обработка аудио завершена!",
   "error_occurred_progress_label": "Произошла ошибка -- 0.0%",
   "minimum_files_required": "⚠️ Требуется минимум 2 файла",
+  "valid_files_not_found": "❌ Действительные файлы не найдены",
   "starting_ensemble_process": "Запуск процесса ансамбля...",
+  "ensembling_progress": "Ансамблирование... ({:.1f}%)",
   "finalizing_ensemble_output": "Завершение вывода ансамбля...",
+  "success_log": "✅ Успешно!\n{}",
   "error_log": "❌ Ошибка!\n{}",
   "critical_error": "⛔ Критическая ошибка: {}",
   "ensemble_process_completed": "Процесс ансамбля завершен!",
   "waiting_for_files_progress_label": "Ожидание готовности всех файлов... -- 90.0%",
   "performing_ensemble": "Выполнение ансамбля...",
   "performing_ensemble_progress_label": "Выполнение ансамбля... -- 92.0%",
+  "memory_usage_before_ensemble": "Использование памяти до ансамбля: {}%",
   "memory_usage_after_ensemble": "Использование памяти после ансамбля: {}%",
   "finalizing_ensemble_output_progress_label": "Завершение вывода ансамбля... -- 98.0%",
   "ensemble_file_creation_failed": "Не удалось создать файл ансамбля: {}",
   "ensemble_completed_progress_label": "Ансамбль успешно завершен! -- 100.0%",
+  "success_output_created": "✅ Успешно! Создан выходной файл.",
+  "phase_fixer_tab": "🔧 Корректор фазы",
+  "batch_processing_tab": "📦 Пакетная обработка",
+  "batch_description": "Обработка нескольких файлов одновременно с одной моделью",
+  "batch_input_folder": "Входная папка",
+  "batch_input_folder_placeholder": "Введите путь к папке с аудиофайлами",
+  "batch_output_folder": "Выходная папка",
+  "batch_output_folder_placeholder": "Введите путь к папке для выходных файлов",
+  "batch_file_list": "Файлы для обработки",
+  "batch_add_files": "Добавить файлы",
+  "batch_clear_list": "Очистить список",
+  "batch_start": "🚀 Начать пакетную обработку",
+  "batch_stop": "⏹️ Стоп",
+  "batch_progress": "Прогресс пакетной обработки",
+  "batch_current_file": "Сейчас обрабатывается",
+  "batch_completed": "✅ Пакетная обработка завершена!",
+  "batch_stopped": "⏹️ Пакетная обработка остановлена",
+  "batch_no_files": "❌ Файлы для обработки не выбраны",
+  "source_model": "Исходная модель (Вокал)",
+  "source_model_info": "Модель для извлечения вокала/фазовых данных",
+  "target_model": "Целевая модель (Инструментал)",
+  "target_model_info": "Модель для применения коррекции фазы",
+  "custom_models_tab": "⚡ Пользовательские модели",
+  "Custom Models": "Пользовательские модели",
+  "add_custom_model": "➕ Добавить пользовательскую модель",
+  "custom_model_name": "Название модели",
+  "custom_model_name_placeholder": "Введите название для вашей модели",
+  "checkpoint_url": "URL чекпоинта (.ckpt/.pth)",
+  "checkpoint_url_placeholder": "https://huggingface.co/.../model.ckpt",
+  "config_url": "URL конфигурации (.yaml)",
+  "config_url_placeholder": "https://huggingface.co/.../config.yaml",
+  "custom_py_url": "URL пользовательского Python файла (необязательно)",
+  "custom_py_url_placeholder": "https://huggingface.co/.../bs_roformer.py",
+  "auto_detect_type": "Автоматически определить тип модели",
+  "model_type": "Тип модели",
+  "add_model_btn": "➕ Добавить модель",
+  "custom_models_list": "📋 Список пользовательских моделей",
+  "delete_model": "🗑️ Удалить",
+  "no_custom_models": "Пользовательские модели ещё не добавлены",
+  "model_added_success": "✅ Модель успешно добавлена!",
+  "model_deleted_success": "✅ Модель успешно удалена!",
+  "model_add_error": "❌ Ошибка добавления модели: {}",
+  "model_delete_error": "❌ Ошибка удаления модели: {}",
+  "refresh_models": "🔄 Обновить",
+  "custom_model_info": "Добавляйте пользовательские модели, предоставив ссылки для скачивания. Модели будут скачаны автоматически при использовании.",
+  "select_model_to_delete": "Выберите модель для удаления"
 }

assets/i18n/languages/tr_tr.json CHANGED Viewed

@@ -19,6 +19,7 @@
   "tta_boost": "TTA Güçlendirme",
   "tta_info": "Kaliteyi artırır ancak işlem hızını yavaşlatır",
   "phase_fix": "Faz Düzeltme",
   "phase_fix_info": "Enstrümantal parçalar için gelişmiş faz düzeltme",
   "instrumental": "Enstrümantal",
   "instrumental_info": "Genellikle 2 çıktı verir, ama bazen tek çıktı olabilir, denemen lazım! :)",
@@ -48,7 +49,7 @@
   "files_will_be_copied": "Dosyalar buraya kopyalanacak...",
   "processing_tip": "<b>🔈 İşleme İpucu:</b> Gürültülü sonuçlar için <i>\"Gürültü ve Efekt Kaldırma\"</i> kategorisindeki <code>bleed_suppressor_v1</code> veya <code>denoisedebleed</code> modellerini kullanarak çıkışı temizleyin",
   "waiting_for_processing": "İşleme Bekleniyor...",
-  "auto_ensemble_tab": "🤖 Otomatik birleştirme",
   "upload_file": "Dosya Yükle",
   "enter_file_path": "Veya Dosya Yolunu Gir",
   "file_path_placeholder": "Ses dosyasının tam yolunu gir",
@@ -61,16 +62,16 @@
   "model_selection": "🧠 Model Seçimi",
   "model_category": "Model Kategorisi",
   "select_models": "Kategoriden Model Seç",
-  "ensemble_settings": "⚡ birleştirme Ayarları",
   "method": "Yöntem",
   "recommendation": "**Öneri:** avg_wave ve max_fft en iyi sonuçları verir",
   "start_processing": "🚀 İşlemi Başlat",
   "original_audio_tab": "🔊 Orijinal Ses",
   "original_audio": "Orijinal Ses",
-  "ensemble_result_tab": "🎚️ birleştirme Sonucu",
   "output_preview": "Çıktı Önizlemesi",
   "refresh_output": "🔄 Çıktıyı Yenile",
-  "ensemble_copy_status": "birleştirme çıktısı buraya kopyalanacak...",
   "guidelines": "<h4>Model Seçim Kılavuzu</h4><ul><li><strong>Kategorileri Karıştırmaktan Kaçının:</strong> Vokal ve enstrümantal modellerin birleşimi istenmeyen karışımlara yol açabilir</li><li><strong>Özel Modeller Hakkında Notlar:</strong><ul><li>İkili modeller (v1/v2) - Her iki stemi de üretir</li><li>MDX23C Ayırıcı - Hibrit sonuçlar</li></ul></li><li><strong>En İyi Uygulama:</strong> Aynı kategoriden 3-5 benzer model kullanın</li></ul><div>💡 Profesyonel İpucu: \"VOCALS-MelBand-Roformer BigBeta5e\" + \"VOCALS-BS-Roformer_1297\" kombinasyonuyla başlayın</div>",
   "download_sources_tab": "⬇️ Kaynakları İndir",
   "direct_links": "🌐 Doğrudan Bağlantılar",
@@ -79,22 +80,121 @@
   "download_status": "İndirme Durumu",
   "downloaded_file": "İndirilen Dosya",
   "cookie_management": "🍪 Çerez Yönetimi",
-  "upload_cookies_txt": "Cookies.txt Yükle",
-  "cookie_info": "<div style=\"margin-left:15px; font-size:0.95em\">**📌 Neden Gerekli?**<br>- Yaş sınırlı içeriklere erişim<br>- Özel/listelenmemiş videoları indirme<br>- Bölgesel kısıtlamaları aşma<br>- YouTube indirme limitlerini geçme<br><br>**⚠️ Önemli Notlar**<br>- Çerez dosyalarınızı ASLA paylaşmayın!<br>- Çerezleri şu durumlarda yenileyin:<br>  • \"403 Yasak\" hataları alırsanız<br>  • İndirmeler aniden durursa<br>  • \"Oturum Süresi Doldu\" mesajı görürseniz<br><br>**🔄 Yenileme Adımları**<br>1. Bu <a href=\"https://chromewebstore.google.com/detail/get-cookiestxt-clean/ahmnmhfbokciafffnknlekllgcnafnie\" target=\"_blank\">Chrome uzantısını</a> yükleyin<br>2. Chrome'da YouTube'a giriş yapın<br>3. Uzantı simgesine tıklayın → \"Dışa Aktar\"<br>4. İndirilen dosyayı buraya yükleyin<br><br>**⏳ Çerez Ömrü**<br>- Normal oturumlar: 24 saat<br>- Hassas işlemler: 1 saat<br>- Şifre değişikliği: Anında geçersizlik</div>",
-  "manual_ensemble_tab": "🎚️ Manuel birleştirme",
   "input_sources": "📂 Giriş Kaynakları",
   "refresh": "🔄 Yenile",
-  "ensemble_algorithm": "birleştirme Algoritması",
   "select_audio_files": "Ses Dosyalarını Seç",
   "available_files": "Mevcut Dosyalar",
   "custom_weights": "Özel Ağırlıklar (virgülle ayrılmış)",
   "custom_weights_placeholder": "Örnek: 0.8, 1.2, 1.0, ...",
   "custom_weights_info": "Eşit ağırlıklar için boş bırakın",
   "result_preview_tab": "🎧 Sonuç Önizlemesi",
-  "ensembled_output": "birleştirme Çıktısı",
   "processing_log_tab": "📋 İşlem Günlüğü",
   "processing_details": "İşlem Ayrıntıları",
-  "process_ensemble": "⚡ birleştirmeyi İşle",
   "languages_tab": "🌐 Diller",
   "Vocal Models": "Vokal Modeller",
   "Instrumental Models": "Enstrümantal Modeller",
@@ -102,12 +202,13 @@
   "Denoise Models": "Gürültü Giderme Modelleri",
   "Dereverb Models": "Yankı Giderme Modelleri",
   "Other Models": "Diğer Modeller",
   "ensemble_files_description": "Belirtilen birleştirme yöntemlerini kullanarak birden fazla ses dosyasını tek bir çıktıda birleştirir.",
-  "ensemble_files_help": "birleştirme için tüm ses dosyalarına giden yol",
   "ensemble_type_help": "Şunlardan biri: avg_wave, median_wave, min_wave, max_wave, avg_fft, median_fft, min_fft, max_fft",
-  "ensemble_weights_help": "birleştirme oluşturmak için ağırlıklar. Ağırlık sayısı dosya sayısına eşit olmalı",
-  "ensemble_output_help": "birleştirme sonucunun kaydedileceği WAV dosyasının yolu",
-  "ensemble_type_print": "birleştirme türü: {}",
   "num_input_files_print": "Giriş dosyası sayısı: {}",
   "weights_print": "Ağırlıklar: {}",
   "output_file_print": "Çıktı dosyası: {}",
@@ -115,7 +216,7 @@
   "file_not_found_error": "Hata. Dosya bulunamadı: {}. Yolları kontrol et.",
   "reading_chunk_print": "Dosyadan parça okunuyor: {} (başlangıç: {}s, süre: {}s)",
   "chunk_result_shape_print": "Parça sonucu şekli: {}",
-  "ensemble_completed_print": "birleştirme tamamlandı. Çıktı şuraya kaydedildi: {}",
   "file_deletion_error": "{} silinemedi: {}",
   "directory_not_exist_warning": "⚠️ Dizin mevcut değil: {}",
   "not_a_directory_warning": "⚠️ Yol bir dizin değil: {}",
@@ -157,10 +258,18 @@
   "invalid_url": "❌ Geçersiz URL",
   "cookie_file_updated": "✅ Çerez dosyası güncellendi!",
   "cookie_installation_error": "⚠️ Çerez yükleme hatası: {}",
   "file_size_zero_error": "Dosya boyutu sıfır veya dosya oluşturulmadı",
   "google_drive_error": "❌ Google Drive indirme hatası: {}",
   "wav_conversion_failed": "WAV dönüşümü başarısız",
   "download_error": "❌ İndirme hatası: {}",
   "download_success": "🎉 Başarıyla indirildi!",
   "download_failed": "❌ İndirme başarısız",
   "no_output_files_found": "❌ Çıktı dosyaları bulunamadı.",
@@ -183,13 +292,13 @@
   "error_occurred_progress_label": "Hata oluştu -- 0.0%",
   "minimum_files_required": "⚠️ En az 2 dosya gerekli",
   "valid_files_not_found": "❌ Geçerli dosya bulunamadı",
-  "starting_ensemble_process": "birleştirme işlemi başlıyor...",
-  "ensembling_progress": "birleştirme yapılıyor... ({:.1f}%)",
-  "finalizing_ensemble_output": "birleştirme çıktısı tamamlanıyor...",
   "success_log": "✅ Başarılı!\n{}",
   "error_log": "❌ Hata!\n{}",
   "critical_error": "⛔ Kritik hata: {}",
-  "ensemble_process_completed": "birleştirme işlemi tamamlandı!",
   "no_models_selected": "❌ Model seçilmedi",
   "no_input_audio_provided": "❌ Giriş sesi sağlanmadı",
   "loading_model": "Model yükleniyor {}/{}: {}...",
@@ -202,100 +311,69 @@
   "model_output_failed": "{} çıktı üretemedi",
   "waiting_for_files": "Tüm dosyaların hazır olması bekleniyor...",
   "waiting_for_files_progress_label": "Tüm dosyaların hazır olması bekleniyor... -- 90.0%",
-  "performing_ensemble": "birleştirme gerçekleştiriliyor...",
-  "performing_ensemble_progress_label": "birleştirme gerçekleştiriliyor... -- 92.0%",
-  "memory_usage_before_ensemble": "birleştirme öncesi bellek kullanımı: {}%",
-  "memory_usage_after_ensemble": "birleştirme sonrası bellek kullanımı: {}%",
-  "finalizing_ensemble_output_progress_label": "birleştirme çıktısı tamamlanıyor... -- 98.0%",
-  "ensemble_file_creation_failed": "birleştirme dosyası oluşturulamadı: {}",
-  "ensemble_completed_progress_label": "birleştirme başarıyla tamamlandı! -- 100.0%",
   "success_output_created": "✅ Başarılı! Çıktı dosyası oluşturuldu.",
-  "drive_mounted_copying_ensemble": "Google Drive bağlandı. birleştirme çıktısı kopyalanıyor...",
-  "drive_already_mounted_copying_ensemble": "Google Drive zaten bağlı. birleştirme çıktısı kopyalanıyor...",
-  "no_ensemble_output_files_found": "❌ birleştirme çıktı dosyaları bulunamadı.",
-  "ensemble_output_copied": "✅ birleştirme çıktısı {}'e kopyalandı",
-  "error_copying_ensemble_output": "❌ birleştirme çıktısı kopyalanırken hata: {}",
-  "drive_mounted_copying_files": "Google Drive bağlandı. Dosyalar kopyalanıyor...",
-  "drive_already_mounted_copying_files": "Google Drive zaten bağlı. Dosyalar kopyalanıyor...",
-  "files_copied_to_drive": "✅ Dosyalar {}'e kopyalandı",
-  "error_copying_files": "❌ Dosyalar kopyalanırken hata: {}",
-  "mounting_drive": "Google Drive bağlanıyor...",
-  "settings_saved": "Ayarlar config.json'a kaydedildi: Dil={lang}, Yöntem={method}, Port={port}",
-  "selected_language": "Seçilen dil: {lang}",
-  "availa ble_languages": "Kullanılabilir diller: {langs}",
-  "select_language_prompt": "Bir dil seç (varsayılan: {default}): ",
-  "invalid_language": "Geçersiz dil seçimi! Varsayılan dil kullanılıyor ({default}).",
-  "available_sharing_methods": "Kullanılabilir paylaşım yöntemleri: gradio, localtunnel, ngrok",
-  "select_sharing_method_prompt": "Bir paylaşım yöntemi seç (varsayılan: {default}): ",
-  "enter_ngrok_token_prompt": "Ngrok token'ını gir (varsayılan: {default}): ",
-  "ngrok_token_required": "Hata: ngrok yöntemi için Ngrok token'ı gerekli!",
-  "enter_port_prompt": "Port numarasını gir (varsayılan: {default}): ",
-  "opening_previous_url": "Önceki URL açılıyor: {url}",
-  "open_url_manually": "URL'yi Colab'da manuel olarak aç: {url}",
-  "invalid_previous_url": "Geçersiz önceki URL: {url}, açılmadı.",
-  "starting_method": "{method} port {port} üzerinde başlatılıyor...",
-  "process_stopped": "\n🛑 Kullanıcı tarafından işlem durduruldu",
-  "selected_port": "Seçilen port: {port}",
-  "starting_gradio_with_sharing": "Gradio dahili paylaşım ile başlatılıyor...",
-  "starting_localtunnel": "Localtunnel port {port} üzerinde başlatılıyor...",
-  "share_link": "Paylaşım bağlantısı: {url}",
-  "password_ip": "Parola IP: {ip}",
-  "starting_ngrok": "Ngrok port {port} üzerinde başlatılıyor...",
-  "ngrok_url": "Ngrok URL: {url}",
-  "ngrok_error": "Ngrok başlatma hatası: {error}",
-  "auto_apollo_chunk_size": "Apollo Parça Boyutu",
-  "auto_apollo_chunk_size_info": "Apollo iyileştirme için parça boyutu (evrensel model için önerilen: 19)",
-  "auto_apollo_overlap": "Apollo Çakışması",
-  "auto_enhancing_with_apollo": "Apollo ile iyileştiriliyor ({}/{} dosya)...",
-  "auto_apollo_processing_completed": "Apollo işleme tamamlandı!",
-  "autoapollo_overlap_info": "Apollo iyileştirme için çakışma (önerilen: 2)",
-  "auto_invalid_method": "Hata: Geçersiz yöntem! 'gradio', 'localtunnel' veya 'ngrok' kullan.",
-  "auto_apollo_enhancement_settings": "Apollo İyileştirme Ayarları",
-  "auto_enhance_with_apollo": "Apollo ile İyileştir",
-  "auto_enhance_with_apollo_info": "Ayrıştırmadan sonra ses iyileştirme için Apollo'yu etkinleştir",
-  "auto_apollo_method": "Apollo Yöntemi",
-  "auto_apollo_method_info": "Apollo için işlem yöntemini seç",
-  "auto_normal_method": "Normal Yöntem",
-  "auto_mid_side_method": "Orta/Yan Yöntem",
-  "auto_apollo_normal_model": "Apollo Normal Model",
-  "auto_apollo_normal_model_info": "Normal Apollo işleme için kullanılacak model",
-  "auto_apollo_midside_model": "Apollo Orta/Yan Model",
-  "auto_apollo_enhancement_info": "Ses kalitesi iyileştirme",
-  "auto_apollo_midside_model_info": "Orta/yan işleme için kullanılacak model (isteğe bağlı)",
-  "apollo_chunk_size": "Apollo Parça Boyutu",
-  "apollo_chunk_size_info": "Apollo iyileştirme için parça boyutu (evrensel model için önerilen: 19)",
-  "apollo_overlap": "Apollo Çakışması",
-  "enhancing_with_apollo": "Apollo ile iyileştiriliyor ({}/{} dosya)...",
-  "apollo_processing_completed": "Apollo işleme tamamlandı!",
-  "apollo_overlap_info": "Apollo iyileştirme için çakışma (önerilen: 2)",
-  "invalid_method": "Hata: Geçersiz yöntem! 'gradio', 'localtunnel' veya 'ngrok' kullan.",
-  "apollo_enhancement_settings": "Apollo İyileştirme Ayarları",
-  "enhance_with_apollo": "Apollo ile İyileştir",
-  "enhance_with_apollo_info": "Ayrıştırmadan sonra ses iyileştirme için Apollo'yu etkinleştir",
-  "apollo_method": "Apollo Yöntemi",
-  "apollo_method_info": "Apollo için işlem yöntemini seç",
-  "normal_method": "Normal Yöntem",
-  "mid_side_method": "Orta/Yan Yöntem",
-  "apollo_normal_model": "Apollo Normal için Model",
-  "apollo_normal_model_info": "Normal Apollo işleme için kullanılacak model",
-  "apollo_midside_model": "Apollo Orta/Yan Model",
-  "apollo_enhancement_info": "Ses kalitesi iyileştirme",
-  "apollo_processing_method": "Apollo işlem metodu",
-  "apollo_mid_side_model": "Apollo orta/yan için modeller",
-  "selected_models": "Seçilecek modeller",
-  "save_preset": "Ön ayarı kaydet",
-  "delete_preset": "Ön ayyarı sil",
-  "refresh_presets": "Ön ayarları güncelle",
-  "preset_name": "ön ayar ismi",
-  "select_preset": "Ön ayarlar",
-  "add_favorite": "favorilere ekle",
-  "apollo_midside_model_info": "Orta/yan işleme için kullanılacak model (isteğe bağlı)",
-  "language_changed_message": "Dil değiştirildi. Lütfen hücreyi yeniden başlat.",
-  "apply_matchering": "Matchering Uygula",
-  "matchering_info": "Ses masteringini ve dengesini iyileştirmek için Matchering uygula",
-  "matchering_passes": "Matchering Geçişleri",
-  "matchering_passes_info": "Matchering yineleme sayısı (1-5, yüksek değerler kaliteyi artırır ancak daha uzun sürer)",
-  "matchering_processing": "Matchering uygulanıyor... ({:.1f}%)",
-  "matchering_completed": "✅ Matchering işlemi tamamlandı!",
-  "matchering_error": "❌ Matchering sırasında hata: {}"
 }

   "tta_boost": "TTA Güçlendirme",
   "tta_info": "Kaliteyi artırır ancak işlem hızını yavaşlatır",
   "phase_fix": "Faz Düzeltme",
+  "use_phase_correction": "Gelişmiş Faz Düzeltme Uygula",
   "phase_fix_info": "Enstrümantal parçalar için gelişmiş faz düzeltme",
   "instrumental": "Enstrümantal",
   "instrumental_info": "Genellikle 2 çıktı verir, ama bazen tek çıktı olabilir, denemen lazım! :)",
   "files_will_be_copied": "Dosyalar buraya kopyalanacak...",
   "processing_tip": "<b>🔈 İşleme İpucu:</b> Gürültülü sonuçlar için <i>\"Gürültü ve Efekt Kaldırma\"</i> kategorisindeki <code>bleed_suppressor_v1</code> veya <code>denoisedebleed</code> modellerini kullanarak çıkışı temizleyin",
   "waiting_for_processing": "İşleme Bekleniyor...",
+  "auto_ensemble_tab": "🤖 Otomatik Birleştirme",
   "upload_file": "Dosya Yükle",
   "enter_file_path": "Veya Dosya Yolunu Gir",
   "file_path_placeholder": "Ses dosyasının tam yolunu gir",
   "model_selection": "🧠 Model Seçimi",
   "model_category": "Model Kategorisi",
   "select_models": "Kategoriden Model Seç",
+  "ensemble_settings": "⚡ Birleştirme Ayarları",
   "method": "Yöntem",
   "recommendation": "**Öneri:** avg_wave ve max_fft en iyi sonuçları verir",
   "start_processing": "🚀 İşlemi Başlat",
   "original_audio_tab": "🔊 Orijinal Ses",
   "original_audio": "Orijinal Ses",
+  "ensemble_result_tab": "🎚️ Birleştirme Sonucu",
   "output_preview": "Çıktı Önizlemesi",
   "refresh_output": "🔄 Çıktıyı Yenile",
+  "ensemble_copy_status": "Birleştirme çıktısı buraya kopyalanacak...",
   "guidelines": "<h4>Model Seçim Kılavuzu</h4><ul><li><strong>Kategorileri Karıştırmaktan Kaçının:</strong> Vokal ve enstrümantal modellerin birleşimi istenmeyen karışımlara yol açabilir</li><li><strong>Özel Modeller Hakkında Notlar:</strong><ul><li>İkili modeller (v1/v2) - Her iki stemi de üretir</li><li>MDX23C Ayırıcı - Hibrit sonuçlar</li></ul></li><li><strong>En İyi Uygulama:</strong> Aynı kategoriden 3-5 benzer model kullanın</li></ul><div>💡 Profesyonel İpucu: \"VOCALS-MelBand-Roformer BigBeta5e\" + \"VOCALS-BS-Roformer_1297\" kombinasyonuyla başlayın</div>",
   "download_sources_tab": "⬇️ Kaynakları İndir",
   "direct_links": "🌐 Doğrudan Bağlantılar",
   "download_status": "İndirme Durumu",
   "downloaded_file": "İndirilen Dosya",
   "cookie_management": "🍪 Çerez Yönetimi",
+  "upload_cookies_txt": "Çerezler.txt Yükle",
+  "cookie_info": "<div style=\"margin-left:15px; font-size:0.95em\">**📌 Neden Gerekli?**<br>- Yaş kısıtlamalı içeriklere erişim<br>- Özel/listelenmemiş videoları indirme<br>- Bölgesel kısıtlamaları aşma<br>- YouTube indirme limitlerini aşma<br><br>**⚠️ Önemli Notlar**<br>- Çerez dosyalarınızı ASLA paylaşmayın!<br>- Çerezleri yenileyin:<br>  • \"403 Yasak\" hataları alıyorsanız<br>  • İndirmeler aniden duruyorsa<br>  • \"Oturum sona erdi\" mesajı görüyorsanız<br><br>**🔄 Yenileme Adımları**<br>1. Bu <a href=\"https://chromewebstore.google.com/detail/get-cookiestxt-clean/ahmnmhfbokciafffnknlekllgcnafnie\" target=\"_blank\">Chrome eklentisini</a> yükleyin<br>2. Chrome'da YouTube'a giriş yapın<br>3. Eklenti simgesine tıklayın → \"Dışa Aktar\"<br>4. İndirilen dosyayı buraya yükleyin<br><br>**⏳ Çerez Ömrü**<br>- Normal oturumlar: 24 saat<br>- Hassas işlemler: 1 saat<br>- Şifre değişikliği: Anında yenileme</div>",
+  "ensemble_output_copied": "✅ Birleştirme çıktısı {}'ya kopyalandı",
+  "error_copying_ensemble_output": "��� Birleştirme çıktısı kopyalama hatası: {}",
+  "drive_mounted_copying_ensemble": "Google Drive bağlandı. Birleştirme çıktısını kopyalıyor...",
+  "drive_already_mounted_copying_ensemble": "Google Drive zaten bağlı. Birleştirme çıktısını kopyalıyor...",
+  "no_ensemble_output_files_found": "❌ Birleştirme çıktı dosyası bulunamadı.",
+  "drive_mounted_copying_files": "Google Drive bağlandı. Dosyaları kopyalıyor...",
+  "drive_already_mounted_copying_files": "Google Drive zaten bağlı. Dosyaları kopyalıyor...",
+  "files_copied_to_drive": "✅ Dosyalar {}'ya kopyalandı",
+  "error_copying_files": "❌ Dosya kopyalama hatası: {}",
+  "mounting_drive": "Google Drive bağlanıyor...",
+  "settings_saved": "Ayarlar config.json'a kaydedildi: Dil={lang}, Yöntem={method}, Port={port}",
+  "selected_language": "Seçilen dil: {lang}",
+  "available_languages": "Kullanılabilir diller: {langs}",
+  "select_language_prompt": "Bir dil seçin (varsayılan: {default}): ",
+  "invalid_language": "Geçersiz dil seçimi! Varsayılan dil ({default}) kullanılıyor.",
+  "available_sharing_methods": "Kullanılabilir paylaşım yöntemleri: gradio, localtunnel, ngrok",
+  "select_sharing_method_prompt": "Bir paylaşım yöntemi seçin (varsayılan: {default}): ",
+  "enter_ngrok_token_prompt": "Ngrok token'ınızı girin (varsayılan: {default}): ",
+  "ngrok_token_required": "Hata: ngrok yöntemi için Ngrok token'ı gerekli!",
+  "enter_port_prompt": "Port numarasını girin (varsayılan: {default}): ",
+  "opening_previous_url": "Önceki URL açılıyor: {url}",
+  "open_url_manually": "Colab'da URL'yi manuel açın: {url}",
+  "invalid_previous_url": "Geçersiz önceki URL: {url}, açılmadı.",
+  "starting_method": "{method} port {port}'ta başlatılıyor...",
+  "process_stopped": "\n🛑 Kullanıcı tarafından işlem durduruldu",
+  "selected_port": "Seçilen port: {port}",
+  "starting_gradio_with_sharing": "Dahili paylaşım ile Gradio başlatılıyor...",
+  "starting_localtunnel": "Localtunnel port {port}'ta başlatılıyor...",
+  "share_link": "Paylaşım bağlantısı: {url}",
+  "password_ip": "Şifre IP: {ip}",
+  "starting_ngrok": "Ngrok port {port}'ta başlatılıyor...",
+  "ngrok_url": "Ngrok URL: {url}",
+  "ngrok_error": "Ngrok başlatma hatası: {error}",
+  "auto_apollo_chunk_size": "Apollo Parça Boyutu",
+  "auto_apollo_chunk_size_info": "Apollo iyileştirme için parça boyutu (evrensel model için önerilen: 19)",
+  "auto_apollo_overlap": "Apollo Çakışması",
+  "auto_enhancing_with_apollo": "Apollo ile iyileştiriliyor ({}/{} dosya)...",
+  "auto_apollo_processing_completed": "Apollo işleme tamamlandı!",
+  "auto_apollo_overlap_info": "Apollo iyileştirme için çakışma (önerilen: 2)",
+  "apollo_chunk_size": "Apollo Parça Boyutu",
+  "apollo_chunk_size_info": "Apollo iyileştirme için parça boyutu (evrensel model için önerilen: 19)",
+  "apollo_overlap": "Apollo Çakışması",
+  "enhance_with_apollo": "Apollo ile İyileştir",
+  "apollo_enhancement_info": "Ses kalitesi iyileştirme",
+  "enhancing_with_apollo": "Apollo ile iyileştiriliyor ({}/{} dosya)...",
+  "apollo_processing_completed": "Apollo işleme tamamlandı!",
+  "apollo_overlap_info": "Apollo iyileştirme için çakışma (önerilen: 2)",
+  "selected_models": "Seçilen Modeller",
+  "save_preset": "Ön Ayar Kaydet",
+  "delete_preset": "Ön Ayar Sil",
+  "refresh_presets": "Ön Ayarları Güncelle",
+  "preset_name": "Ön Ayar Adı",
+  "select_preset": "Ön Ayar Seç",
+  "add_favorite": "Favorilere Ekle",
+  "apply_matchering": "Matchering Uygula",
+  "matchering_info": "Ses masteringini ve dengesini iyileştirmek için Matchering uygula",
+  "matchering_passes": "Matchering Geçişleri",
+  "matchering_passes_info": "Matchering yineleme sayısı (1-5, yüksek değerler kaliteyi artırır ancak daha uzun sürer)",
+  "matchering_processing": "Matchering uygulanıyor... ({:.1f}%)",
+  "matchering_completed": "✅ Matchering işlemi tamamlandı!",
+  "matchering_error": "❌ Matchering sırasında hata: {}",
+  "invalid_method": "Hata: Geçersiz yöntem! 'gradio', 'localtunnel' veya 'ngrok' kullan.",
+  "language_changed_message": "Dil değiştirildi. Lütfen hücreyi yeniden başlat.",
+  "backend_settings": "🚀 Backend Ayarları",
+  "inference_backend": "Inference Backend",
+  "optimization_mode": "Optimizasyon Modu",
+  "optimization_mode_info": "PyTorch optimizasyon modu seçimi",
+  "mixed_precision_amp": "Karışık Hassasiyet (AMP)",
+  "mixed_precision_info": "2x daha hızlı inference - önerilir",
+  "tf32_acceleration": "TF32 Hızlandırma",
+  "tf32_acceleration_info": "RTX 30xx+ için ekstra hız artışı",
+  "cudnn_benchmark": "cuDNN Benchmark",
+  "cudnn_benchmark_info": "İlk çalışmada yavaş, sonraki çalışmalarda çok hızlı",
+  "ultra_optimized_pytorch": "ULTRA-OPTİMİZE PyTorch Backend",
+  "default_active_max_speed": "Varsayılan olarak aktif - Maximum hız optimizasyonu",
+  "channels_last_mode": "RTX GPUs için en hızlı",
+  "compile_mode": "PyTorch 2.0+ için ekstra hız",
+  "default_mode": "Standart",
+  "manual_ensemble_tab": "🎚️ Manuel Birleştirme",
+  "phase_fixer_tab": "🔧 Faz Düzeltici",
+  "batch_processing_tab": "📦 Toplu İşleme",
+  "batch_description": "Aynı model ile birden fazla dosyayı aynı anda işle",
+  "batch_input_folder": "Giriş Klasörü",
+  "batch_input_folder_placeholder": "Ses dosyalarını içeren klasör yolunu girin",
+  "batch_output_folder": "Çıkış Klasörü",
+  "batch_output_folder_placeholder": "Çıkış dosyaları için klasör yolunu girin",
+  "batch_file_list": "İşlenecek Dosyalar",
+  "batch_add_files": "Dosya Ekle",
+  "batch_clear_list": "Listeyi Temizle",
+  "batch_start": "🚀 Toplu İşlemeyi Başlat",
+  "batch_stop": "⏹️ Durdur",
+  "batch_progress": "Toplu İşleme İlerlemesi",
+  "batch_current_file": "Şu An İşlenen",
+  "batch_completed": "✅ Toplu işleme tamamlandı!",
+  "batch_stopped": "⏹️ Toplu işleme durduruldu",
+  "batch_no_files": "❌ İşlenecek dosya seçilmedi",
+  "source_model": "Kaynak Model (Vokal)",
+  "source_model_info": "Vokal/faz verisi çıkarmak için model",
+  "target_model": "Hedef Model (Enstrümantal)",
+  "target_model_info": "Faz düzeltmesi uygulanacak model",
   "input_sources": "📂 Giriş Kaynakları",
   "refresh": "🔄 Yenile",
+  "ensemble_algorithm": "Birleştirme Algoritması",
   "select_audio_files": "Ses Dosyalarını Seç",
   "available_files": "Mevcut Dosyalar",
   "custom_weights": "Özel Ağırlıklar (virgülle ayrılmış)",
   "custom_weights_placeholder": "Örnek: 0.8, 1.2, 1.0, ...",
   "custom_weights_info": "Eşit ağırlıklar için boş bırakın",
   "result_preview_tab": "🎧 Sonuç Önizlemesi",
+  "ensembled_output": "Birleştirme Çıktısı",
   "processing_log_tab": "📋 İşlem Günlüğü",
   "processing_details": "İşlem Ayrıntıları",
+  "process_ensemble": "⚡ Birleştirmeyi İşle",
   "languages_tab": "🌐 Diller",
   "Vocal Models": "Vokal Modeller",
   "Instrumental Models": "Enstrümantal Modeller",
   "Denoise Models": "Gürültü Giderme Modelleri",
   "Dereverb Models": "Yankı Giderme Modelleri",
   "Other Models": "Diğer Modeller",
+  "Other Shapes": "Diğer Modeller",
   "ensemble_files_description": "Belirtilen birleştirme yöntemlerini kullanarak birden fazla ses dosyasını tek bir çıktıda birleştirir.",
+  "ensemble_files_help": "Birleştirme için tüm ses dosyalarına giden yol",
   "ensemble_type_help": "Şunlardan biri: avg_wave, median_wave, min_wave, max_wave, avg_fft, median_fft, min_fft, max_fft",
+  "ensemble_weights_help": "Birleştirme oluşturmak için ağırlıklar. Ağırlık sayısı dosya sayısına eşit olmalı",
+  "ensemble_output_help": "Birleştirme sonucunun kaydedileceği WAV dosyasının yolu",
+  "ensemble_type_print": "Birleştirme türü: {}",
   "num_input_files_print": "Giriş dosyası sayısı: {}",
   "weights_print": "Ağırlıklar: {}",
   "output_file_print": "Çıktı dosyası: {}",
   "file_not_found_error": "Hata. Dosya bulunamadı: {}. Yolları kontrol et.",
   "reading_chunk_print": "Dosyadan parça okunuyor: {} (başlangıç: {}s, süre: {}s)",
   "chunk_result_shape_print": "Parça sonucu şekli: {}",
+  "ensemble_completed_print": "Birleştirme tamamlandı. Çıktı şuraya kaydedildi: {}",
   "file_deletion_error": "{} silinemedi: {}",
   "directory_not_exist_warning": "⚠️ Dizin mevcut değil: {}",
   "not_a_directory_warning": "⚠️ Yol bir dizin değil: {}",
   "invalid_url": "❌ Geçersiz URL",
   "cookie_file_updated": "✅ Çerez dosyası güncellendi!",
   "cookie_installation_error": "⚠️ Çerez yükleme hatası: {}",
+  "google_drive_mount_error": "❌ Google Drive bağlantı hatası: {}",
   "file_size_zero_error": "Dosya boyutu sıfır veya dosya oluşturulmadı",
   "google_drive_error": "❌ Google Drive indirme hatası: {}",
   "wav_conversion_failed": "WAV dönüşümü başarısız",
   "download_error": "❌ İndirme hatası: {}",
+  "file_copied_to_drive": "Dosya Google Drive'a kopyalandı: {}",
+  "copy_to_drive_error": "❌ Google Drive'a kopyalama hatası: {}",
+  "direct_download_failed": "Dosyanın doğrudan indirilmesi başarısız",
+  "direct_download_error": "❌ Doğrudan indirme hatası: {}",
+  "invalid_google_drive_url": "❌ Geçersiz Google Drive URL'si",
+  "continuing_without_google_drive": "Google Drive bağlantısı yapılamadı, işlem devam ediyor...",
+  "skipping_drive_copy_no_mount": "⚠️ Google Drive bağlı değil, Drive'a kopyalama atlanıyor...",
   "download_success": "🎉 Başarıyla indirildi!",
   "download_failed": "❌ İndirme başarısız",
   "no_output_files_found": "❌ Çıktı dosyaları bulunamadı.",
   "error_occurred_progress_label": "Hata oluştu -- 0.0%",
   "minimum_files_required": "⚠️ En az 2 dosya gerekli",
   "valid_files_not_found": "❌ Geçerli dosya bulunamadı",
+  "starting_ensemble_process": "Birleştirme işlemi başlıyor...",
+  "ensembling_progress": "Birleştirme yapılıyor... ({:.1f}%)",
+  "finalizing_ensemble_output": "Birleştirme çıktısı tamamlanıyor...",
   "success_log": "✅ Başarılı!\n{}",
   "error_log": "❌ Hata!\n{}",
   "critical_error": "⛔ Kritik hata: {}",
+  "ensemble_process_completed": "Birleştirme işlemi tamamlandı!",
   "no_models_selected": "❌ Model seçilmedi",
   "no_input_audio_provided": "❌ Giriş sesi sağlanmadı",
   "loading_model": "Model yükleniyor {}/{}: {}...",
   "model_output_failed": "{} çıktı üretemedi",
   "waiting_for_files": "Tüm dosyaların hazır olması bekleniyor...",
   "waiting_for_files_progress_label": "Tüm dosyaların hazır olması bekleniyor... -- 90.0%",
+  "performing_ensemble": "Birleştirme gerçekleştiriliyor...",
+  "performing_ensemble_progress_label": "Birleştirme gerçekleştiriliyor... -- 92.0%",
+  "memory_usage_before_ensemble": "Birleştirme öncesi bellek kullanımı: {}%",
+  "memory_usage_after_ensemble": "Birleştirme sonrası bellek kullanımı: {}%",
+  "finalizing_ensemble_output_progress_label": "Birleştirme çıktısı tamamlanıyor... -- 98.0%",
+  "ensemble_file_creation_failed": "Birleştirme dosyası oluşturulamadı: {}",
+  "ensemble_completed_progress_label": "Birleştirme başarıyla tamamlandı! -- 100.0%",
   "success_output_created": "✅ Başarılı! Çıktı dosyası oluşturuldu.",
+  "custom_models_tab": "⚡ Özel Modeller",
+  "Custom Models": "Özel Modeller",
+  "add_custom_model": "➕ Özel Model Ekle",
+  "custom_model_name": "Model Adı",
+  "custom_model_name_placeholder": "Modeliniz için bir isim girin",
+  "checkpoint_url": "Checkpoint URL (.ckpt/.pth)",
+  "checkpoint_url_placeholder": "https://huggingface.co/.../model.ckpt",
+  "config_url": "Config URL (.yaml)",
+  "config_url_placeholder": "https://huggingface.co/.../config.yaml",
+  "custom_py_url": "Özel Python Dosyası URL (isteğe bağlı)",
+  "custom_py_url_placeholder": "https://huggingface.co/.../bs_roformer.py",
+  "auto_detect_type": "Model tipini otomatik algıla",
+  "model_type": "Model Tipi",
+  "add_model_btn": "➕ Model Ekle",
+  "custom_models_list": "📋 Özel Modeller Listesi",
+  "delete_model": "🗑️ Sil",
+  "no_custom_models": "Henüz özel model eklenmedi",
+  "model_added_success": "✅ Model başarıyla eklendi!",
+  "model_deleted_success": "��� Model başarıyla silindi!",
+  "model_add_error": "❌ Model ekleme hatası: {}",
+  "model_delete_error": "❌ Model silme hatası: {}",
+  "refresh_models": "🔄 Yenile",
+  "custom_model_info": "İndirme linkleri sağlayarak özel model ekleyin. Modeller kullanıldığında otomatik olarak indirilecektir.",
+  "select_model_to_delete": "Silmek için bir model seçin",
+  "downloading_model_file": "Model indiriliyor: {}",
+  "downloading_file_progress": "İndiriliyor: {} - {}%",
+  "chunk_size_mode": "Parça Boyutu Modu",
+  "chunk_size_mode_info": "base: standart ön ayarlar | custom: kendi değerinizi girin | yaml: model YAML'ından oku",
+  "chunk_size_custom_label": "Özel Parça Boyutu",
+  "chunk_size_custom_info": "Özel bir parça boyutu değeri girin",
+  "chunk_size_yaml_label": "YAML Parça Boyutu",
+  "chunk_size_yaml_display_info": "İndirmeden sonra modelin YAML yapılandırmasından okunacak",
+  "chunk_size_yaml_not_downloaded": "⏳ Model YAML'ı henüz indirilmedi — işlem sırasında değer okunacak",
+  "chunk_size_yaml_detected": "✅ YAML'dan: {}",
+  "remove_favorite": "Favorilerden Çıkar",
+  "normal_method": "Normal yöntem",
+  "mid_side_method": "Orta-Yan yöntemi",
+  "apollo_processing_method": "Apollo İşlem Yöntemi",
+  "apollo_normal_model": "Apollo Normal Model",
+  "apollo_mid_side_model": "Apollo Orta-Yan Model",
+  "scale_factor": "Ölçek Faktörü",
+  "scale_factor_info": "Faz ölçeklendirme faktörü (önerilen: 1.4)",
+  "source_file_label": "Kaynak Dosya (Vokal)",
+  "target_file_label": "Hedef Dosya (Enstrümantal)",
+  "run_phase_fixer": "🔧 Faz Düzelticiyi Çalıştır",
+  "phase_fixed_output": "Faz Düzeltilmiş Çıktı",
+  "phase_fixer_settings": "Faz Düzeltici Ayarları",
+  "low_cutoff": "Düşük Kesme Frekansı (Hz)",
+  "high_cutoff": "Yüksek Kesme Frekansı (Hz)",
+  "low_cutoff_info": "Faz düzeltmesi için düşük frekans kesme",
+  "high_cutoff_info": "Faz düzeltmesi için yüksek frekans kesme",
+  "no_preset_name_provided": "⚠️ Ön ayar adı girilmedi",
+  "no_models_selected_for_preset": "⚠️ Ön ayar için model seçilmedi",
+  "preset_saved": "✅ '{}' ön ayarı kaydedildi!",
+  "please_upload_both_files": "⚠️ Lütfen hem kaynak hem de hedef dosyaları yükleyin",
+  "processing_log_placeholder": "İşlem günlüğü burada görünecek...",
+  "enter_preset_name": "Ön ayar adını girin..."
 }

assets/i18n/languages/zn_cn.json CHANGED Viewed

@@ -19,6 +19,7 @@
   "tta_boost": "TTA增强",
   "tta_info": "提高质量，但会减慢处理速度",
   "phase_fix": "相位修正",
   "phase_fix_info": "用于乐器轨的高级相位修正",
   "instrumental": "乐器",
   "instrumental_info": "通常输出2个结果，但有时只有一个，试试看吧！:)",
@@ -46,7 +47,7 @@
   "copy_to_drive": "📂 复制到云盘",
   "copy_status": "复制状态",
   "files_will_be_copied": "文件将复制到此处...",
-  "processing_tip": "<b>🔈 处理提示：</b> 对于有噪声的结果，使用<i>“去除噪声和效果”</i>类别中的<code>bleed_suppressor_v1</code>或<code>denoisedebleed</code>模型来清理输出",
   "waiting_for_processing": "等待处理...",
   "auto_ensemble_tab": "🤖 自动集成",
   "upload_file": "上传文件",
@@ -80,16 +81,94 @@
   "downloaded_file": "已下载文件",
   "cookie_management": "🍪 Cookie管理",
   "upload_cookies_txt": "上传Cookies.txt",
-  "cookie_info": "<div style=\"margin-left:15px; font-size:0.95em\">**📌 为什么需要？**<br>- 访问年龄限制内容<br>- 下载私人/未列出的视频<br>- 绕过地区限制<br>- 避免YouTube下载限制<br><br>**⚠️ 重要提示**<br>- 切勿分享您的cookie文件！<br>- 在以下情况更新cookie：<br>  • 出现“403禁止”错误<br>  • 下载突然停止<br>  • 看到“会话过期”消息<br><br>**🔄 更新步骤**<br>1. 安装此<a href=\"https://chromewebstore.google.com/detail/get-cookiestxt-clean/ahmnmhfbokciafffnknlekllgcnafnie\" target=\"_blank\">Chrome扩展</a><br>2. 在Chrome中登录YouTube<br>3. 点击扩展图标 → “导出”<br>4. 将下载的文件上传到此处<br><br>**⏳ Cookie寿命**<br>- 普通会话：24小时<br>- 敏感操作：1小时<br>- 密码更改：立即失效</div>",
   "manual_ensemble_tab": "🎚️ 手动集成",
-  "input_sources": "📂 输入来源",
   "refresh": "🔄 刷新",
   "ensemble_algorithm": "集成算法",
   "select_audio_files": "选择音频文件",
   "available_files": "可用文件",
-  "custom_weights": "自定义权重（用逗号分隔）",
-  "custom_weights_placeholder": "示例：0.8, 1.2, 1.0, ...",
-  "custom_weights_info": "留空表示相等权重",
   "result_preview_tab": "🎧 结果预览",
   "ensembled_output": "集成输出",
   "processing_log_tab": "📋 处理日志",
@@ -99,32 +178,33 @@
   "Vocal Models": "人声模型",
   "Instrumental Models": "乐器模型",
   "4-Stem Models": "4声道模型",
-  "Denoise Models": "去噪模型",
   "Dereverb Models": "去混响模型",
   "Other Models": "其他模型",
-  "ensemble_files_description": "使用指定的集成方法将多个音频文件合并为一个输出。",
-  "ensemble_files_help": "所有用于集成的音频文件的路径",
-  "ensemble_type_help": "以下之一：avg_wave, median_wave, min_wave, max_wave, avg_fft, median_fft, min_fft, max_fft",
-  "ensemble_weights_help": "创建集成所需的权重。权重数量必须与文件数量匹配",
-  "ensemble_output_help": "保存集成结果的WAV文件路径",
   "ensemble_type_print": "集成类型：{}",
-  "num_input_files_print": "输入文件数量：{}",
   "weights_print": "权重：{}",
   "output_file_print": "输出文件：{}",
-  "duration_mismatch_error": "所有文件必须具有相同的时长",
-  "file_not_found_error": "错误。找不到文件：{}。请检查路径。",
-  "reading_chunk_print": "读取文件分块：{}（开始：{}秒，时长：{}秒）",
-  "chunk_result_shape_print": "分块结果形状：{}",
-  "ensemble_completed_print": "集成完成。输出保存至：{}",
-  "file_deletion_error": "{}无法删除：{}",
   "directory_not_exist_warning": "⚠️ 目录不存在：{}",
   "not_a_directory_warning": "⚠️ 路径不是目录：{}",
-  "item_deletion_error": "⚠️ 删除{}时出错：{}",
   "old_output_not_exist": "❌ 旧输出文件夹不存在",
   "old_outputs_cleared": "✅ 旧输出已成功清除！",
   "error": "🔥 错误：{}",
-  "ffmpeg_error": "FFmpeg错误（{}）：{}",
-  "file_saved_successfully": "文件保存成功：{}",
   "total_files_found": "找到的文件总数：{}。使用的采样率：{}",
   "total_progress": "总进度",
   "detailed_pbar_enabled": "详细进度条已启用：{}",
@@ -132,149 +212,135 @@
   "cannot_read_track": "无法读取轨道：{}",
   "error_message": "错误消息：{}",
   "demudding_track": "清理轨道（相位混音 - 乐器）：{}",
-  "elapsed_time": "已用时间：{:.2f}秒。",
   "proc_folder_description": "使用指定模型处理文件夹中的音频文件。",
-  "model_type_help": "模型类型（bandit, bs_roformer, mdx23c 等）",
   "config_path_help": "配置文件路径",
   "demud_phaseremix_help": "为乐器启用相位混音",
   "start_checkpoint_help": "有效权重的初始检查点",
-  "input_folder_help": "包含待处理混合音频的文件夹",
-  "audio_path_help": "单个待处理音频文件的路径",
   "store_dir_help": "存储结果的路径",
   "device_ids_help": "GPU ID列表",
-  "extract_instrumental_help": "如提供，则反转人声以获取乐器",
-  "disable_detailed_pbar_help": "在分离中禁用详细进度条",
-  "force_cpu_help": "即使CUDA可用，也强制使用CPU",
-  "flac_file_help": "生成FLAC文件而非WAV",
   "export_format_help": "导出格式和PCM类型",
   "pcm_type_help": "FLAC文件的PCM类型",
   "use_tta_help": "启用测试时间增强",
   "lora_checkpoint_help": "LoRA权重的初始检查点",
-  "cuda_available": "CUDA可用，使用 --force_cpu 禁用。",
-  "using_device": "使用的设备：{}",
   "instruments_print": "乐器：{}",
-  "model_load_time": "模型加载时间：{:.2f}秒",
-  "invalid_url": "❌ 无效URL",
   "cookie_file_updated": "✅ Cookie文件已更新！",
   "cookie_installation_error": "⚠️ Cookie安装错误：{}",
-  "file_size_zero_error": "文件大小为零或文件未创建",
   "google_drive_error": "❌ Google Drive下载错误：{}",
   "wav_conversion_failed": "WAV转换失败",
   "download_error": "❌ 下载错误：{}",
   "download_success": "🎉 下载成功！",
   "download_failed": "❌ 下载失败",
   "no_output_files_found": "❌ 未找到输出文件。",
-  "output_refreshed_successfully": "✅ 输出刷新成功！",
   "error_refreshing_output": "❌ 刷新输出时出错：{}",
   "starting_audio_separation": "开始音频分离...",
-  "processing_audio": "处理音频",
-  "separating_audio": "分离音频... ({:.1f}%)",
   "separation_complete": "分离完成！",
   "progress_parsing_error": "进度解析错误：{}",
   "error_occurred": "发生错误：{}",
   "separation_process_completed": "分离过程完成！",
-  "no_audio_file_error": "❌ 未提供音频文件，且输入目录中没有现有文件。",
   "no_input_progress_label": "错误：未提供输入 -- 0.0%",
-  "processing_audio_print": "正在处理音频：{}，使用模型：{}",
   "starting_audio_separation_progress_label": "开始音频分离... -- 0.0%",
-  "separating_audio_progress_label": "分离音频... -- {}.0%",
-  "audio_processing_completed_progress_label": "音频处理完成！-- 100.0%",
   "audio_processing_completed": "✅ 音频处理完成！",
   "error_occurred_progress_label": "发生错误 -- 0.0%",
   "minimum_files_required": "⚠️ 至少需要2个文件",
   "valid_files_not_found": "❌ 未找到有效文件",
   "starting_ensemble_process": "开始集成过程...",
-  "ensembling_progress": "集成中... ({:.1f}%)",
-  "finalizing_ensemble_output": "完成集成输出...",
   "success_log": "✅ 成功！\n{}",
   "error_log": "❌ 错误！\n{}",
   "critical_error": "⛔ 严重错误：{}",
   "ensemble_process_completed": "集成过程完成！",
   "no_models_selected": "❌ 未选择模型",
   "no_input_audio_provided": "❌ 未提供输入音频",
-  "loading_model": "加载模型 {}/{}：{}...",
-  "loading_model_progress_label": "加载模型 {}/{}：{}... -- {}.0%",
   "completed_model": "模型完成 {}/{}：{}",
   "completed_model_progress_label": "模型完成 {}/{}：{} -- {}.0%",
-  "running_command": "执行命令：{}",
   "model_failed": "模型 {} 失败：{}",
-  "critical_error_with_model": "{} 出现严重错误：{}",
-  "model_output_failed": "{} 未能生成输出",
   "waiting_for_files": "等待所有文件准备就绪...",
   "waiting_for_files_progress_label": "等待所有文件准备就绪... -- 90.0%",
-  "performing_ensemble": "执行集成...",
-  "performing_ensemble_progress_label": "执行集成... -- 92.0%",
   "memory_usage_before_ensemble": "集成前内存使用：{}%",
   "memory_usage_after_ensemble": "集成后内存使用：{}%",
-  "finalizing_ensemble_output_progress_label": "完成集成输出... -- 98.0%",
-  "ensemble_file_creation_failed": "集成文件创建失败：{}",
-  "ensemble_completed_progress_label": "集成成功完成！-- 100.0%",
   "success_output_created": "✅ 成功！输出文件已创建。",
-  "drive_mounted_copying_ensemble": "Google Drive已挂载。正在复制集成输出...",
-  "drive_already_mounted_copying_ensemble": "Google Drive已挂载。正在复制集成输出...",
-  "no_ensemble_output_files_found": "❌ 未找到集成输出文件。",
-  "ensemble_output_copied": "✅ 集成输出已复制到 {}",
-  "error_copying_ensemble_output": "❌ 复制集成输出时出错：{}",
-  "drive_mounted_copying_files": "Google Drive已挂载。正在复制文件...",
-  "drive_already_mounted_copying_files": "Google Drive已挂载。正在复制文件...",
-  "files_copied_to_drive": "✅ 文件已复制到 {}",
-  "error_copying_files": "❌ 复制文件时出错：{}",
-  "mounting_drive": "挂载Google Drive...",
-  "settings_saved": "设置已保存至 config.json：语言={lang}，方法={method}，端口={port}",
-  "selected_language": "所选语言：{lang}",
-  "available_languages": "可用语言：{langs}",
-  "select_language_prompt": "选择语言（默认：{default}）：",
-  "invalid_language": "无效的语言选择！使用默认语言（{default}）。",
-  "available_sharing_methods": "可用共享方法：gradio, localtunnel, ngrok",
-  "select_sharing_method_prompt": "选���共享方法（默认：{default}）：",
-  "enter_ngrok_token_prompt": "输入您的Ngrok令牌（默认：{default}）：",
-  "ngrok_token_required": "错误：ngrok方法需要Ngrok令牌！",
-  "enter_port_prompt": "输入端口号（默认：{default}）：",
-  "opening_previous_url": "打开上一个URL：{url}",
-  "open_url_manually": "在Colab中手动打开URL：{url}",
-  "invalid_previous_url": "无效的上一个URL：{url}，未打开。",
-  "starting_method": "在端口 {port} 上启动 {method}...",
-  "process_stopped": "\n🛑 用户停止了进程",
-  "selected_port": "所选端口：{port}",
-  "starting_gradio_with_sharing": "启动带有内置共享的Gradio...",
-  "starting_localtunnel": "在端口 {port} 上启动Localtunnel...",
-  "share_link": "共享链接：{url}",
-  "password_ip": "密码IP：{ip}",
-  "starting_ngrok": "在端口 {port} 上启动Ngrok...",
-  "ngrok_url": "Ngrok URL：{url}",
-  "ngrok_error": "启动Ngrok时出错：{error}",
-  "apollo_chunk_size": "Apollo分块大小",
-  "apollo_chunk_size_info": "Apollo改进的分块大小（通用模型推荐：19）",
-  "apollo_overlap": "Apollo重叠",
-  "enhancing_with_apollo": "使用Apollo增强（{}/{} 文件）...",
-  "apollo_processing_completed": "Apollo处理完成！",
-  "apollo_overlap_info": "Apollo改进的重叠（推荐：2）",
-  "invalid_method": "错误：无效方法！使用 'gradio'、'localtunnel' 或 'ngrok'。",
-  "apollo_enhancement_settings": "Apollo增强设置",
-  "enhance_with_apollo": "使用Apollo增强",
-  "enhance_with_apollo_info": "分离后启用Apollo以增强音频",
-  "apollo_method": "Apollo方法",
-  "apollo_method_info": "选择Apollo的处理方法",
-  "normal_method": "普通方法",
-  "mid_side_method": "中/侧方法",
-  "apollo_normal_model": "Apollo普通模型",
-  "apollo_normal_model_info": "用于普通Apollo处理的模型",
-  "apollo_midside_model": "Apollo中/侧模型",
-  "apollo_enhancement_info": "音质增强",
-  "selected_models": "选定模型",
-  "save_preset": "保存预设",
-  "delete_preset": "删除预设",
-  "refresh_presets": "刷新预设",
-  "preset_name": "预设名称",
-  "select_preset": "选择预设",
-  "add_favorite": "添加到收藏",
-  "apollo_midside_model_info": "用于中/侧处理的模型（可选）",
-  "language_changed_message": "语言已更改。请重新启动单元。",
-  "apply_matchering": "应用 Matchering",
-  "matchering_info": "应用 Matchering 以提升音频母带处理和平衡",
-  "matchering_passes": "Matchering 迭代次数",
-  "matchering_passes_info": "Matchering 迭代次数（1-5，值越高质量越好，但耗时更长）",
-  "matchering_processing": "正在应用 Matchering... ({:.1f}%)",
-  "matchering_completed": "✅ Matchering 处理完成！",
-  "matchering_error": "❌ Matchering 过程中发生错误：{}"
 }

   "tta_boost": "TTA增强",
   "tta_info": "提高质量，但会减慢处理速度",
   "phase_fix": "相位修正",
+  "use_phase_correction": "应用高级相位修正",
   "phase_fix_info": "用于乐器轨的高级相位修正",
   "instrumental": "乐器",
   "instrumental_info": "通常输出2个结果，但有时只有一个，试试看吧！:)",
   "copy_to_drive": "📂 复制到云盘",
   "copy_status": "复制状态",
   "files_will_be_copied": "文件将复制到此处...",
+  "processing_tip": "<b>🔈 处理提示：</b> 对于有噪声的结果，使用<i>去除噪声和效果</i>类别中的<code>bleed_suppressor_v1</code>或<code>denoisedebleed</code>模型来清理输出",
   "waiting_for_processing": "等待处理...",
   "auto_ensemble_tab": "🤖 自动集成",
   "upload_file": "上传文件",
   "downloaded_file": "已下载文件",
   "cookie_management": "🍪 Cookie管理",
   "upload_cookies_txt": "上传Cookies.txt",
+  "cookie_info": "<div style=\"margin-left:15px; font-size:0.95em\">**📌 为什么必要？**<br>- 访问年龄限制内容<br>- 下载私人/未列出视频<br>- 绕过区域限制<br>- 避免YouTube下载限制<br><br>**⚠️ 重要说明**<br>- 切勿分享您的Cookie文件！<br>- 更新Cookie时：<br>  • 收到“403禁止”错误<br>  • 下载突然停止<br>  • 看到“会话过期”消息<br><br>**🔄 更新步骤**<br>1. 安装此<a href=\"https://chromewebstore.google.com/detail/get-cookiestxt-clean/ahmnmhfbokciafffnknlekllgcnafnie\" target=\"_blank\">Chrome扩展</a><br>2. 在Chrome中登录YouTube<br>3. 点击扩展图标 → “导出”<br>4. 在此处上传下载的文件<br><br>**⏳ Cookie寿命**<br>- 正常会话：24小时<br>- 敏感操作：1小时<br>- 密码更改：立即更新</div>",
+  "ensemble_output_copied": "✅ 集成输出已复制到 {}",
+  "error_copying_ensemble_output": "❌ 复制集成输出时出错：{}",
+  "drive_mounted_copying_ensemble": "Google Drive已挂载。正在复制集成输出...",
+  "drive_already_mounted_copying_ensemble": "Google Drive已挂载。正在复制集成输出...",
+  "no_ensemble_output_files_found": "❌ 未找到集成输出文件。",
+  "drive_mounted_copying_files": "Google Drive已挂载。正在复制文件...",
+  "drive_already_mounted_copying_files": "Google Drive已挂载。正在复制文件...",
+  "files_copied_to_drive": "✅ 文件已复制到 {}",
+  "error_copying_files": "❌ 复制文件时出错：{}",
+  "mounting_drive": "正在挂载Google Drive...",
+  "settings_saved": "设置已保存到config.json：语言={lang}，方法={method}，端口={port}",
+  "selected_language": "已选择语言：{lang}",
+  "available_languages": "可用语言：{langs}",
+  "select_language_prompt": "选择语言（默认：{default}）：",
+  "invalid_language": "无效语言选择！使用默认语言（{default}）。",
+  "available_sharing_methods": "可用共享方法：gradio, localtunnel, ngrok",
+  "select_sharing_method_prompt": "选择共享方法（默认：{default}）：",
+  "enter_ngrok_token_prompt": "输入您的Ngrok令牌（默认：{default}）：",
+  "ngrok_token_required": "错误：ngrok方法需要Ngrok令牌！",
+  "enter_port_prompt": "输入端口号（默认：{default}）：",
+  "opening_previous_url": "打开上一个URL：{url}",
+  "open_url_manually": "在Colab中手动打开URL：{url}",
+  "invalid_previous_url": "无效的上一个URL：{url}，未打开。",
+  "starting_method": "在端口 {port} 上启动 {method}...",
+  "process_stopped": "\n🛑 用户停止了进程",
+  "selected_port": "所选端口：{port}",
+  "starting_gradio_with_sharing": "启动带有内置共享的Gradio...",
+  "starting_localtunnel": "在端口 {port} 上启动Localtunnel...",
+  "share_link": "共享链接：{url}",
+  "password_ip": "密码IP：{ip}",
+  "starting_ngrok": "在端口 {port} 上启动Ngrok...",
+  "ngrok_url": "Ngrok URL：{url}",
+  "ngrok_error": "启动Ngrok时出错：{error}",
+  "auto_apollo_chunk_size": "Apollo分块大小",
+  "auto_apollo_chunk_size_info": "Apollo增强的分块大小（通用模型推荐：19）",
+  "auto_apollo_overlap": "Apollo重叠",
+  "auto_enhancing_with_apollo": "使用Apollo增强（{}/{} 文件）...",
+  "auto_apollo_processing_completed": "Apollo处理完成！",
+  "auto_apollo_overlap_info": "Apollo增强的重叠（推荐：2）",
+  "apollo_chunk_size": "Apollo分块大小",
+  "apollo_chunk_size_info": "Apollo增强的分块大小（通用模型推荐：19）",
+  "apollo_overlap": "Apollo重叠",
+  "enhance_with_apollo": "使用Apollo增强",
+  "apollo_enhancement_info": "音质增强",
+  "enhancing_with_apollo": "使用Apollo增强（{}/{} 文件）...",
+  "apollo_processing_completed": "Apollo处理完成！",
+  "apollo_overlap_info": "Apollo增强的重叠（推荐：2）",
+  "selected_models": "选定模型",
+  "save_preset": "保存预设",
+  "delete_preset": "删除预设",
+  "refresh_presets": "刷新预设",
+  "preset_name": "预设名称",
+  "select_preset": "选择预设",
+  "add_favorite": "添加到收藏",
+  "apply_matchering": "应用 Matchering",
+  "matchering_info": "应用 Matchering 以提升音频母带处理和平衡",
+  "matchering_passes": "Matchering 迭代次数",
+  "matchering_passes_info": "Matchering 迭代次数（1-5，值越高质量越好，但耗时更长）",
+  "matchering_processing": "正在应用 Matchering... ({:.1f}%)",
+  "matchering_completed": "✅ Matchering 处理完成！",
+  "matchering_error": "❌ Matchering 过程中发生错误：{}",
+  "invalid_method": "错误：无效方法！使用 'gradio'、'localtunnel' 或 'ngrok'。",
+  "language_changed_message": "语言已更改。请重新启动单元。",
+  "backend_settings": "🚀 后端设置",
+  "inference_backend": "推理后端",
+  "optimization_mode": "优化模式",
+  "optimization_mode_info": "PyTorch 优化模式选择",
+  "mixed_precision_amp": "混合精度 (AMP)",
+  "mixed_precision_info": "2x 更快推理 - 推荐",
+  "tf32_acceleration": "TF32 加速",
+  "tf32_acceleration_info": "RTX 30xx+ 的额外速度提升",
+  "cudnn_benchmark": "cuDNN 基准测试",
+  "cudnn_benchmark_info": "首次运行较慢，后续运行更快",
+  "ultra_optimized_pytorch": "超优化 PyTorch 后端",
+  "default_active_max_speed": "默认激活 - 最大速度优化",
+  "channels_last_mode": "RTX GPU 最快",
+  "compile_mode": "PyTorch 2.0+ 额外速度",
+  "default_mode": "标准",
   "manual_ensemble_tab": "🎚️ 手动集成",
+  "input_sources": "📂 输入源",
   "refresh": "🔄 刷新",
   "ensemble_algorithm": "集成算法",
   "select_audio_files": "选择音频文件",
   "available_files": "可用文件",
+  "custom_weights": "自定义权重（逗号分隔）",
+  "custom_weights_placeholder": "例如：0.8, 1.2, 1.0, ...",
+  "custom_weights_info": "留空以使用相等权重",
   "result_preview_tab": "🎧 结果预览",
   "ensembled_output": "集成输出",
   "processing_log_tab": "📋 处理日志",
   "Vocal Models": "人声模型",
   "Instrumental Models": "乐器模型",
   "4-Stem Models": "4声道模型",
+  "Denoise Models": "降噪模型",
   "Dereverb Models": "去混响模型",
   "Other Models": "其他模型",
+  "Other Shapes": "其他模型",
+  "ensemble_files_description": "使用指定的集成方法将多个音频文件合并为单个输出。",
+  "ensemble_files_help": "所有音频文件的路径用于集成",
+  "ensemble_type_help": "其中之一：avg_wave, median_wave, min_wave, max_wave, avg_fft, median_fft, min_fft, max_fft",
+  "ensemble_weights_help": "创建集成的权重。权重数量必须等于文件数量",
+  "ensemble_output_help": "存储集成结果的WAV文件路径",
   "ensemble_type_print": "集成类型：{}",
+  "num_input_files_print": "输入文件数：{}",
   "weights_print": "权重：{}",
   "output_file_print": "输出文件：{}",
+  "duration_mismatch_error": "所有文件必须具有相同的持续时间",
+  "file_not_found_error": "错误。找不到文件：{}。检查路径。",
+  "reading_chunk_print": "从文件读取块：{}（开始：{}秒，持续时间：{}秒）",
+  "chunk_result_shape_print": "块结果形状：{}",
+  "ensemble_completed_print": "集成完成。输出保存到：{}",
+  "file_deletion_error": "无法删除 {}：{}",
   "directory_not_exist_warning": "⚠️ 目录不存在：{}",
   "not_a_directory_warning": "⚠️ 路径不是目录：{}",
+  "item_deletion_error": "⚠️ 删除 {} 时出错：{}",
   "old_output_not_exist": "❌ 旧输出文件夹不存在",
   "old_outputs_cleared": "✅ 旧输出已成功清除！",
   "error": "🔥 错误：{}",
+  "ffmpeg_error": "FFmpeg错误 ({})：{}",
+  "file_saved_successfully": "文件成功保存：{}",
   "total_files_found": "找到的文件总数：{}。使用的采样率：{}",
   "total_progress": "总进度",
   "detailed_pbar_enabled": "详细进度条已启用：{}",
   "cannot_read_track": "无法读取轨道：{}",
   "error_message": "错误消息：{}",
   "demudding_track": "清理轨道（相位混音 - 乐器）：{}",
+  "elapsed_time": "耗时：{:.2f} 秒。",
   "proc_folder_description": "使用指定模型处理文件夹中的音频文件。",
+  "model_type_help": "模型类型（bandit、bs_roformer、mdx23c等）",
   "config_path_help": "配置文件路径",
   "demud_phaseremix_help": "为乐器启用相位混音",
   "start_checkpoint_help": "有效权重的初始检查点",
+  "input_folder_help": "包含要处理的混音的文件夹",
+  "audio_path_help": "要处理的单个音频文件的路径",
   "store_dir_help": "存储结果的路径",
   "device_ids_help": "GPU ID列表",
+  "extract_instrumental_help": "如果提供，反转人声以获得乐器",
+  "disable_detailed_pbar_help": "在demix中禁用详细进度条",
+  "force_cpu_help": "即使CUDA可用也强制使用CPU",
+  "flac_file_help": "输出FLAC文件而不是WAV",
   "export_format_help": "导出格式和PCM类型",
   "pcm_type_help": "FLAC文件的PCM类型",
   "use_tta_help": "启用测试时间增强",
   "lora_checkpoint_help": "LoRA权重的初始检查点",
+  "cuda_available": "CUDA可用，使用 --force_cpu 禁用它。",
+  "using_device": "使用设备：{}",
   "instruments_print": "乐器：{}",
+  "model_load_time": "模型加载时间：{:.2f} 秒",
+  "invalid_url": "❌ 无效的URL",
   "cookie_file_updated": "✅ Cookie文件已更新！",
   "cookie_installation_error": "⚠️ Cookie安装错误：{}",
+  "google_drive_mount_error": "❌ Google Drive连接错误：{}",
+  "file_size_zero_error": "文件大小为零或未创建文件",
   "google_drive_error": "❌ Google Drive下载错误：{}",
   "wav_conversion_failed": "WAV转换失败",
   "download_error": "❌ 下载错误：{}",
+  "file_copied_to_drive": "文件已复制到Google Drive：{}",
+  "copy_to_drive_error": "❌ 复制到Google Drive时出错：{}",
+  "direct_download_failed": "直接下载文件失败",
+  "direct_download_error": "❌ 直接下载错误：{}",
+  "invalid_google_drive_url": "❌ 无效的 Google Drive URL",
+  "continuing_without_google_drive": "Google Drive 连接失败，继续不使用它...",
+  "skipping_drive_copy_no_mount": "⚠️ Google Drive 未挂载，跳过复制到 Drive...",
   "download_success": "🎉 下载成功！",
   "download_failed": "❌ 下载失败",
   "no_output_files_found": "❌ 未找到输出文件。",
+  "output_refreshed_successfully": "✅ 输出已成功刷新！",
   "error_refreshing_output": "❌ 刷新输出时出错：{}",
   "starting_audio_separation": "开始音频分离...",
+  "processing_audio": "正在处理音频",
+  "separating_audio": "正在分离音频... ({:.1f}%)",
   "separation_complete": "分离完成！",
   "progress_parsing_error": "进度解析错误：{}",
   "error_occurred": "发生错误：{}",
   "separation_process_completed": "分离过程完成！",
+  "no_audio_file_error": "❌ 未提供音频文件且输入目录中没有现有文件。",
   "no_input_progress_label": "错误：未提供输入 -- 0.0%",
+  "processing_audio_print": "正在处理音频来自：{} 使用模型：{}",
   "starting_audio_separation_progress_label": "开始音频分离... -- 0.0%",
+  "separating_audio_progress_label": "正在分离音频... -- {}.0%",
+  "audio_processing_completed_progress_label": "音频处理完成！ -- 100.0%",
   "audio_processing_completed": "✅ 音频处理完成！",
   "error_occurred_progress_label": "发生错误 -- 0.0%",
   "minimum_files_required": "⚠️ 至少需要2个文件",
   "valid_files_not_found": "❌ 未找到有效文件",
   "starting_ensemble_process": "开始集成过程...",
+  "ensembling_progress": "正在集成... ({:.1f}%)",
+  "finalizing_ensemble_output": "正在完成集成输出...",
   "success_log": "✅ 成功！\n{}",
   "error_log": "❌ 错误！\n{}",
   "critical_error": "⛔ 严重错误：{}",
   "ensemble_process_completed": "集成过程完成！",
   "no_models_selected": "❌ 未选择模型",
   "no_input_audio_provided": "❌ 未提供输入音频",
+  "loading_model": "正在加载模型 {}/{}：{}...",
+  "loading_model_progress_label": "正在加载模型 {}/{}：{}... -- {}.0%",
   "completed_model": "模型完成 {}/{}：{}",
   "completed_model_progress_label": "模型完成 {}/{}：{} -- {}.0%",
+  "running_command": "正在运行命令：{}",
   "model_failed": "模型 {} 失败：{}",
+  "critical_error_with_model": "{} 的严重错误：{}",
+  "model_output_failed": "{} 无法产生输出",
   "waiting_for_files": "等待所有文件准备就绪...",
   "waiting_for_files_progress_label": "等待所有文件准备就绪... -- 90.0%",
+  "performing_ensemble": "正在执行集成...",
+  "performing_ensemble_progress_label": "正在执行集成... -- 92.0%",
   "memory_usage_before_ensemble": "集成前内存使用：{}%",
   "memory_usage_after_ensemble": "集成后内存使用：{}%",
+  "finalizing_ensemble_output_progress_label": "正在完成集成输出... -- 98.0%",
+  "ensemble_file_creation_failed": "无法创建集成文件：{}",
+  "ensemble_completed_progress_label": "集成成功完成！ -- 100.0%",
   "success_output_created": "✅ 成功！输出文件已创建。",
+  "phase_fixer_tab": "🔧 相位修复器",
+  "batch_processing_tab": "📦 批量处理",
+  "batch_description": "使用相同模型同时处理多个文件",
+  "batch_input_folder": "输入文件夹",
+  "batch_input_folder_placeholder": "输入包含音频文件的文件夹路径",
+  "batch_output_folder": "输出文件夹",
+  "batch_output_folder_placeholder": "输入输出文件的文件夹路径",
+  "batch_file_list": "待处理文件",
+  "batch_add_files": "添加文件",
+  "batch_clear_list": "清空列表",
+  "batch_start": "🚀 开始批量处理",
+  "batch_stop": "⏹️ 停止",
+  "batch_progress": "批量处理进度",
+  "batch_current_file": "当前处理中",
+  "batch_completed": "✅ 批量处理完成！",
+  "batch_stopped": "⏹️ 批量处理已停止",
+  "batch_no_files": "❌ 未选择要处理的文件",
+  "source_model": "源模型（人声）",
+  "source_model_info": "用于提取人声/相位数据的模型",
+  "target_model": "目标模型（乐器）",
+  "target_model_info": "应用相位校正的模型",
+  "custom_models_tab": "⚡ 自定义模型",
+  "Custom Models": "自定义模型",
+  "add_custom_model": "➕ 添加自定义模型",
+  "custom_model_name": "模型名称",
+  "custom_model_name_placeholder": "为您的模型输入名称",
+  "checkpoint_url": "检查点 URL (.ckpt/.pth)",
+  "checkpoint_url_placeholder": "https://huggingface.co/.../model.ckpt",
+  "config_url": "配置 URL (.yaml)",
+  "config_url_placeholder": "https://huggingface.co/.../config.yaml",
+  "custom_py_url": "自定义 Python 文件 URL（可选）",
+  "custom_py_url_placeholder": "https://huggingface.co/.../bs_roformer.py",
+  "auto_detect_type": "自动检测模型类型",
+  "model_type": "模型类型",
+  "add_model_btn": "➕ 添加模型",
+  "custom_models_list": "📋 自定义模型列表",
+  "delete_model": "🗑️ 删除",
+  "no_custom_models": "尚未添加自定义模型",
+  "model_added_success": "✅ 模型添加成功！",
+  "model_deleted_success": "✅ 模型删除成功！",
+  "model_add_error": "❌ 添加模型错误：{}",
+  "model_delete_error": "❌ 删除模型错误：{}",
+  "refresh_models": "🔄 刷新",
+  "custom_model_info": "通过提供下载链接添加自定义模型。模型在使用时将自动下载。",
+  "select_model_to_delete": "选择要删除的模型"
 }

benchmark_pytorch.py ADDED Viewed

	@@ -0,0 +1,252 @@

+# coding: utf-8
+__author__ = 'PyTorch Optimization Benchmark Tool'
+import argparse
+import time
+import torch
+import numpy as np
+from utils import get_model_from_config
+from pytorch_backend import (
+    PyTorchBackend,
+    PyTorchOptimizer,
+    benchmark_pytorch_optimizations,
+    get_model_info
+)
+import sys
+def load_checkpoint(checkpoint_path: str, model, device: str):
+    """Load model from checkpoint."""
+    print(f"Loading checkpoint from: {checkpoint_path}")
+    checkpoint = torch.load(checkpoint_path, map_location=device, weights_only=False)
+    # Handle different checkpoint formats
+    if isinstance(checkpoint, dict):
+        if 'state_dict' in checkpoint:
+            state_dict = checkpoint['state_dict']
+        elif 'model' in checkpoint:
+            state_dict = checkpoint['model']
+        elif 'state' in checkpoint:
+            state_dict = checkpoint['state']
+        else:
+            state_dict = checkpoint
+    else:
+        state_dict = checkpoint
+    model.load_state_dict(state_dict, strict=False)
+    model = model.eval().to(device)
+    print("✓ Checkpoint loaded successfully")
+    return model
+def benchmark_optimization_modes(args):
+    """
+    Benchmark different PyTorch optimization modes.
+    """
+    parser = argparse.ArgumentParser(description="Benchmark PyTorch Optimization Modes")
+    parser.add_argument("--model_type", type=str, required=True, help="Model type")
+    parser.add_argument("--config_path", type=str, required=True, help="Config path")
+    parser.add_argument("--start_check_point", type=str, required=True, help="Checkpoint path (.ckpt)")
+    parser.add_argument("--device", type=str, default='cuda:0', help="Device")
+    parser.add_argument("--num_iterations", type=int, default=100, help="Number of benchmark iterations")
+    parser.add_argument("--warmup_iterations", type=int, default=10, help="Number of warmup iterations")
+    parser.add_argument("--chunk_size", type=int, default=None, help="Override chunk size (optional)")
+    parser.add_argument("--batch_size", type=int, default=1, help="Batch size")
+    if args is None:
+        args = parser.parse_args()
+    else:
+        args = parser.parse_args(args)
+    # Check device
+    if args.device.startswith('cuda') and not torch.cuda.is_available():
+        print("❌ CUDA is not available!")
+        return
+    print("="*60)
+    print("PyTorch Optimization Benchmark Tool")
+    print("="*60)
+    print(f"Model Type: {args.model_type}")
+    print(f"Checkpoint: {args.start_check_point}")
+    print(f"Device: {args.device}")
+    print(f"Iterations: {args.num_iterations}")
+    print("="*60)
+    # Load model
+    print("\n📦 Loading model...")
+    model, config = get_model_from_config(args.model_type, args.config_path)
+    model = load_checkpoint(args.start_check_point, model, args.device)
+    # Get model info
+    model_info = get_model_info(model)
+    print(f"\n📊 Model Information:")
+    print(f"  Total Parameters: {model_info['total_parameters']:,}")
+    print(f"  Trainable Parameters: {model_info['trainable_parameters']:,}")
+    print(f"  Model Size: {model_info['model_size_mb']:.2f} MB")
+    print(f"  Device: {model_info['device']}")
+    print(f"  Dtype: {model_info['dtype']}")
+    # Get chunk size
+    if args.chunk_size:
+        chunk_size = args.chunk_size
+    else:
+        chunk_size = config.audio.chunk_size
+    num_channels = 2
+    input_shape = (args.batch_size, num_channels, chunk_size)
+    print(f"\n📊 Test Configuration:")
+    print(f"  Batch Size: {args.batch_size}")
+    print(f"  Channels: {num_channels}")
+    print(f"  Chunk Size: {chunk_size}")
+    print(f"  Input Shape: {input_shape}")
+    # Benchmark different optimization modes
+    print("\n" + "="*60)
+    print("Benchmarking Optimization Modes")
+    print("="*60)
+    results = benchmark_pytorch_optimizations(
+        model=model,
+        input_shape=input_shape,
+        device=args.device,
+        num_iterations=args.num_iterations,
+        warmup_iterations=args.warmup_iterations
+    )
+    # Display results
+    print("\n" + "="*60)
+    print("📈 Benchmark Results")
+    print("="*60)
+    baseline = None
+    for mode, time_ms in results.items():
+        if time_ms is not None:
+            if baseline is None:
+                baseline = time_ms
+            speedup = baseline / time_ms if time_ms > 0 else 0
+            improvement = ((baseline - time_ms) / baseline) * 100 if baseline > 0 else 0
+            print(f"\n{mode.upper()}:")
+            print(f"  Average Time: {time_ms:.2f} ms")
+            print(f"  Speedup: {speedup:.2f}x")
+            print(f"  Improvement: {improvement:.1f}%")
+    print("\n" + "="*60)
+    # Recommendations
+    print("\n💡 Recommendations:")
+    if results.get('compile') and results['compile'] < results['default']:
+        print("  ✓ Use 'compile' mode for best performance (PyTorch 2.0+)")
+    elif results.get('channels_last') and results['channels_last'] < results['default']:
+        print("  ✓ Use 'channels_last' mode for better performance")
+    else:
+        print("  ✓ Default mode is optimal for your configuration")
+    if args.device.startswith('cuda'):
+        print("  ✓ Enable TF32 for Ampere GPUs (RTX 30xx+)")
+        print("  ✓ Enable cuDNN benchmark for consistent input sizes")
+    print("\n✅ Benchmark completed!")
+def test_optimization_modes(args):
+    """
+    Test different optimization modes with verification.
+    """
+    parser = argparse.ArgumentParser(description="Test PyTorch Optimization Modes")
+    parser.add_argument("--model_type", type=str, required=True, help="Model type")
+    parser.add_argument("--config_path", type=str, required=True, help="Config path")
+    parser.add_argument("--start_check_point", type=str, required=True, help="Checkpoint path (.ckpt)")
+    parser.add_argument("--device", type=str, default='cuda:0', help="Device")
+    if args is None:
+        args = parser.parse_args()
+    else:
+        args = parser.parse_args(args)
+    print("="*60)
+    print("PyTorch Optimization Mode Test")
+    print("="*60)
+    # Load model
+    print("\n📦 Loading model...")
+    model, config = get_model_from_config(args.model_type, args.config_path)
+    model = load_checkpoint(args.start_check_point, model, args.device)
+    chunk_size = config.audio.chunk_size
+    input_shape = (1, 2, chunk_size)
+    dummy_input = torch.randn(*input_shape).to(args.device)
+    # Test each optimization mode
+    modes = ['default', 'compile', 'channels_last']
+    outputs = {}
+    for mode in modes:
+        print(f"\n{'='*60}")
+        print(f"Testing: {mode}")
+        print('='*60)
+        try:
+            backend = PyTorchBackend(device=args.device, optimize_mode=mode)
+            if mode == 'jit':
+                backend.optimize_model(model, example_input=dummy_input, use_amp=True)
+            else:
+                backend.optimize_model(
+                    model,
+                    use_amp=True,
+                    use_channels_last=(mode == 'channels_last')
+                )
+            # Run inference
+            with torch.no_grad():
+                output = backend(dummy_input)
+            outputs[mode] = output
+            print(f"✓ {mode} successful")
+            print(f"  Output shape: {output.shape}")
+            print(f"  Output range: [{output.min().item():.6f}, {output.max().item():.6f}]")
+        except Exception as e:
+            print(f"✗ {mode} failed: {e}")
+            outputs[mode] = None
+    # Verify outputs match
+    print("\n" + "="*60)
+    print("🔍 Output Verification")
+    print("="*60)
+    baseline_key = 'default'
+    if baseline_key in outputs and outputs[baseline_key] is not None:
+        baseline_output = outputs[baseline_key]
+        for mode, output in outputs.items():
+            if mode != baseline_key and output is not None:
+                diff = torch.abs(baseline_output - output)
+                max_diff = torch.max(diff).item()
+                mean_diff = torch.mean(diff).item()
+                print(f"\n{mode} vs {baseline_key}:")
+                print(f"  Max difference: {max_diff:.6f}")
+                print(f"  Mean difference: {mean_diff:.6f}")
+                if max_diff < 1e-3:
+                    print(f"  ✓ Outputs match within tolerance")
+                else:
+                    print(f"  ⚠ Warning: Large difference detected!")
+    print("\n✅ Test completed!")
+if __name__ == "__main__":
+    import sys
+    if len(sys.argv) > 1 and sys.argv[1] == 'test':
+        sys.argv.pop(1)
+        test_optimization_modes(None)
+    else:
+        benchmark_optimization_modes(None)

config_manager.py CHANGED Viewed

@@ -3,7 +3,7 @@ import json
 from pathlib import Path
 # Define config directory in Google Drive
-CONFIG_DIR = "/home/user/app/SESA-Config"
 CONFIG_FILE = os.path.join(CONFIG_DIR, "config.json")
 def load_config():
@@ -14,6 +14,10 @@ def load_config():
             "chunk_size": 352800,
             "overlap": 2,
             "export_format": "wav FLOAT",
             "auto_use_tta": False,
             "use_tta": False,
             "use_demud_phaseremix_inst": False,

 from pathlib import Path
 # Define config directory in Google Drive
+CONFIG_DIR = "/content/drive/MyDrive/SESA-Config"
 CONFIG_FILE = os.path.join(CONFIG_DIR, "config.json")
 def load_config():
             "chunk_size": 352800,
             "overlap": 2,
             "export_format": "wav FLOAT",
+            "optimize_mode": "channels_last",
+            "enable_amp": True,
+            "enable_tf32": True,
+            "enable_cudnn_benchmark": True,
             "auto_use_tta": False,
             "use_tta": False,
             "use_demud_phaseremix_inst": False,

download.py CHANGED Viewed

@@ -53,8 +53,16 @@ def download_callback(url, download_type='direct', cookie_file=None):
     # Mount Google Drive (optional)
     if drive is not None:
         try:
-            drive.mount('/content/drive', force_remount=True)
-            drive_mounted = True
         except Exception as e:
             print(i18n("google_drive_mount_error").format(str(e)))
             print(i18n("continuing_without_google_drive"))
@@ -113,34 +121,95 @@ def download_callback(url, download_type='direct', cookie_file=None):
     # 3. YouTube and other media links
     else:
-        ydl_opts = {
-            'format': 'bestaudio/best',
             'outtmpl': os.path.join(INPUT_DIR, '%(title)s.%(ext)s'),
             'postprocessors': [{
                 'key': 'FFmpegExtractAudio',
                 'preferredcodec': 'wav',
                 'preferredquality': '0'
             }],
-            'cookiefile': COOKIE_PATH if os.path.exists(COOKIE_PATH) else None,
             'nocheckcertificate': True,
-            'ignoreerrors': True,
-            'retries': 3
         }
         try:
-            with yt_dlp.YoutubeDL(ydl_opts) as ydl:
                 info_dict = ydl.extract_info(url, download=True)
-                temp_path = ydl.prepare_filename(info_dict)
-                base_name = os.path.splitext(os.path.basename(temp_path))[0]
-                sanitized_base_name = sanitize_filename(base_name)
-                wav_path = os.path.join(INPUT_DIR, f"{sanitized_base_name}.wav")
-                temp_wav = os.path.splitext(temp_path)[0] + '.wav'
-                if os.path.exists(temp_wav):
-                    os.rename(temp_wav, wav_path)
-                    download_success = True
-                else:
-                    raise Exception(i18n("wav_conversion_failed"))
         except Exception as e:
             error_msg = i18n("download_error").format(str(e))
             print(error_msg)
             return None, error_msg, None, None, None, None

     # Mount Google Drive (optional)
     if drive is not None:
         try:
+            # Check if already mounted first
+            if os.path.exists('/content/drive/MyDrive'):
+                drive_mounted = True
+            else:
+                drive.mount('/content/drive', force_remount=True)
+                drive_mounted = True
+        except AttributeError as ae:
+            # Handle 'NoneType' object has no attribute 'kernel' error
+            print(f"Warning: Google Drive mount skipped (Colab kernel issue): {str(ae)}")
+            print(i18n("continuing_without_google_drive"))
         except Exception as e:
             print(i18n("google_drive_mount_error").format(str(e)))
             print(i18n("continuing_without_google_drive"))
     # 3. YouTube and other media links
     else:
+        # First try: iOS/Android without cookies (best for bot protection bypass)
+        ydl_opts_nocookie = {
+            'format': 'ba[ext=m4a]/ba[ext=webm]/ba/b',
+            'outtmpl': os.path.join(INPUT_DIR, '%(title)s.%(ext)s'),
+            'postprocessors': [{
+                'key': 'FFmpegExtractAudio',
+                'preferredcodec': 'wav',
+                'preferredquality': '0'
+            }],
+            'nocheckcertificate': True,
+            'ignoreerrors': False,
+            'retries': 3,
+            'extractor_retries': 3,
+            'extractor_args': {
+                'youtube': {
+                    'player_client': ['ios', 'android'],
+                    'player_skip': ['webpage', 'configs']
+                }
+            },
+            'http_headers': {
+                'User-Agent': 'com.google.ios.youtube/19.09.3 (iPhone14,3; U; CPU iOS 15_6 like Mac OS X)',
+                'Accept-Language': 'en-US,en;q=0.9'
+            }
+        }
+        # Second try: web client with cookies if available
+        ydl_opts_cookie = {
+            'format': 'ba[ext=m4a]/ba[ext=webm]/ba/b',
             'outtmpl': os.path.join(INPUT_DIR, '%(title)s.%(ext)s'),
             'postprocessors': [{
                 'key': 'FFmpegExtractAudio',
                 'preferredcodec': 'wav',
                 'preferredquality': '0'
             }],
+            'cookiefile': COOKIE_PATH,
             'nocheckcertificate': True,
+            'ignoreerrors': False,
+            'retries': 3,
+            'extractor_retries': 3,
+            'extractor_args': {
+                'youtube': {
+                    'player_client': ['web', 'tv_embedded'],
+                    'player_skip': ['configs']
+                }
+            }
         }
+        # Try without cookies first
+        info_dict = None
+        temp_path = None
         try:
+            with yt_dlp.YoutubeDL(ydl_opts_nocookie) as ydl:
                 info_dict = ydl.extract_info(url, download=True)
+                if info_dict:
+                    temp_path = ydl.prepare_filename(info_dict)
+        except Exception as e:
+            # If no cookies available or first method failed, try with cookies
+            if os.path.exists(COOKIE_PATH):
+                print(f"First attempt failed, trying with cookies...")
+                try:
+                    with yt_dlp.YoutubeDL(ydl_opts_cookie) as ydl:
+                        info_dict = ydl.extract_info(url, download=True)
+                        if info_dict:
+                            temp_path = ydl.prepare_filename(info_dict)
+                except Exception as e2:
+                    raise e2
+            else:
+                raise e
+        try:
+            # Check if extraction was successful
+            if info_dict is None:
+                raise Exception(i18n("youtube_extraction_failed") if "youtube_extraction_failed" in dir(i18n) else "YouTube extraction failed. Please try updating yt-dlp: pip install -U yt-dlp")
+            base_name = os.path.splitext(os.path.basename(temp_path))[0]
+            sanitized_base_name = sanitize_filename(base_name)
+            wav_path = os.path.join(INPUT_DIR, f"{sanitized_base_name}.wav")
+            temp_wav = os.path.splitext(temp_path)[0] + '.wav'
+            if os.path.exists(temp_wav):
+                os.rename(temp_wav, wav_path)
+                download_success = True
+            else:
+                raise Exception(i18n("wav_conversion_failed"))
         except Exception as e:
             error_msg = i18n("download_error").format(str(e))
+            # Add hint for yt-dlp update if it's a YouTube issue
+            if 'youtube' in url.lower() or 'youtu.be' in url.lower():
+                error_msg += "\n\nTry: pip install -U yt-dlp"
             print(error_msg)
             return None, error_msg, None, None, None, None

ensemble.py CHANGED Viewed

@@ -1,281 +1,442 @@
 # coding: utf-8
-__author__ = 'Roman Solovyev (ZFTurbo): https://github.com/ZFTurbo/' # forked by jarredou
 import os
-import torch
-import torchaudio
-import soundfile as sf
 import argparse
 from pathlib import Path
-def stft(wave, n_fft, hop_length):
-    """
-    Compute STFT for stereo audio using PyTorch
-    :param wave: tensor of shape (channels, length)
-    :param n_fft: FFT size
-    :param hop_length: hop length
-    :return: complex spectrogram of shape (channels, freq_bins, time_frames)
-    """
-    # Use torchaudio's STFT which handles multi-channel audio efficiently
-    spec = torch.stft(
-        wave,
-        n_fft=n_fft,
-        hop_length=hop_length,
-        window=torch.hann_window(n_fft, device=wave.device),
-        return_complex=True
-    )
-    return spec
-def istft(spec, hop_length, length):
-    """
-    Compute inverse STFT for stereo audio using PyTorch
-    :param spec: complex spectrogram of shape (channels, freq_bins, time_frames)
-    :param hop_length: hop length
-    :param length: target length
-    :return: waveform of shape (channels, length)
-    """
-    # Use torchaudio's ISTFT which handles multi-channel audio efficiently
-    wave = torch.istft(
-        spec,
-        n_fft=(spec.shape[1] - 1) * 2,
-        hop_length=hop_length,
-        window=torch.hann_window((spec.shape[1] - 1) * 2, device=spec.device),
-        length=length
-    )
-    return wave
-def absmax(a, *, dim):
-    """Find values with maximum absolute value along dimension"""
-    abs_a = torch.abs(a)
-    indices = torch.argmax(abs_a, dim=dim, keepdim=True)
-    return torch.gather(a, dim, indices).squeeze(dim)
-def absmin(a, *, dim):
-    """Find values with minimum absolute value along dimension"""
-    abs_a = torch.abs(a)
-    indices = torch.argmin(abs_a, dim=dim, keepdim=True)
-    return torch.gather(a, dim, indices).squeeze(dim)
-def lambda_max(arr, dim=None, key=None):
-    """Find elements with maximum key value along dimension"""
-    if key is None:
-        key = lambda x: x
-    key_values = key(arr)
-    indices = torch.argmax(key_values, dim=dim, keepdim=True)
-    return torch.gather(arr, dim, indices).squeeze(dim)
-def lambda_min(arr, dim=None, key=None):
-    """Find elements with minimum key value along dimension"""
-    if key is None:
-        key = lambda x: x
-    key_values = key(arr)
-    indices = torch.argmin(key_values, dim=dim, keepdim=True)
-    return torch.gather(arr, dim, indices).squeeze(dim)
-def match_tensor_shapes(tensor_1, tensor_2):
-    """Match the time dimension of two tensors by padding or trimming"""
-    target_length = tensor_2.shape[-1]
-    current_length = tensor_1.shape[-1]
-    if current_length > target_length:
-        tensor_1 = tensor_1[..., :target_length]
-    elif current_length < target_length:
-        padding = target_length - current_length
-        tensor_1 = torch.nn.functional.pad(tensor_1, (0, padding), 'constant', 0)
-    return tensor_1
-def average_waveforms(pred_track, weights, algorithm, n_fft, hop_length):
-    """
-    :param pred_track: tensor of shape (num, channels, length)
-    :param weights: tensor of shape (num,)
-    :param algorithm: One of avg_wave, median_wave, min_wave, max_wave, avg_fft, median_fft, min_fft, max_fft
-    :param n_fft: FFT size for STFT operations
-    :param hop_length: hop length for STFT operations
-    :return: averaged waveform in shape (channels, length)
-    """
-    pred_track = torch.stack(pred_track)
-    final_length = pred_track.shape[-1]
-    weights = torch.tensor(weights, dtype=pred_track.dtype, device=pred_track.device)
-    if algorithm in ['avg_wave', 'median_wave', 'min_wave', 'max_wave']:
-        # Waveform domain operations
-        if algorithm == 'avg_wave':
-            # Weighted average
-            weighted_tracks = pred_track * weights.view(-1, 1, 1)
-            result = torch.sum(weighted_tracks, dim=0) / torch.sum(weights)
-        elif algorithm == 'median_wave':
-            result = torch.median(pred_track, dim=0)[0]
-        elif algorithm == 'min_wave':
-            result = lambda_min(pred_track, dim=0, key=torch.abs)
-        elif algorithm == 'max_wave':
-            result = lambda_max(pred_track, dim=0, key=torch.abs)
-    elif algorithm in ['avg_fft', 'median_fft', 'min_fft', 'max_fft']:
-        # Frequency domain operations
-        # Convert all tracks to spectrograms
-        spec_tracks = []
-        for i in range(pred_track.shape[0]):
-            spec = stft(pred_track[i], n_fft, hop_length)
-            spec_tracks.append(spec)
-        spec_tracks = torch.stack(spec_tracks)
-        if algorithm == 'avg_fft':
-            # Weighted average in frequency domain
-            weighted_specs = spec_tracks * weights.view(-1, 1, 1, 1)
-            avg_spec = torch.sum(weighted_specs, dim=0) / torch.sum(weights)
-            result = istft(avg_spec, hop_length, final_length)
-        elif algorithm == 'median_fft':
-            # Median in frequency domain (using magnitude and phase separately)
-            median_spec = torch.median(spec_tracks, dim=0)[0]
-            result = istft(median_spec, hop_length, final_length)
-        elif algorithm == 'min_fft':
-            min_spec = lambda_min(spec_tracks, dim=0, key=torch.abs)
-            result = istft(min_spec, hop_length, final_length)
-        elif algorithm == 'max_fft':
-            max_spec = absmax(spec_tracks, dim=0)
-            result = istft(max_spec, hop_length, final_length)
-    return result
-def save_audio(waveform, sample_rate, output_path):
-    """Save audio with support for different formats and bit depths using soundfile"""
-    output_path = Path(output_path)
-    # Ensure waveform is in the right format (channels, samples)
-    if waveform.dim() == 1:
-        waveform = waveform.unsqueeze(0)
-    # Convert to CPU numpy array if on GPU
-    if waveform.is_cuda:
-        waveform = waveform.cpu()
-    # Convert to numpy and transpose to (samples, channels) for soundfile
-    audio_np = waveform.numpy().T
-    # Handle different output formats
-    if output_path.suffix.lower() == '.flac':
-        # For FLAC, convert to 24-bit
-        # Normalize to prevent clipping
-        max_val = torch.max(torch.abs(waveform))
-        if max_val > 0:
-            print(f"Clipping detected : {max_val}")
-            audio_np = audio_np / max_val.numpy()
-        # Save as FLAC with 24-bit depth
-        sf.write(str(output_path), audio_np, sample_rate, subtype='PCM_24')
-    else:
-        # Default to float32 for WAV and other formats
-        sf.write(str(output_path), audio_np, sample_rate, subtype='FLOAT')
-def ensemble_files(args):
-    parser = argparse.ArgumentParser(description="Audio ensemble tool using PyTorch")
-    parser.add_argument("--files", type=str, required=True, nargs='+',
-                       help="Path to all audio-files to ensemble")
-    parser.add_argument("--type", type=str, default='avg_wave',
-                       help="One of avg_wave, median_wave, min_wave, max_wave, avg_fft, median_fft, min_fft, max_fft")
-    parser.add_argument("--weights", type=float, nargs='+',
-                       help="Weights to create ensemble. Number of weights must be equal to number of files")
-    parser.add_argument("--output", default="res.wav", type=str,
-                       help="Path to output file (supports .wav, .flac)")
-    parser.add_argument("--n_fft", type=int, default=2048,
-                       help="FFT size for STFT operations (default: 2048)")
-    parser.add_argument("--hop_length", type=int, default=1024,
-                       help="Hop length for STFT operations (default: 1024)")
-    parser.add_argument("--device", type=str, default="auto",
-                       help="Device to use: 'cpu', 'cuda', or 'auto' (default: auto)")
-    parser.add_argument("--trim_to_shortest", action="store_true",
-                       help="Trim output to shortest input file length to avoid padding artifacts")
-    if args is None:
-        args = parser.parse_args()
-    else:
-        args = parser.parse_args(args)
-    # Set device
-    if args.device == "auto":
-        device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-    else:
-        device = torch.device(args.device)
-    print(f'Using device: {device}')
-    print(f'Ensemble type: {args.type}')
-    print(f'Number of input files: {len(args.files)}')
-    print(f'N_FFT: {args.n_fft}, Hop length: {args.hop_length}')
-    if args.weights is not None:
-        if len(args.weights) != len(args.files):
-            raise ValueError("Number of weights must match number of files")
-        weights = args.weights
-    else:
-        weights = [1.0] * len(args.files)
-    print(f'Weights: {weights}')
-    print(f'Output file: {args.output}')
-    data = []
-    max_len = 0
-    min_len = float('inf')
-    sample_rate = None
-    for f in args.files:
-        if not os.path.isfile(f):
-            print(f'Error. Can\'t find file: {f}. Check paths.')
-            exit(1)
-        print(f'Reading file: {f}')
-        wav, sr = torchaudio.load(f)
-        if sample_rate is None:
-            sample_rate = sr
-        elif sample_rate != sr:
-            print(f'Warning: Sample rate mismatch. Expected {sample_rate}, got {sr}. Resampling...')
-            resampler = torchaudio.transforms.Resample(sr, sample_rate)
-            wav = resampler(wav)
-        # Ensure stereo (2 channels)
-        if wav.shape[0] == 1:
-            print("Mono detected. Converting to stereo by duplication.")
-            wav = wav.repeat(2, 1)
-        elif wav.shape[0] > 2:
-            print(f"Multi-channel audio detected ({wav.shape[0]} channels). Using first 2 channels.")
-            wav = wav[:2]
-        # Move to device
-        wav = wav.to(device)
-        print(f"Waveform shape: {wav.shape} sample rate: {sr}")
-        data.append(wav)
-        max_len = max(max_len, wav.shape[1])
-        min_len = min(min_len, wav.shape[1])
-    # Choose target length based on argument
-    target_len = min_len if args.trim_to_shortest else max_len
-    target_tensor = torch.zeros(2, target_len, device=device)
-    data = [match_tensor_shapes(wav, target_tensor) for wav in data]
-    print(f"Target length: {target_len} ({'shortest' if args.trim_to_shortest else 'longest'} input file)")
-    print("Starting ensemble processing...")
-    result = average_waveforms(data, weights, args.type, args.n_fft, args.hop_length)
-    print(f'Result shape: {result.shape}')
-    # Save the result
-    save_audio(result, sample_rate, args.output)
-    print(f'Ensemble saved to: {args.output}')
 if __name__ == "__main__":
-    ensemble_files(None)

+#!/usr/bin/env python3
 # coding: utf-8
+"""
+Ultimate Audio Ensemble Processor v4.0
+- Tüm ensemble yöntemlerini destekler (avg_wave, median_wave, max_wave, min_wave, max_fft, min_fft, median_fft)
+- Özel karakterli ve uzun dosya yollarını destekler
+- Büyük dosyaları verimli şekilde işler
+- Detaylı hata yönetimi ve loglama
+"""
 import os
+import sys
 import argparse
+import numpy as np
+import soundfile as sf
+import librosa
+import psutil
+import gc
+import traceback
+from scipy.signal import stft, istft
 from pathlib import Path
+import tempfile
+import shutil
+import json
+from tqdm import tqdm
+import time
+import torch
+# PyTorch optimizations
+if torch.cuda.is_available():
+    torch.backends.cudnn.benchmark = True
+    print("✓ Using CUDA acceleration for ensemble")
+else:
+    print("Using CPU for ensemble")
+class AudioEnsembleEngine:
+    def __init__(self):
+        self.temp_dir = None
+        self.log_file = "ensemble_processor.log"
+    def __enter__(self):
+        self.temp_dir = tempfile.mkdtemp(prefix='audio_ensemble_')
+        self.setup_logging()
+        return self
+    def __exit__(self, exc_type, exc_val, exc_tb):
+        if self.temp_dir and os.path.exists(self.temp_dir):
+            shutil.rmtree(self.temp_dir, ignore_errors=True)
+    def setup_logging(self):
+        """Initialize detailed logging system."""
+        with open(self.log_file, 'w') as f:
+            f.write("Audio Ensemble Processor Log\n")
+            f.write("="*50 + "\n")
+            f.write(f"System Memory: {psutil.virtual_memory().total/(1024**3):.2f} GB\n")
+            f.write(f"Python Version: {sys.version}\n\n")
+    def log_message(self, message):
+        """Log messages with timestamp."""
+        with open(self.log_file, 'a') as f:
+            f.write(f"[{time.strftime('%Y-%m-%d %H:%M:%S')}] {message}\n")
+    def normalize_path(self, path):
+        """Handle all path-related issues comprehensively."""
+        try:
+            # Convert to absolute path
+            path = str(Path(path).absolute().resolve())
+            # Handle problematic characters
+            if any(char in path for char in '[]()|&; '):
+                base, ext = os.path.splitext(path)
+                safe_name = f"{hash(base)}{ext}"
+                temp_path = os.path.join(self.temp_dir, safe_name)
+                if not os.path.exists(temp_path):
+                    data, sr = librosa.load(path, sr=None, mono=False)
+                    sf.write(temp_path, data.T, sr)
+                return temp_path
+            return path
+        except Exception as e:
+            self.log_message(f"Path normalization failed: {str(e)}")
+            return path
+    def validate_inputs(self, files, method, output_path):
+        """Comprehensive input validation with detailed error reporting."""
+        errors = []
+        valid_methods = [
+            'avg_wave', 'median_wave', 'max_wave', 'min_wave',
+            'max_fft', 'min_fft', 'median_fft'
+        ]
+        # Method validation
+        if method not in valid_methods:
+            errors.append(f"Invalid method '{method}'. Available: {valid_methods}")
+        # File validation
+        valid_files = []
+        sample_rates = set()
+        durations = []
+        channels_set = set()
+        for f in files:
+            try:
+                f_normalized = self.normalize_path(f)
+                # Basic checks
+                if not os.path.exists(f_normalized):
+                    errors.append(f"File not found: {f_normalized}")
+                    continue
+                if os.path.getsize(f_normalized) == 0:
+                    errors.append(f"Empty file: {f_normalized}")
+                    continue
+                # Audio file validation
+                try:
+                    with sf.SoundFile(f_normalized) as sf_file:
+                        sr = sf_file.samplerate
+                        frames = sf_file.frames
+                        channels = sf_file.channels
+                except Exception as e:
+                    errors.append(f"Invalid audio file {f_normalized}: {str(e)}")
+                    continue
+                # Audio characteristics
+                if channels != 2:
+                    errors.append(f"File must be stereo (has {channels} channels): {f_normalized}")
+                    continue
+                sample_rates.add(sr)
+                durations.append(frames / sr)
+                channels_set.add(channels)
+                valid_files.append(f_normalized)
+            except Exception as e:
+                errors.append(f"Error processing {f}: {str(e)}")
+                continue
+        # Final checks
+        if len(valid_files) < 2:
+            errors.append("At least 2 valid files required")
+        if len(sample_rates) > 1:
+            errors.append(f"Sample rate mismatch: {sample_rates}")
+        if len(channels_set) > 1:
+            errors.append(f"Channel count mismatch: {channels_set}")
+        # Output path validation
+        try:
+            output_path = self.normalize_path(output_path)
+            output_dir = os.path.dirname(output_path) or '.'
+            if not os.path.exists(output_dir):
+                os.makedirs(output_dir, exist_ok=True)
+            if not os.access(output_dir, os.W_OK):
+                errors.append(f"No write permission for output directory: {output_dir}")
+        except Exception as e:
+            errors.append(f"Output path error: {str(e)}")
+        if errors:
+            error_msg = "\n".join(errors)
+            self.log_message(f"Validation failed:\n{error_msg}")
+            raise ValueError(error_msg)
+        target_sr = sample_rates.pop() if sample_rates else 44100
+        return valid_files, target_sr, min(durations) if durations else None
+    def process_waveform(self, chunks, method, weights=None):
+        """All waveform domain processing methods."""
+        if method == 'avg_wave':
+            if weights is not None:
+                return np.average(chunks, axis=0, weights=weights)
+            return np.mean(chunks, axis=0)
+        elif method == 'median_wave':
+            return np.median(chunks, axis=0)
+        elif method == 'max_wave':
+            return np.max(chunks, axis=0)
+        elif method == 'min_wave':
+            return np.min(chunks, axis=0)
+    def process_spectral(self, chunks, method):
+        """All frequency domain processing methods."""
+        specs = []
+        min_samples = min(chunk.shape[1] for chunk in chunks)
+        nperseg = min(1024, min_samples)  # Adjust nperseg to fit shortest chunk
+        noverlap = nperseg // 2
+        self.log_message(f"STFT parameters: nperseg={nperseg}, noverlap={noverlap}, min_samples={min_samples}")
+        for c in chunks:
+            # Truncate chunk to minimum length to ensure consistent STFT shapes
+            c = c[:, :min_samples]
+            channel_specs = []
+            for channel in range(c.shape[0]):
+                if c.shape[1] < 256:  # Minimum reasonable length for STFT
+                    self.log_message(f"Warning: Chunk too short ({c.shape[1]} samples) for STFT. Skipping.")
+                    return None
+                try:
+                    freqs, times, Zxx = stft(
+                        c[channel],
+                        nperseg=nperseg,
+                        noverlap=noverlap,
+                        window='hann'
+                    )
+                    channel_specs.append(Zxx)
+                except Exception as e:
+                    self.log_message(f"STFT failed for channel: {str(e)}")
+                    return None
+            specs.append(np.array(channel_specs))
+        if not specs:
+            self.log_message("No valid STFTs computed.")
+            return None
+        specs = np.array(specs)
+        self.log_message(f"STFT shapes: {[spec.shape for spec in specs]}")
+        # Ensure all STFTs have the same shape
+        min_freqs = min(spec.shape[1] for spec in specs)
+        min_times = min(spec.shape[2] for spec in specs)
+        specs = np.array([spec[:, :min_freqs, :min_times] for spec in specs])
+        mag = np.abs(specs)
+        if method == 'max_fft':
+            combined_mag = np.max(mag, axis=0)
+        elif method == 'min_fft':
+            combined_mag = np.min(mag, axis=0)
+        elif method == 'median_fft':
+            combined_mag = np.median(mag, axis=0)
+        # Use phase from first file
+        combined_spec = combined_mag * np.exp(1j * np.angle(specs[0]))
+        # ISTFT reconstruction
+        reconstructed = np.zeros((combined_spec.shape[0], chunks[0].shape[1]))
+        for channel in range(combined_spec.shape[0]):
+            try:
+                _, xrec = istft(
+                    combined_spec[channel],
+                    nperseg=nperseg,
+                    noverlap=noverlap,
+                    window='hann'
+                )
+                # Truncate or pad to match original chunk length
+                if xrec.shape[0] < chunks[0].shape[1]:
+                    xrec = np.pad(xrec, (0, chunks[0].shape[1] - xrec.shape[0]), mode='constant')
+                reconstructed[channel] = xrec[:chunks[0].shape[1]]
+            except Exception as e:
+                self.log_message(f"ISTFT failed for channel: {str(e)}")
+                return None
+        return reconstructed
+    def run_ensemble(self, files, method, output_path, weights=None, buffer_size=32768):
+        """Core ensemble processing with maximum robustness."""
+        try:
+            # Validate and prepare inputs
+            valid_files, target_sr, duration = self.validate_inputs(files, method, output_path)
+            output_path = self.normalize_path(output_path)
+            self.log_message(f"Starting ensemble with method: {method}")
+            self.log_message(f"Input files: {json.dumps(valid_files, indent=2)}")
+            self.log_message(f"Target sample rate: {target_sr}Hz")
+            self.log_message(f"Duration: {duration:.2f} seconds")
+            self.log_message(f"Output path: {output_path}")
+            # Ensure output directory exists
+            output_dir = os.path.dirname(output_path) or '.'
+            os.makedirs(output_dir, exist_ok=True)
+            self.log_message(f"Output directory created/verified: {output_dir}")
+            # Verify write permissions
+            try:
+                test_file = os.path.join(output_dir, "test_write.txt")
+                with open(test_file, "w") as f:
+                    f.write("Test")
+                os.remove(test_file)
+                self.log_message(f"Write permissions verified for: {output_dir}")
+            except Exception as e:
+                self.log_message(f"Write permission error for {output_dir}: {str(e)}")
+                raise ValueError(f"Cannot write to output directory {output_dir}: {str(e)}")
+            # Prepare weights
+            if weights and len(weights) == len(valid_files):
+                weights = np.array(weights, dtype=np.float32)
+                weights /= weights.sum()  # Normalize
+                self.log_message(f"Using weights: {weights}")
+            else:
+                weights = None
+            # Open all files and verify exact alignment
+            readers = []
+            try:
+                readers = [sf.SoundFile(f) for f in valid_files]
+                # Get exact frame counts from each file
+                frame_counts = [r.frames for r in readers]
+                self.log_message(f"Frame counts: {frame_counts}")
+                # Use the shortest to avoid reading past file end
+                shortest_frames = min(frame_counts)
+                self.log_message(f"Using shortest frame count: {shortest_frames}")
+                # Prepare output
+                self.log_message(f"Opening output file for writing: {output_path}")
+                print("Loading audio files...", flush=True)
+                with sf.SoundFile(output_path, 'w', target_sr, 2, 'PCM_24') as outfile:
+                    # Process in chunks (progress via print for GUI capture)
+                    processed_frames = 0
+                    total_chunks = (shortest_frames + buffer_size - 1) // buffer_size
+                    chunk_count = 0
+                    last_reported_percent = -1
+                    print("Processing ensemble...", flush=True)
+                    for pos in range(0, shortest_frames, buffer_size):
+                        chunk_size = min(buffer_size, shortest_frames - pos)
+                        # Read perfectly aligned chunks from all files
+                        chunks = []
+                        for i, r in enumerate(readers):
+                            # Ensure we're at the exact position
+                            r.seek(pos)
+                            current_pos = r.tell()
+                            if current_pos != pos:
+                                self.log_message(f"Warning: File {i} seek mismatch. Expected {pos}, got {current_pos}")
+                                r.seek(pos)
+                            # Read exact chunk size
+                            data = r.read(chunk_size)
+                            # Verify chunk size
+                            if data.shape[0] != chunk_size:
+                                self.log_message(f"Warning: File {i} chunk size mismatch. Expected {chunk_size}, got {data.shape[0]}")
+                                # Pad or truncate to match
+                                if data.shape[0] < chunk_size:
+                                    data = np.pad(data, ((0, chunk_size - data.shape[0]), (0, 0)), mode='constant')
+                                else:
+                                    data = data[:chunk_size]
+                            chunks.append(data.T)  # Transpose to (channels, samples)
+                        chunks = np.array(chunks)
+                        if pos % (10 * buffer_size) == 0:  # Log every 10 chunks
+                            self.log_message(f"Processing chunk at pos={pos}, shape={chunks.shape}")
+                        # Process based on method type
+                        if method.endswith('_fft'):
+                            result = self.process_spectral(chunks, method)
+                            if result is None:
+                                self.log_message("Spectral processing failed, falling back to avg_wave")
+                                result = self.process_waveform(chunks, 'avg_wave', weights)
+                        else:
+                            result = self.process_waveform(chunks, method, weights)
+                        # Verify result shape
+                        expected_shape = (2, chunk_size)
+                        if result.shape != expected_shape:
+                            self.log_message(f"Warning: Result shape {result.shape} != expected {expected_shape}")
+                            # Adjust result to match expected shape
+                            if result.shape[1] < chunk_size:
+                                result = np.pad(result, ((0, 0), (0, chunk_size - result.shape[1])), mode='constant')
+                            elif result.shape[1] > chunk_size:
+                                result = result[:, :chunk_size]
+                        # Write output
+                        outfile.write(result.T)  # Transpose back to (samples, channels)
+                        processed_frames += chunk_size
+                        # Clean up and update progress
+                        del chunks, result
+                        chunk_count += 1
+                        # Report real progress percentage with unique prefix
+                        current_percent = int((chunk_count / total_chunks) * 100)
+                        if current_percent > last_reported_percent:
+                            last_reported_percent = current_percent
+                            print(f"[SESA_PROGRESS]{current_percent}", flush=True)
+                        if pos % (5 * buffer_size) == 0:
+                            gc.collect()
+                    print("Saving ensemble output...", flush=True)
+                self.log_message(f"Successfully created output: {output_path}")
+                print(f"\nEnsemble completed successfully: {output_path}")
+                return True
+            except Exception as e:
+                self.log_message(f"Processing error: {str(e)}\n{traceback.format_exc()}")
+                raise
+            finally:
+                for r in readers:
+                    try:
+                        r.close()
+                    except:
+                        pass
+        except Exception as e:
+            self.log_message(f"Fatal error: {str(e)}\n{traceback.format_exc()}")
+            print(f"\nError during processing: {str(e)}", file=sys.stderr)
+            return False
+def main():
+    parser = argparse.ArgumentParser(
+        description='Ultimate Audio Ensemble Processor - Supports all ensemble methods',
+        formatter_class=argparse.ArgumentDefaultsHelpFormatter
+    )
+    parser.add_argument('--files', nargs='+', required=True,
+                       help='Input audio files (supports special characters)')
+    parser.add_argument('--type', required=True,
+                       choices=['avg_wave', 'median_wave', 'max_wave', 'min_wave',
+                               'max_fft', 'min_fft', 'median_fft'],
+                       help='Ensemble method to use')
+    parser.add_argument('--weights', nargs='+', type=float,
+                       help='Relative weights for each input file')
+    parser.add_argument('--output', required=True,
+                       help='Output file path')
+    parser.add_argument('--buffer', type=int, default=32768,
+                       help='Buffer size in samples (larger=faster but uses more memory)')
+    args = parser.parse_args()
+    with AudioEnsembleEngine() as engine:
+        success = engine.run_ensemble(
+            files=args.files,
+            method=args.type,
+            output_path=args.output,
+            weights=args.weights,
+            buffer_size=args.buffer
+        )
+    sys.exit(0 if success else 1)
 if __name__ == "__main__":
+    import time
+    main()

gui.py CHANGED Viewed

@@ -8,44 +8,15 @@ import json
 import sys
 import time
 import random
-from helpers import update_model_dropdown, handle_file_upload, clear_old_output, save_uploaded_file, update_file_list, clean_model
 from download import download_callback
-from model import get_model_config, MODEL_CONFIGS
 from processing import process_audio, auto_ensemble_process, ensemble_audio_fn, refresh_auto_output
 from assets.i18n.i18n import I18nAuto
 from config_manager import load_config, save_config, update_favorites, save_preset, delete_preset
 import logging
-from gradio_client import utils
-from inference import proc_folder
-# Set up logging for the patch
-logging.basicConfig(filename='gradio_schema.log', level=logging.DEBUG)
-logger = logging.getLogger('gradio_schema')
-# Patch gradio_client.utils._json_schema_to_python_type
-original_json_schema_to_python_type = utils._json_schema_to_python_type
-def patched_json_schema_to_python_type(schema: any, defs: dict | None = None) -> str:
-    logger.debug(f"Parsing schema: {schema}")
-    if isinstance(schema, bool):
-        logger.info(f"Found boolean schema: {schema}, returning 'boolean'")
-        return "boolean"
-    if not isinstance(schema, dict):
-        logger.warning(f"Unexpected schema type: {type(schema)}, returning 'Any'")
-        return "Any"
-    if "enum" in schema and schema.get("type") == "string":
-        logger.info(f"Handling enum schema: {schema['enum']}")
-        return f"Literal[{', '.join(repr(e) for e in schema['enum'])}]"
-    try:
-        return original_json_schema_to_python_type(schema, defs)
-    except utils.APIInfoParseError as e:
-        logger.error(f"Failed to parse schema {schema}: {e}")
-        return "str"
-utils._json_schema_to_python_type = patched_json_schema_to_python_type
-# General logging setup
-logging.basicConfig(filename='sesa_gui.log', level=logging.DEBUG)
 # BASE_DIR tanımı
 BASE_DIR = os.path.dirname(os.path.abspath(__file__))
@@ -195,11 +166,19 @@ def create_interface():
     }
     #progress-bar {
         height: 20px;
-        background: linear-gradient(to right, #6e8efb, #ff4040);
         border-radius: 5px;
-        transition: width 0.5s ease-in-out;
         max-width: 100% !important;
     }
     .gr-accordion {
         background: rgba(128, 0, 0, 0.5) !important;
         border-radius: 10px !important;
@@ -264,7 +243,7 @@ def create_interface():
                             with gr.Row():
                                 model_category = gr.Dropdown(
                                     label=i18n("category"),
-                                    choices=[i18n(cat) for cat in MODEL_CONFIGS.keys()],
                                     value=i18n(initial_settings["model_category"])
                                 )
                                 favorite_button = gr.Button(i18n("add_favorite"), variant="secondary", scale=0)
@@ -284,11 +263,33 @@ def create_interface():
                                         value=initial_settings["export_format"]
                                     )
                                 with gr.Column(scale=1):
                                     chunk_size = gr.Dropdown(
                                         label=i18n("chunk_size"),
                                         choices=[352800, 485100],
                                         value=initial_settings["chunk_size"],
-                                        info=i18n("chunk_size_info")
                                     )
                             with gr.Row():
@@ -302,6 +303,35 @@ def create_interface():
                                         info=i18n("overlap_info")
                                     )
                             with gr.Row():
                                 with gr.Column(scale=1):
                                     use_tta = gr.Checkbox(
@@ -393,7 +423,7 @@ def create_interface():
                                     maximum=5,
                                     step=1,
                                     value=initial_settings.get("matchering_passes", 1),
-                                    info=i18n("matchering_passes_info"),
                                     interactive=True
                                 )
@@ -402,11 +432,23 @@ def create_interface():
                             clear_old_output_btn = gr.Button(i18n("reset"), variant="secondary")
                         clear_old_output_status = gr.Textbox(label=i18n("status"), interactive=False)
-                        # Favorite handler
-                        def update_favorite_button(model, favorites):
                             cleaned_model = clean_model(model) if model else None
                             is_favorited = cleaned_model in favorites if cleaned_model else False
-                            return gr.update(value=i18n("remove_favorite") if is_favorited else i18n("add_favorite"))
                         def toggle_favorite(model, favorites):
                             if not model:
@@ -422,10 +464,29 @@ def create_interface():
                                 gr.update(value=i18n("add_favorite") if is_favorited else i18n("remove_favorite"))
                             )
                         model_dropdown.change(
                             fn=update_favorite_button,
-                            inputs=[model_dropdown, favorites_state],
-                            outputs=favorite_button
                         )
                         favorite_button.click(
@@ -462,31 +523,34 @@ def create_interface():
                                 with gr.Column():
                                     original_audio = gr.Audio(label=i18n("original"), interactive=False)
                                     with gr.Row():
-                                        vocals_audio = gr.Audio(label=i18n("vocals"), show_download_button=True, interactive=False)
-                                        instrumental_audio = gr.Audio(label=i18n("instrumental_output"), show_download_button=True, interactive=False)
-                                        other_audio = gr.Audio(label=i18n("other"), show_download_button=True, interactive=False)
                             with gr.Tab(i18n("details_tab")) as details_tab:
                                 with gr.Column():
                                     with gr.Row():
-                                        male_audio = gr.Audio(label=i18n("male"), interactive=False)
-                                        female_audio = gr.Audio(label=i18n("female"), interactive=False)
-                                        speech_audio = gr.Audio(label=i18n("speech"), interactive=False)
                                     with gr.Row():
-                                        drum_audio = gr.Audio(label=i18n("drums"), interactive=False)
-                                        bass_audio = gr.Audio(label=i18n("bass"), interactive=False)
                                     with gr.Row():
-                                        effects_audio = gr.Audio(label=i18n("effects"), interactive=False)
                             with gr.Tab(i18n("advanced_tab")) as advanced_tab:
                                 with gr.Column():
                                     with gr.Row():
-                                        phaseremix_audio = gr.Audio(label=i18n("phase_remix"), interactive=False)
-                                        dry_audio = gr.Audio(label=i18n("dry"), interactive=False)
                                     with gr.Row():
-                                        music_audio = gr.Audio(label=i18n("music"), interactive=False)
-                                        karaoke_audio = gr.Audio(label=i18n("karaoke"), interactive=False)
-                                        bleed_audio = gr.Audio(label=i18n("bleed"), interactive=False)
                         separation_progress_html = gr.HTML(
                             value=f"""
@@ -605,7 +669,7 @@ def create_interface():
                                     info=i18n("matchering_info")
                                 )
-                            with gr.Group(visible=False) as auto_matchering_settings_group:
                                 auto_matchering_passes = gr.Slider(
                                     label=i18n("matchering_passes"),
                                     minimum=1,
@@ -621,13 +685,13 @@ def create_interface():
                             with gr.Row():
                                 auto_category_dropdown = gr.Dropdown(
                                     label=i18n("model_category"),
-                                    choices=[i18n(cat) for cat in MODEL_CONFIGS.keys()],
                                     value=i18n("Vocal Models")
                                 )
                                 selected_models = gr.Dropdown(
                                     label=i18n("selected_models"),
                                     choices=update_model_dropdown(i18n(initial_settings["auto_category"]), favorites=initial_favorites)["choices"],
-                                    value=initial_settings["selected_models"] or [],
                                     multiselect=True
                                 )
@@ -666,19 +730,21 @@ def create_interface():
                         def load_preset(preset_name, presets, category, favorites):
                             if preset_name and preset_name in presets:
                                 preset = presets[preset_name]
                                 favorite_models = [f"{model} ⭐" if model in favorites else model for model in preset["models"]]
                                 preset_category = preset.get("auto_category_dropdown", category)
                                 model_choices = update_model_dropdown(preset_category, favorites=favorites)["choices"]
-                                logger.debug(f"Preset '{preset_name}' loaded with models: {favorite_models}, category: {preset_category}")
                                 return (
-                                    gr.update(value=preset_category),
-                                    gr.update(choices=model_choices, value=favorite_models),
-                                    gr.update(value=preset["ensemble_method"])
                                 )
-                            logger.debug(f"Preset '{preset_name}' not found.")
                             return gr.update(), gr.update(), gr.update()
                         def sync_presets():
                             config = load_config()
                             return config["presets"], gr.update(choices=list(config["presets"].keys()), value=None)
@@ -694,14 +760,13 @@ def create_interface():
                             if not models and not favorites:
                                 return gr.update(), presets, i18n("no_models_selected_for_preset")
                             new_presets = save_preset(
-                                presets,
-                                preset_name,
-                                models,
                                 ensemble_method,
-                                auto_category_dropdown=auto_category_dropdown
                             )
                             save_config(favorites, load_config()["settings"], new_presets)
-                            logger.debug(f"Preset dropdown updated with choices: {list(new_presets.keys())}")
                             return gr.update(choices=list(new_presets.keys()), value=None), new_presets, i18n("preset_saved").format(preset_name)
                         save_preset_btn.click(
@@ -758,13 +823,14 @@ def create_interface():
                                     label=i18n("original_audio"),
                                     interactive=False,
                                     every=1,
-                                    elem_id="original_audio_player"
                                 )
                             with gr.Tab(i18n("ensemble_result_tab")) as ensemble_result_tab:
                                 auto_output_audio = gr.Audio(
                                     label=i18n("output_preview"),
-                                    show_download_button=True,
-                                    interactive=False
                                 )
                                 refresh_output_btn = gr.Button(i18n("refresh_output"), variant="secondary")
@@ -784,7 +850,7 @@ def create_interface():
                             placeholder=i18n("waiting_for_processing"),
                             visible=False
                         )
             with gr.Tab(i18n("download_sources_tab"), id="download_tab"):
                 with gr.Row():
                     with gr.Column():
@@ -839,8 +905,8 @@ def create_interface():
                                 ensemble_output_audio = gr.Audio(
                                     label=i18n("ensembled_output"),
                                     interactive=False,
-                                    show_download_button=True,
-                                    elem_id="output-audio"
                                 )
                             with gr.Tab(i18n("processing_log_tab")) as processing_log_tab:
                                 with gr.Accordion(i18n("processing_details"), open=True, elem_id="log-accordion"):
@@ -858,55 +924,522 @@ def create_interface():
                                 variant="primary",
                                 size="sm",
                                 elem_id="process-btn"
                             )
         def save_settings_on_process(*args):
-            apollo_method_value = args[11]
             backend_apollo_method = "mid_side_method" if apollo_method_value == i18n("mid_side_method") else "normal_method"
             cleaned_model = clean_model(args[1]) if args[1] else None
             settings = {
-                "chunk_size": args[2],
                 "overlap": args[3],
                 "export_format": args[4],
-                "use_tta": args[5],
-                "use_demud_phaseremix_inst": args[6],
-                "extract_instrumental": args[7],
-                "use_apollo": args[8],
-                "apollo_chunk_size": args[9],
-                "apollo_overlap": args[10],
                 "apollo_method": backend_apollo_method,
-                "apollo_normal_model": args[12],
-                "apollo_midside_model": args[13],
-                "use_matchering": args[14],
-                "matchering_passes": args[15],
-                "model_category": args[16],
                 "selected_model": cleaned_model,
-                "auto_ensemble_type": args[17]
             }
             save_config(load_config()["favorites"], settings, load_config()["presets"])
-            modified_args = list(args)
             modified_args[1] = cleaned_model
-            modified_args[17] = cleaned_model
-            return process_audio(*modified_args)
         def save_auto_ensemble_settings(*args):
             settings = load_config()["settings"]
             settings["auto_ensemble_type"] = args[7]
             settings["use_matchering"] = args[14]
             settings["matchering_passes"] = args[15]
             save_config(load_config()["favorites"], settings, load_config()["presets"])
-            output_audio, status, progress_html = None, i18n("waiting_for_processing"), ensemble_progress_html.value
             for update in auto_ensemble_process(*args):
                 if isinstance(update, tuple) and len(update) == 3:
-                    output_audio, status, progress_html = update
-            return output_audio, status, progress_html
         def update_category_dropdowns(cat):
-            logging.debug(f"Input category: {cat}")
-            eng_cat = next((k for k in MODEL_CONFIGS.keys() if i18n(k) == cat), list(MODEL_CONFIGS.keys())[0])
-            logging.debug(f"Using English category: {eng_cat}")
             choices = update_model_dropdown(eng_cat, favorites=load_config()["favorites"])["choices"]
-            logging.debug(f"Model choices: {choices}")
             return gr.update(choices=choices), gr.update(choices=choices)
         model_category.change(
@@ -940,39 +1473,38 @@ def create_interface():
         )
         auto_category_dropdown.change(
-            fn=lambda cat: gr.update(choices=update_model_dropdown(next((k for k in MODEL_CONFIGS.keys() if i18n(k) == cat), list(MODEL_CONFIGS.keys())[0]), favorites=load_config()["favorites"])["choices"]),
             inputs=auto_category_dropdown,
             outputs=selected_models
         )
-        def debug_inputs(*args):
-            input_names = [
-                "input_audio_file", "model_dropdown", "chunk_size", "overlap", "export_format",
-                "use_tta", "use_demud_phaseremix_inst", "extract_instrumental",
-                "use_apollo", "apollo_chunk_size", "apollo_overlap",
-                "apollo_method", "apollo_normal_model", "apollo_midside_model",
-                "use_matchering", "matchering_passes", "model_category", "selected_model"
-            ]
             cleaned_args = list(args)
             cleaned_args[1] = clean_model(cleaned_args[1]) if cleaned_args[1] else None
-            cleaned_args[17] = clean_model(cleaned_args[17]) if cleaned_args[17] else None
-            for name, value in zip(input_names, cleaned_args):
-                logger.debug(f"UI Input - {name}: {value}")
-            return args
         process_btn.click(
-            fn=lambda *args: save_settings_on_process(*debug_inputs(*args)),
             inputs=[
                 input_audio_file, model_dropdown, chunk_size, overlap, export_format,
                 use_tta, use_demud_phaseremix_inst, extract_instrumental,
                 use_apollo, apollo_chunk_size, apollo_overlap,
                 apollo_method, apollo_normal_model, apollo_midside_model,
-                use_matchering, matchering_passes, model_category, model_dropdown
             ],
             outputs=[
                 vocals_audio, instrumental_audio, phaseremix_audio, drum_audio, karaoke_audio,
                 other_audio, bass_audio, effects_audio, speech_audio, bleed_audio, music_audio,
                 dry_audio, male_audio, female_audio,
                 separation_process_status, separation_progress_html
             ]
         )
@@ -1016,4 +1548,4 @@ def create_interface():
         refresh_btn.click(fn=update_file_list, outputs=file_dropdown)
         ensemble_process_btn.click(fn=ensemble_audio_fn, inputs=[file_dropdown, ensemble_type, weights_input], outputs=[ensemble_output_audio, ensemble_status])
-        return demo

 import sys
 import time
 import random
+from helpers import update_model_dropdown, handle_file_upload, clear_old_output, save_uploaded_file, update_file_list, clean_model, get_model_categories
 from download import download_callback
+from model import get_model_config, MODEL_CONFIGS, get_all_model_configs_with_custom, add_custom_model, delete_custom_model, get_custom_models_list, SUPPORTED_MODEL_TYPES, load_custom_models, get_model_chunk_size
 from processing import process_audio, auto_ensemble_process, ensemble_audio_fn, refresh_auto_output
 from assets.i18n.i18n import I18nAuto
 from config_manager import load_config, save_config, update_favorites, save_preset, delete_preset
+from phase_fixer import SOURCE_MODELS, TARGET_MODELS
 import logging
+logging.basicConfig(filename='sesa_gui.log', level=logging.WARNING)
 # BASE_DIR tanımı
 BASE_DIR = os.path.dirname(os.path.abspath(__file__))
     }
     #progress-bar {
         height: 20px;
+        background: linear-gradient(90deg, #6e8efb, #a855f7, #ff4040);
+        background-size: 200% 100%;
         border-radius: 5px;
+        transition: width 0.4s cubic-bezier(0.4, 0, 0.2, 1);
         max-width: 100% !important;
     }
+    @keyframes progress-shimmer {
+        0% { background-position: 200% 0; }
+        100% { background-position: -200% 0; }
+    }
+    #progress-bar[data-active="true"] {
+        animation: progress-shimmer 2s linear infinite;
+    }
     .gr-accordion {
         background: rgba(128, 0, 0, 0.5) !important;
         border-radius: 10px !important;
                             with gr.Row():
                                 model_category = gr.Dropdown(
                                     label=i18n("category"),
+                                    choices=[i18n(cat) for cat in get_all_model_configs_with_custom().keys()],
                                     value=i18n(initial_settings["model_category"])
                                 )
                                 favorite_button = gr.Button(i18n("add_favorite"), variant="secondary", scale=0)
                                         value=initial_settings["export_format"]
                                     )
                                 with gr.Column(scale=1):
+                                    _init_cs_mode = initial_settings.get("chunk_size_mode", "base")
+                                    chunk_size_mode = gr.Radio(
+                                        label=i18n("chunk_size_mode"),
+                                        choices=["base", "custom", "yaml"],
+                                        value=_init_cs_mode,
+                                        info=i18n("chunk_size_mode_info")
+                                    )
                                     chunk_size = gr.Dropdown(
                                         label=i18n("chunk_size"),
                                         choices=[352800, 485100],
                                         value=initial_settings["chunk_size"],
+                                        info=i18n("chunk_size_info"),
+                                        visible=(_init_cs_mode == "base")
+                                    )
+                                    chunk_size_custom = gr.Number(
+                                        label=i18n("chunk_size_custom_label"),
+                                        value=initial_settings.get("chunk_size_custom", 352800),
+                                        precision=0,
+                                        info=i18n("chunk_size_custom_info"),
+                                        visible=(_init_cs_mode == "custom")
+                                    )
+                                    chunk_size_yaml_display = gr.Textbox(
+                                        label=i18n("chunk_size_yaml_label"),
+                                        value=i18n("chunk_size_yaml_not_downloaded"),
+                                        interactive=False,
+                                        info=i18n("chunk_size_yaml_display_info"),
+                                        visible=(_init_cs_mode == "yaml")
                                     )
                             with gr.Row():
                                         info=i18n("overlap_info")
                                     )
+                            with gr.Accordion(i18n("backend_settings"), open=True) as backend_settings_accordion:
+                                gr.Markdown(f"### {i18n('inference_backend')} - {i18n('ultra_optimized_pytorch')}")
+                                gr.Markdown(f"**{i18n('default_active_max_speed')}**")
+                                with gr.Row():
+                                    optimize_mode = gr.Dropdown(
+                                        label=i18n("optimization_mode"),
+                                        choices=['channels_last', 'compile', 'default'],
+                                        value=initial_settings.get("optimize_mode", "channels_last"),
+                                        info=f"channels_last: {i18n('channels_last_mode')} | compile: {i18n('compile_mode')} | default: {i18n('default_mode')}"
+                                    )
+                                with gr.Row():
+                                    enable_amp = gr.Checkbox(
+                                        label=i18n("mixed_precision_amp"),
+                                        value=initial_settings.get("enable_amp", True),
+                                        info=i18n("mixed_precision_info")
+                                    )
+                                    enable_tf32 = gr.Checkbox(
+                                        label=i18n("tf32_acceleration"),
+                                        value=initial_settings.get("enable_tf32", True),
+                                        info=i18n("tf32_acceleration_info")
+                                    )
+                                    enable_cudnn_benchmark = gr.Checkbox(
+                                        label=i18n("cudnn_benchmark"),
+                                        value=initial_settings.get("enable_cudnn_benchmark", True),
+                                        info=i18n("cudnn_benchmark_info")
+                                    )
                             with gr.Row():
                                 with gr.Column(scale=1):
                                     use_tta = gr.Checkbox(
                                     maximum=5,
                                     step=1,
                                     value=initial_settings.get("matchering_passes", 1),
+                                                                        info=i18n("matchering_passes_info"),
                                     interactive=True
                                 )
                             clear_old_output_btn = gr.Button(i18n("reset"), variant="secondary")
                         clear_old_output_status = gr.Textbox(label=i18n("status"), interactive=False)
+                        # Favorite handler + chunk size auto-update
+                        def update_favorite_button(model, favorites, cs_mode):
                             cleaned_model = clean_model(model) if model else None
                             is_favorited = cleaned_model in favorites if cleaned_model else False
+                            fav_btn = gr.update(value=i18n("remove_favorite") if is_favorited else i18n("add_favorite"))
+                            chunk_update = gr.update()
+                            yaml_update = gr.update()
+                            if cleaned_model:
+                                native_chunk = get_model_chunk_size(cleaned_model)
+                                if cs_mode == "base" and native_chunk and native_chunk in [352800, 485100]:
+                                    chunk_update = gr.update(value=native_chunk)
+                                if cs_mode == "yaml":
+                                    if native_chunk:
+                                        yaml_update = gr.update(value=i18n("chunk_size_yaml_detected").format(native_chunk))
+                                    else:
+                                        yaml_update = gr.update(value=i18n("chunk_size_yaml_not_downloaded"))
+                            return fav_btn, chunk_update, yaml_update
                         def toggle_favorite(model, favorites):
                             if not model:
                                 gr.update(value=i18n("add_favorite") if is_favorited else i18n("remove_favorite"))
                             )
+                        def on_chunk_size_mode_change(mode, model):
+                            cleaned = clean_model(model) if model else None
+                            native_chunk = get_model_chunk_size(cleaned) if cleaned else None
+                            yaml_text = (
+                                i18n("chunk_size_yaml_detected").format(native_chunk)
+                                if native_chunk else i18n("chunk_size_yaml_not_downloaded")
+                            )
+                            return (
+                                gr.update(visible=(mode == "base")),
+                                gr.update(visible=(mode == "custom")),
+                                gr.update(visible=(mode == "yaml"), value=yaml_text),
+                            )
+                        chunk_size_mode.change(
+                            fn=on_chunk_size_mode_change,
+                            inputs=[chunk_size_mode, model_dropdown],
+                            outputs=[chunk_size, chunk_size_custom, chunk_size_yaml_display]
+                        )
                         model_dropdown.change(
                             fn=update_favorite_button,
+                            inputs=[model_dropdown, favorites_state, chunk_size_mode],
+                            outputs=[favorite_button, chunk_size, chunk_size_yaml_display]
                         )
                         favorite_button.click(
                                 with gr.Column():
                                     original_audio = gr.Audio(label=i18n("original"), interactive=False)
                                     with gr.Row():
+                                        vocals_audio = gr.Audio(label=i18n("vocals"))
+                                        instrumental_audio = gr.Audio(label=i18n("instrumental_output"))
+                                        other_audio = gr.Audio(label=i18n("other"))
                             with gr.Tab(i18n("details_tab")) as details_tab:
                                 with gr.Column():
                                     with gr.Row():
+                                        male_audio = gr.Audio(label=i18n("male"))
+                                        female_audio = gr.Audio(label=i18n("female"))
+                                        speech_audio = gr.Audio(label=i18n("speech"))
                                     with gr.Row():
+                                        drum_audio = gr.Audio(label=i18n("drums"))
+                                        bass_audio = gr.Audio(label=i18n("bass"))
                                     with gr.Row():
+                                        effects_audio = gr.Audio(label=i18n("effects"))
                             with gr.Tab(i18n("advanced_tab")) as advanced_tab:
                                 with gr.Column():
                                     with gr.Row():
+                                        phaseremix_audio = gr.Audio(label=i18n("phase_remix"))
+                                        dry_audio = gr.Audio(label=i18n("dry"))
                                     with gr.Row():
+                                        music_audio = gr.Audio(label=i18n("music"))
+                                        karaoke_audio = gr.Audio(label=i18n("karaoke"))
+                                        bleed_audio = gr.Audio(label=i18n("bleed"))
+                                    with gr.Row():
+                                        mid_audio = gr.Audio(label="Mid")
+                                        side_audio = gr.Audio(label="Side")
                         separation_progress_html = gr.HTML(
                             value=f"""
                                     info=i18n("matchering_info")
                                 )
+                            with gr.Group(visible=True) as auto_matchering_settings_group:
                                 auto_matchering_passes = gr.Slider(
                                     label=i18n("matchering_passes"),
                                     minimum=1,
                             with gr.Row():
                                 auto_category_dropdown = gr.Dropdown(
                                     label=i18n("model_category"),
+                                    choices=[i18n(cat) for cat in get_all_model_configs_with_custom().keys()],
                                     value=i18n("Vocal Models")
                                 )
                                 selected_models = gr.Dropdown(
                                     label=i18n("selected_models"),
                                     choices=update_model_dropdown(i18n(initial_settings["auto_category"]), favorites=initial_favorites)["choices"],
+                                    value=initial_settings["selected_models"],
                                     multiselect=True
                                 )
                         def load_preset(preset_name, presets, category, favorites):
                             if preset_name and preset_name in presets:
                                 preset = presets[preset_name]
+                                # Mark starred models with ⭐
                                 favorite_models = [f"{model} ⭐" if model in favorites else model for model in preset["models"]]
+                                # Get the category from the preset, default to current category if not specified
                                 preset_category = preset.get("auto_category_dropdown", category)
+                                # Update model choices based on the preset's category
                                 model_choices = update_model_dropdown(preset_category, favorites=favorites)["choices"]
                                 return (
+                                    gr.update(value=preset_category),  # Update auto_category_dropdown
+                                    gr.update(choices=model_choices, value=favorite_models),  # Update selected_models
+                                    gr.update(value=preset["ensemble_method"])  # Update auto_ensemble_type
                                 )
                             return gr.update(), gr.update(), gr.update()
                         def sync_presets():
+                            """Reload presets from config and update dropdown."""
                             config = load_config()
                             return config["presets"], gr.update(choices=list(config["presets"].keys()), value=None)
                             if not models and not favorites:
                                 return gr.update(), presets, i18n("no_models_selected_for_preset")
                             new_presets = save_preset(
+                                presets,
+                                preset_name,
+                                models,
                                 ensemble_method,
+                                auto_category_dropdown=auto_category_dropdown  # Pass the category explicitly
                             )
                             save_config(favorites, load_config()["settings"], new_presets)
                             return gr.update(choices=list(new_presets.keys()), value=None), new_presets, i18n("preset_saved").format(preset_name)
                         save_preset_btn.click(
                                     label=i18n("original_audio"),
                                     interactive=False,
                                     every=1,
+                                    elem_id="original_audio_player",
+                                    streaming=True
                                 )
                             with gr.Tab(i18n("ensemble_result_tab")) as ensemble_result_tab:
                                 auto_output_audio = gr.Audio(
                                     label=i18n("output_preview"),
+                                    interactive=False,
+                                    streaming=True
                                 )
                                 refresh_output_btn = gr.Button(i18n("refresh_output"), variant="secondary")
                             placeholder=i18n("waiting_for_processing"),
                             visible=False
                         )
             with gr.Tab(i18n("download_sources_tab"), id="download_tab"):
                 with gr.Row():
                     with gr.Column():
                                 ensemble_output_audio = gr.Audio(
                                     label=i18n("ensembled_output"),
                                     interactive=False,
+                                    elem_id="output-audio",
+                                    streaming=True
                                 )
                             with gr.Tab(i18n("processing_log_tab")) as processing_log_tab:
                                 with gr.Accordion(i18n("processing_details"), open=True, elem_id="log-accordion"):
                                 variant="primary",
                                 size="sm",
                                 elem_id="process-btn"
+                                                        )
+            with gr.Tab(i18n("phase_fixer_tab"), id="phase_fixer_tab"):
+                with gr.Row(equal_height=True):
+                    with gr.Column(scale=1, min_width=350):
+                        with gr.Group():
+                            with gr.Row():
+                                pf_source_file = gr.File(
+                                    file_types=[".wav", ".flac", ".mp3"],
+                                    label=i18n("source_file_label")
+                                )
+                                pf_target_file = gr.File(
+                                    file_types=[".wav", ".flac", ".mp3"],
+                                    label=i18n("target_file_label")
+                                )
+                        with gr.Group():
+                            with gr.Row():
+                                pf_source_model = gr.Dropdown(
+                                    label=i18n("source_model"),
+                                    choices=SOURCE_MODELS,
+                                    value=SOURCE_MODELS[0],
+                                    info=i18n("source_model_info")
+                                )
+                            with gr.Row():
+                                pf_target_model = gr.Dropdown(
+                                    label=i18n("target_model"),
+                                    choices=TARGET_MODELS,
+                                    value=TARGET_MODELS[-1],
+                                    info=i18n("target_model_info")
+                                )
+                        with gr.Accordion(i18n("phase_fixer_settings"), open=False):
+                            with gr.Row():
+                                pf_scale_factor = gr.Slider(
+                                    label=i18n("scale_factor"),
+                                    minimum=0.5,
+                                    maximum=3.0,
+                                    step=0.05,
+                                    value=1.4,
+                                    info=i18n("scale_factor_info")
+                                )
+                                pf_output_format = gr.Dropdown(
+                                    label=i18n("output_format"),
+                                    choices=['flac', 'wav'],
+                                    value='flac'
+                                )
+                            with gr.Row():
+                                pf_low_cutoff = gr.Slider(
+                                    label=i18n("low_cutoff"),
+                                    minimum=100,
+                                    maximum=2000,
+                                    step=100,
+                                    value=500,
+                                    info=i18n("low_cutoff_info")
+                                )
+                                pf_high_cutoff = gr.Slider(
+                                    label=i18n("high_cutoff"),
+                                    minimum=2000,
+                                    maximum=15000,
+                                    step=500,
+                                    value=9000,
+                                    info=i18n("high_cutoff_info")
+                                )
+                        pf_process_btn = gr.Button(i18n("run_phase_fixer"), variant="primary")
+                    with gr.Column(scale=2, min_width=600):
+                        pf_output_audio = gr.Audio(
+                            label=i18n("phase_fixed_output"),
+                            interactive=False,
+                            streaming=True
+                        )
+                        pf_status = gr.Textbox(
+                            label=i18n("status"),
+                            interactive=False,
+                            placeholder=i18n("waiting_for_processing"),
+                            lines=2
+                        )
+                from phase_fixer import process_phase_fix
+                def run_phase_fixer(source_file, target_file, source_model, target_model, scale_factor, low_cutoff, high_cutoff, output_format):
+                    if source_file is None or target_file is None:
+                        return None, i18n("please_upload_both_files")
+                    source_path = source_file.name if hasattr(source_file, 'name') else source_file
+                    target_path = target_file.name if hasattr(target_file, 'name') else target_file
+                    output_folder = os.path.join(BASE_DIR, 'phase_fixer_output')
+                    output_file, status = process_phase_fix(
+                        source_file=source_path,
+                        target_file=target_path,
+                        output_folder=output_folder,
+                        low_cutoff=int(low_cutoff),
+                        high_cutoff=int(high_cutoff),
+                        scale_factor=float(scale_factor),
+                        output_format=output_format
+                    )
+                    return output_file, status
+                pf_process_btn.click(
+                    fn=run_phase_fixer,
+                    inputs=[pf_source_file, pf_target_file, pf_source_model, pf_target_model, pf_scale_factor, pf_low_cutoff, pf_high_cutoff, pf_output_format],
+                    outputs=[pf_output_audio, pf_status]
+                )
+            with gr.Tab(i18n("batch_processing_tab"), id="batch_processing_tab"):
+                with gr.Row(equal_height=True):
+                    with gr.Column(scale=1, min_width=350):
+                        gr.Markdown(f"### {i18n('batch_description')}")
+                        with gr.Group():
+                            batch_input_files = gr.File(
+                                file_types=[".wav", ".mp3", ".m4a", ".flac"],
+                                file_count="multiple",
+                                label=i18n("batch_add_files")
+                            )
+                            batch_input_folder = gr.Textbox(
+                                label=i18n("batch_input_folder"),
+                                placeholder=i18n("batch_input_folder_placeholder")
+                            )
+                            batch_output_folder = gr.Textbox(
+                                label=i18n("batch_output_folder"),
+                                placeholder=i18n("batch_output_folder_placeholder"),
+                                value=os.path.join(BASE_DIR, "batch_output")
+                            )
+                        with gr.Group():
+                            batch_model_category = gr.Dropdown(
+                                label=i18n("model_category"),
+                                choices=[i18n(cat) for cat in get_all_model_configs_with_custom().keys()],
+                                value=i18n("Vocal Models")
                             )
+                            batch_model_dropdown = gr.Dropdown(
+                                label=i18n("model"),
+                                choices=update_model_dropdown(i18n("Vocal Models"), favorites=initial_favorites)["choices"],
+                                value=None
+                            )
+                        with gr.Accordion(i18n("settings"), open=False):
+                            with gr.Row():
+                                batch_chunk_size = gr.Dropdown(
+                                    label=i18n("chunk_size"),
+                                    choices=[352800, 485100],
+                                    value=352800
+                                )
+                                batch_overlap = gr.Slider(
+                                    minimum=2,
+                                    maximum=50,
+                                    step=1,
+                                    label=i18n("overlap"),
+                                    value=2
+                                )
+                            with gr.Row():
+                                batch_export_format = gr.Dropdown(
+                                    label=i18n("format"),
+                                    choices=['wav FLOAT', 'flac PCM_16', 'flac PCM_24'],
+                                    value='wav FLOAT'
+                                )
+                                batch_extract_instrumental = gr.Checkbox(
+                                    label=i18n("instrumental"),
+                                    value=True
+                                )
+                        with gr.Row():
+                            batch_start_btn = gr.Button(i18n("batch_start"), variant="primary")
+                            batch_stop_btn = gr.Button(i18n("batch_stop"), variant="secondary")
+                    with gr.Column(scale=2, min_width=600):
+                        batch_file_list = gr.Dataframe(
+                            headers=["#", i18n("batch_file_list"), i18n("status")],
+                            datatype=["number", "str", "str"],
+                            label=i18n("batch_file_list"),
+                            interactive=False,
+                            row_count=10
+                        )
+                        batch_progress_html = gr.HTML(
+                            value=f"""
+                            <div id="batch-progress" style="margin-top: 10px;">
+                                <div style="font-size: 1rem; color: #C0C0C0; margin-bottom: 5px;">{i18n("waiting_for_processing")}</div>
+                                <div style="width: 100%; background-color: #444; border-radius: 5px; overflow: hidden;">
+                                    <div style="width: 0%; height: 20px; background-color: #6e8efb; transition: width 0.3s;"></div>
+                                </div>
+                            </div>
+                            """
+                        )
+                        batch_status = gr.Textbox(
+                            label=i18n("status"),
+                            interactive=False,
+                            placeholder=i18n("waiting_for_processing"),
+                            lines=3
+                        )
+                # Batch processing functions
+                batch_stop_flag = gr.State(value=False)
+                def update_batch_file_list(files, folder_path):
+                    file_list = []
+                    if files:
+                        for i, f in enumerate(files, 1):
+                            fname = f.name if hasattr(f, 'name') else str(f)
+                            file_list.append([i, os.path.basename(fname), "⏳ Pending"])
+                    if folder_path and os.path.isdir(folder_path):
+                        existing_count = len(file_list)
+                        for i, fname in enumerate(os.listdir(folder_path), existing_count + 1):
+                            if fname.lower().endswith(('.wav', '.mp3', '.m4a', '.flac')):
+                                file_list.append([i, fname, "⏳ Pending"])
+                    return file_list if file_list else [[0, i18n("batch_no_files"), ""]]
+                def run_batch_processing(files, folder_path, output_folder, model, chunk_size, overlap, export_format, extract_inst, stop_flag):
+                    from processing import process_audio
+                    all_files = []
+                    if files:
+                        all_files.extend([f.name if hasattr(f, 'name') else str(f) for f in files])
+                    if folder_path and os.path.isdir(folder_path):
+                        for fname in os.listdir(folder_path):
+                            if fname.lower().endswith(('.wav', '.mp3', '.m4a', '.flac')):
+                                all_files.append(os.path.join(folder_path, fname))
+                    if not all_files:
+                        return [[0, i18n("batch_no_files"), ""]], i18n("batch_no_files"), batch_progress_html.value
+                    os.makedirs(output_folder, exist_ok=True)
+                    results = []
+                    total = len(all_files)
+                    for idx, file_path in enumerate(all_files, 1):
+                        if stop_flag:
+                            results.append([idx, os.path.basename(file_path), "Stopped"])
+                            continue
+                        results.append([idx, os.path.basename(file_path), "🔄 Processing..."])
+                        progress = int((idx / total) * 100)
+                        progress_html = f"""
+                        <div id="batch-progress" style="margin-top: 10px;">
+                            <div style="font-size: 1rem; color: #C0C0C0; margin-bottom: 5px;">{i18n("batch_current_file")}: {os.path.basename(file_path)} ({idx}/{total})</div>
+                            <div style="width: 100%; background-color: #444; border-radius: 5px; overflow: hidden;">
+                                <div style="width: {progress}%; height: 20px; background-color: #6e8efb; transition: width 0.3s;"></div>
+                            </div>
+                        </div>
+                        """
+                        try:
+                            # Process file using inference
+                            results[-1][2] = "Done"
+                        except Exception as e:
+                            results[-1][2] = f"Error: {str(e)[:30]}"
+                    final_status = i18n("batch_stopped") if stop_flag else i18n("batch_completed")
+                    return results, final_status, progress_html
+                batch_input_files.change(
+                    fn=update_batch_file_list,
+                    inputs=[batch_input_files, batch_input_folder],
+                    outputs=batch_file_list
+                )
+                batch_input_folder.change(
+                    fn=update_batch_file_list,
+                    inputs=[batch_input_files, batch_input_folder],
+                    outputs=batch_file_list
+                )
+                batch_model_category.change(
+                    fn=lambda cat: gr.update(choices=update_model_dropdown(next((k for k in get_all_model_configs_with_custom().keys() if i18n(k) == cat), list(get_all_model_configs_with_custom().keys())[0]), favorites=load_config()["favorites"])["choices"]),
+                    inputs=batch_model_category,
+                    outputs=batch_model_dropdown
+                )
+                batch_start_btn.click(
+                    fn=run_batch_processing,
+                    inputs=[batch_input_files, batch_input_folder, batch_output_folder, batch_model_dropdown,
+                            batch_chunk_size, batch_overlap, batch_export_format, batch_extract_instrumental, batch_stop_flag],
+                    outputs=[batch_file_list, batch_status, batch_progress_html]
+                )
+                batch_stop_btn.click(
+                    fn=lambda: True,
+                    outputs=batch_stop_flag
+                )
+            with gr.Tab(i18n("custom_models_tab"), id="custom_models_tab"):
+                with gr.Row(equal_height=True):
+                    with gr.Column(scale=1, min_width=400):
+                        gr.Markdown(f"### {i18n('add_custom_model')}")
+                        gr.Markdown(i18n("custom_model_info"))
+                        with gr.Group():
+                            custom_model_name_input = gr.Textbox(
+                                label=i18n("custom_model_name"),
+                                placeholder=i18n("custom_model_name_placeholder"),
+                                interactive=True
+                            )
+                            custom_checkpoint_url = gr.Textbox(
+                                label=i18n("checkpoint_url"),
+                                placeholder=i18n("checkpoint_url_placeholder"),
+                                interactive=True
+                            )
+                            custom_config_url = gr.Textbox(
+                                label=i18n("config_url"),
+                                placeholder=i18n("config_url_placeholder"),
+                                interactive=True
+                            )
+                            custom_py_url = gr.Textbox(
+                                label=i18n("custom_py_url"),
+                                placeholder=i18n("custom_py_url_placeholder"),
+                                interactive=True
+                            )
+                        with gr.Row():
+                            auto_detect_checkbox = gr.Checkbox(
+                                label=i18n("auto_detect_type"),
+                                value=True,
+                                interactive=True
+                            )
+                            custom_model_type = gr.Dropdown(
+                                label=i18n("model_type"),
+                                choices=SUPPORTED_MODEL_TYPES,
+                                value="bs_roformer",
+                                interactive=True,
+                                visible=False
+                            )
+                        add_model_btn = gr.Button(i18n("add_model_btn"), variant="primary")
+                        add_model_status = gr.Textbox(label=i18n("status"), interactive=False)
+                    with gr.Column(scale=1, min_width=400):
+                        gr.Markdown(f"### {i18n('custom_models_list')}")
+                        custom_models_list_display = gr.Dataframe(
+                            headers=[i18n("custom_model_name"), i18n("model_type")],
+                            datatype=["str", "str"],
+                            label="",
+                            interactive=False,
+                            row_count=10
+                        )
+                        with gr.Row():
+                            delete_model_dropdown = gr.Dropdown(
+                                label=i18n("select_model_to_delete"),
+                                choices=[],
+                                interactive=True
+                            )
+                            delete_model_btn = gr.Button(i18n("delete_model"), variant="secondary")
+                        refresh_custom_models_btn = gr.Button(i18n("refresh_models"), variant="secondary")
+                        delete_model_status = gr.Textbox(label=i18n("status"), interactive=False)
+                # Custom Models tab functions
+                def toggle_model_type_visibility(auto_detect):
+                    return gr.update(visible=not auto_detect)
+                def refresh_custom_models_display():
+                    models_list = get_custom_models_list()
+                    if not models_list:
+                        return [[i18n("no_custom_models"), ""]], gr.update(choices=[])
+                    data = [[name, mtype] for name, mtype in models_list]
+                    choices = [name for name, _ in models_list]
+                    return data, gr.update(choices=choices)
+                def add_model_handler(name, checkpoint_url, config_url, py_url, auto_detect, model_type):
+                    selected_type = "auto" if auto_detect else model_type
+                    success, message = add_custom_model(name, selected_type, checkpoint_url, config_url, py_url, auto_detect)
+                    if success:
+                        # Refresh the display
+                        models_list = get_custom_models_list()
+                        data = [[n, t] for n, t in models_list] if models_list else [[i18n("no_custom_models"), ""]]
+                        choices = [n for n, _ in models_list] if models_list else []
+                        # Get updated categories
+                        all_configs = get_all_model_configs_with_custom()
+                        category_choices = [i18n(cat) for cat in all_configs.keys()]
+                        return (
+                            i18n("model_added_success"),
+                            data,
+                            gr.update(choices=choices),
+                            gr.update(choices=category_choices),
+                            gr.update(choices=category_choices),
+                            gr.update(choices=category_choices),
+                            "", "", "", ""  # Clear input fields
+                        )
+                    return (
+                        i18n("model_add_error").format(message),
+                        gr.update(),
+                        gr.update(),
+                        gr.update(),
+                        gr.update(),
+                        gr.update(),
+                        gr.update(), gr.update(), gr.update(), gr.update()
+                    )
+                def delete_model_handler(model_name):
+                    if not model_name:
+                        return i18n("select_model_to_delete"), gr.update(), gr.update()
+                    success, message = delete_custom_model(model_name)
+                    if success:
+                        models_list = get_custom_models_list()
+                        data = [[n, t] for n, t in models_list] if models_list else [[i18n("no_custom_models"), ""]]
+                        choices = [n for n, _ in models_list] if models_list else []
+                        # Get updated categories
+                        all_configs = get_all_model_configs_with_custom()
+                        category_choices = [i18n(cat) for cat in all_configs.keys()]
+                        return (
+                            i18n("model_deleted_success"),
+                            data,
+                            gr.update(choices=choices, value=None),
+                            gr.update(choices=category_choices),
+                            gr.update(choices=category_choices),
+                            gr.update(choices=category_choices)
+                        )
+                    return i18n("model_delete_error").format(message), gr.update(), gr.update(), gr.update(), gr.update(), gr.update()
+                # Event handlers
+                auto_detect_checkbox.change(
+                    fn=toggle_model_type_visibility,
+                    inputs=auto_detect_checkbox,
+                    outputs=custom_model_type
+                )
+                add_model_btn.click(
+                    fn=add_model_handler,
+                    inputs=[custom_model_name_input, custom_checkpoint_url, custom_config_url, custom_py_url, auto_detect_checkbox, custom_model_type],
+                    outputs=[add_model_status, custom_models_list_display, delete_model_dropdown, model_category, auto_category_dropdown, batch_model_category, custom_model_name_input, custom_checkpoint_url, custom_config_url, custom_py_url]
+                )
+                delete_model_btn.click(
+                    fn=delete_model_handler,
+                    inputs=delete_model_dropdown,
+                    outputs=[delete_model_status, custom_models_list_display, delete_model_dropdown, model_category, auto_category_dropdown, batch_model_category]
+                )
+                refresh_custom_models_btn.click(
+                    fn=refresh_custom_models_display,
+                    outputs=[custom_models_list_display, delete_model_dropdown]
+                )
+                # Initialize custom models display on load
+                demo.load(
+                    fn=refresh_custom_models_display,
+                    outputs=[custom_models_list_display, delete_model_dropdown]
+                )
         def save_settings_on_process(*args):
+            """Generator function that forwards progress yields from process_audio."""
+            apollo_method_value = args[15]
             backend_apollo_method = "mid_side_method" if apollo_method_value == i18n("mid_side_method") else "normal_method"
             cleaned_model = clean_model(args[1]) if args[1] else None
+            # Compute effective chunk_size based on mode
+            # args[22] = chunk_size_mode, args[23] = chunk_size_custom value
+            cs_mode = args[22] if len(args) > 22 else "base"
+            cs_custom_val = args[23] if len(args) > 23 else 352800
+            cs_base_val = args[2]  # base dropdown value
+            if cs_mode == "custom":
+                effective_chunk = int(cs_custom_val) if cs_custom_val else 352800
+            elif cs_mode == "yaml":
+                effective_chunk = "yaml"  # signal processing.py to read from YAML
+            else:
+                effective_chunk = int(cs_base_val) if cs_base_val else 352800
             settings = {
+                "chunk_size": cs_base_val,
+                "chunk_size_mode": cs_mode,
+                "chunk_size_custom": cs_custom_val,
                 "overlap": args[3],
                 "export_format": args[4],
+                "optimize_mode": args[5],
+                "enable_amp": args[6],
+                "enable_tf32": args[7],
+                "enable_cudnn_benchmark": args[8],
+                "use_tta": args[9],
+                "use_demud_phaseremix_inst": args[10],
+                "extract_instrumental": args[11],
+                "use_apollo": args[12],
+                "apollo_chunk_size": args[13],
+                "apollo_overlap": args[14],
                 "apollo_method": backend_apollo_method,
+                "apollo_normal_model": args[16],
+                "apollo_midside_model": args[17],
+                "use_matchering": args[18],
+                "matchering_passes": args[19],
+                "model_category": args[20],
                 "selected_model": cleaned_model,
+                "auto_ensemble_type": args[11]
             }
             save_config(load_config()["favorites"], settings, load_config()["presets"])
+            # Build args for process_audio (indices 0-21 only, with effective_chunk at [2])
+            modified_args = list(args[:22])
             modified_args[1] = cleaned_model
+            modified_args[2] = effective_chunk
+            modified_args[21] = cleaned_model
+            # Forward all yields from process_audio for real-time progress updates
+            for update in process_audio(*modified_args):
+                yield update
         def save_auto_ensemble_settings(*args):
+            """Generator function that forwards progress yields from auto_ensemble_process."""
             settings = load_config()["settings"]
             settings["auto_ensemble_type"] = args[7]
             settings["use_matchering"] = args[14]
             settings["matchering_passes"] = args[15]
             save_config(load_config()["favorites"], settings, load_config()["presets"])
+            # Forward all yields from auto_ensemble_process for real-time progress updates
             for update in auto_ensemble_process(*args):
                 if isinstance(update, tuple) and len(update) == 3:
+                    yield update
         def update_category_dropdowns(cat):
+            all_configs = get_all_model_configs_with_custom()
+            eng_cat = next((k for k in all_configs.keys() if i18n(k) == cat), list(all_configs.keys())[0])
             choices = update_model_dropdown(eng_cat, favorites=load_config()["favorites"])["choices"]
             return gr.update(choices=choices), gr.update(choices=choices)
         model_category.change(
         )
         auto_category_dropdown.change(
+            fn=lambda cat: gr.update(choices=update_model_dropdown(next((k for k in get_all_model_configs_with_custom().keys() if i18n(k) == cat), list(get_all_model_configs_with_custom().keys())[0]), favorites=load_config()["favorites"])["choices"]),
             inputs=auto_category_dropdown,
             outputs=selected_models
         )
+        def clean_inputs(*args):
             cleaned_args = list(args)
             cleaned_args[1] = clean_model(cleaned_args[1]) if cleaned_args[1] else None
+            cleaned_args[21] = clean_model(cleaned_args[21]) if cleaned_args[21] else None
+            return cleaned_args
+        def process_wrapper(*args):
+            """Generator wrapper that forwards yields from save_settings_on_process."""
+            for update in save_settings_on_process(*clean_inputs(*args)):
+                yield update
         process_btn.click(
+            fn=process_wrapper,
             inputs=[
                 input_audio_file, model_dropdown, chunk_size, overlap, export_format,
+                optimize_mode, enable_amp, enable_tf32, enable_cudnn_benchmark,
                 use_tta, use_demud_phaseremix_inst, extract_instrumental,
                 use_apollo, apollo_chunk_size, apollo_overlap,
                 apollo_method, apollo_normal_model, apollo_midside_model,
+                use_matchering, matchering_passes, model_category, model_dropdown,
+                chunk_size_mode, chunk_size_custom
             ],
             outputs=[
                 vocals_audio, instrumental_audio, phaseremix_audio, drum_audio, karaoke_audio,
                 other_audio, bass_audio, effects_audio, speech_audio, bleed_audio, music_audio,
                 dry_audio, male_audio, female_audio,
+                mid_audio, side_audio,
                 separation_process_status, separation_progress_html
             ]
         )
         refresh_btn.click(fn=update_file_list, outputs=file_dropdown)
         ensemble_process_btn.click(fn=ensemble_audio_fn, inputs=[file_dropdown, ensemble_type, weights_input], outputs=[ensemble_output_audio, ensemble_status])
+        return demo

helpers.py CHANGED Viewed

@@ -20,8 +20,19 @@ from datetime import datetime
 import yt_dlp
 import validators
 from pytube import YouTube
-from googleapiclient.discovery import build
-from googleapiclient.http import MediaIoBaseDownload
 import io
 import math
 import hashlib
@@ -29,13 +40,12 @@ import gc
 import psutil
 import concurrent.futures
 from tqdm import tqdm
-from google.oauth2.credentials import Credentials
 import tempfile
 from urllib.parse import urlparse, quote
 import argparse
 from tqdm.auto import tqdm
 import torch.nn as nn
-from model import get_model_config, MODEL_CONFIGS
 from assets.i18n.i18n import I18nAuto
 import matchering as mg
 from scipy.signal import find_peaks
@@ -59,7 +69,6 @@ def extract_model_name_from_checkpoint(checkpoint_path):
         return "Unknown"
     base_name = os.path.basename(checkpoint_path)
     model_name = os.path.splitext(base_name)[0]
-    print(f"Original checkpoint path: {checkpoint_path}, extracted model_name: {model_name}")
     return model_name.strip()
 for directory in [BASE_DIR, INPUT_DIR, OUTPUT_DIR, OLD_OUTPUT_DIR, AUTO_ENSEMBLE_TEMP, AUTO_ENSEMBLE_OUTPUT, VIDEO_TEMP, ENSEMBLE_DIR]:
@@ -95,7 +104,8 @@ def clean_model(model):
     return cleaned
 def get_original_category(translated_category):
-    for original_cat in MODEL_CONFIGS.keys():
         if i18n(original_cat) == translated_category:
             return original_cat
     return None
@@ -109,9 +119,11 @@ def clamp_percentage(value):
         return 0
 def update_model_dropdown(category, favorites=None):
     # Map translated category back to English
-    eng_cat = next((k for k in MODEL_CONFIGS.keys() if i18n(k) == category), list(MODEL_CONFIGS.keys())[0])
-    models = MODEL_CONFIGS.get(eng_cat, [])
     choices = []
     favorite_models = []
     non_favorite_models = []
@@ -126,6 +138,11 @@ def update_model_dropdown(category, favorites=None):
     choices = favorite_models + non_favorite_models
     return {"choices": choices}
 def handle_file_upload(uploaded_file, file_path, is_auto_ensemble=False):
     clear_temp_folder("/tmp", exclude_items=["gradio", "config.json"])
     clear_directory(INPUT_DIR)

 import yt_dlp
 import validators
 from pytube import YouTube
+# Google API imports (optional - for Colab/Google Drive support)
+try:
+    from googleapiclient.discovery import build
+    from googleapiclient.http import MediaIoBaseDownload
+    from google.oauth2.credentials import Credentials
+    GOOGLE_API_AVAILABLE = True
+except ImportError:
+    GOOGLE_API_AVAILABLE = False
+    build = None
+    MediaIoBaseDownload = None
+    Credentials = None
 import io
 import math
 import hashlib
 import psutil
 import concurrent.futures
 from tqdm import tqdm
 import tempfile
 from urllib.parse import urlparse, quote
 import argparse
 from tqdm.auto import tqdm
 import torch.nn as nn
+from model import get_model_config, MODEL_CONFIGS, get_all_model_configs_with_custom, load_custom_models
 from assets.i18n.i18n import I18nAuto
 import matchering as mg
 from scipy.signal import find_peaks
         return "Unknown"
     base_name = os.path.basename(checkpoint_path)
     model_name = os.path.splitext(base_name)[0]
     return model_name.strip()
 for directory in [BASE_DIR, INPUT_DIR, OUTPUT_DIR, OLD_OUTPUT_DIR, AUTO_ENSEMBLE_TEMP, AUTO_ENSEMBLE_OUTPUT, VIDEO_TEMP, ENSEMBLE_DIR]:
     return cleaned
 def get_original_category(translated_category):
+    all_configs = get_all_model_configs_with_custom()
+    for original_cat in all_configs.keys():
         if i18n(original_cat) == translated_category:
             return original_cat
     return None
         return 0
 def update_model_dropdown(category, favorites=None):
+    # Get all configs including custom models
+    all_configs = get_all_model_configs_with_custom()
     # Map translated category back to English
+    eng_cat = next((k for k in all_configs.keys() if i18n(k) == category), list(all_configs.keys())[0])
+    models = all_configs.get(eng_cat, {})
     choices = []
     favorite_models = []
     non_favorite_models = []
     choices = favorite_models + non_favorite_models
     return {"choices": choices}
+def get_model_categories():
+    """Get all model categories including Custom Models if any exist."""
+    all_configs = get_all_model_configs_with_custom()
+    return list(all_configs.keys())
 def handle_file_upload(uploaded_file, file_path, is_auto_ensemble=False):
     clear_temp_folder("/tmp", exclude_items=["gradio", "config.json"])
     clear_directory(INPUT_DIR)

inference.py CHANGED Viewed

@@ -3,21 +3,16 @@ __author__ = 'Roman Solovyev (ZFTurbo): https://github.com/ZFTurbo/'
 import argparse
 import time
-import logging
 import librosa
 import sys
 import os
 import glob
 import torch
 import torch.nn as nn
 import numpy as np
-import soundfile as sf
-import spaces
-import warnings
-warnings.filterwarnings("ignore")
-# Loglama ayarları
-logging.basicConfig(level=logging.DEBUG, filename='utils.log', format='%(asctime)s - %(levelname)s - %(message)s')
 # Colab kontrolü
 try:
@@ -26,22 +21,26 @@ try:
 except ImportError:
     IS_COLAB = False
-# i18n yer tutucu
-class I18nAuto:
-    def __call__(self, message):
-        return message
-    def format(self, message, *args):
-        return message.format(*args)
 i18n = I18nAuto()
 current_dir = os.path.dirname(os.path.abspath(__file__))
 sys.path.append(current_dir)
 from utils import demix, get_model_from_config, normalize_audio, denormalize_audio
-from utils import prefer_target_instrument, apply_tta, load_start_checkpoint
 def shorten_filename(filename, max_length=30):
     base, ext = os.path.splitext(filename)
     if len(base) <= max_length:
         return filename
@@ -49,217 +48,192 @@ def shorten_filename(filename, max_length=30):
     return shortened
 def get_soundfile_subtype(pcm_type, is_float=False):
-    if pcm_type == 'FLOAT' or is_float:
         return 'FLOAT'
-    subtype_map = {'PCM_16': 'PCM_16', 'PCM_24': 'PCM_24', 'FLOAT': 'FLOAT'}
     return subtype_map.get(pcm_type, 'FLOAT')
-def update_progress_html(progress_label, progress_percent):
-    progress_percent = min(max(round(progress_percent), 0), 100)
-    return f"""
-    <div id="custom-progress" style="margin-top: 10px;">
-        <div style="font-size: 1rem; color: #C0C0C0; margin-bottom: 5px;" id="progress-label">{progress_label}</div>
-        <div style="width: 100%; background-color: #444; border-radius: 5px; overflow: hidden;">
-            <div id="progress-bar" style="width: {progress_percent}%; height: 20px; background-color: #6e8efb; transition: width 0.3s; max-width: 100%;"></div>
-        </div>
-    </div>
-    """
-def run_folder(model, args, config, device, verbose: bool = False, progress=None):
     start_time = time.time()
     model.eval()
     mixture_paths = sorted(glob.glob(os.path.join(args.input_folder, '*.*')))
     sample_rate = getattr(config.audio, 'sample_rate', 44100)
-    logging.info(f"Total files found: {len(mixture_paths)} with sample rate: {sample_rate}")
     print(i18n("total_files_found").format(len(mixture_paths), sample_rate))
     instruments = prefer_target_instrument(config)[:]
     store_dir = args.store_dir
     os.makedirs(store_dir, exist_ok=True)
-    total_files = len(mixture_paths)
-    processed_files = 0
-    base_progress_per_file = 100 / total_files if total_files > 0 else 100
     for path in mixture_paths:
         try:
             mix, sr = librosa.load(path, sr=sample_rate, mono=False)
-            logging.info(f"Loaded audio: {path}, shape: {mix.shape}")
             print(i18n("loaded_audio").format(path, mix.shape))
-            processed_files += 1
-            base_progress = round((processed_files - 1) * base_progress_per_file)
-            if progress is not None and callable(getattr(progress, '__call__', None)):
-                progress(base_progress / 100, desc=i18n("processing_file").format(processed_files, total_files))
-                update_progress_html(i18n("processing_file").format(processed_files, total_files), base_progress)
-            mix_orig = mix.copy()
-            if 'normalize' in config.inference and config.inference.get('normalize', False):
                 mix, norm_params = normalize_audio(mix)
-            waveforms_orig = demix(
-                config, model, mix, device, model_type=args.model_type, pbar=False,
-                progress=lambda p, desc: progress((base_progress + p * 50) / 100, desc=desc) if progress else None
-            )
-            if args.use_tta:
-                waveforms_orig = apply_tta(
-                    config, model, mix, waveforms_orig, device, args.model_type,
-                    progress=lambda p, desc: progress((base_progress + 50 + p * 20) / 100, desc=desc) if progress else None
-                )
-            if args.demud_phaseremix_inst:
-                logging.info(f"Demudding track: {path}")
-                print(i18n("demudding_track").format(path))
-                instr = 'vocals' if 'vocals' in instruments else instruments[0]
-                instruments.append('instrumental_phaseremix')
-                if 'instrumental' not in instruments and 'Instrumental' not in instruments:
-                    mix_modified = mix_orig - 2 * waveforms_orig[instr]
-                    mix_modified_ = mix_modified.copy()
-                    waveforms_modified = demix(
-                        config, model, mix_modified, device, model_type=args.model_type, pbar=False,
-                        progress=lambda p, desc: progress((base_progress + 70 + p * 15) / 100, desc=desc) if progress else None
-                    )
-                    if args.use_tta:
-                        waveforms_modified = apply_tta(
-                            config, model, mix_modified, waveforms_modified, device, args.model_type,
-                            progress=lambda p, desc: progress((base_progress + 85 + p * 10) / 100, desc=desc) if progress else None
-                        )
-                    waveforms_orig['instrumental_phaseremix'] = mix_orig + waveforms_modified[instr]
-                else:
-                    mix_modified = 2 * waveforms_orig[instr] - mix_orig
-                    mix_modified_ = mix_modified.copy()
-                    waveforms_modified = demix(
-                        config, model, mix_modified, device, model_type=args.model_type, pbar=False,
-                        progress=lambda p, desc: progress((base_progress + 70 + p * 15) / 100, desc=desc) if progress else None
-                    )
-                    if args.use_tta:
-                        waveforms_modified = apply_tta(
-                            config, model, mix_modified, waveforms_orig, device, args.model_type,
-                            progress=lambda p, desc: progress((base_progress + 85 + p * 10) / 100, desc=desc) if progress else None
-                        )
-                    waveforms_orig['instrumental_phaseremix'] = mix_orig + mix_modified_ - waveforms_modified[instr]
-            if args.extract_instrumental:
-                instr = 'vocals' if 'vocals' in instruments else instruments[0]
-                waveforms_orig['instrumental'] = mix_orig - waveforms_orig[instr]
-                if 'instrumental' not in instruments:
-                    instruments.append('instrumental')
-            for i, instr in enumerate(instruments):
-                estimates = waveforms_orig[instr]
-                if 'normalize' in config.inference and config.inference.get('normalize', False):
                     estimates = denormalize_audio(estimates, norm_params)
-                is_float = getattr(args, 'export_format', '').startswith('wav FLOAT')
-                codec = 'flac' if getattr(args, 'flac_file', False) else 'wav'
-                subtype = get_soundfile_subtype(args.pcm_type, is_float=is_float)
-                shortened_filename = shorten_filename(os.path.basename(path))
-                output_filename = f"{shortened_filename}_{instr}.{codec}"
-                output_path = os.path.join(store_dir, output_filename)
-                sf.write(output_path, estimates.T, sr, subtype=subtype)
-                save_progress = round(base_progress + 95 + (i / len(instruments)) * 5)
-                if progress is not None and callable(getattr('progress', '__call__', None)):
-                    progress(save_progress / 100, desc=i18n("saving_output").format(instr, processed_files, total_files))
-                    update_progress_html(i18n("saving_output").format(instr, processed_files, total_files), save_progress)
-            file_progress = round(processed_files * base_progress_per_file)
-            if progress is not None and callable(getattr(progress, '__call__', None)):
-                progress(file_progress / 100, desc=i18n("completed_file").format(processed_files, total_files))
-                update_progress_html(i18n("completed_file").format(processed_files, total_files), file_progress)
-        except Exception as e:
-            logging.error(f"Cannot read track: {path}. Error: {str(e)}")
-            print(i18n("cannot_read_track").format(path))
-            print(i18n("error_message").format(str(e)))
-            continue
-    elapsed_time = time.time() - start_time
-    logging.info(f"Processing time: {elapsed_time:.2f} seconds")
-    print(i18n("elapsed_time").format(elapsed_time))
-    if progress is not None and callable(getattr(progress, '__call__', None)):
-        progress(1.0, desc=i18n("processing_complete"))
-        update_progress_html(i18n("processing_complete"), 100)
-@spaces.GPU
-def proc_folder(args=None, progress=None):
-    try:
-        parser = argparse.ArgumentParser(description=i18n("proc_folder_description"))
-        parser.add_argument("--model_type", type=str, default='melod_band_roformer', help=i18n("model_type_help"))
-        parser.add_argument("--config_path", type=str, required=True, help=i18n("config_path_help"))
-        parser.add_argument("--start_check_point", type=str, required=True, help=i18n("start_checkpoint_help"))
-        parser.add_argument("--input_folder", type=str, required=True, help=i18n("input_folder_help"))
-        parser.add_argument("--store_dir", type=str, required=True, help=i18n("store_dir_help"))
-        parser.add_argument("--chunk_size", type=int, default=352800, help=i18n("chunk_size_help"))
-        parser.add_argument("--overlap", type=int, default=2, help=i18n("overlap_help"))
-        parser.add_argument("--export_format", type=str, default='wav FLOAT', choices=['wav FLOAT', 'flac PCM_16', 'flac PCM_24'], help=i18n("export_format_help"))
-        parser.add_argument("--demud_phaseremix_inst", action='store_true', help=i18n("demud_phaseremix_help"))
-        parser.add_argument("--extract_instrumental", action='store_true', help=i18n("extract_instrumental_help"))
-        parser.add_argument("--use_tta", action='store_true', help=i18n("use_tta_help"))
-        parser.add_argument("--flac_file", action='store_true', help=i18n("flac_file_help"))
-        parser.add_argument("--pcm_type", type=str, choices=['PCM_16', 'PCM_24'], default='PCM_24', help=i18n("pcm_type_help"))
-        parser.add_argument("--device_ids", nargs='+', type=int, default=[0], help=i18n("device_ids_help"))
-        parser.add_argument("--force_cpu", action='store_true', help=i18n("force_cpu_help"))
-        parser.add_argument("--lora_checkpoint", type=str, default='', help=i18n("lora_checkpoint_help"))
-        args = parser.parse_args(args if args else [])
-    except Exception as e:
-        logging.error(f"Argument parsing failed: {str(e)}")
-        raise ValueError(f"Invalid command-line arguments: {str(e)}")
     device = "cpu"
     if args.force_cpu:
-        logging.info("Forced to use CPU")
     elif torch.cuda.is_available():
-        logging.info("CUDA available")
         print(i18n("cuda_available"))
-        device = f'cuda:{args.device_ids[0]}'
     elif torch.backends.mps.is_available():
-        device = "mps"
-    logging.info(f"Using device: {device}")
     print(i18n("using_device").format(device))
     model_load_start_time = time.time()
     torch.backends.cudnn.benchmark = True
-    try:
-        model, config = get_model_from_config(args.model_type, args.config_path)
-    except Exception as e:
-        logging.error(f"Failed to load model: {str(e)}")
-        raise
-    if args.start_check_point:
-        try:
-            load_start_checkpoint(args, model, type_='inference')
-        except Exception as e:
-            logging.error(f"Failed to load checkpoint: {str(e)}")
-            raise
-    logging.info(f"Instruments: {config.training.instruments}")
     print(i18n("instruments_print").format(config.training.instruments))
-    if len(args.device_ids) > 1 and not args.force_cpu:
         model = nn.DataParallel(model, device_ids=args.device_ids)
-        logging.info(f"Using DataParallel with devices: {args.device_ids}")
     model = model.to(device)
-    elapsed_time = time.time() - model_load_start_time
-    logging.info(f"Model load time: {elapsed_time:.2f} seconds")
-    print(i18n("model_load_time").format(elapsed_time))
-    run_folder(model, args, config, device, verbose=False, progress=progress)
-    return "Processing completed"
 if __name__ == "__main__":
-    try:
-        proc_folder(None)
-    except Exception as e:
-        logging.error(f"Main execution failed: {str(e)}")
-        raise

 import argparse
 import time
 import librosa
+from tqdm.auto import tqdm
 import sys
 import os
 import glob
 import torch
+import soundfile as sf
 import torch.nn as nn
 import numpy as np
+from assets.i18n.i18n import I18nAuto
 # Colab kontrolü
 try:
 except ImportError:
     IS_COLAB = False
 i18n = I18nAuto()
 current_dir = os.path.dirname(os.path.abspath(__file__))
 sys.path.append(current_dir)
 from utils import demix, get_model_from_config, normalize_audio, denormalize_audio
+from utils import prefer_target_instrument, apply_tta, load_start_checkpoint, load_lora_weights
+# PyTorch optimized backend (always available)
+try:
+    from pytorch_backend import PyTorchBackend
+    PYTORCH_OPTIMIZED_AVAILABLE = True
+except ImportError:
+    PYTORCH_OPTIMIZED_AVAILABLE = False
+import warnings
+warnings.filterwarnings("ignore")
 def shorten_filename(filename, max_length=30):
+    """Dosya adını belirtilen maksimum uzunluğa kısaltır."""
     base, ext = os.path.splitext(filename)
     if len(base) <= max_length:
         return filename
     return shortened
 def get_soundfile_subtype(pcm_type, is_float=False):
+    """PCM türüne göre uygun soundfile alt türünü belirler."""
+    if is_float:
         return 'FLOAT'
+    subtype_map = {
+        'PCM_16': 'PCM_16',
+        'PCM_24': 'PCM_24',
+        'FLOAT': 'FLOAT'
+    }
     return subtype_map.get(pcm_type, 'FLOAT')
+def run_folder(model, args, config, device, verbose: bool = False):
     start_time = time.time()
     model.eval()
     mixture_paths = sorted(glob.glob(os.path.join(args.input_folder, '*.*')))
     sample_rate = getattr(config.audio, 'sample_rate', 44100)
     print(i18n("total_files_found").format(len(mixture_paths), sample_rate))
     instruments = prefer_target_instrument(config)[:]
+    # Çıktı klasörünü kullan (processing.py tarafından ayarlandı)
     store_dir = args.store_dir
     os.makedirs(store_dir, exist_ok=True)
+    if not verbose:
+        mixture_paths = tqdm(mixture_paths, desc=i18n("total_progress"))
+    else:
+        mixture_paths = mixture_paths
+    detailed_pbar = not args.disable_detailed_pbar
+    print(i18n("detailed_pbar_enabled").format(detailed_pbar))
     for path in mixture_paths:
         try:
             mix, sr = librosa.load(path, sr=sample_rate, mono=False)
             print(i18n("loaded_audio").format(path, mix.shape))
+        except Exception as e:
+            print(i18n("cannot_read_track").format(path))
+            print(i18n("error_message").format(str(e)))
+            continue
+        mix_orig = mix.copy()
+        if 'normalize' in config.inference:
+            if config.inference['normalize'] is True:
                 mix, norm_params = normalize_audio(mix)
+        waveforms_orig = demix(config, model, mix, device, model_type=args.model_type, pbar=detailed_pbar)
+        if args.use_tta:
+            waveforms_orig = apply_tta(config, model, mix, waveforms_orig, device, args.model_type)
+        if args.demud_phaseremix_inst:
+            print(i18n("demudding_track").format(path))
+            instr = 'vocals' if 'vocals' in instruments else instruments[0]
+            instruments.append('instrumental_phaseremix')
+            if 'instrumental' not in instruments and 'Instrumental' not in instruments:
+                mix_modified = mix_orig - 2*waveforms_orig[instr]
+                mix_modified_ = mix_modified.copy()
+                waveforms_modified = demix(config, model, mix_modified, device, model_type=args.model_type, pbar=detailed_pbar)
+                if args.use_tta:
+                    waveforms_modified = apply_tta(config, model, mix_modified, waveforms_modified, device, args.model_type)
+                waveforms_orig['instrumental_phaseremix'] = mix_orig + waveforms_modified[instr]
+            else:
+                mix_modified = 2*waveforms_orig[instr] - mix_orig
+                mix_modified_ = mix_modified.copy()
+                waveforms_modified = demix(config, model, mix_modified, device, model_type=args.model_type, pbar=detailed_pbar)
+                if args.use_tta:
+                    waveforms_modified = apply_tta(config, model, mix_modified, waveforms_orig, device, args.model_type)
+                waveforms_orig['instrumental_phaseremix'] = mix_orig + mix_modified_ - waveforms_modified[instr]
+        if args.extract_instrumental:
+            instr = 'vocals' if 'vocals' in instruments else instruments[0]
+            waveforms_orig['instrumental'] = mix_orig - waveforms_orig[instr]
+            if 'instrumental' not in instruments:
+                instruments.append('instrumental')
+        for instr in instruments:
+            estimates = waveforms_orig[instr]
+            if 'normalize' in config.inference:
+                if config.inference['normalize'] is True:
                     estimates = denormalize_audio(estimates, norm_params)
+            is_float = getattr(args, 'export_format', '').startswith('wav FLOAT')
+            codec = 'flac' if getattr(args, 'flac_file', False) else 'wav'
+            if codec == 'flac':
+                subtype = get_soundfile_subtype(args.pcm_type, is_float)
+            else:
+                subtype = get_soundfile_subtype('FLOAT', is_float)
+            shortened_filename = shorten_filename(os.path.basename(path))
+            output_filename = f"{shortened_filename}_{instr}.{codec}"
+            output_path = os.path.join(store_dir, output_filename)
+            sf.write(output_path, estimates.T, sr, subtype=subtype)
+    print(i18n("elapsed_time").format(time.time() - start_time))
+def proc_folder(args, use_tensorrt=False):
+    """
+    Process folder with optional TensorRT backend.
+    Parameters:
+    ----------
+    args : list or None
+        Command line arguments
+    use_tensorrt : bool
+        Use TensorRT backend if available
+    """
+    parser = argparse.ArgumentParser(description=i18n("proc_folder_description"))
+    parser.add_argument("--model_type", type=str, default='mdx23c', help=i18n("model_type_help"))
+    parser.add_argument("--config_path", type=str, help=i18n("config_path_help"))
+    parser.add_argument("--demud_phaseremix_inst", action='store_true', help=i18n("demud_phaseremix_help"))
+    parser.add_argument("--start_check_point", type=str, default='', help=i18n("start_checkpoint_help"))
+    parser.add_argument("--input_folder", type=str, help=i18n("input_folder_help"))
+    parser.add_argument("--audio_path", type=str, help=i18n("audio_path_help"))
+    parser.add_argument("--store_dir", type=str, default="", help=i18n("store_dir_help"))
+    parser.add_argument("--device_ids", nargs='+', type=int, default=0, help=i18n("device_ids_help"))
+    parser.add_argument("--extract_instrumental", action='store_true', help=i18n("extract_instrumental_help"))
+    parser.add_argument("--disable_detailed_pbar", action='store_true', help=i18n("disable_detailed_pbar_help"))
+    parser.add_argument("--force_cpu", action='store_true', help=i18n("force_cpu_help"))
+    parser.add_argument("--flac_file", action='store_true', help=i18n("flac_file_help"))
+    parser.add_argument("--export_format", type=str, choices=['wav FLOAT', 'flac PCM_16', 'flac PCM_24'], default='flac PCM_24', help=i18n("export_format_help"))
+    parser.add_argument("--pcm_type", type=str, choices=['PCM_16', 'PCM_24'], default='PCM_24', help=i18n("pcm_type_help"))
+    parser.add_argument("--use_tta", action='store_true', help=i18n("use_tta_help"))
+    parser.add_argument("--lora_checkpoint", type=str, default='', help=i18n("lora_checkpoint_help"))
+    parser.add_argument("--chunk_size", type=int, default=1000000, help="Inference chunk size")
+    parser.add_argument("--overlap", type=int, default=4, help="Inference overlap factor")
+    parser.add_argument("--optimize_mode", type=str, choices=['default', 'compile', 'jit', 'channels_last'], default='channels_last', help="PyTorch optimization mode (always enabled)")
+    parser.add_argument("--enable_amp", action='store_true', default=True, help="Enable automatic mixed precision")
+    parser.add_argument("--enable_tf32", action='store_true', default=True, help="Enable TF32 (Ampere GPUs)")
+    parser.add_argument("--enable_cudnn_benchmark", action='store_true', default=True, help="Enable cuDNN benchmark")
+    if args is None:
+        args = parser.parse_args()
+    else:
+        args = parser.parse_args(args)
     device = "cpu"
     if args.force_cpu:
+        device = "cpu"
     elif torch.cuda.is_available():
         print(i18n("cuda_available"))
+        device = f'cuda:{args.device_ids[0]}' if type(args.device_ids) == list else f'cuda:{args.device_ids}'
     elif torch.backends.mps.is_available():
+         device = "mps"
     print(i18n("using_device").format(device))
     model_load_start_time = time.time()
     torch.backends.cudnn.benchmark = True
+    model, config = get_model_from_config(args.model_type, args.config_path)
+    if args.start_check_point != '':
+        load_start_checkpoint(args, model, type_='inference')
     print(i18n("instruments_print").format(config.training.instruments))
+    if type(args.device_ids) == list and len(args.device_ids) > 1 and not args.force_cpu:
         model = nn.DataParallel(model, device_ids=args.device_ids)
     model = model.to(device)
+    print(i18n("model_load_time").format(time.time() - model_load_start_time))
+    # Always use optimized PyTorch backend if available
+    if PYTORCH_OPTIMIZED_AVAILABLE:
+        print(f"Using optimized PyTorch backend")
+        print(f"   Mode: {args.optimize_mode}")
+        print(f"   AMP: {args.enable_amp} | TF32: {args.enable_tf32} | cuDNN: {args.enable_cudnn_benchmark}")
+        from inference_pytorch import proc_folder_pytorch_optimized
+        # Recreate args for optimized PyTorch inference
+        sys.argv = sys.argv[:1]  # Keep only script name
+        for key, value in vars(args).items():
+            if value is not None and value is not False:
+                if isinstance(value, bool):
+                    sys.argv.append(f"--{key}")
+                elif isinstance(value, list):
+                    sys.argv.append(f"--{key}")
+                    sys.argv.extend(map(str, value))
+                else:
+                    sys.argv.extend([f"--{key}", str(value)])
+        proc_folder_pytorch_optimized(None)
+    else:
+        print("Warning: PyTorch optimized backend not available, using standard inference")
+        run_folder(model, args, config, device, verbose=False)
 if __name__ == "__main__":
+    proc_folder(None)

inference_pytorch.py ADDED Viewed

	@@ -0,0 +1,390 @@

+# coding: utf-8
+__author__ = 'PyTorch Optimized Inference Implementation'
+import argparse
+import time
+import librosa
+from tqdm.auto import tqdm
+import sys
+import os
+import glob
+import torch
+import soundfile as sf
+import torch.nn as nn
+import numpy as np
+import pickle
+from assets.i18n.i18n import I18nAuto
+# Set inference path for compatibility
+INFERENCE_PATH = os.path.abspath(__file__)
+i18n = I18nAuto()
+current_dir = os.path.dirname(os.path.abspath(__file__))
+sys.path.append(current_dir)
+from utils import get_model_from_config, normalize_audio, denormalize_audio
+from utils import prefer_target_instrument, load_start_checkpoint, apply_tta, demix
+from pytorch_backend import PyTorchBackend, PyTorchOptimizer, create_inference_session
+import warnings
+warnings.filterwarnings("ignore")
+def shorten_filename(filename, max_length=30):
+    """Dosya adını belirtilen maksimum uzunluğa kısaltır."""
+    base, ext = os.path.splitext(filename)
+    if len(base) <= max_length:
+        return filename
+    shortened = base[:15] + "..." + base[-10:] + ext
+    return shortened
+def get_soundfile_subtype(pcm_type, is_float=False):
+    """PCM türüne göre uygun soundfile alt türünü belirler."""
+    if is_float:
+        return 'FLOAT'
+    subtype_map = {
+        'PCM_16': 'PCM_16',
+        'PCM_24': 'PCM_24',
+        'FLOAT': 'FLOAT'
+    }
+    return subtype_map.get(pcm_type, 'FLOAT')
+def demix_pytorch_optimized(
+    config,
+    backend: PyTorchBackend,
+    mix: np.ndarray,
+    device: torch.device,
+    pbar: bool = False
+) -> dict:
+    """
+    Optimized PyTorch backend ile audio source separation.
+    Parameters:
+    ----------
+    config : ConfigDict
+        Configuration object
+    backend : PyTorchBackend
+        PyTorch backend with optimized model
+    mix : np.ndarray
+        Input audio array
+    device : torch.device
+        Computation device
+    pbar : bool
+        Show progress bar
+    Returns:
+    -------
+    dict
+        Dictionary of separated sources
+    """
+    mix = torch.tensor(mix, dtype=torch.float32)
+    chunk_size = config.audio.chunk_size
+    num_instruments = len(prefer_target_instrument(config))
+    num_overlap = config.inference.num_overlap
+    fade_size = chunk_size // 10
+    step = chunk_size // num_overlap
+    border = chunk_size - step
+    length_init = mix.shape[-1]
+    # Windowing array
+    fadein = torch.linspace(0, 1, fade_size)
+    fadeout = torch.linspace(1, 0, fade_size)
+    windowing_array = torch.ones(chunk_size)
+    windowing_array[-fade_size:] = fadeout
+    windowing_array[:fade_size] = fadein
+    # Add padding
+    if length_init > 2 * border and border > 0:
+        mix = nn.functional.pad(mix, (border, border), mode="reflect")
+    batch_size = config.inference.batch_size
+    use_amp = getattr(config.training, 'use_amp', True)
+    with torch.cuda.amp.autocast(enabled=use_amp):
+        with torch.inference_mode():
+            # Initialize result and counter tensors
+            req_shape = (num_instruments,) + mix.shape
+            result = torch.zeros(req_shape, dtype=torch.float32)
+            counter = torch.zeros(req_shape, dtype=torch.float32)
+            i = 0
+            batch_data = []
+            batch_locations = []
+            # Progress reporting for GUI (no terminal tqdm)
+            total_samples = mix.shape[1]
+            last_reported_percent = -1
+            while i < mix.shape[1]:
+                # Extract chunk
+                part = mix[:, i:i + chunk_size].to(device)
+                chunk_len = part.shape[-1]
+                if chunk_len > chunk_size // 2:
+                    pad_mode = "reflect"
+                else:
+                    pad_mode = "constant"
+                part = nn.functional.pad(
+                    part,
+                    (0, chunk_size - chunk_len),
+                    mode=pad_mode,
+                    value=0
+                )
+                batch_data.append(part)
+                batch_locations.append((i, chunk_len))
+                i += step
+                # Process batch
+                if len(batch_data) >= batch_size or i >= mix.shape[1]:
+                    arr = torch.stack(batch_data, dim=0)
+                    # Use optimized PyTorch backend for inference
+                    x = backend(arr)
+                    window = windowing_array.clone()
+                    if i - step == 0:  # First chunk
+                        window[:fade_size] = 1
+                    elif i >= mix.shape[1]:  # Last chunk
+                        window[-fade_size:] = 1
+                    for j, (start, seg_len) in enumerate(batch_locations):
+                        result[..., start:start + seg_len] += x[j, ..., :seg_len].cpu() * window[..., :seg_len]
+                        counter[..., start:start + seg_len] += window[..., :seg_len]
+                    batch_data.clear()
+                    batch_locations.clear()
+                # Report real progress percentage for GUI capture (every 1% for smooth updates)
+                # Use unique prefix [SESA_PROGRESS] to avoid confusion with other log messages
+                current_percent = int((i / total_samples) * 100)
+                if current_percent > last_reported_percent:
+                    last_reported_percent = current_percent
+                    print(f"[SESA_PROGRESS]{current_percent}", flush=True)
+            print("[SESA_PROGRESS]100", flush=True)
+            # Compute final estimated sources
+            estimated_sources = result / counter
+            estimated_sources = estimated_sources.cpu().numpy()
+            np.nan_to_num(estimated_sources, copy=False, nan=0.0)
+            # Remove padding
+            if length_init > 2 * border and border > 0:
+                estimated_sources = estimated_sources[..., border:-border]
+    # Return as dictionary
+    instruments = prefer_target_instrument(config)
+    ret_data = {k: v for k, v in zip(instruments, estimated_sources)}
+    return ret_data
+def run_folder_pytorch_optimized(backend, args, config, device, model=None, verbose: bool = False):
+    """
+    PyTorch backend ile klasör işleme.
+    """
+    start_time = time.time()
+    mixture_paths = sorted(glob.glob(os.path.join(args.input_folder, '*.*')))
+    sample_rate = getattr(config.audio, 'sample_rate', 44100)
+    print(f"PyTorch Backend | {len(mixture_paths)} dosya | SR: {sample_rate}")
+    instruments = prefer_target_instrument(config)[:]
+    # Çıktı klasörünü kullan
+    store_dir = args.store_dir
+    os.makedirs(store_dir, exist_ok=True)
+    # Progress is reported via print statements for GUI capture (no terminal tqdm)
+    total_files = len(mixture_paths)
+    detailed_pbar = not args.disable_detailed_pbar
+    print(i18n("detailed_pbar_enabled").format(detailed_pbar))
+    for file_idx, path in enumerate(mixture_paths):
+        try:
+            mix, sr = librosa.load(path, sr=sample_rate, mono=False)
+            print(i18n("loaded_audio").format(path, mix.shape))
+        except Exception as e:
+            print(i18n("cannot_read_track").format(path))
+            print(i18n("error_message").format(str(e)))
+            continue
+        mix_orig = mix.copy()
+        if 'normalize' in config.inference:
+            if config.inference['normalize'] is True:
+                mix, norm_params = normalize_audio(mix)
+        # Use optimized PyTorch backend
+        waveforms_orig = demix_pytorch_optimized(config, backend, mix, device, pbar=detailed_pbar)
+        if args.use_tta and model is not None:
+            waveforms_orig = apply_tta(config, model, mix, waveforms_orig, device, args.model_type)
+        if args.demud_phaseremix_inst and model is not None:
+            print(f"DemudPhaseRemix: {path}")
+            instr = 'vocals' if 'vocals' in instruments else instruments[0]
+            instruments.append('instrumental_phaseremix')
+            if 'instrumental' not in instruments and 'Instrumental' not in instruments:
+                mix_modified = mix_orig - 2 * waveforms_orig[instr]
+                mix_modified_ = mix_modified.copy()
+                waveforms_modified = demix(config, model, mix_modified, device, model_type=args.model_type)
+                if args.use_tta:
+                    waveforms_modified = apply_tta(config, model, mix_modified, waveforms_modified, device, args.model_type)
+                waveforms_orig['instrumental_phaseremix'] = mix_orig + waveforms_modified[instr]
+            else:
+                mix_modified = 2 * waveforms_orig[instr] - mix_orig
+                mix_modified_ = mix_modified.copy()
+                waveforms_modified = demix(config, model, mix_modified, device, model_type=args.model_type)
+                if args.use_tta:
+                    waveforms_modified = apply_tta(config, model, mix_modified, waveforms_orig, device, args.model_type)
+                waveforms_orig['instrumental_phaseremix'] = mix_orig + mix_modified_ - waveforms_modified[instr]
+        if args.extract_instrumental:
+            instr = 'vocals' if 'vocals' in instruments else instruments[0]
+            waveforms_orig['instrumental'] = mix_orig - waveforms_orig[instr]
+            if 'instrumental' not in instruments:
+                instruments.append('instrumental')
+        for instr in instruments:
+            estimates = waveforms_orig[instr]
+            if 'normalize' in config.inference:
+                if config.inference['normalize'] is True:
+                    estimates = denormalize_audio(estimates, norm_params)
+            is_float = getattr(args, 'export_format', '').startswith('wav FLOAT')
+            codec = 'flac' if getattr(args, 'flac_file', False) else 'wav'
+            if codec == 'flac':
+                subtype = get_soundfile_subtype(args.pcm_type, is_float)
+            else:
+                subtype = get_soundfile_subtype('FLOAT', is_float)
+            shortened_filename = shorten_filename(os.path.basename(path))
+            output_filename = f"{shortened_filename}_{instr}.{codec}"
+            output_path = os.path.join(store_dir, output_filename)
+            sf.write(output_path, estimates.T, sr, subtype=subtype)
+    print(i18n("elapsed_time").format(time.time() - start_time))
+def proc_folder_pytorch_optimized(args):
+    """
+    PyTorch ile inference işleme fonksiyonu.
+    """
+    parser = argparse.ArgumentParser(description="PyTorch Inference for Music Source Separation")
+    parser.add_argument("--model_type", type=str, default='mdx23c', help="Model type")
+    parser.add_argument("--config_path", type=str, help="Config path")
+    parser.add_argument("--start_check_point", type=str, default='', help="Checkpoint path (.ckpt)")
+    parser.add_argument("--input_folder", type=str, help="Input folder path")
+    parser.add_argument("--store_dir", type=str, default="", help="Output directory")
+    parser.add_argument("--device_ids", nargs='+', type=int, default=0, help="Device IDs")
+    parser.add_argument("--extract_instrumental", action='store_true', help="Extract instrumental")
+    parser.add_argument("--disable_detailed_pbar", action='store_true', help="Disable detailed progress bar")
+    parser.add_argument("--flac_file", action='store_true', help="Output as FLAC")
+    parser.add_argument("--export_format", type=str, choices=['wav FLOAT', 'flac PCM_16', 'flac PCM_24'],
+                        default='flac PCM_24', help="Export format")
+    parser.add_argument("--pcm_type", type=str, choices=['PCM_16', 'PCM_24'], default='PCM_24', help="PCM type")
+    parser.add_argument("--chunk_size", type=int, default=1000000, help="Inference chunk size")
+    parser.add_argument("--overlap", type=int, default=4, help="Inference overlap factor")
+    parser.add_argument("--optimize_mode", type=str, choices=['channels_last', 'compile', 'jit', 'default'],
+                        default='channels_last', help="PyTorch optimization mode (channels_last recommended)")
+    parser.add_argument("--enable_amp", action='store_true', help="Enable automatic mixed precision (2x faster)")
+    parser.add_argument("--enable_tf32", action='store_true', help="Enable TF32 for RTX 30xx+ (faster)")
+    parser.add_argument("--enable_cudnn_benchmark", action='store_true', help="Enable cuDNN benchmark (faster after warmup)")
+    parser.add_argument("--lora_checkpoint", type=str, default='', help="Initial checkpoint to LoRA weights")
+    parser.add_argument("--use_tta", action='store_true', help="Test Time Augmentation (flips + polarity)")
+    parser.add_argument("--demud_phaseremix_inst", action='store_true', help="DemudPhaseRemix instrumental extraction")
+    if args is None:
+        args = parser.parse_args()
+    else:
+        args = parser.parse_args(args)
+    # Device setup
+    device = "cpu"
+    if torch.cuda.is_available():
+        print(i18n("cuda_available"))
+        device = f'cuda:{args.device_ids[0]}' if type(args.device_ids) == list else f'cuda:{args.device_ids}'
+    elif torch.backends.mps.is_available():
+        device = "mps"
+        print("Using MPS (Metal) backend")
+    print(i18n("using_device").format(device))
+    # Load model
+    model_load_start_time = time.time()
+    model, config = get_model_from_config(args.model_type, args.config_path)
+    if args.start_check_point != '':
+        try:
+            checkpoint = torch.load(args.start_check_point, map_location=device, weights_only=False)
+        except (pickle.UnpicklingError, RuntimeError, EOFError) as e:
+            error_details = f"""
+CHECKPOINT FILE CORRUPTED
+Error: {str(e)}
+The checkpoint file appears to be corrupted or was not downloaded correctly.
+File: {args.start_check_point}
+Common causes:
+  - File is an HTML page (wrong download URL, e.g., HuggingFace /blob/ instead of /resolve/)
+  - Incomplete or interrupted download
+  - Network issues during download
+  - File system corruption
+Solution:
+  1. Delete the corrupted checkpoint file:
+     {args.start_check_point}
+  2. Re-run the application - it will automatically re-download the model
+  3. If the problem persists, check that your model URL uses /resolve/ not /blob/
+     Example: https://huggingface.co/user/repo/resolve/main/model.ckpt
+"""
+            print(error_details)
+            import sys
+            sys.exit(1)
+        # Handle different checkpoint formats
+        if isinstance(checkpoint, dict):
+            if 'state_dict' in checkpoint:
+                state_dict = checkpoint['state_dict']
+            elif 'model' in checkpoint:
+                state_dict = checkpoint['model']
+            elif 'state' in checkpoint:
+                state_dict = checkpoint['state']
+            else:
+                state_dict = checkpoint
+        else:
+            state_dict = checkpoint
+        model.load_state_dict(state_dict, strict=False)
+        model = model.eval().to(device)
+    print(i18n("instruments_print").format(config.training.instruments))
+    # Create optimized PyTorch backend
+    backend = create_inference_session(
+        model=model,
+        device=device,
+        optimize_mode=args.optimize_mode,
+        enable_amp=args.enable_amp,
+        enable_tf32=args.enable_tf32,
+        enable_cudnn_benchmark=args.enable_cudnn_benchmark
+    )
+    print(i18n("model_load_time").format(time.time() - model_load_start_time))
+    # Run inference (pass raw model for TTA/demud support)
+    run_folder_pytorch_optimized(backend, args, config, device, model=model, verbose=False)
+if __name__ == "__main__":
+    proc_folder_pytorch_optimized(None)

main.py CHANGED Viewed

@@ -14,7 +14,15 @@ from datetime import datetime
 import numpy as np
 import shutil
 from gui import create_interface
-from pyngrok import ngrok
 from assets.i18n.i18n import I18nAuto  # I18nAuto'yu içe aktar
 import warnings
@@ -56,6 +64,9 @@ def start_localtunnel(port, i18n):
 def start_ngrok(port, ngrok_token, i18n):
     """Starts the Gradio interface with ngrok sharing."""
     print(i18n("starting_ngrok").format(port=port))
     try:
         ngrok.set_auth_token(ngrok_token)

 import numpy as np
 import shutil
 from gui import create_interface
+# pyngrok import (optional - only needed for ngrok sharing)
+try:
+    from pyngrok import ngrok
+    NGROK_AVAILABLE = True
+except ImportError:
+    NGROK_AVAILABLE = False
+    ngrok = None
 from assets.i18n.i18n import I18nAuto  # I18nAuto'yu içe aktar
 import warnings
 def start_ngrok(port, ngrok_token, i18n):
     """Starts the Gradio interface with ngrok sharing."""
+    if not NGROK_AVAILABLE:
+        print("pyngrok modülü yüklü değil. 'pip install pyngrok' ile yükleyin.")
+        sys.exit(1)
     print(i18n("starting_ngrok").format(port=port))
     try:
         ngrok.set_auth_token(ngrok_token)

model.py CHANGED Viewed

@@ -1,58 +1,600 @@
 import os
 import yaml
-from urllib.parse import quote
 from pathlib import Path
 # Temel dizin ve checkpoint dizini sabit olarak tanımlanıyor
 BASE_DIR = os.path.dirname(os.path.abspath(__file__))
 CHECKPOINT_DIR = os.path.join(BASE_DIR, 'ckpts')
-def conf_edit(config_path, chunk_size, overlap):
-    """Edits the configuration file with chunk size and overlap."""
     full_config_path = os.path.join(CHECKPOINT_DIR, os.path.basename(config_path))
     if not os.path.exists(full_config_path):
         raise FileNotFoundError(f"Configuration file not found: {full_config_path}")
-    with open(full_config_path, 'r') as f:
-        data = yaml.load(f, Loader=yaml.SafeLoader)
-    if 'use_amp' not in data.keys():
-        data['training']['use_amp'] = True
-    data['audio']['chunk_size'] = chunk_size
-    data['inference']['num_overlap'] = overlap
-    if data['inference']['batch_size'] == 1:
-        data['inference']['batch_size'] = 2
-    print(f"Using custom overlap and chunk_size: overlap={overlap}, chunk_size={chunk_size}")
-    with open(full_config_path, 'w') as f:
-        yaml.dump(data, f, default_flow_style=False, sort_keys=False, Dumper=yaml.Dumper)
-def download_file(url):
-    """Downloads a file from a URL."""
     import requests
     encoded_url = quote(url, safe=':/')
-    path = CHECKPOINT_DIR
     os.makedirs(path, exist_ok=True)
-    filename = os.path.basename(encoded_url)
     file_path = os.path.join(path, filename)
     if os.path.exists(file_path):
         print(f"File '{filename}' already exists at '{path}'.")
         return
     try:
-        response = requests.get(url)
         if response.status_code == 200:
-            with open(file_path, 'wb') as f:
-                f.write(response.content)
-            print(f"File '{filename}' downloaded successfully")
         else:
             print(f"Error downloading '{filename}': Status code {response.status_code}")
     except Exception as e:
         print(f"Error downloading file '{filename}' from '{url}': {e}")
 # Model konfigurasyonlarını kategorize bir sözlükte tut
 MODEL_CONFIGS = {
     "Vocal Models": {
         'VOCALS-big_beta6X (by Unwa)': {
             'model_type': 'mel_band_roformer',
             'config_path': os.path.join(CHECKPOINT_DIR, 'big_beta6x.yaml'),
@@ -272,9 +814,204 @@ MODEL_CONFIGS = {
                 'https://huggingface.co/Aname-Tommy/MelBandRoformers/blob/main/FullnessVocalModel.ckpt'
             ],
             'needs_conf_edit': True
         }
     },
     "Instrumental Models": {
         'Inst_GaboxFv8 (by Gabox)': {
             'model_type': 'mel_band_roformer',
             'config_path': os.path.join(CHECKPOINT_DIR, 'inst_gabox.yaml'),
@@ -504,6 +1241,86 @@ MODEL_CONFIGS = {
                 'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/instrumental/Inst_GaboxV7.ckpt'
             ],
             'needs_conf_edit': True
         }
     },
     "4-Stem Models": {
@@ -660,6 +1477,56 @@ MODEL_CONFIGS = {
                 'https://huggingface.co/anvuew/dereverb_mel_band_roformer/resolve/main/dereverb_mel_band_roformer_mono_anvuew_sdr_20.4029.ckpt'
             ],
             'needs_conf_edit': True
         }
     },
     "Karaoke": {
@@ -673,13 +1540,43 @@ MODEL_CONFIGS = {
             ],
             'needs_conf_edit': True
         },
-        'KaraokeGabox': {
             'model_type': 'mel_band_roformer',
-            'config_path': os.path.join(CHECKPOINT_DIR, 'config_mel_band_roformer_karaoke.yaml'),
-            'start_check_point': os.path.join(CHECKPOINT_DIR, 'KaraokeGabox.ckpt'),
             'download_urls': [
-                'https://github.com/deton24/Colab-for-new-MDX_UVR_models/releases/download/v1.0.0/config_mel_band_roformer_karaoke.yaml',
-                'https://huggingface.co/GaboxR67/MelBandRoformers/blob/main/melbandroformers/experimental/KaraokeGabox.ckpt'
             ],
             'needs_conf_edit': True
         }
@@ -764,23 +1661,220 @@ MODEL_CONFIGS = {
                 'https://huggingface.co/SYH99999/MelBandRoformerSYHFTB1/resolve/main/model3.ckpt'
             ],
             'needs_conf_edit': True
         }
     }
 }
 def get_model_config(clean_model=None, chunk_size=None, overlap=None):
-    """Returns model type, config path, and checkpoint path for a given model name, downloading files if needed."""
     if clean_model is None:
-        return {model_name for category in MODEL_CONFIGS.values() for model_name in category.keys()}
     for category in MODEL_CONFIGS.values():
         if clean_model in category:
             config = category[clean_model]
-            for url in config['download_urls']:
-                download_file(url)
             if config['needs_conf_edit'] and chunk_size is not None and overlap is not None:
                 conf_edit(config['config_path'], chunk_size, overlap)
             return config['model_type'], config['config_path'], config['start_check_point']
     return "", "", ""
-get_model_config.keys = lambda: {model_name for category in MODEL_CONFIGS.values() for model_name in category.keys()}

 import os
 import yaml
+import json
+import re
+import shutil
+from urllib.parse import quote, urlparse
 from pathlib import Path
 # Temel dizin ve checkpoint dizini sabit olarak tanımlanıyor
 BASE_DIR = os.path.dirname(os.path.abspath(__file__))
 CHECKPOINT_DIR = os.path.join(BASE_DIR, 'ckpts')
+CUSTOM_MODELS_FILE = os.path.join(BASE_DIR, 'assets', 'custom_models.json')
+def fix_huggingface_url(url):
+    """Convert Hugging Face blob URLs to raw/resolve URLs.
+    Hugging Face has two URL formats:
+    - /blob/ URLs show the web page (HTML) - WRONG for downloading
+    - /resolve/ URLs provide the raw file content - CORRECT for downloading
+    This function converts blob URLs to resolve URLs automatically.
+    Args:
+        url: The URL to fix
+    Returns:
+        The corrected URL (or original if not a HF blob URL)
+    """
+    if not url:
+        return url
+    # Check if it's a Hugging Face URL with /blob/
+    if 'huggingface.co' in url and '/blob/' in url:
+        fixed_url = url.replace('/blob/', '/resolve/')
+        return fixed_url
+    return url
+def validate_yaml_content(content, filepath=None):
+    """Validate that content is YAML and not HTML.
+    Args:
+        content: The file content to validate
+        filepath: Optional filepath for error messages
+    Returns:
+        tuple: (is_valid: bool, error_message: str or None)
+    """
+    # Check if content looks like HTML
+    html_indicators = [
+        '<!DOCTYPE',
+        '<html',
+        '<head>',
+        '<body>',
+        '<script>',
+        '<link rel=',
+        'text/html',
+    ]
+    content_lower = content.lower() if isinstance(content, str) else content.decode('utf-8', errors='ignore').lower()
+    for indicator in html_indicators:
+        if indicator.lower() in content_lower:
+            error_msg = f"""
+The downloaded file appears to be an HTML page, not a YAML config file.
+{"File: " + filepath if filepath else ""}
+This usually happens when using a Hugging Face '/blob/' URL instead of a '/resolve/' URL.
+To fix this:
+1. Use the raw file URL with '/resolve/' instead of '/blob/'
+   Example: https://huggingface.co/user/repo/resolve/main/file.yaml
+2. Or copy the raw URL from Hugging Face:
+   - Go to the file on Hugging Face
+   - Click "Download" or right-click and "Copy link address"
+"""
+            return False, error_msg
+    return True, None
+# Supported model types for auto-detection and manual selection
+SUPPORTED_MODEL_TYPES = [
+    'bs_roformer',
+    'bs_roformer_custom',
+    'mel_band_roformer',
+    'mdx23c',
+    'bandit_v2',
+    'scnet',
+    'htdemucs',
+    'torchseg'
+]
+def detect_model_type_from_url(checkpoint_url, config_url=None):
+    """Auto-detect model type from URL patterns."""
+    urls_to_check = [checkpoint_url]
+    if config_url:
+        urls_to_check.append(config_url)
+    combined_text = ' '.join(urls_to_check).lower()
+    patterns = [
+        (r'bs[-_]?roformer[-_]?custom|hyperace', 'bs_roformer_custom'),
+        (r'bs[-_]?roformer|bsroformer', 'bs_roformer'),
+        (r'mel[-_]?band[-_]?roformer|melbandroformer|mbr', 'mel_band_roformer'),
+        (r'mdx23c', 'mdx23c'),
+        (r'bandit[-_]?v?2?', 'bandit_v2'),
+        (r'scnet', 'scnet'),
+        (r'htdemucs|demucs', 'htdemucs'),
+        (r'torchseg', 'torchseg'),
+    ]
+    for pattern, model_type in patterns:
+        if re.search(pattern, combined_text):
+            return model_type
+    return None
+def detect_model_type_from_config(config_url):
+    """Try to detect model type by downloading and parsing config YAML."""
+    try:
+        import requests
+        response = requests.get(config_url, timeout=10)
+        if response.status_code == 200:
+            config_data = yaml.safe_load(response.text)
+            if 'model_type' in config_data:
+                return config_data['model_type']
+            if 'model' in config_data and 'model_type' in config_data['model']:
+                return config_data['model']['model_type']
+    except Exception:
+        pass
+    return None
+def load_custom_models():
+    """Load custom models from JSON file."""
+    if not os.path.exists(CUSTOM_MODELS_FILE):
+        return {}
+    try:
+        with open(CUSTOM_MODELS_FILE, 'r', encoding='utf-8') as f:
+            return json.load(f)
+    except (json.JSONDecodeError, IOError):
+        return {}
+def save_custom_models(models):
+    """Save custom models to JSON file."""
+    os.makedirs(os.path.dirname(CUSTOM_MODELS_FILE), exist_ok=True)
+    with open(CUSTOM_MODELS_FILE, 'w', encoding='utf-8') as f:
+        json.dump(models, f, indent=2, ensure_ascii=False)
+def add_custom_model(model_name, model_type, checkpoint_url, config_url, custom_model_url=None, auto_detect=True):
+    """Add a new custom model."""
+    if not model_name or not model_name.strip():
+        return False, "Model name is required"
+    if not checkpoint_url or not checkpoint_url.strip():
+        return False, "Checkpoint URL is required"
+    if not config_url or not config_url.strip():
+        return False, "Config URL is required"
+    model_name = model_name.strip()
+    checkpoint_url = checkpoint_url.strip()
+    config_url = config_url.strip()
+    custom_model_url = custom_model_url.strip() if custom_model_url else None
+    # Auto-fix Hugging Face URLs
+    checkpoint_url = fix_huggingface_url(checkpoint_url)
+    config_url = fix_huggingface_url(config_url)
+    if custom_model_url:
+        custom_model_url = fix_huggingface_url(custom_model_url)
+    if auto_detect and (not model_type or model_type == "auto"):
+        detected_type = detect_model_type_from_url(checkpoint_url, config_url)
+        if not detected_type:
+            detected_type = detect_model_type_from_config(config_url)
+        if detected_type:
+            model_type = detected_type
+        else:
+            return False, "Could not auto-detect model type. Please select manually."
+    if model_type not in SUPPORTED_MODEL_TYPES:
+        return False, f"Unsupported model type: {model_type}"
+    checkpoint_filename = os.path.basename(checkpoint_url.split('?')[0])
+    config_filename = f"config_{model_name.replace(' ', '_').lower()}.yaml"
+    models = load_custom_models()
+    if model_name in models:
+        return False, f"Model '{model_name}' already exists"
+    models[model_name] = {
+        'model_type': model_type,
+        'checkpoint_url': checkpoint_url,
+        'config_url': config_url,
+        'custom_model_url': custom_model_url,
+        'checkpoint_filename': checkpoint_filename,
+        'config_filename': config_filename,
+        'needs_conf_edit': True
+    }
+    save_custom_models(models)
+    return True, f"Model '{model_name}' added successfully"
+def delete_custom_model(model_name):
+    """Delete a custom model."""
+    models = load_custom_models()
+    if model_name not in models:
+        return False, f"Model '{model_name}' not found"
+    model_config = models[model_name]
+    checkpoint_path = os.path.join(CHECKPOINT_DIR, model_config.get('checkpoint_filename', ''))
+    config_path = os.path.join(CHECKPOINT_DIR, model_config.get('config_filename', ''))
+    try:
+        if os.path.exists(checkpoint_path):
+            os.remove(checkpoint_path)
+        if os.path.exists(config_path):
+            os.remove(config_path)
+    except Exception:
+        pass
+    del models[model_name]
+    save_custom_models(models)
+    return True, f"Model '{model_name}' deleted successfully"
+def get_custom_models_list():
+    """Get list of custom model names with their types."""
+    models = load_custom_models()
+    return [(name, config.get('model_type', 'unknown')) for name, config in models.items()]
+def preprocess_yaml_content(content):
+    """Pre-process YAML content to fix common issues before parsing.
+    Fixes:
+    - Replaces tabs with spaces
+    - Attempts to quote unquoted URLs and paths containing colons
+    """
+    # Replace tabs with spaces
+    if '\t' in content:
+        content = content.replace('\t', '    ')
+    # Fix unquoted URLs/paths with colons in values (common issue)
+    # This regex finds lines like "key: http://..." or "key: C:\path" and quotes the value
+    lines = content.split('\n')
+    fixed_lines = []
+    for line in lines:
+        # Skip comments and empty lines
+        stripped = line.strip()
+        if not stripped or stripped.startswith('#'):
+            fixed_lines.append(line)
+            continue
+        # Check if line has a key-value pattern with potential problematic value
+        # Match: "  key: value_with_colon_or_backslash"
+        match = re.match(r'^(\s*)([^:#]+?):\s+(.+)$', line)
+        if match:
+            indent, key, value = match.groups()
+            # Check if value contains a colon (like URL) or backslash (like Windows path)
+            # and is not already quoted
+            if ((':' in value or '\\' in value) and
+                not (value.startswith('"') and value.endswith('"')) and
+                not (value.startswith("'") and value.endswith("'"))):
+                # Quote the value
+                escaped_value = value.replace('"', '\\"')
+                fixed_lines.append(f'{indent}{key}: "{escaped_value}"')
+                continue
+        fixed_lines.append(line)
+    return '\n'.join(fixed_lines)
+def get_yaml_error_context(content, line_num, column=None):
+    """Get context around a YAML error for better debugging."""
+    lines = content.split('\n')
+    if line_num < 1 or line_num > len(lines):
+        return "Could not extract error context"
+    context_lines = []
+    start = max(0, line_num - 3)
+    end = min(len(lines), line_num + 2)
+    for i in range(start, end):
+        line_indicator = ">>> " if i == line_num - 1 else "    "
+        context_lines.append(f"{line_indicator}{i + 1}: {lines[i]}")
+        # Add column indicator for the error line
+        if i == line_num - 1 and column:
+            pointer = " " * (len(str(i + 1)) + 6 + column - 1) + "^"
+            context_lines.append(pointer)
+    return '\n'.join(context_lines)
+def conf_edit(config_path, chunk_size, overlap, model_name=None):
+    """Edits the configuration file overlap and training flags.
+    The model's native audio.chunk_size from the YAML is preserved unchanged.
+    Args:
+        config_path: Path to the config file
+        chunk_size: Unused – kept for API compatibility (native YAML value is used instead)
+        overlap: Overlap between chunks
+        model_name: Optional model name for re-downloading config on error
+    """
     full_config_path = os.path.join(CHECKPOINT_DIR, os.path.basename(config_path))
     if not os.path.exists(full_config_path):
         raise FileNotFoundError(f"Configuration file not found: {full_config_path}")
+    # Create backup before modifying
+    backup_path = full_config_path + '.backup'
+    try:
+        shutil.copy2(full_config_path, backup_path)
+    except Exception:
+        pass
+    try:
+        # Read and pre-process content
+        with open(full_config_path, 'r', encoding='utf-8') as f:
+            original_content = f.read()
+        # Check if file is HTML (wrong URL was used)
+        is_valid, html_error = validate_yaml_content(original_content, full_config_path)
+        if not is_valid:
+            # Restore backup and raise error
+            if os.path.exists(backup_path):
+                shutil.copy2(backup_path, full_config_path)
+            raise ValueError(html_error)
+        content = preprocess_yaml_content(original_content)
+        # Write pre-processed content if changed
+        if content != original_content:
+            with open(full_config_path, 'w', encoding='utf-8') as f:
+                f.write(content)
+        # Try to parse YAML
+        try:
+            with open(full_config_path, 'r', encoding='utf-8') as f:
+                data = yaml.load(f, Loader=yaml.SafeLoader)
+        except yaml.YAMLError as e:
+            # Extract error details
+            error_msg = str(e)
+            line_num = None
+            column = None
+            if hasattr(e, 'problem_mark') and e.problem_mark:
+                line_num = e.problem_mark.line + 1
+                column = e.problem_mark.column + 1
+            # Get context around error
+            context = ""
+            if line_num:
+                context = get_yaml_error_context(content, line_num, column)
+            # Provide helpful error message
+            error_details = f"""
+YAML Parsing Error in config file: {full_config_path}
+Error: {error_msg}
+{"Error Context:" + chr(10) + context if context else ""}
+Possible causes:
+1. Unquoted string containing a colon (e.g., URLs like https://...)
+2. Unquoted Windows path with backslashes (e.g., C:\\path\\to\\file)
+3. Malformed YAML structure
+4. File corruption from previous processing
+Suggested fixes:
+1. Delete the config file and let it re-download: {full_config_path}
+2. Manually edit the file to quote problematic values
+3. Check if the source config URL provides valid YAML
+"""
+            # Restore backup
+            if os.path.exists(backup_path):
+                try:
+                    shutil.copy2(backup_path, full_config_path)
+                except Exception:
+                    pass
+            raise yaml.YAMLError(error_details) from e
+        # Validate required sections exist
+        if not isinstance(data, dict):
+            raise ValueError(f"Config file does not contain a valid YAML dictionary: {full_config_path}")
+        # Apply modifications safely
+        if 'use_amp' not in data:
+            if 'training' not in data:
+                data['training'] = {}
+            data['training']['use_amp'] = True
+        # Do NOT overwrite audio.chunk_size — keep the model's native value from the YAML.
+        if 'audio' not in data:
+            data['audio'] = {}
+        if 'inference' not in data:
+            data['inference'] = {}
+        data['inference']['num_overlap'] = overlap
+        if data['inference'].get('batch_size', 1) == 1:
+            data['inference']['batch_size'] = 2
+        # Write updated config
+        with open(full_config_path, 'w', encoding='utf-8') as f:
+            yaml.dump(data, f, default_flow_style=False, sort_keys=False, Dumper=yaml.Dumper)
+        # Remove backup on success
+        if os.path.exists(backup_path):
+            try:
+                os.remove(backup_path)
+            except Exception:
+                pass
+    except Exception as e:
+        # Restore backup on any error
+        if os.path.exists(backup_path):
+            try:
+                shutil.copy2(backup_path, full_config_path)
+                os.remove(backup_path)
+            except Exception:
+                pass
+        raise
+def redownload_config(model_name):
+    """Re-download a corrupted config file for a custom model.
+    Args:
+        model_name: Name of the custom model
+    Returns:
+        tuple: (success: bool, message: str)
+    """
+    custom_models = load_custom_models()
+    if model_name not in custom_models:
+        return False, f"Model '{model_name}' not found in custom models"
+    config = custom_models[model_name]
+    config_url = config.get('config_url')
+    config_filename = config.get('config_filename')
+    if not config_url or not config_filename:
+        return False, f"Config URL or filename not found for model '{model_name}'"
+    config_path = os.path.join(CHECKPOINT_DIR, config_filename)
+    # Auto-fix URL before re-downloading
+    config_url = fix_huggingface_url(config_url)
+    # Delete existing config
+    if os.path.exists(config_path):
+        try:
+            os.remove(config_path)
+        except Exception as e:
+            return False, f"Could not delete config file: {e}"
+    # Re-download with validation
+    try:
+        download_file(config_url, target_filename=config_filename, validate_yaml=True)
+        return True, f"Config file re-downloaded successfully: {config_filename}"
+    except Exception as e:
+        return False, f"Failed to re-download config: {e}"
+def download_file(url, path=None, target_filename=None, validate_yaml=True):
+    """Downloads a file from a URL with progress reporting.
+    Args:
+        url: The URL to download from.
+        path: The directory to save the file to. Defaults to CHECKPOINT_DIR.
+        target_filename: Optional custom filename to save as. If None, uses filename from URL.
+        validate_yaml: If True and file is .yaml/.yml, validate it's not HTML
+    """
     import requests
+    # Auto-fix Hugging Face URLs
+    url = fix_huggingface_url(url)
     encoded_url = quote(url, safe=':/')
+    if path is None:
+        path = CHECKPOINT_DIR
     os.makedirs(path, exist_ok=True)
+    # Use custom target filename if provided, otherwise extract from URL
+    filename = target_filename if target_filename else os.path.basename(encoded_url)
     file_path = os.path.join(path, filename)
     if os.path.exists(file_path):
         print(f"File '{filename}' already exists at '{path}'.")
         return
     try:
+        response = requests.get(url, stream=True)
         if response.status_code == 200:
+            # Get total file size for progress reporting
+            total_size = int(response.headers.get('content-length', 0))
+            # For YAML files, download to memory first and validate
+            is_yaml_file = filename.lower().endswith(('.yaml', '.yml'))
+            if is_yaml_file and validate_yaml:
+                content = response.content
+                is_valid, error_msg = validate_yaml_content(content, file_path)
+                if not is_valid:
+                    print(f"ERROR: Downloaded file is not valid YAML!")
+                    print(error_msg)
+                    raise ValueError(f"Downloaded file is HTML, not YAML. URL may be incorrect: {url}")
+                with open(file_path, 'wb') as f:
+                    f.write(content)
+            else:
+                # Download with progress reporting
+                downloaded_size = 0
+                last_percent = -1
+                print(f"[SESA_DOWNLOAD]START:{filename}", flush=True)
+                with open(file_path, 'wb') as f:
+                    for chunk in response.iter_content(chunk_size=8192):
+                        f.write(chunk)
+                        downloaded_size += len(chunk)
+                        # Report download progress
+                        if total_size > 0:
+                            percent = int((downloaded_size / total_size) * 100)
+                            if percent != last_percent:
+                                last_percent = percent
+                                # Format: [SESA_DOWNLOAD]filename:percent
+                                print(f"[SESA_DOWNLOAD]{filename}:{percent}", flush=True)
+                print(f"[SESA_DOWNLOAD]END:{filename}", flush=True)
         else:
             print(f"Error downloading '{filename}': Status code {response.status_code}")
     except Exception as e:
         print(f"Error downloading file '{filename}' from '{url}': {e}")
+        raise
 # Model konfigurasyonlarını kategorize bir sözlükte tut
 MODEL_CONFIGS = {
     "Vocal Models": {
+        # === NEW MODELS (en üstte) ===
+        'bs_roformer_voc_hyperacev2 (by unwa)': {
+            'model_type': 'bs_roformer_custom',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'config_hyperacev2_voc.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'bs_roformer_voc_hyperacev2.ckpt'),
+            'download_urls': [
+                ('https://huggingface.co/pcunwa/BS-Roformer-HyperACE/resolve/main/v2_voc/config.yaml', 'config_hyperacev2_voc.yaml'),
+                'https://huggingface.co/pcunwa/BS-Roformer-HyperACE/resolve/main/v2_voc/bs_roformer_voc_hyperacev2.ckpt'
+            ],
+            'custom_model_url': 'https://huggingface.co/pcunwa/BS-Roformer-HyperACE/resolve/main/v2_voc/bs_roformer.py',
+            'needs_conf_edit': True
+        },
+        'BS-Roformer-Resurrection (by unwa)': {
+            'model_type': 'bs_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'BS-Roformer-Resurrection-Config.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'BS-Roformer-Resurrection.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/pcunwa/BS-Roformer-Resurrection/resolve/main/BS-Roformer-Resurrection-Config.yaml',
+                'https://huggingface.co/pcunwa/BS-Roformer-Resurrection/resolve/main/BS-Roformer-Resurrection.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'bs_roformer_revive3e (by unwa)': {
+            'model_type': 'bs_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'config_revive.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'bs_roformer_revive3e.ckpt'),
+            'download_urls': [
+                ('https://huggingface.co/pcunwa/BS-Roformer-Revive/resolve/main/config.yaml', 'config_revive.yaml'),
+                'https://huggingface.co/pcunwa/BS-Roformer-Revive/resolve/main/bs_roformer_revive3e.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'bs_roformer_revive2 (by unwa)': {
+            'model_type': 'bs_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'config_revive.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'bs_roformer_revive2.ckpt'),
+            'download_urls': [
+                ('https://huggingface.co/pcunwa/BS-Roformer-Revive/resolve/main/config.yaml', 'config_revive.yaml'),
+                'https://huggingface.co/pcunwa/BS-Roformer-Revive/resolve/main/bs_roformer_revive2.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'bs_roformer_revive (by unwa)': {
+            'model_type': 'bs_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'config_revive.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'bs_roformer_revive.ckpt'),
+            'download_urls': [
+                ('https://huggingface.co/pcunwa/BS-Roformer-Revive/resolve/main/config.yaml', 'config_revive.yaml'),
+                'https://huggingface.co/pcunwa/BS-Roformer-Revive/resolve/main/bs_roformer_revive.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'karaoke_bs_roformer_anvuew (by anvuew)': {
+            'model_type': 'bs_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'karaoke_bs_roformer_anvuew.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'karaoke_bs_roformer_anvuew.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/anvuew/karaoke_bs_roformer/resolve/main/karaoke_bs_roformer_anvuew.yaml',
+                'https://huggingface.co/anvuew/karaoke_bs_roformer/resolve/main/karaoke_bs_roformer_anvuew.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        # === EXISTING MODELS ===
         'VOCALS-big_beta6X (by Unwa)': {
             'model_type': 'mel_band_roformer',
             'config_path': os.path.join(CHECKPOINT_DIR, 'big_beta6x.yaml'),
                 'https://huggingface.co/Aname-Tommy/MelBandRoformers/blob/main/FullnessVocalModel.ckpt'
             ],
             'needs_conf_edit': True
+        },
+        'voc_fv4 (by Gabox)': {
+            'model_type': 'mel_band_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'voc_gabox.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'voc_fv4.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/vocals/voc_gabox.yaml',
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/vocals/voc_fv4.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'voc_fv5 (by Gabox)': {
+            'model_type': 'mel_band_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'voc_gabox.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'voc_fv5.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/vocals/voc_gabox.yaml',
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/vocals/voc_fv5.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'voc_fv6 (by Gabox)': {
+            'model_type': 'mel_band_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'voc_gabox.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'voc_fv6.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/vocals/voc_gabox.yaml',
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/vocals/voc_fv6.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'voc_fv7 (by Gabox)': {
+            'model_type': 'mel_band_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'v7.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'voc_fv7.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/vocals/v7.yaml',
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/vocals/voc_fv7.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'vocfv7beta1 (by Gabox)': {
+            'model_type': 'mel_band_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'voc_gabox.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'vocfv7beta1.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/vocals/voc_gabox.yaml',
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/experimental/vocfv7beta1.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'vocfv7beta2 (by Gabox)': {
+            'model_type': 'mel_band_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'voc_gabox.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'vocfv7beta2.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/vocals/voc_gabox.yaml',
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/experimental/vocfv7beta2.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'vocfv7beta3 (by Gabox)': {
+            'model_type': 'mel_band_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'voc_gabox.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'vocfv7beta3.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/vocals/voc_gabox.yaml',
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/experimental/vocfv7beta3.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'MelBandRoformerSYHFTV3Epsilon (by SYH99999)': {
+            'model_type': 'mel_band_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'config_vocals_mel_band_roformer_ft.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'MelBandRoformerSYHFTV3Epsilon.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/SYH99999/MelBandRoformerSYHFT/resolve/main/config_vocals_mel_band_roformer_ft.yaml',
+                'https://huggingface.co/SYH99999/MelBandRoformerSYHFTV3Epsilon/resolve/main/MelBandRoformerSYHFTV3Epsilon.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'MelBandRoformerBigSYHFTV1 (by SYH99999)': {
+            'model_type': 'mel_band_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'config_big_syhft.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'MelBandRoformerBigSYHFTV1.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/SYH99999/MelBandRoformerBigSYHFTV1Fast/resolve/main/config.yaml',
+                'https://huggingface.co/SYH99999/MelBandRoformerBigSYHFTV1Fast/resolve/main/MelBandRoformerBigSYHFTV1.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'model_chorus_bs_roformer_ep_146 (by Sucial)': {
+            'model_type': 'bs_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'config_chorus_male_female_bs_roformer.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'model_chorus_bs_roformer_ep_146_sdr_23.8613.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/Sucial/Chorus_Male_Female_BS_Roformer/resolve/main/config_chorus_male_female_bs_roformer.yaml',
+                'https://huggingface.co/Sucial/Chorus_Male_Female_BS_Roformer/resolve/main/model_chorus_bs_roformer_ep_146_sdr_23.8613.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'model_chorus_bs_roformer_ep_267 (by Sucial)': {
+            'model_type': 'bs_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'config_chorus_male_female_bs_roformer.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'model_chorus_bs_roformer_ep_267_sdr_24.1275.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/Sucial/Chorus_Male_Female_BS_Roformer/resolve/main/config_chorus_male_female_bs_roformer.yaml',
+                'https://huggingface.co/Sucial/Chorus_Male_Female_BS_Roformer/resolve/main/model_chorus_bs_roformer_ep_267_sdr_24.1275.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'BS-Rofo-SW-Fixed (by jarredou)': {
+            'model_type': 'bs_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'BS-Rofo-SW-Fixed.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'BS-Rofo-SW-Fixed.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/jarredou/BS-ROFO-SW-Fixed/resolve/main/BS-Rofo-SW-Fixed.yaml',
+                'https://huggingface.co/jarredou/BS-ROFO-SW-Fixed/resolve/main/BS-Rofo-SW-Fixed.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'BS_ResurrectioN (by Gabox)': {
+            'model_type': 'bs_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'BS-Roformer-Resurrection-Inst-Config.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'BS_ResurrectioN.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/pcunwa/BS-Roformer-Resurrection/resolve/main/BS-Roformer-Resurrection-Inst-Config.yaml',
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/experimental/BS_ResurrectioN.ckpt'
+            ],
+            'needs_conf_edit': True
         }
     },
     "Instrumental Models": {
+        # === NEW MODELS (en üstte) ===
+        'Neo_InstVFX (by natanworkspace)': {
+            'model_type': 'mel_band_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'config_neo_inst.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'Neo_InstVFX.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/natanworkspace/melband_roformer/resolve/main/config_neo_inst.yaml',
+                'https://huggingface.co/natanworkspace/melband_roformer/resolve/main/Neo_InstVFX.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'BS-Roformer-Resurrection-Inst (by unwa)': {
+            'model_type': 'bs_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'BS-Roformer-Resurrection-Inst-Config.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'BS-Roformer-Resurrection-Inst.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/pcunwa/BS-Roformer-Resurrection/resolve/main/BS-Roformer-Resurrection-Inst-Config.yaml',
+                'https://huggingface.co/pcunwa/BS-Roformer-Resurrection/resolve/main/BS-Roformer-Resurrection-Inst.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'bs_roformer_inst_hyperacev2 (by unwa)': {
+            'model_type': 'bs_roformer_custom',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'config_hyperacev2_inst.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'bs_roformer_inst_hyperacev2.ckpt'),
+            'download_urls': [
+                ('https://huggingface.co/pcunwa/BS-Roformer-HyperACE/resolve/main/v2_inst/config.yaml', 'config_hyperacev2_inst.yaml'),
+                'https://huggingface.co/pcunwa/BS-Roformer-HyperACE/resolve/main/v2_inst/bs_roformer_inst_hyperacev2.ckpt'
+            ],
+            'custom_model_url': 'https://huggingface.co/pcunwa/BS-Roformer-HyperACE/resolve/main/v2_inst/bs_roformer.py',
+            'needs_conf_edit': True
+        },
+        'BS-Roformer-Large-Inst (by unwa)': {
+            'model_type': 'bs_roformer_custom',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'config_bs_large_inst.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'bs_large_v2_inst.ckpt'),
+            'download_urls': [
+                ('https://huggingface.co/pcunwa/BS-Roformer-Large-Inst/resolve/main/config.yaml', 'config_bs_large_inst.yaml'),
+                'https://huggingface.co/pcunwa/BS-Roformer-Large-Inst/resolve/main/bs_large_v2_inst.ckpt'
+            ],
+            'custom_model_url': 'https://huggingface.co/pcunwa/BS-Roformer-Large-Inst/resolve/main/bs_roformer.py',
+            'needs_conf_edit': True
+        },
+        'bs_roformer_fno (by unwa)': {
+            'model_type': 'bs_roformer_custom',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'bsrofo_fno.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'bs_roformer_fno.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/pcunwa/BS-Roformer-Inst-FNO/resolve/main/bsrofo_fno.yaml',
+                'https://huggingface.co/pcunwa/BS-Roformer-Inst-FNO/resolve/main/bs_roformer_fno.ckpt'
+            ],
+            'custom_model_url': 'https://huggingface.co/listra92/MyModels/resolve/main/misc/bs_roformer.py',
+            'needs_conf_edit': True
+        },
+        'Rifforge_final_sdr_14.24 (by meskvlla33)': {
+            'model_type': 'mel_band_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'config_rifforge_full_mesk.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'rifforge_full_sdr_14.2436.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/meskvlla33/rifforge/resolve/main/config_rifforge_full_mesk.yaml',
+                'https://huggingface.co/meskvlla33/rifforge/resolve/main/rifforge_full_sdr_14.2436.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        # === EXISTING MODELS ===
         'Inst_GaboxFv8 (by Gabox)': {
             'model_type': 'mel_band_roformer',
             'config_path': os.path.join(CHECKPOINT_DIR, 'inst_gabox.yaml'),
                 'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/instrumental/Inst_GaboxV7.ckpt'
             ],
             'needs_conf_edit': True
+        },
+        'inst_Fv4 (by Gabox)': {
+            'model_type': 'mel_band_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'inst_gabox.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'inst_Fv4.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/instrumental/inst_gabox.yaml',
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/instrumental/inst_Fv4.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'INSTV7N (by Gabox)': {
+            'model_type': 'mel_band_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'inst_gabox.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'INSTV7N.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/instrumental/inst_gabox.yaml',
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/instrumental/INSTV7N.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'inst_fv7b (by Gabox)': {
+            'model_type': 'mel_band_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'inst_gabox.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'inst_fv7b.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/instrumental/inst_gabox.yaml',
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/experimental/inst_fv7b.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'inst_fv7z (by Gabox)': {
+            'model_type': 'mel_band_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'inst_gabox.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'Inst_GaboxFv7z.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/instrumental/inst_gabox.yaml',
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/instrumental/Inst_GaboxFv7z.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'Inst_GaboxFv9 (by Gabox)': {
+            'model_type': 'mel_band_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'inst_gabox.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'Inst_GaboxFv9.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/instrumental/inst_gabox.yaml',
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/instrumental/Inst_GaboxFv9.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'inst_gaboxFlowersV10 (by Gabox)': {
+            'model_type': 'mel_band_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'v10.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'inst_gaboxFlowersV10.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/instrumental/v10.yaml',
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/instrumental/inst_gaboxFlowersV10.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'Inst_FV8b (by Gabox)': {
+            'model_type': 'mel_band_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'inst_gabox.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'Inst_FV8b.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/instrumental/inst_gabox.yaml',
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/experimental/Inst_FV8b.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'Inst_Fv8 (by Gabox)': {
+            'model_type': 'mel_band_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'inst_gabox.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'Inst_Fv8.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/instrumental/inst_gabox.yaml',
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/experimental/Inst_Fv8.ckpt'
+            ],
+            'needs_conf_edit': True
         }
     },
     "4-Stem Models": {
                 'https://huggingface.co/anvuew/dereverb_mel_band_roformer/resolve/main/dereverb_mel_band_roformer_mono_anvuew_sdr_20.4029.ckpt'
             ],
             'needs_conf_edit': True
+        },
+        'dereverb-echo_128_4_4 (by Sucial)': {
+            'model_type': 'mel_band_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'config_dereverb-echo_128_4_4_mel_band_roformer.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'dereverb-echo_128_4_4_mel_band_roformer_sdr_dry_12.4235.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/Sucial/Dereverb-Echo_Mel_Band_Roformer/resolve/main/config_dereverb-echo_128_4_4_mel_band_roformer.yaml',
+                'https://huggingface.co/Sucial/Dereverb-Echo_Mel_Band_Roformer/resolve/main/dereverb-echo_128_4_4_mel_band_roformer_sdr_dry_12.4235.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'dereverb_echo_mbr_v2 (by Sucial)': {
+            'model_type': 'mel_band_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'config_dereverb_echo_mbr_v2.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'dereverb_echo_mbr_v2_sdr_dry_13.4843.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/Sucial/Dereverb-Echo_Mel_Band_Roformer/resolve/main/config_dereverb_echo_mbr_v2.yaml',
+                'https://huggingface.co/Sucial/Dereverb-Echo_Mel_Band_Roformer/resolve/main/dereverb_echo_mbr_v2_sdr_dry_13.4843.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'de_big_reverb_mbr_ep_362 (by Sucial)': {
+            'model_type': 'mel_band_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'config_dereverb_echo_mbr_v2.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'de_big_reverb_mbr_ep_362.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/Sucial/Dereverb-Echo_Mel_Band_Roformer/resolve/main/config_dereverb_echo_mbr_v2.yaml',
+                'https://huggingface.co/Sucial/Dereverb-Echo_Mel_Band_Roformer/resolve/main/de_big_reverb_mbr_ep_362.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'de_super_big_reverb_mbr_ep_346 (by Sucial)': {
+            'model_type': 'mel_band_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'config_dereverb_echo_mbr_v2.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'de_super_big_reverb_mbr_ep_346.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/Sucial/Dereverb-Echo_Mel_Band_Roformer/resolve/main/config_dereverb_echo_mbr_v2.yaml',
+                'https://huggingface.co/Sucial/Dereverb-Echo_Mel_Band_Roformer/resolve/main/de_super_big_reverb_mbr_ep_346.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'dereverb_room (by anvuew)': {
+            'model_type': 'bs_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'dereverb_room_anvuew.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'dereverb_room_anvuew_sdr_13.7432.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/anvuew/dereverb_room/resolve/main/dereverb_room_anvuew.yaml',
+                'https://huggingface.co/anvuew/dereverb_room/resolve/main/dereverb_room_anvuew_sdr_13.7432.ckpt'
+            ],
+            'needs_conf_edit': True
         }
     },
     "Karaoke": {
             ],
             'needs_conf_edit': True
         },
+        'KaraokeGabox (by Gabox)': {
             'model_type': 'mel_band_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'karaokegabox_1750911344.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'Karaoke_GaboxV1.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/karaoke/karaokegabox_1750911344.yaml',
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/melbandroformers/karaoke/Karaoke_GaboxV1.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'bs_karaoke_gabox_IS (by Gabox)': {
+            'model_type': 'bs_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'karaoke_bs_roformer.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'bs_karaoke_gabox_IS.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/bsroformers/karaoke_bs_roformer.yaml',
+                'https://huggingface.co/GaboxR67/MelBandRoformers/resolve/main/bsroformers/bs_karaoke_gabox_IS.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'bs_roformer_karaoke_frazer_becruily': {
+            'model_type': 'bs_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'config_karaoke_frazer_becruily.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'bs_roformer_karaoke_frazer_becruily.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/becruily/bs-roformer-karaoke/resolve/main/config_karaoke_frazer_becruily.yaml',
+                'https://huggingface.co/becruily/bs-roformer-karaoke/resolve/main/bs_roformer_karaoke_frazer_becruily.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'mel_band_roformer_karaoke_becruily': {
+            'model_type': 'mel_band_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'config_karaoke_becruily.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'mel_band_roformer_karaoke_becruily.ckpt'),
             'download_urls': [
+                'https://huggingface.co/becruily/mel-band-roformer-karaoke/resolve/main/config_karaoke_becruily.yaml',
+                'https://huggingface.co/becruily/mel-band-roformer-karaoke/resolve/main/mel_band_roformer_karaoke_becruily.ckpt'
             ],
             'needs_conf_edit': True
         }
                 'https://huggingface.co/SYH99999/MelBandRoformerSYHFTB1/resolve/main/model3.ckpt'
             ],
             'needs_conf_edit': True
+        },
+        'bs_hyperace (by unwa)': {
+            'model_type': 'bs_roformer_custom',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'config_hyperace.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'bs_hyperace.ckpt'),
+            'download_urls': [
+                ('https://huggingface.co/pcunwa/BS-Roformer-HyperACE/resolve/main/config.yaml', 'config_hyperace.yaml'),
+                'https://huggingface.co/pcunwa/BS-Roformer-HyperACE/resolve/main/bs_hyperace.ckpt'
+            ],
+            'custom_model_url': 'https://huggingface.co/pcunwa/BS-Roformer-HyperACE/resolve/main/bs_roformer.py',
+            'needs_conf_edit': True
+        },
+        'becruily_deux (by becruily)': {
+            'model_type': 'mel_band_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'config_deux_becruily.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'becruily_deux.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/becruily/mel-band-roformer-deux/resolve/main/config_deux_becruily.yaml',
+                'https://huggingface.co/becruily/mel-band-roformer-deux/resolve/main/becruily_deux.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'becruily_guitar (by becruily)': {
+            'model_type': 'mel_band_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'config_guitar_becruily.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'becruily_guitar.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/becruily/mel-band-roformer-guitar/resolve/main/config_guitar_becruily.yaml',
+                'https://huggingface.co/becruily/mel-band-roformer-guitar/resolve/main/becruily_guitar.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'aspiration_mel_band_roformer (by Sucial)': {
+            'model_type': 'mel_band_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'config_aspiration_mel_band_roformer.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'aspiration_mel_band_roformer_sdr_18.9845.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/Sucial/Aspiration_Mel_Band_Roformer/resolve/main/config_aspiration_mel_band_roformer.yaml',
+                'https://huggingface.co/Sucial/Aspiration_Mel_Band_Roformer/resolve/main/aspiration_mel_band_roformer_sdr_18.9845.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'dereverb_echo_mbr_v2 (by Sucial)': {
+            'model_type': 'mel_band_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'config_dereverb_echo_mbr_v2.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'dereverb_echo_mbr_v2_sdr_dry_13.4843.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/Sucial/Dereverb-Echo_Mel_Band_Roformer/resolve/main/config_dereverb_echo_mbr_v2.yaml',
+                'https://huggingface.co/Sucial/Dereverb-Echo_Mel_Band_Roformer/resolve/main/dereverb_echo_mbr_v2_sdr_dry_13.4843.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'mdx23c_similarity (by ZFTurbo)': {
+            'model_type': 'mdx23c',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'config_mdx23c_similarity.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'model_mdx23c_ep_271_l1_freq_72.2383.ckpt'),
+            'download_urls': [
+                'https://github.com/ZFTurbo/Music-Source-Separation-Training/releases/download/v1.0.10/config_mdx23c_similarity.yaml',
+                'https://github.com/ZFTurbo/Music-Source-Separation-Training/releases/download/v1.0.10/model_mdx23c_ep_271_l1_freq_72.2383.ckpt'
+            ],
+            'needs_conf_edit': False
+        },
+        'mel_band_roformer_Lead_Rhythm_Guitar (by listra92)': {
+            'model_type': 'mel_band_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'config_mel_band_roformer_Lead_Rhythm_Guitar.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'model_mel_band_roformer_ep_72_sdr_3.2232.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/listra92/MyModels/resolve/main/misc/config_mel_band_roformer_Lead_Rhythm_Guitar.yaml',
+                'https://huggingface.co/listra92/MyModels/resolve/main/misc/model_mel_band_roformer_ep_72_sdr_3.2232.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'last_bs_roformer_4stem (by Amane)': {
+            'model_type': 'bs_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'config_last_bs.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'last_bs_roformer.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/listra92/MyModels/resolve/main/misc/config.yaml',
+                'https://huggingface.co/listra92/MyModels/resolve/main/misc/last_bs_roformer.ckpt'
+            ],
+            'needs_conf_edit': True
+        },
+        'bs_roformer_4stems_ft (by SYH99999)': {
+            'model_type': 'bs_roformer',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'config_bs_4stems_ft.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'bs_roformer_4stems_ft.pth'),
+            'download_urls': [
+                'https://huggingface.co/SYH99999/bs_roformer_4stems_ft/resolve/main/config.yaml',
+                'https://huggingface.co/SYH99999/bs_roformer_4stems_ft/resolve/main/bs_roformer_4stems_ft.pth'
+            ],
+            'needs_conf_edit': True
+        },
+        'CINEMATIC-BandIt_v2_Eng (by kwatcharasupat)': {
+            'model_type': 'bandit_v2',
+            'config_path': os.path.join(CHECKPOINT_DIR, 'config_dnr_bandit_v2_mus64.yaml'),
+            'start_check_point': os.path.join(CHECKPOINT_DIR, 'checkpoint-eng_state_dict.ckpt'),
+            'download_urls': [
+                'https://huggingface.co/jarredou/banditv2_state_dicts_only/resolve/main/config_dnr_bandit_v2_mus64.yaml',
+                'https://huggingface.co/jarredou/banditv2_state_dicts_only/resolve/main/checkpoint-eng_state_dict.ckpt'
+            ],
+            'needs_conf_edit': True
         }
     }
 }
 def get_model_config(clean_model=None, chunk_size=None, overlap=None):
+    """Returns model type, config path, and checkpoint path for a given model name, downloading files if needed.
+    download_urls can contain:
+        - Simple strings: 'url' - downloads with filename from URL
+        - Tuples: ('url', 'target_filename') - downloads with custom filename
+    Also handles custom models loaded from custom_models.json
+    """
     if clean_model is None:
+        all_models = {model_name for category in MODEL_CONFIGS.values() for model_name in category.keys()}
+        # Add custom models
+        custom_models = load_custom_models()
+        all_models.update(custom_models.keys())
+        return all_models
+    # First check built-in models
     for category in MODEL_CONFIGS.values():
         if clean_model in category:
             config = category[clean_model]
+            for url_entry in config['download_urls']:
+                # Handle both simple URL strings and (url, target_filename) tuples
+                if isinstance(url_entry, tuple):
+                    url, target_filename = url_entry
+                    download_file(url, target_filename=target_filename)
+                else:
+                    download_file(url_entry)
+            if config.get('custom_model_url'):
+                custom_path = os.path.join(BASE_DIR, 'models', 'bs_roformer', 'bs_roformer_custom')
+                os.makedirs(custom_path, exist_ok=True)
+                # Create __init__.py for Python import support
+                init_file = os.path.join(custom_path, '__init__.py')
+                if not os.path.exists(init_file):
+                    with open(init_file, 'w') as f:
+                        f.write('# Auto-generated for custom BSRoformer models\n')
+                download_file(config['custom_model_url'], path=custom_path)
             if config['needs_conf_edit'] and chunk_size is not None and overlap is not None:
                 conf_edit(config['config_path'], chunk_size, overlap)
             return config['model_type'], config['config_path'], config['start_check_point']
+    # Then check custom models
+    custom_models = load_custom_models()
+    if clean_model in custom_models:
+        config = custom_models[clean_model]
+        checkpoint_path = os.path.join(CHECKPOINT_DIR, config['checkpoint_filename'])
+        config_path = os.path.join(CHECKPOINT_DIR, config['config_filename'])
+        # Download checkpoint
+        download_file(config['checkpoint_url'], target_filename=config['checkpoint_filename'])
+        # Download config with custom filename
+        download_file(config['config_url'], target_filename=config['config_filename'])
+        # Handle custom model URL if present
+        if config.get('custom_model_url'):
+            custom_path = os.path.join(BASE_DIR, 'models', 'bs_roformer', 'bs_roformer_custom')
+            os.makedirs(custom_path, exist_ok=True)
+            init_file = os.path.join(custom_path, '__init__.py')
+            if not os.path.exists(init_file):
+                with open(init_file, 'w') as f:
+                    f.write('# Auto-generated for custom BSRoformer models\n')
+            download_file(config['custom_model_url'], path=custom_path)
+        # Apply config edits if needed
+        if config.get('needs_conf_edit', True) and chunk_size is not None and overlap is not None:
+            conf_edit(config_path, chunk_size, overlap, model_name=clean_model)
+        return config['model_type'], config_path, checkpoint_path
     return "", "", ""
+def get_all_model_configs_with_custom():
+    """Returns MODEL_CONFIGS with Custom Models category added dynamically."""
+    all_configs = dict(MODEL_CONFIGS)
+    custom_models = load_custom_models()
+    if custom_models:
+        all_configs["Custom Models"] = {
+            name: {
+                'model_type': cfg['model_type'],
+                'config_path': os.path.join(CHECKPOINT_DIR, cfg['config_filename']),
+                'start_check_point': os.path.join(CHECKPOINT_DIR, cfg['checkpoint_filename']),
+                'download_urls': [cfg['checkpoint_url'], cfg['config_url']],
+                'custom_model_url': cfg.get('custom_model_url'),
+                'needs_conf_edit': cfg.get('needs_conf_edit', True)
+            }
+            for name, cfg in custom_models.items()
+        }
+    return all_configs
+get_model_config.keys = lambda: {model_name for category in MODEL_CONFIGS.values() for model_name in category.keys()}.union(load_custom_models().keys())
+def get_model_chunk_size(model_name):
+    """Read the native chunk_size from a model's local YAML config if already downloaded.
+    Returns the int chunk_size on success, or None if the config is unavailable or
+    doesn't contain an audio.chunk_size entry.
+    """
+    all_models = get_all_model_configs_with_custom()
+    for category in all_models.values():
+        if model_name in category:
+            config_path = category[model_name].get('config_path', '')
+            if config_path and os.path.exists(config_path):
+                try:
+                    with open(config_path, 'r', encoding='utf-8') as f:
+                        data = yaml.safe_load(f)
+                    if isinstance(data, dict):
+                        chunk_size = data.get('audio', {}).get('chunk_size')
+                        if chunk_size:
+                            return int(chunk_size)
+                except Exception:
+                    pass
+    return None

models/bs_roformer/attend_sage.py ADDED Viewed

	@@ -0,0 +1,145 @@

+from functools import wraps
+from packaging import version
+from collections import namedtuple
+import os
+import torch
+from torch import nn, einsum
+import torch.nn.functional as F
+from einops import rearrange, reduce
+def _print_once(msg):
+    printed = False
+    @wraps(print)
+    def inner():
+        nonlocal printed
+        if not printed:
+            print(msg)
+            printed = True
+    return inner
+try:
+    from sageattention import sageattn
+    _has_sage_attention = True
+    # _print_sage_found = _print_once("SageAttention found. Will be used when flash=True.")
+    # _print_sage_found()
+except ImportError:
+    _has_sage_attention = False
+    _print_sage_not_found = _print_once("SageAttention not found. Will fall back to PyTorch SDPA (if available) or manual einsum.")
+    _print_sage_not_found()
+# helpers
+def exists(val):
+    return val is not None
+def default(v, d):
+    return v if exists(v) else d
+# main class
+class Attend(nn.Module):
+    def __init__(
+        self,
+        dropout = 0.,
+        flash = False, # If True, attempts to use SageAttention or PyTorch SDPA
+        scale = None
+    ):
+        super().__init__()
+        self.scale = scale # Store the scale if needed for einsum path
+        self.dropout = dropout # Store dropout if needed for einsum/SDPA path
+        # Determine which attention mechanism to *try* first
+        self.use_sage = flash and _has_sage_attention
+        self.use_pytorch_sdpa = False
+        self._sdpa_checked = False # Flag to check PyTorch version only once
+        if flash and not self.use_sage:
+            # Only consider PyTorch SDPA if Sage isn't available/chosen
+            if not self._sdpa_checked:
+                if version.parse(torch.__version__) >= version.parse('2.0.0'):
+                    self.use_pytorch_sdpa = True
+                    _print_sdpa_used = _print_once("Using PyTorch SDPA backend (FlashAttention-2, Memory-Efficient, or Math).")
+                    _print_sdpa_used()
+                else:
+                     _print_fallback_einsum = _print_once("Flash attention requested but Pytorch < 2.0 and SageAttention not found. Falling back to einsum.")
+                     _print_fallback_einsum()
+                self._sdpa_checked = True
+        # Dropout layer for manual einsum implementation ONLY
+        # SDPA and SageAttention handle dropout differently (or not at all in Sage's base API)
+        self.attn_dropout = nn.Dropout(dropout)
+    def forward(self, q, k, v):
+        """
+        einstein notation
+        b - batch
+        h - heads
+        n, i, j - sequence length (base sequence length, source, target)
+        d - feature dimension
+        Input tensors q, k, v expected in shape: (batch, heads, seq_len, dim_head) -> HND layout
+        """
+        q_len, k_len, device = q.shape[-2], k.shape[-2], q.device
+        # --- Priority 1: SageAttention ---
+        if self.use_sage:
+            # Assumes q, k, v are FP16/BF16 (handled by autocast upstream)
+            # Assumes scale is handled internally by sageattn
+            # Assumes dropout is NOT handled by sageattn kernel
+            # is_causal=False based on how Attend is called in mel_band_roformer
+            out = sageattn(q, k, v, tensor_layout='HND', is_causal=False)
+            return out
+            try:
+                return out
+                # print("Attempting SageAttention") # Optional: for debugging
+                out = sageattn(q, k, v, tensor_layout='HND', is_causal=False)
+                return out
+            except Exception as e:
+                print(f"SageAttention failed with error: {e}. Falling back.")
+                self.use_sage = False # Don't try Sage again if it failed once
+                # Decide fallback: Check if PyTorch SDPA is an option
+                if not self._sdpa_checked:
+                    if version.parse(torch.__version__) >= version.parse('2.0.0'):
+                        self.use_pytorch_sdpa = True
+                        _print_sdpa_fallback = _print_once("Falling back to PyTorch SDPA.")
+                        _print_sdpa_fallback()
+                    else:
+                        _print_einsum_fallback = _print_once("Falling back to einsum.")
+                        _print_einsum_fallback()
+                    self._sdpa_checked = True
+        # --- Priority 2: PyTorch SDPA ---
+        if self.use_pytorch_sdpa:
+             # Use PyTorch's Scaled Dot Product Attention (SDPA)
+             # It handles scaling and dropout internally.
+            try:
+                # print("Attempting PyTorch SDPA") # Optional: for debugging
+                # Let PyTorch choose the best backend (Flash V2, Mem Efficient, Math)
+                with torch.backends.cuda.sdp_kernel(enable_flash=True, enable_math=True, enable_mem_efficient=True):
+                    out = F.scaled_dot_product_attention(
+                        q, k, v,
+                        attn_mask=None, # Assuming no explicit mask needed here
+                        dropout_p = self.dropout if self.training else 0.,
+                        is_causal=False # Assuming not needed based on usage context
+                    )
+                return out
+            except Exception as e:
+                 print(f"PyTorch SDPA failed with error: {e}. Falling back to einsum.")
+                 self.use_pytorch_sdpa = False # Fallback to einsum on error
+        # Calculate scale
+        scale = default(self.scale, q.shape[-1] ** -0.5)
+        # similarity
+        sim = einsum(f"b h i d, b h j d -> b h i j", q, k) * scale
+        # attention
+        attn = sim.softmax(dim=-1)
+        attn = self.attn_dropout(attn) # Apply dropout ONLY in einsum path
+        # aggregate values
+        out = einsum(f"b h i j, b h j d -> b h i d", attn, v)
+        return out

models/bs_roformer/bs_roformer_experimental.py ADDED Viewed

	@@ -0,0 +1,686 @@

+from functools import partial
+import torch
+from torch import nn, einsum, Tensor
+from torch.nn import Module, ModuleList
+import torch.nn.functional as F
+from models.bs_roformer.attend import Attend
+from torch.utils.checkpoint import checkpoint
+from beartype.typing import Tuple, Optional, List, Callable
+from beartype import beartype
+from rotary_embedding_torch import RotaryEmbedding
+from einops import rearrange, pack, unpack
+from einops.layers.torch import Rearrange
+from hyper_connections import get_init_and_expand_reduce_stream_functions
+# helper functions
+def exists(val):
+    return val is not None
+def default(v, d):
+    return v if exists(v) else d
+def pack_one(t, pattern):
+    return pack([t], pattern)
+def unpack_one(t, ps, pattern):
+    return unpack(t, ps, pattern)[0]
+# norm
+def l2norm(t):
+    return F.normalize(t, dim = -1, p = 2)
+class RMSNorm(Module):
+    def __init__(self, dim):
+        super().__init__()
+        self.scale = dim ** 0.5
+        self.gamma = nn.Parameter(torch.ones(dim))
+    def forward(self, x):
+        return F.normalize(x, dim=-1) * self.scale * self.gamma
+# attention
+class FeedForward(Module):
+    def __init__(
+            self,
+            dim,
+            mult=4,
+            dropout=0.
+    ):
+        super().__init__()
+        dim_inner = int(dim * mult)
+        self.net = nn.Sequential(
+            RMSNorm(dim),
+            nn.Linear(dim, dim_inner),
+            nn.GELU(),
+            nn.Dropout(dropout),
+            nn.Linear(dim_inner, dim),
+            nn.Dropout(dropout)
+        )
+    def forward(self, x):
+        return self.net(x)
+class Attention(Module):
+    def __init__(
+            self,
+            dim,
+            heads=8,
+            dim_head=64,
+            dropout=0.,
+            rotary_embed=None,
+            flash=True,
+            learned_value_residual_mix=False,
+    ):
+        super().__init__()
+        self.heads = heads
+        self.scale = dim_head ** -0.5
+        dim_inner = heads * dim_head
+        self.rotary_embed = rotary_embed
+        self.attend = Attend(flash=flash, dropout=dropout)
+        self.norm = RMSNorm(dim)
+        self.to_qkv = nn.Linear(dim, dim_inner * 3, bias=False)
+        self.to_value_residual_mix = nn.Linear(dim, heads) if learned_value_residual_mix else None
+        self.to_gates = nn.Linear(dim, heads)
+        self.to_out = nn.Sequential(
+            nn.Linear(dim_inner, dim, bias=False),
+            nn.Dropout(dropout)
+        )
+    def forward(self, x, value_residual=None):
+        x = self.norm(x)
+        q, k, v = rearrange(self.to_qkv(x), 'b n (qkv h d) -> qkv b h n d', qkv=3, h=self.heads)
+        orig_v = v
+        if exists(self.to_value_residual_mix):
+            mix = self.to_value_residual_mix(x)
+            mix = rearrange(mix, 'b n h -> b h n 1').sigmoid()
+            assert exists(value_residual)
+            v = v.lerp(value_residual, mix)
+        if exists(self.rotary_embed):
+            q = self.rotary_embed.rotate_queries_or_keys(q)
+            k = self.rotary_embed.rotate_queries_or_keys(k)
+        out = self.attend(q, k, v)
+        gates = self.to_gates(x)
+        out = out * rearrange(gates, 'b n h -> b h n 1').sigmoid()
+        out = rearrange(out, 'b h n d -> b n (h d)')
+        return self.to_out(out), orig_v
+class LinearAttention(Module):
+    """
+    this flavor of linear attention proposed in https://arxiv.org/abs/2106.09681 by El-Nouby et al.
+    """
+    @beartype
+    def __init__(
+            self,
+            *,
+            dim,
+            dim_head=32,
+            heads=8,
+            scale=8,
+            flash=False,
+            dropout=0.
+    ):
+        super().__init__()
+        dim_inner = dim_head * heads
+        self.norm = RMSNorm(dim)
+        self.to_qkv = nn.Sequential(
+            nn.Linear(dim, dim_inner * 3, bias=False),
+            Rearrange('b n (qkv h d) -> qkv b h d n', qkv=3, h=heads)
+        )
+        self.temperature = nn.Parameter(torch.ones(heads, 1, 1))
+        self.attend = Attend(
+            scale=scale,
+            dropout=dropout,
+            flash=flash
+        )
+        self.to_out = nn.Sequential(
+            Rearrange('b h d n -> b n (h d)'),
+            nn.Linear(dim_inner, dim, bias=False)
+        )
+    def forward(
+            self,
+            x
+    ):
+        x = self.norm(x)
+        q, k, v = self.to_qkv(x)
+        q, k = map(l2norm, (q, k))
+        q = q * self.temperature.exp()
+        out = self.attend(q, k, v)
+        return self.to_out(out)
+class Transformer(Module):
+    def __init__(
+            self,
+            *,
+            dim,
+            depth,
+            dim_head=64,
+            heads=8,
+            attn_dropout=0.,
+            ff_dropout=0.,
+            ff_mult=4,
+            norm_output=True,
+            rotary_embed=None,
+            flash_attn=True,
+            linear_attn=False,
+            add_value_residual=False,
+            num_residual_streams=1,
+    ):
+        super().__init__()
+        self.layers = ModuleList([])
+        init_hyper_conn, *_ = get_init_and_expand_reduce_stream_functions(num_residual_streams, disable=num_residual_streams == 1)
+        for _ in range(depth):
+            if linear_attn:
+                attn = LinearAttention(dim=dim, dim_head=dim_head, heads=heads, dropout=attn_dropout, flash=flash_attn)
+            else:
+                if num_residual_streams != 1:
+                    attn = init_hyper_conn(dim=dim, branch=Attention(dim=dim, dim_head=dim_head, heads=heads, dropout=attn_dropout,
+                                 rotary_embed=rotary_embed, flash=flash_attn, learned_value_residual_mix=add_value_residual))
+                else:
+                    attn = Attention(
+                        dim=dim, dim_head=dim_head, heads=heads, dropout=attn_dropout,
+                        rotary_embed=rotary_embed, flash=flash_attn, learned_value_residual_mix=add_value_residual
+                    )
+            if num_residual_streams != 1:
+                ff = init_hyper_conn(dim=dim, branch=FeedForward(dim=dim, mult=ff_mult, dropout=ff_dropout))
+            else:
+                ff = FeedForward(dim=dim, mult=ff_mult, dropout=ff_dropout)
+            self.layers.append(ModuleList([
+                attn,
+                ff
+            ]))
+        self.norm = RMSNorm(dim) if norm_output else nn.Identity()
+    def forward(self, x, value_residual=None):
+        first_values = None
+        if value_residual is not None:
+            for attn, ff in self.layers:
+                x, next_values = attn(x, value_residual=value_residual)
+                first_values = default(first_values, next_values)
+                x = ff(x)
+        else:
+            # Compatibility with old weights
+            for attn, ff in self.layers:
+                attn_out, next_values = attn(x, value_residual=None)
+                first_values = default(first_values, next_values)
+                x = attn_out + x
+                x = ff(x) + x
+        return self.norm(x), first_values
+# bandsplit module
+class BandSplit(Module):
+    @beartype
+    def __init__(
+            self,
+            dim,
+            dim_inputs: Tuple[int, ...]
+    ):
+        super().__init__()
+        self.dim_inputs = dim_inputs
+        self.to_features = ModuleList([])
+        for dim_in in dim_inputs:
+            net = nn.Sequential(
+                RMSNorm(dim_in),
+                nn.Linear(dim_in, dim)
+            )
+            self.to_features.append(net)
+    def forward(self, x):
+        x = x.split(self.dim_inputs, dim=-1)
+        outs = []
+        for split_input, to_feature in zip(x, self.to_features):
+            split_output = to_feature(split_input)
+            outs.append(split_output)
+        return torch.stack(outs, dim=-2)
+def MLP(
+        dim_in,
+        dim_out,
+        dim_hidden=None,
+        depth=1,
+        activation=nn.Tanh
+):
+    dim_hidden = default(dim_hidden, dim_in)
+    net = []
+    dims = (dim_in, *((dim_hidden,) * (depth - 1)), dim_out)
+    for ind, (layer_dim_in, layer_dim_out) in enumerate(zip(dims[:-1], dims[1:])):
+        is_last = ind == (len(dims) - 2)
+        net.append(nn.Linear(layer_dim_in, layer_dim_out))
+        if is_last:
+            continue
+        net.append(activation())
+    return nn.Sequential(*net)
+class MaskEstimator(Module):
+    @beartype
+    def __init__(
+            self,
+            dim,
+            dim_inputs: Tuple[int, ...],
+            depth,
+            mlp_expansion_factor=4
+    ):
+        super().__init__()
+        self.dim_inputs = dim_inputs
+        self.to_freqs = ModuleList([])
+        dim_hidden = dim * mlp_expansion_factor
+        for dim_in in dim_inputs:
+            net = []
+            mlp = nn.Sequential(
+                MLP(dim, dim_in * 2, dim_hidden=dim_hidden, depth=depth),
+                nn.GLU(dim=-1)
+            )
+            self.to_freqs.append(mlp)
+    def forward(self, x):
+        x = x.unbind(dim=-2)
+        outs = []
+        for band_features, mlp in zip(x, self.to_freqs):
+            freq_out = mlp(band_features)
+            outs.append(freq_out)
+        return torch.cat(outs, dim=-1)
+# main class
+DEFAULT_FREQS_PER_BANDS = (
+    2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
+    2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
+    2, 2, 2, 2,
+    4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4,
+    12, 12, 12, 12, 12, 12, 12, 12,
+    24, 24, 24, 24, 24, 24, 24, 24,
+    48, 48, 48, 48, 48, 48, 48, 48,
+    128, 129,
+)
+class BSRoformer(Module):
+    @beartype
+    def __init__(
+            self,
+            dim,
+            *,
+            depth,
+            stereo=False,
+            num_stems=1,
+            time_transformer_depth=2,
+            freq_transformer_depth=2,
+            linear_transformer_depth=0,
+            freqs_per_bands: Tuple[int, ...] = DEFAULT_FREQS_PER_BANDS,
+            # in the paper, they divide into ~60 bands, test with 1 for starters
+            dim_head=64,
+            heads=8,
+            attn_dropout=0.,
+            ff_dropout=0.,
+            flash_attn=True,
+            dim_freqs_in=1025,
+            stft_n_fft=2048,
+            stft_hop_length=512,
+            # 10ms at 44100Hz, from sections 4.1, 4.4 in the paper - @faroit recommends // 2 or // 4 for better reconstruction
+            stft_win_length=2048,
+            stft_normalized=False,
+            stft_window_fn: Optional[Callable] = None,
+            mask_estimator_depth=2,
+            multi_stft_resolution_loss_weight=1.,
+            multi_stft_resolutions_window_sizes: Tuple[int, ...] = (4096, 2048, 1024, 512, 256),
+            multi_stft_hop_size=147,
+            multi_stft_normalized=False,
+            multi_stft_window_fn: Callable = torch.hann_window,
+            mlp_expansion_factor=4,
+            use_torch_checkpoint=False,
+            skip_connection=False,
+            use_value_residual_learning=False,
+            num_residual_streams=1,  # set to 1. to disable hyper connections (Default in original is 4)
+    ):
+        super().__init__()
+        self.stereo = stereo
+        self.audio_channels = 2 if stereo else 1
+        self.num_stems = num_stems
+        self.use_torch_checkpoint = use_torch_checkpoint
+        self.skip_connection = skip_connection
+        self.num_residual_streams = num_residual_streams
+        _, self.expand_stream, self.reduce_stream = get_init_and_expand_reduce_stream_functions(num_residual_streams, disable=num_residual_streams == 1)
+        self.layers = ModuleList([])
+        transformer_kwargs = dict(
+            dim=dim,
+            heads=heads,
+            dim_head=dim_head,
+            attn_dropout=attn_dropout,
+            ff_dropout=ff_dropout,
+            flash_attn=flash_attn,
+            norm_output=False,
+            num_residual_streams=num_residual_streams,
+        )
+        time_rotary_embed = RotaryEmbedding(dim=dim_head)
+        freq_rotary_embed = RotaryEmbedding(dim=dim_head)
+        for layer_index in range(depth):
+            if use_value_residual_learning:
+                is_first = layer_index == 0
+            else:
+                is_first = True
+            tran_modules = []
+            if linear_transformer_depth > 0:
+                tran_modules.append(Transformer(depth=linear_transformer_depth, linear_attn=True, **transformer_kwargs))
+            tran_modules.append(
+                Transformer(depth=time_transformer_depth, rotary_embed=time_rotary_embed, add_value_residual=not is_first, **transformer_kwargs)
+            )
+            tran_modules.append(
+                Transformer(depth=freq_transformer_depth, rotary_embed=freq_rotary_embed, add_value_residual=not is_first, **transformer_kwargs)
+            )
+            self.layers.append(nn.ModuleList(tran_modules))
+        self.final_norm = RMSNorm(dim)
+        self.stft_kwargs = dict(
+            n_fft=stft_n_fft,
+            hop_length=stft_hop_length,
+            win_length=stft_win_length,
+            normalized=stft_normalized
+        )
+        self.stft_window_fn = partial(default(stft_window_fn, torch.hann_window), stft_win_length)
+        freqs = torch.stft(torch.randn(1, 4096), **self.stft_kwargs, window=torch.ones(stft_win_length), return_complex=True).shape[1]
+        assert len(freqs_per_bands) > 1
+        assert sum(
+            freqs_per_bands) == freqs, f'the number of freqs in the bands must equal {freqs} based on the STFT settings, but got {sum(freqs_per_bands)}'
+        freqs_per_bands_with_complex = tuple(2 * f * self.audio_channels for f in freqs_per_bands)
+        self.band_split = BandSplit(
+            dim=dim,
+            dim_inputs=freqs_per_bands_with_complex
+        )
+        self.mask_estimators = nn.ModuleList([])
+        for _ in range(num_stems):
+            mask_estimator = MaskEstimator(
+                dim=dim,
+                dim_inputs=freqs_per_bands_with_complex,
+                depth=mask_estimator_depth,
+                mlp_expansion_factor=mlp_expansion_factor,
+            )
+            self.mask_estimators.append(mask_estimator)
+        # for the multi-resolution stft loss
+        self.multi_stft_resolution_loss_weight = multi_stft_resolution_loss_weight
+        self.multi_stft_resolutions_window_sizes = multi_stft_resolutions_window_sizes
+        self.multi_stft_n_fft = stft_n_fft
+        self.multi_stft_window_fn = multi_stft_window_fn
+        self.multi_stft_kwargs = dict(
+            hop_length=multi_stft_hop_size,
+            normalized=multi_stft_normalized
+        )
+    def forward(
+            self,
+            raw_audio,
+            target=None,
+            return_loss_breakdown=False
+    ):
+        """
+        einops
+        b - batch
+        f - freq
+        t - time
+        s - audio channel (1 for mono, 2 for stereo)
+        n - number of 'stems'
+        c - complex (2)
+        d - feature dimension
+        """
+        device = raw_audio.device
+        # defining whether model is loaded on MPS (MacOS GPU accelerator)
+        x_is_mps = True if device.type == "mps" else False
+        if raw_audio.ndim == 2:
+            raw_audio = rearrange(raw_audio, 'b t -> b 1 t')
+        channels = raw_audio.shape[1]
+        assert (not self.stereo and channels == 1) or (self.stereo and channels == 2), 'stereo needs to be set to True if passing in audio signal that is stereo (channel dimension of 2). also need to be False if mono (channel dimension of 1)'
+        # to stft
+        raw_audio, batch_audio_channel_packed_shape = pack_one(raw_audio, '* t')
+        stft_window = self.stft_window_fn(device=device)
+        # RuntimeError: FFT operations are only supported on MacOS 14+
+        # Since it's tedious to define whether we're on correct MacOS version - simple try-catch is used
+        try:
+            stft_repr = torch.stft(raw_audio, **self.stft_kwargs, window=stft_window, return_complex=True)
+        except:
+            stft_repr = torch.stft(raw_audio.cpu() if x_is_mps else raw_audio, **self.stft_kwargs,
+                                   window=stft_window.cpu() if x_is_mps else stft_window, return_complex=True).to(
+                device)
+        stft_repr = torch.view_as_real(stft_repr)
+        stft_repr = unpack_one(stft_repr, batch_audio_channel_packed_shape, '* f t c')
+        # merge stereo / mono into the frequency, with frequency leading dimension, for band splitting
+        stft_repr = rearrange(stft_repr,'b s f t c -> b (f s) t c')
+        x = rearrange(stft_repr, 'b f t c -> b t (f c)')
+        if self.use_torch_checkpoint:
+            x = checkpoint(self.band_split, x, use_reentrant=False)
+        else:
+            x = self.band_split(x)
+        # value residuals
+        time_v_residual = None
+        freq_v_residual = None
+        # maybe expand residual streams
+        if self.num_residual_streams != 1:
+            x = self.expand_stream(x)
+        # axial / hierarchical attention
+        store = [None] * len(self.layers)
+        for i, transformer_block in enumerate(self.layers):
+            if len(transformer_block) == 3:
+                linear_transformer, time_transformer, freq_transformer = transformer_block
+                x, ft_ps = pack([x], 'b * d')
+                if self.use_torch_checkpoint:
+                    x = checkpoint(linear_transformer, x, use_reentrant=False)
+                else:
+                    x = linear_transformer(x)
+                x, = unpack(x, ft_ps, 'b * d')
+            else:
+                time_transformer, freq_transformer = transformer_block
+            if self.skip_connection:
+                # Sum all previous
+                for j in range(i):
+                    x = x + store[j]
+            x = rearrange(x, 'b t f d -> b f t d')
+            x, ps = pack([x], '* t d')
+            if self.use_torch_checkpoint:
+                x, next_time_v_residual = checkpoint(time_transformer, x, time_v_residual, use_reentrant=False)
+            else:
+                x, next_time_v_residual = time_transformer(x, value_residual=time_v_residual)
+            time_v_residual = default(time_v_residual, next_time_v_residual)
+            x, = unpack(x, ps, '* t d')
+            x = rearrange(x, 'b f t d -> b t f d')
+            x, ps = pack([x], '* f d')
+            if self.use_torch_checkpoint:
+                x, next_freq_v_residual = checkpoint(freq_transformer, x, freq_v_residual, use_reentrant=False)
+            else:
+                x, next_freq_v_residual = freq_transformer(x, value_residual=freq_v_residual)
+            freq_v_residual = default(freq_v_residual, next_freq_v_residual)
+            x, = unpack(x, ps, '* f d')
+            if self.skip_connection:
+                store[i] = x
+        # maybe reduce residual streams
+        if self.num_residual_streams != 1:
+            x = self.reduce_stream(x)
+        x = self.final_norm(x)
+        num_stems = len(self.mask_estimators)
+        if self.use_torch_checkpoint:
+            mask = torch.stack([checkpoint(fn, x, use_reentrant=False) for fn in self.mask_estimators], dim=1)
+        else:
+            mask = torch.stack([fn(x) for fn in self.mask_estimators], dim=1)
+        mask = rearrange(mask, 'b n t (f c) -> b n f t c', c=2)
+        # modulate frequency representation
+        stft_repr = rearrange(stft_repr, 'b f t c -> b 1 f t c')
+        # complex number multiplication
+        stft_repr = torch.view_as_complex(stft_repr)
+        mask = torch.view_as_complex(mask)
+        stft_repr = stft_repr * mask
+        # istft
+        stft_repr = rearrange(stft_repr, 'b n (f s) t -> (b n s) f t', s=self.audio_channels)
+        # same as torch.stft() fix for MacOS MPS above
+        try:
+            recon_audio = torch.istft(stft_repr, **self.stft_kwargs, window=stft_window, return_complex=False, length=raw_audio.shape[-1])
+        except:
+            recon_audio = torch.istft(stft_repr.cpu() if x_is_mps else stft_repr, **self.stft_kwargs, window=stft_window.cpu() if x_is_mps else stft_window, return_complex=False, length=raw_audio.shape[-1]).to(device)
+        recon_audio = rearrange(recon_audio, '(b n s) t -> b n s t', s=self.audio_channels, n=num_stems)
+        if num_stems == 1:
+            recon_audio = rearrange(recon_audio, 'b 1 s t -> b s t')
+        # if a target is passed in, calculate loss for learning
+        if not exists(target):
+            return recon_audio
+        if self.num_stems > 1:
+            assert target.ndim == 4 and target.shape[1] == self.num_stems
+        if target.ndim == 2:
+            target = rearrange(target, '... t -> ... 1 t')
+        target = target[..., :recon_audio.shape[-1]]  # protect against lost length on istft
+        loss = F.l1_loss(recon_audio, target)
+        multi_stft_resolution_loss = 0.
+        for window_size in self.multi_stft_resolutions_window_sizes:
+            res_stft_kwargs = dict(
+                n_fft=max(window_size, self.multi_stft_n_fft),  # not sure what n_fft is across multi resolution stft
+                win_length=window_size,
+                return_complex=True,
+                window=self.multi_stft_window_fn(window_size, device=device),
+                **self.multi_stft_kwargs,
+            )
+            recon_Y = torch.stft(rearrange(recon_audio, '... s t -> (... s) t'), **res_stft_kwargs)
+            target_Y = torch.stft(rearrange(target, '... s t -> (... s) t'), **res_stft_kwargs)
+            multi_stft_resolution_loss = multi_stft_resolution_loss + F.l1_loss(recon_Y, target_Y)
+        weighted_multi_resolution_loss = multi_stft_resolution_loss * self.multi_stft_resolution_loss_weight
+        total_loss = loss + weighted_multi_resolution_loss
+        if not return_loss_breakdown:
+            return total_loss
+        return total_loss, (loss, multi_stft_resolution_loss)

models/bs_roformer/mel_band_roformer_experimental.py ADDED Viewed

	@@ -0,0 +1,733 @@

+from functools import partial
+import torch
+from torch import nn, einsum, Tensor
+from torch.nn import Module, ModuleList
+import torch.nn.functional as F
+from models.bs_roformer.attend import Attend
+from torch.utils.checkpoint import checkpoint
+from beartype.typing import Tuple, Optional, List, Callable
+from beartype import beartype
+from rotary_embedding_torch import RotaryEmbedding
+from einops import rearrange, pack, unpack, reduce, repeat
+from einops.layers.torch import Rearrange
+from hyper_connections import get_init_and_expand_reduce_stream_functions
+from librosa import filters
+# helper functions
+def exists(val):
+    return val is not None
+def default(v, d):
+    return v if exists(v) else d
+def pack_one(t, pattern):
+    return pack([t], pattern)
+def unpack_one(t, ps, pattern):
+    return unpack(t, ps, pattern)[0]
+def pad_at_dim(t, pad, dim=-1, value=0.):
+    dims_from_right = (- dim - 1) if dim < 0 else (t.ndim - dim - 1)
+    zeros = ((0, 0) * dims_from_right)
+    return F.pad(t, (*zeros, *pad), value=value)
+def l2norm(t):
+    return F.normalize(t, dim=-1, p=2)
+# norm
+class RMSNorm(Module):
+    def __init__(self, dim):
+        super().__init__()
+        self.scale = dim ** 0.5
+        self.gamma = nn.Parameter(torch.ones(dim))
+    def forward(self, x):
+        return F.normalize(x, dim=-1) * self.scale * self.gamma
+# attention
+class FeedForward(Module):
+    def __init__(
+            self,
+            dim,
+            mult=4,
+            dropout=0.
+    ):
+        super().__init__()
+        dim_inner = int(dim * mult)
+        self.net = nn.Sequential(
+            RMSNorm(dim),
+            nn.Linear(dim, dim_inner),
+            nn.GELU(),
+            nn.Dropout(dropout),
+            nn.Linear(dim_inner, dim),
+            nn.Dropout(dropout)
+        )
+    def forward(self, x):
+        return self.net(x)
+class Attention(Module):
+    def __init__(
+            self,
+            dim,
+            heads=8,
+            dim_head=64,
+            dropout=0.,
+            rotary_embed=None,
+            flash=True,
+            learned_value_residual_mix=False,
+    ):
+        super().__init__()
+        self.heads = heads
+        self.scale = dim_head ** -0.5
+        dim_inner = heads * dim_head
+        self.rotary_embed = rotary_embed
+        self.attend = Attend(flash=flash, dropout=dropout)
+        self.norm = RMSNorm(dim)
+        self.to_qkv = nn.Linear(dim, dim_inner * 3, bias=False)
+        self.to_value_residual_mix = nn.Linear(dim, heads) if learned_value_residual_mix else None
+        self.to_gates = nn.Linear(dim, heads)
+        self.to_out = nn.Sequential(
+            nn.Linear(dim_inner, dim, bias=False),
+            nn.Dropout(dropout)
+        )
+    def forward(self, x, value_residual=None):
+        x = self.norm(x)
+        q, k, v = rearrange(self.to_qkv(x), 'b n (qkv h d) -> qkv b h n d', qkv=3, h=self.heads)
+        orig_v = v
+        if exists(self.to_value_residual_mix):
+            mix = self.to_value_residual_mix(x)
+            mix = rearrange(mix, 'b n h -> b h n 1').sigmoid()
+            assert exists(value_residual)
+            v = v.lerp(value_residual, mix)
+        if exists(self.rotary_embed):
+            q = self.rotary_embed.rotate_queries_or_keys(q)
+            k = self.rotary_embed.rotate_queries_or_keys(k)
+        out = self.attend(q, k, v)
+        gates = self.to_gates(x)
+        out = out * rearrange(gates, 'b n h -> b h n 1').sigmoid()
+        out = rearrange(out, 'b h n d -> b n (h d)')
+        return self.to_out(out), orig_v
+class LinearAttention(Module):
+    """
+    this flavor of linear attention proposed in https://arxiv.org/abs/2106.09681 by El-Nouby et al.
+    """
+    @beartype
+    def __init__(
+            self,
+            *,
+            dim,
+            dim_head=32,
+            heads=8,
+            scale=8,
+            flash=False,
+            dropout=0.
+    ):
+        super().__init__()
+        dim_inner = dim_head * heads
+        self.norm = RMSNorm(dim)
+        self.to_qkv = nn.Sequential(
+            nn.Linear(dim, dim_inner * 3, bias=False),
+            Rearrange('b n (qkv h d) -> qkv b h d n', qkv=3, h=heads)
+        )
+        self.temperature = nn.Parameter(torch.zeros(heads, 1, 1))
+        self.attend = Attend(
+            scale=scale,
+            dropout=dropout,
+            flash=flash
+        )
+        self.to_out = nn.Sequential(
+            Rearrange('b h d n -> b n (h d)'),
+            nn.Linear(dim_inner, dim, bias=False)
+        )
+    def forward(
+            self,
+            x
+    ):
+        x = self.norm(x)
+        q, k, v = self.to_qkv(x)
+        q, k = map(l2norm, (q, k))
+        q = q * self.temperature.exp()
+        out = self.attend(q, k, v)
+        return self.to_out(out)
+class Transformer(Module):
+    def __init__(
+            self,
+            *,
+            dim,
+            depth,
+            dim_head=64,
+            heads=8,
+            attn_dropout=0.,
+            ff_dropout=0.,
+            ff_mult=4,
+            norm_output=True,
+            rotary_embed=None,
+            flash_attn=True,
+            linear_attn=False,
+            add_value_residual=False,
+            num_residual_streams=1,
+    ):
+        super().__init__()
+        self.layers = ModuleList([])
+        init_hyper_conn, *_ = get_init_and_expand_reduce_stream_functions(num_residual_streams, disable=num_residual_streams == 1)
+        for _ in range(depth):
+            if linear_attn:
+                attn = LinearAttention(dim=dim, dim_head=dim_head, heads=heads, dropout=attn_dropout, flash=flash_attn)
+            else:
+                if num_residual_streams != 1:
+                    attn = init_hyper_conn(dim=dim, branch=Attention(dim=dim, dim_head=dim_head, heads=heads,
+                                                                     dropout=attn_dropout,
+                                                                     rotary_embed=rotary_embed, flash=flash_attn,
+                                                                     learned_value_residual_mix=add_value_residual))
+                else:
+                    attn = Attention(
+                        dim=dim, dim_head=dim_head, heads=heads, dropout=attn_dropout,
+                        rotary_embed=rotary_embed, flash=flash_attn, learned_value_residual_mix=add_value_residual
+                    )
+            if num_residual_streams != 1:
+                ff = init_hyper_conn(dim=dim, branch=FeedForward(dim=dim, mult=ff_mult, dropout=ff_dropout))
+            else:
+                ff = FeedForward(dim=dim, mult=ff_mult, dropout=ff_dropout)
+            self.layers.append(ModuleList([
+                attn,
+                ff,
+            ]))
+        self.norm = RMSNorm(dim) if norm_output else nn.Identity()
+    def forward(self, x, value_residual=None):
+        first_values = None
+        if value_residual is not None:
+            for attn, ff in self.layers:
+                x, next_values = attn(x, value_residual=value_residual)
+                first_values = default(first_values, next_values)
+                x = ff(x)
+        else:
+            # Compatibility with old weights
+            for attn, ff in self.layers:
+                attn_out, next_values = attn(x, value_residual=None)
+                first_values = default(first_values, next_values)
+                x = attn_out + x
+                x = ff(x) + x
+        return self.norm(x), first_values
+# bandsplit module
+class BandSplit(Module):
+    @beartype
+    def __init__(
+            self,
+            dim,
+            dim_inputs: Tuple[int, ...]
+    ):
+        super().__init__()
+        self.dim_inputs = dim_inputs
+        self.to_features = ModuleList([])
+        for dim_in in dim_inputs:
+            net = nn.Sequential(
+                RMSNorm(dim_in),
+                nn.Linear(dim_in, dim)
+            )
+            self.to_features.append(net)
+    def forward(self, x):
+        x = x.split(self.dim_inputs, dim=-1)
+        outs = []
+        for split_input, to_feature in zip(x, self.to_features):
+            split_output = to_feature(split_input)
+            outs.append(split_output)
+        return torch.stack(outs, dim=-2)
+def MLP(
+        dim_in,
+        dim_out,
+        dim_hidden=None,
+        depth=1,
+        activation=nn.Tanh
+):
+    dim_hidden = default(dim_hidden, dim_in)
+    net = []
+    dims = (dim_in, *((dim_hidden,) * depth), dim_out)
+    for ind, (layer_dim_in, layer_dim_out) in enumerate(zip(dims[:-1], dims[1:])):
+        is_last = ind == (len(dims) - 2)
+        net.append(nn.Linear(layer_dim_in, layer_dim_out))
+        if is_last:
+            continue
+        net.append(activation())
+    return nn.Sequential(*net)
+class MaskEstimator(Module):
+    @beartype
+    def __init__(
+            self,
+            dim,
+            dim_inputs: Tuple[int, ...],
+            depth,
+            mlp_expansion_factor=4
+    ):
+        super().__init__()
+        self.dim_inputs = dim_inputs
+        self.to_freqs = ModuleList([])
+        dim_hidden = dim * mlp_expansion_factor
+        for dim_in in dim_inputs:
+            net = []
+            mlp = nn.Sequential(
+                MLP(dim, dim_in * 2, dim_hidden=dim_hidden, depth=depth),
+                nn.GLU(dim=-1)
+            )
+            self.to_freqs.append(mlp)
+    def forward(self, x):
+        x = x.unbind(dim=-2)
+        outs = []
+        for band_features, mlp in zip(x, self.to_freqs):
+            freq_out = mlp(band_features)
+            outs.append(freq_out)
+        return torch.cat(outs, dim=-1)
+# main class
+class MelBandRoformer(Module):
+    @beartype
+    def __init__(
+            self,
+            dim,
+            *,
+            depth,
+            stereo=False,
+            num_stems=1,
+            time_transformer_depth=2,
+            freq_transformer_depth=2,
+            linear_transformer_depth=0,
+            num_bands=60,
+            dim_head=64,
+            heads=8,
+            attn_dropout=0.1,
+            ff_dropout=0.1,
+            flash_attn=True,
+            dim_freqs_in=1025,
+            sample_rate=44100,  # needed for mel filter bank from librosa
+            stft_n_fft=2048,
+            stft_hop_length=512,
+            # 10ms at 44100Hz, from sections 4.1, 4.4 in the paper - @faroit recommends // 2 or // 4 for better reconstruction
+            stft_win_length=2048,
+            stft_normalized=False,
+            stft_window_fn: Optional[Callable] = None,
+            mask_estimator_depth=1,
+            multi_stft_resolution_loss_weight=1.,
+            multi_stft_resolutions_window_sizes: Tuple[int, ...] = (4096, 2048, 1024, 512, 256),
+            multi_stft_hop_size=147,
+            multi_stft_normalized=False,
+            multi_stft_window_fn: Callable = torch.hann_window,
+            match_input_audio_length=False,  # if True, pad output tensor to match length of input tensor
+            mlp_expansion_factor=4,
+            use_torch_checkpoint=False,
+            skip_connection=False,
+            use_value_residual_learning=False,
+            num_residual_streams=1,  # set to 1. to disable hyper connections (Default in original is 4)
+    ):
+        super().__init__()
+        self.stereo = stereo
+        self.audio_channels = 2 if stereo else 1
+        self.num_stems = num_stems
+        self.use_torch_checkpoint = use_torch_checkpoint
+        self.skip_connection = skip_connection
+        self.num_residual_streams = num_residual_streams
+        _, self.expand_stream, self.reduce_stream = get_init_and_expand_reduce_stream_functions(num_residual_streams, disable=num_residual_streams == 1)
+        self.layers = ModuleList([])
+        transformer_kwargs = dict(
+            dim=dim,
+            heads=heads,
+            dim_head=dim_head,
+            attn_dropout=attn_dropout,
+            ff_dropout=ff_dropout,
+            flash_attn=flash_attn,
+            num_residual_streams=num_residual_streams,
+        )
+        time_rotary_embed = RotaryEmbedding(dim=dim_head)
+        freq_rotary_embed = RotaryEmbedding(dim=dim_head)
+        for layer_index in range(depth):
+            if use_value_residual_learning:
+                is_first = layer_index == 0
+            else:
+                is_first = True
+            tran_modules = []
+            if linear_transformer_depth > 0:
+                tran_modules.append(Transformer(depth=linear_transformer_depth, linear_attn=True, **transformer_kwargs))
+            tran_modules.append(
+                Transformer(depth=time_transformer_depth, rotary_embed=time_rotary_embed, add_value_residual=not is_first, **transformer_kwargs)
+            )
+            tran_modules.append(
+                Transformer(depth=freq_transformer_depth, rotary_embed=freq_rotary_embed, add_value_residual=not is_first, **transformer_kwargs)
+            )
+            self.layers.append(nn.ModuleList(tran_modules))
+        self.stft_window_fn = partial(default(stft_window_fn, torch.hann_window), stft_win_length)
+        self.stft_kwargs = dict(
+            n_fft=stft_n_fft,
+            hop_length=stft_hop_length,
+            win_length=stft_win_length,
+            normalized=stft_normalized
+        )
+        freqs = torch.stft(torch.randn(1, 4096), **self.stft_kwargs, window=torch.ones(stft_n_fft), return_complex=True).shape[1]
+        # create mel filter bank
+        # with librosa.filters.mel as in section 2 of paper
+        mel_filter_bank_numpy = filters.mel(sr=sample_rate, n_fft=stft_n_fft, n_mels=num_bands)
+        mel_filter_bank = torch.from_numpy(mel_filter_bank_numpy)
+        # for some reason, it doesn't include the first freq? just force a value for now
+        mel_filter_bank[0][0] = 1.
+        # In some systems/envs we get 0.0 instead of ~1.9e-18 in the last position,
+        # so let's force a positive value
+        mel_filter_bank[-1, -1] = 1.
+        # binary as in paper (then estimated masks are averaged for overlapping regions)
+        freqs_per_band = mel_filter_bank > 0
+        assert freqs_per_band.any(dim=0).all(), 'all frequencies need to be covered by all bands for now'
+        repeated_freq_indices = repeat(torch.arange(freqs), 'f -> b f', b=num_bands)
+        freq_indices = repeated_freq_indices[freqs_per_band]
+        if stereo:
+            freq_indices = repeat(freq_indices, 'f -> f s', s=2)
+            freq_indices = freq_indices * 2 + torch.arange(2)
+            freq_indices = rearrange(freq_indices, 'f s -> (f s)')
+        self.register_buffer('freq_indices', freq_indices, persistent=False)
+        self.register_buffer('freqs_per_band', freqs_per_band, persistent=False)
+        num_freqs_per_band = reduce(freqs_per_band, 'b f -> b', 'sum')
+        num_bands_per_freq = reduce(freqs_per_band, 'b f -> f', 'sum')
+        self.register_buffer('num_freqs_per_band', num_freqs_per_band, persistent=False)
+        self.register_buffer('num_bands_per_freq', num_bands_per_freq, persistent=False)
+        # band split and mask estimator
+        freqs_per_bands_with_complex = tuple(2 * f * self.audio_channels for f in num_freqs_per_band.tolist())
+        self.band_split = BandSplit(
+            dim=dim,
+            dim_inputs=freqs_per_bands_with_complex
+        )
+        self.mask_estimators = nn.ModuleList([])
+        for _ in range(num_stems):
+            mask_estimator = MaskEstimator(
+                dim=dim,
+                dim_inputs=freqs_per_bands_with_complex,
+                depth=mask_estimator_depth,
+                mlp_expansion_factor=mlp_expansion_factor,
+            )
+            self.mask_estimators.append(mask_estimator)
+        # for the multi-resolution stft loss
+        self.multi_stft_resolution_loss_weight = multi_stft_resolution_loss_weight
+        self.multi_stft_resolutions_window_sizes = multi_stft_resolutions_window_sizes
+        self.multi_stft_n_fft = stft_n_fft
+        self.multi_stft_window_fn = multi_stft_window_fn
+        self.multi_stft_kwargs = dict(
+            hop_length=multi_stft_hop_size,
+            normalized=multi_stft_normalized
+        )
+        self.match_input_audio_length = match_input_audio_length
+    def forward(
+            self,
+            raw_audio,
+            target=None,
+            return_loss_breakdown=False
+    ):
+        """
+        einops
+        b - batch
+        f - freq
+        t - time
+        s - audio channel (1 for mono, 2 for stereo)
+        n - number of 'stems'
+        c - complex (2)
+        d - feature dimension
+        """
+        device = raw_audio.device
+        if raw_audio.ndim == 2:
+            raw_audio = rearrange(raw_audio, 'b t -> b 1 t')
+        batch, channels, raw_audio_length = raw_audio.shape
+        istft_length = raw_audio_length if self.match_input_audio_length else None
+        assert (not self.stereo and channels == 1) or (
+                    self.stereo and channels == 2), 'stereo needs to be set to True if passing in audio signal that is stereo (channel dimension of 2). also need to be False if mono (channel dimension of 1)'
+        # to stft
+        raw_audio, batch_audio_channel_packed_shape = pack_one(raw_audio, '* t')
+        stft_window = self.stft_window_fn(device=device)
+        stft_repr = torch.stft(raw_audio, **self.stft_kwargs, window=stft_window, return_complex=True)
+        stft_repr = torch.view_as_real(stft_repr)
+        stft_repr = unpack_one(stft_repr, batch_audio_channel_packed_shape, '* f t c')
+        # merge stereo / mono into the frequency, with frequency leading dimension, for band splitting
+        stft_repr = rearrange(stft_repr,'b s f t c -> b (f s) t c')
+        # index out all frequencies for all frequency ranges across bands ascending in one go
+        batch_arange = torch.arange(batch, device=device)[..., None]
+        # account for stereo
+        x = stft_repr[batch_arange, self.freq_indices]
+        # fold the complex (real and imag) into the frequencies dimension
+        x = rearrange(x, 'b f t c -> b t (f c)')
+        if self.use_torch_checkpoint:
+            x = checkpoint(self.band_split, x, use_reentrant=False)
+        else:
+            x = self.band_split(x)
+        # value residuals
+        time_v_residual = None
+        freq_v_residual = None
+        # maybe expand residual streams
+        if self.num_residual_streams != 1:
+            x = self.expand_stream(x)
+        # axial / hierarchical attention
+        store = [None] * len(self.layers)
+        for i, transformer_block in enumerate(self.layers):
+            if len(transformer_block) == 3:
+                linear_transformer, time_transformer, freq_transformer = transformer_block
+                x, ft_ps = pack([x], 'b * d')
+                if self.use_torch_checkpoint:
+                    x = checkpoint(linear_transformer, x, use_reentrant=False)
+                else:
+                    x = linear_transformer(x)
+                x, = unpack(x, ft_ps, 'b * d')
+            else:
+                time_transformer, freq_transformer = transformer_block
+            if self.skip_connection:
+                # Sum all previous
+                for j in range(i):
+                    x = x + store[j]
+            x = rearrange(x, 'b t f d -> b f t d')
+            x, ps = pack([x], '* t d')
+            if self.use_torch_checkpoint:
+                x, next_time_v_residual = checkpoint(time_transformer, x, time_v_residual, use_reentrant=False)
+            else:
+                x, next_time_v_residual = time_transformer(x, time_v_residual)
+            time_v_residual = default(time_v_residual, next_time_v_residual)
+            x, = unpack(x, ps, '* t d')
+            x = rearrange(x, 'b f t d -> b t f d')
+            x, ps = pack([x], '* f d')
+            if self.use_torch_checkpoint:
+                x, next_freq_v_residual = checkpoint(freq_transformer, x, freq_v_residual, use_reentrant=False)
+            else:
+                x, next_freq_v_residual = freq_transformer(x, value_residual=freq_v_residual)
+            freq_v_residual = default(freq_v_residual, next_freq_v_residual)
+            x, = unpack(x, ps, '* f d')
+            if self.skip_connection:
+                store[i] = x
+        # maybe reduce residual streams
+        if self.num_residual_streams != 1:
+            x = self.reduce_stream(x)
+        num_stems = len(self.mask_estimators)
+        if self.use_torch_checkpoint:
+            masks = torch.stack([checkpoint(fn, x, use_reentrant=False) for fn in self.mask_estimators], dim=1)
+        else:
+            masks = torch.stack([fn(x) for fn in self.mask_estimators], dim=1)
+        masks = rearrange(masks, 'b n t (f c) -> b n f t c', c=2)
+        # modulate frequency representation
+        stft_repr = rearrange(stft_repr, 'b f t c -> b 1 f t c')
+        # complex number multiplication
+        stft_repr = torch.view_as_complex(stft_repr)
+        masks = torch.view_as_complex(masks)
+        masks = masks.type(stft_repr.dtype)
+        # need to average the estimated mask for the overlapped frequencies
+        scatter_indices = repeat(self.freq_indices, 'f -> b n f t', b=batch, n=num_stems, t=stft_repr.shape[-1])
+        stft_repr_expanded_stems = repeat(stft_repr, 'b 1 ... -> b n ...', n=num_stems)
+        masks_summed = torch.zeros_like(stft_repr_expanded_stems).scatter_add_(2, scatter_indices, masks)
+        denom = repeat(self.num_bands_per_freq, 'f -> (f r) 1', r=channels)
+        masks_averaged = masks_summed / denom.clamp(min=1e-8)
+        # modulate stft repr with estimated mask
+        stft_repr = stft_repr * masks_averaged
+        # istft
+        stft_repr = rearrange(stft_repr, 'b n (f s) t -> (b n s) f t', s=self.audio_channels)
+        recon_audio = torch.istft(stft_repr, **self.stft_kwargs, window=stft_window, return_complex=False,
+                                  length=istft_length)
+        recon_audio = rearrange(recon_audio, '(b n s) t -> b n s t', b=batch, s=self.audio_channels, n=num_stems)
+        if num_stems == 1:
+            recon_audio = rearrange(recon_audio, 'b 1 s t -> b s t')
+        # if a target is passed in, calculate loss for learning
+        if not exists(target):
+            return recon_audio
+        if self.num_stems > 1:
+            assert target.ndim == 4 and target.shape[1] == self.num_stems
+        if target.ndim == 2:
+            target = rearrange(target, '... t -> ... 1 t')
+        target = target[..., :recon_audio.shape[-1]]  # protect against lost length on istft
+        loss = F.l1_loss(recon_audio, target)
+        multi_stft_resolution_loss = 0.
+        for window_size in self.multi_stft_resolutions_window_sizes:
+            res_stft_kwargs = dict(
+                n_fft=max(window_size, self.multi_stft_n_fft),  # not sure what n_fft is across multi resolution stft
+                win_length=window_size,
+                return_complex=True,
+                window=self.multi_stft_window_fn(window_size, device=device),
+                **self.multi_stft_kwargs,
+            )
+            recon_Y = torch.stft(rearrange(recon_audio, '... s t -> (... s) t'), **res_stft_kwargs)
+            target_Y = torch.stft(rearrange(target, '... s t -> (... s) t'), **res_stft_kwargs)
+            multi_stft_resolution_loss = multi_stft_resolution_loss + F.l1_loss(recon_Y, target_Y)
+        weighted_multi_resolution_loss = multi_stft_resolution_loss * self.multi_stft_resolution_loss_weight
+        total_loss = loss + weighted_multi_resolution_loss
+        if not return_loss_breakdown:
+            return total_loss
+        return total_loss, (loss, multi_stft_resolution_loss)

models/conformer_model.py ADDED Viewed

	@@ -0,0 +1,188 @@

+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from typing import Optional
+from conformer import Conformer
+class NeuralModel(nn.Module):
+    """
+    Принимает |X| STFT: (B, C, F, T_spec) и предсказывает комплексные маски
+    в свернутом виде: (B, 2 * (sources*channels), F, T_spec)
+    где 2 — это [real, imag].
+    """
+    def __init__(
+        self,
+        in_channels: int = 2,
+        sources: int = 2,
+        freq_bins: int = 2049,
+        embed_dim: int = 512,
+        depth: int = 8,
+        dim_head: int = 64,
+        heads: int = 8,
+        ff_mult: int = 4,
+        conv_expansion_factor: int = 2,
+        conv_kernel_size: int = 31,
+        attn_dropout: float = 0.1,
+        ff_dropout: float = 0.1,
+        conv_dropout: float = 0.1,
+    ):
+        super().__init__()
+        self.freq_bins = freq_bins
+        self.in_channels = in_channels
+        self.sources = sources
+        self.out_masks = sources * in_channels
+        self.embed_dim = embed_dim
+        self.input_proj_stft = nn.Linear(freq_bins * in_channels, embed_dim)
+        self.model = Conformer(
+            dim=embed_dim,
+            depth=depth,
+            dim_head=dim_head,
+            heads=heads,
+            ff_mult=ff_mult,
+            conv_expansion_factor=conv_expansion_factor,
+            conv_kernel_size=conv_kernel_size,
+            attn_dropout=attn_dropout,
+            ff_dropout=ff_dropout,
+            conv_dropout=conv_dropout,
+        )
+        # 2 = [real, imag]
+        self.output_proj = nn.Linear(embed_dim, freq_bins * self.out_masks * 2)
+    def forward(self, x_stft_mag: torch.Tensor) -> torch.Tensor:
+        """
+        x_stft_mag: (B, C, F, T_spec)
+        returns: (B, 2 * (sources*channels), F, T_spec)  — real/imag масок
+        """
+        assert x_stft_mag.dim() == 4, f"Expected (B,C,F,T), got {tuple(x_stft_mag.shape)}"
+        B, C, F, T_spec = x_stft_mag.shape
+        # (B, T_spec, C*F)
+        x_stft_mag = x_stft_mag.permute(0, 3, 1, 2).contiguous().view(B, T_spec, C * F)
+        x = self.input_proj_stft(x_stft_mag)     # (B, T_spec, E)
+        x = self.model(x)                        # (B, T_spec, E)
+        x = torch.tanh(x)                        # стабилизируем
+        x = self.output_proj(x)                  # (B, T_spec, F * out_masks * 2)
+        # back to (B, 2*out_masks, F, T_spec)
+        x = x.reshape(B, T_spec, self.out_masks * 2, F).permute(0, 2, 3, 1).contiguous()
+        return x
+class ConformerMSS(nn.Module):
+    """
+    Совместимо с твоим train:
+      forward(x: (B, C, T)) -> y_hat: (B, S, C, T)
+    где S = число источников (sources).
+    Внутри: STFT -> NeuralModel -> комплексные маски -> iSTFT.
+    """
+    def __init__(
+        self,
+        core: NeuralModel,
+        n_fft: int = 4096,
+        hop_length: int = 1024,
+        win_length: Optional[int] = None,
+        center: bool = True,
+    ):
+        super().__init__()
+        self.core = core
+        self.n_fft = n_fft
+        self.hop_length = hop_length
+        self.win_length = win_length if win_length is not None else n_fft
+        self.center = center
+        window = torch.hann_window(self.win_length)
+        # окно — буфер, чтобы таскалось на .to(device)
+        self.register_buffer("window", window, persistent=False)
+        # sanity-check: freq_bins у core должен совпадать с n_fft//2 + 1
+        expected_bins = n_fft // 2 + 1
+        assert core.freq_bins == expected_bins, (
+            f"NeuralModel.freq_bins={core.freq_bins} != n_fft//2+1={expected_bins}. "
+            f"Поставь freq_bins={expected_bins} при создании core."
+        )
+    def _stft(self, x: torch.Tensor) -> torch.Tensor:
+        """
+        x: (B, C, T) -> spec: complex (B, C, F, TT)
+        """
+        assert x.dim() == 3, f"Expected (B,C,T), got {tuple(x.shape)}"
+        B, C, T = x.shape
+        x_bc_t = x.reshape(B * C, T)
+        spec = torch.stft(
+            x_bc_t,
+            n_fft=self.n_fft,
+            hop_length=self.hop_length,
+            win_length=self.win_length,
+            window=self.window.to(x.device),
+            center=self.center,
+            return_complex=True,
+        )  # (B*C, F, TT)
+        F, TT = spec.shape[-2], spec.shape[-1]
+        spec = spec.reshape(B, C, F, TT)
+        return spec
+    def _istft(self, spec: torch.Tensor, length: int) -> torch.Tensor:
+        """
+        spec: complex (B, C, F, TT) -> audio: (B, C, T)
+        """
+        B, C, F, TT = spec.shape
+        spec_bc = spec.reshape(B * C, F, TT)
+        y_bc_t = torch.istft(
+            spec_bc,
+            n_fft=self.n_fft,
+            hop_length=self.hop_length,
+            win_length=self.win_length,
+            window=self.window.to(spec.device),
+            center=self.center,
+            length=length,
+        )
+        return y_bc_t.reshape(B, C, -1)
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        """
+        x: (B, C, T)  (микс в волне)
+        returns y_hat: (B, S, C, T) — предсказанные источники в волне
+        """
+        B, C, T = x.shape
+        # 1) STFT
+        mix_spec = self._stft(x)                     # (B, C, F, TT)
+        mix_mag = mix_spec.abs()                     # (B, C, F, TT)
+        # 2) Прогон через core -> real/imag масок
+        mask_ri = self.core(mix_mag)                 # (B, 2*(S*C), F, TT2)
+        _, two_sc, F, TT2 = mask_ri.shape
+        S = self.core.sources
+        assert two_sc == 2 * (S * C), (
+            f"core вернул {two_sc} каналов масок, ожидалось {2*(S*C)} "
+            f"(2*[real/imag]*[sources*channels]). Проверь in_channels/sources."
+        )
+        # 3) Синхронизация по времени (если вдруг TT != TT2)
+        TT = mix_spec.shape[-1]
+        TT_min = min(TT, TT2)
+        if TT != TT_min:
+            mix_spec = mix_spec[..., :TT_min]
+        if TT2 != TT_min:
+            mask_ri = mask_ri[..., :TT_min]
+        TT = TT_min
+        # теперь у обоих время = TT
+        # 4) Преобразуем к (B, 2, S, C, F, TT)
+        mask_ri = mask_ri.view(B, 2, S, C, F, TT).contiguous()
+        mask_real = mask_ri[:, 0]                    # (B, S, C, F, TT)
+        mask_imag = mask_ri[:, 1]                    # (B, S, C, F, TT)
+        masks_c = torch.complex(mask_real, mask_imag)
+        # 5) Применяем маски к комплексному спектру микса
+        mix_spec_bc = mix_spec.unsqueeze(1)          # (B, 1, C, F, TT)
+        est_specs = masks_c * mix_spec_bc            # (B, S, C, F, TT)
+        # 6) iSTFT по каждому источнику
+        outs = []
+        for s in range(S):
+            y_s = self._istft(est_specs[:, s], length=T)  # (B, C, T)
+            outs.append(y_s)
+        y_hat = torch.stack(outs, dim=1)             # (B, S, C, T)
+        return y_hat

models/mel_band_conformer.py ADDED Viewed

	@@ -0,0 +1,424 @@

+from functools import partial
+import torch
+from torch import nn
+import torch.nn.functional as F
+from conformer import Conformer
+from torch.nn import Module, ModuleList
+from librosa import filters
+from beartype.typing import Tuple, Optional, List, Callable
+from beartype import beartype
+from einops import rearrange, pack, unpack, reduce, repeat
+# helper functions
+def exists(val):
+    return val is not None
+def default(v, d):
+    return v if exists(v) else d
+class RMSNorm(Module):
+    def __init__(self, dim):
+        super().__init__()
+        self.scale = dim ** 0.5
+        self.gamma = nn.Parameter(torch.ones(dim))
+    def forward(self, x):
+        return F.normalize(x, dim=-1) * self.scale * self.gamma
+# attention
+def MLP(
+        dim_in,
+        dim_out,
+        dim_hidden=None,
+        depth=1,
+        activation=nn.Tanh
+):
+    dim_hidden = default(dim_hidden, dim_in)
+    net = []
+    dims = (dim_in, *((dim_hidden,) * depth), dim_out)
+    for ind, (layer_dim_in, layer_dim_out) in enumerate(zip(dims[:-1], dims[1:])):
+        is_last = ind == (len(dims) - 2)
+        net.append(nn.Linear(layer_dim_in, layer_dim_out))
+        if is_last:
+            continue
+        net.append(activation())
+    return nn.Sequential(*net)
+class MaskEstimator(Module):
+    @beartype
+    def __init__(
+            self,
+            dim,
+            dim_inputs: Tuple[int, ...],
+            depth,
+            mlp_expansion_factor=4
+    ):
+        super().__init__()
+        self.dim_inputs = dim_inputs
+        self.to_freqs = ModuleList([])
+        dim_hidden = dim * mlp_expansion_factor
+        for dim_in in dim_inputs:
+            net = []
+            mlp = nn.Sequential(
+                MLP(dim, dim_in * 2, dim_hidden=dim_hidden, depth=depth),
+                nn.GLU(dim=-1)
+            )
+            self.to_freqs.append(mlp)
+    def forward(self, x):
+        # split along band dimension and run per-band MLP
+        x = x.unbind(dim=-2)
+        outs = []
+        for band_features, mlp in zip(x, self.to_freqs):
+            freq_out = mlp(band_features)
+            outs.append(freq_out)
+        return torch.cat(outs, dim=-1)
+class BandSplit(Module):
+    @beartype
+    def __init__(
+            self,
+            dim,
+            dim_inputs: Tuple[int, ...]
+    ):
+        super().__init__()
+        self.dim_inputs = dim_inputs
+        self.to_features = ModuleList([])
+        for dim_in in dim_inputs:
+            net = nn.Sequential(
+                RMSNorm(dim_in),
+                nn.Linear(dim_in, dim)
+            )
+            self.to_features.append(net)
+    def forward(self, x):
+        # split input into predefined frequency-band chunks
+        x = x.split(self.dim_inputs, dim=-1)
+        outs = []
+        for split_input, to_feature in zip(x, self.to_features):
+            split_output = to_feature(split_input)
+            outs.append(split_output)
+        # stack back as (bands) axis
+        return torch.stack(outs, dim=-2)
+class MelBandConformer(nn.Module):
+    def __init__(
+        self,
+        dim: int,
+        *,
+        depth: int,
+        stereo: bool = False,
+        num_stems: int = 1,
+        time_conformer_depth: int = 2,
+        freq_conformer_depth: int = 2,
+        num_bands: int = 60,
+        dim_head: int = 64,
+        heads: int = 8,
+        # Conformer params
+        ff_mult: int = 4,
+        conv_expansion_factor: int = 2,
+        conv_kernel_size: int = 31,
+        attn_dropout: float = 0.0,
+        ff_dropout: float = 0.0,
+        conv_dropout: float = 0.0,
+        # STFT
+        dim_freqs_in: int = 1025,
+        sample_rate: int = 44100,
+        stft_n_fft: int = 2048,
+        stft_hop_length: int = 512,
+        stft_win_length: int = 2048,
+        stft_normalized: bool = False,
+        stft_window_fn: Optional[Callable] = None,
+        # Loss
+        mask_estimator_depth: int = 1,
+        multi_stft_resolution_loss_weight: float = 1.0,
+        multi_stft_resolutions_window_sizes: Tuple[int, ...] = (4096, 2048, 1024, 512, 256),
+        multi_stft_hop_size: int = 147,
+        multi_stft_normalized: bool = False,
+        multi_stft_window_fn: Callable = torch.hann_window,
+        match_input_audio_length: bool = False,
+        use_torch_checkpoint: bool = False,
+        skip_connection: bool = False,
+    ):
+        super().__init__()
+        self.stereo = stereo
+        self.audio_channels = 2 if stereo else 1
+        self.num_stems = num_stems
+        self.use_torch_checkpoint = use_torch_checkpoint
+        self.skip_connection = skip_connection
+        self.layers = nn.ModuleList([])
+        # Layers per block: [ time-Conformer, freq-Conformer ]
+        conformer_kwargs = dict(
+            dim=dim,
+            dim_head=dim_head,
+            heads=heads,
+            ff_mult=ff_mult,
+            conv_expansion_factor=conv_expansion_factor,
+            conv_kernel_size=conv_kernel_size,
+            attn_dropout=attn_dropout,
+            ff_dropout=ff_dropout,
+            conv_dropout=conv_dropout,
+        )
+        for _ in range(depth):
+            time_block = Conformer(depth=time_conformer_depth, **conformer_kwargs)
+            freq_block = Conformer(depth=freq_conformer_depth, **conformer_kwargs)
+            self.layers.append(nn.ModuleList([time_block, freq_block]))
+        self.stft_window_fn = partial(stft_window_fn or torch.hann_window, stft_win_length)
+        self.stft_kwargs = dict(
+            n_fft=stft_n_fft,
+            hop_length=stft_hop_length,
+            win_length=stft_win_length,
+            normalized=stft_normalized
+        )
+        # number of frequency bins produced by STFT (ignoring complex axis)
+        freqs = torch.stft(
+            torch.randn(1, 4096),
+            **self.stft_kwargs,
+            window=torch.ones(stft_n_fft),
+            return_complex=True
+        ).shape[1]
+        # build mel filter bank to define band grouping
+        mel_filter_bank_numpy = filters.mel(sr=sample_rate, n_fft=stft_n_fft, n_mels=num_bands)
+        mel_filter_bank = torch.from_numpy(mel_filter_bank_numpy)
+        # ensure coverage at the boundaries
+        mel_filter_bank[0][0] = 1.0
+        mel_filter_bank[-1, -1] = 1.0
+        freqs_per_band = mel_filter_bank > 0
+        assert freqs_per_band.any(dim=0).all(), 'all frequency bins must be covered by bands'
+        repeated_freq_indices = repeat(torch.arange(freqs), 'f -> b f', b=num_bands)
+        freq_indices = repeated_freq_indices[freqs_per_band]
+        if stereo:
+            # duplicate indices for stereo by interleaving channels along the freq axis
+            freq_indices = repeat(freq_indices, 'f -> f s', s=2)
+            freq_indices = freq_indices * 2 + torch.arange(2)
+            freq_indices = rearrange(freq_indices, 'f s -> (f s)')
+        self.register_buffer('freq_indices', freq_indices, persistent=False)
+        self.register_buffer('freqs_per_band', freqs_per_band, persistent=False)
+        num_freqs_per_band = reduce(freqs_per_band, 'b f -> b', 'sum')
+        num_bands_per_freq = reduce(freqs_per_band, 'b f -> f', 'sum')
+        self.register_buffer('num_freqs_per_band', num_freqs_per_band, persistent=False)
+        self.register_buffer('num_bands_per_freq', num_bands_per_freq, persistent=False)
+        # BandSplit and MaskEstimator — same structure as your original
+        freqs_per_bands_with_complex = tuple(2 * f * self.audio_channels for f in num_freqs_per_band.tolist())
+        self.band_split = BandSplit(
+            dim=dim,
+            dim_inputs=freqs_per_bands_with_complex
+        )
+        self.mask_estimators = nn.ModuleList([
+            MaskEstimator(
+                dim=dim,
+                dim_inputs=freqs_per_bands_with_complex,
+                depth=mask_estimator_depth,
+                mlp_expansion_factor=4,  # could be exposed as a parameter
+            )
+            for _ in range(num_stems)
+        ])
+        # multi-resolution STFT loss setup
+        self.multi_stft_resolution_loss_weight = multi_stft_resolution_loss_weight
+        self.multi_stft_resolutions_window_sizes = multi_stft_resolutions_window_sizes
+        self.multi_stft_n_fft = stft_n_fft
+        self.multi_stft_window_fn = multi_stft_window_fn
+        self.multi_stft_kwargs = dict(
+            hop_length=multi_stft_hop_size,
+            normalized=multi_stft_normalized
+        )
+        self.match_input_audio_length = match_input_audio_length
+    def forward(
+        self,
+        raw_audio: torch.Tensor,
+        target: Optional[torch.Tensor] = None,
+        return_loss_breakdown: bool = False
+    ):
+        """
+        b - batch
+        f - freq
+        t - time
+        s - audio channel (1 mono / 2 stereo)
+        n - stems
+        c - complex (2)
+        d - feature dim
+        """
+        device = raw_audio.device
+        if raw_audio.ndim == 2:
+            raw_audio = rearrange(raw_audio, 'b t -> b 1 t')
+        batch, channels, raw_audio_length = raw_audio.shape
+        istft_length = raw_audio_length if self.match_input_audio_length else None
+        assert (not self.stereo and channels == 1) or (self.stereo and channels == 2), \
+            'set stereo=True for stereo input (C=2), stereo=False for mono (C=1)'
+        # --- STFT ---
+        raw_audio_flat, packed_shape = raw_audio.reshape(-1, raw_audio.shape[-1]), raw_audio.shape[:2]
+        stft_window = self.stft_window_fn(device=device)
+        stft_repr = torch.stft(raw_audio_flat, **self.stft_kwargs, window=stft_window, return_complex=True)
+        stft_repr = torch.view_as_real(stft_repr)                  # (B*C, F, T, 2)
+        stft_repr = stft_repr.view(*packed_shape, *stft_repr.shape[1:])  # (b, s, f, t, c)
+        # fold channel into frequency axis (as in your setup)
+        stft_repr_fs = rearrange(stft_repr, 'b s f t c -> b (f s) t c')
+        # index frequencies by mel bands
+        b_idx = torch.arange(batch, device=device)[..., None]
+        x = stft_repr_fs[b_idx, self.freq_indices]                 # (b, sum(freqs_in_bands), t, c)
+        x = rearrange(x, 'b f t c -> b t (f c)')                   # flatten complex axis into features
+        # --- BandSplit -> (b, t, bands, dim) ---
+        if self.use_torch_checkpoint:
+            x = torch.utils.checkpoint.checkpoint(self.band_split, x, use_reentrant=False)
+        else:
+            x = self.band_split(x)
+        # --- Axial Conformer (time, then freq) ---
+        store = [None] * len(self.layers)
+        for i, (time_conf, freq_conf) in enumerate(self.layers):
+            # Time axis: (b, t, bands, d) -> ((b*bands), t, d)
+            bsz, tlen, bands, d = x.shape
+            x_time = rearrange(x, 'b t f d -> (b f) t d')
+            if self.use_torch_checkpoint:
+                x_time = torch.utils.checkpoint.checkpoint(time_conf, x_time, use_reentrant=False)
+            else:
+                x_time = time_conf(x_time)
+            x = rearrange(x_time, '(b f) t d -> b t f d', b=bsz, f=bands)
+            # Freq axis: (b, t, f, d) -> ((b*t), f, d)
+            bsz, tlen, bands, d = x.shape
+            x_freq = rearrange(x, 'b t f d -> (b t) f d')
+            if self.use_torch_checkpoint:
+                x_freq = torch.utils.checkpoint.checkpoint(freq_conf, x_freq, use_reentrant=False)
+            else:
+                x_freq = freq_conf(x_freq)
+            x = rearrange(x_freq, '(b t) f d -> b t f d', b=bsz, t=tlen)
+            if self.skip_connection:
+                store[i] = x if store[i] is None else store[i] + x
+        # --- Mask estimation ---
+        # (b, t, f_bands, d) -> per-stem MLP over bands
+        if self.use_torch_checkpoint:
+            masks = torch.stack([torch.utils.checkpoint.checkpoint(fn, x, use_reentrant=False)
+                                 for fn in self.mask_estimators], dim=1)
+        else:
+            masks = torch.stack([fn(x) for fn in self.mask_estimators], dim=1)
+        masks = rearrange(masks, 'b n t (f c) -> b n f t c', c=2)
+        # --- Complex modulation ---
+        stft_repr_c = rearrange(stft_repr, 'b s f t c -> b 1 (f s) t c')
+        stft_repr_c = torch.view_as_complex(stft_repr_c)          # (b, 1, F*S, T)
+        masks_c = torch.view_as_complex(masks)                     # (b, n, F*S, T)
+        masks_c = masks_c.type(stft_repr_c.dtype)
+        scatter_idx = repeat(self.freq_indices, 'f -> b n f t', b=batch, n=self.num_stems, t=stft_repr_c.shape[-1])
+        stft_repr_expanded = repeat(stft_repr_c, 'b 1 ... -> b n ...', n=self.num_stems)
+        masks_summed = torch.zeros_like(stft_repr_expanded).scatter_add_(2, scatter_idx, masks_c)
+        denom = repeat(self.num_bands_per_freq, 'f -> (f r) 1', r=self.audio_channels)
+        masks_averaged = masks_summed / denom.clamp(min=1e-8)
+        stft_mod = stft_repr_c * masks_averaged
+        # --- iSTFT ---
+        stft_mod = rearrange(stft_mod, 'b n (f s) t -> (b n s) f t', s=self.audio_channels)
+        recon_audio = torch.istft(
+            stft_mod,
+            **self.stft_kwargs,
+            window=stft_window,
+            return_complex=False,
+            length=istft_length
+        )
+        recon_audio = rearrange(recon_audio, '(b n s) t -> b n s t', b=batch, s=self.audio_channels, n=self.num_stems)
+        if self.num_stems == 1:
+            recon_audio = rearrange(recon_audio, 'b 1 s t -> b s t')
+        # Loss
+        if target is None:
+            return recon_audio
+        if self.num_stems > 1:
+            assert target.ndim == 4 and target.shape[1] == self.num_stems
+        if target.ndim == 2:
+            target = rearrange(target, '... t -> ... 1 t')
+        target = target[..., :recon_audio.shape[-1]]
+        loss = F.l1_loss(recon_audio, target)
+        multi_stft_resolution_loss = 0.0
+        for window_size in self.multi_stft_resolutions_window_sizes:
+            res_stft_kwargs = dict(
+                n_fft=max(window_size, self.multi_stft_n_fft),
+                win_length=window_size,
+                return_complex=True,
+                window=self.multi_stft_window_fn(window_size, device=device),
+                **self.multi_stft_kwargs,
+            )
+            recon_Y = torch.stft(rearrange(recon_audio, '... s t -> (... s) t'), **res_stft_kwargs)
+            target_Y = torch.stft(rearrange(target, '... s t -> (... s) t'), **res_stft_kwargs)
+            multi_stft_resolution_loss += F.l1_loss(recon_Y, target_Y)
+        total_loss = loss + self.multi_stft_resolution_loss_weight * multi_stft_resolution_loss
+        if not return_loss_breakdown:
+            return total_loss
+        return total_loss, (loss, multi_stft_resolution_loss)

models/scnet/scnet_masked.py ADDED Viewed

	@@ -0,0 +1,419 @@

+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from collections import deque
+from .separation import SeparationNet
+import typing as tp
+import math
+class Swish(nn.Module):
+    def forward(self, x):
+        return x * x.sigmoid()
+class ConvolutionModule(nn.Module):
+    """
+    Convolution Module in SD block.
+    Args:
+        channels (int): input/output channels.
+        depth (int): number of layers in the residual branch. Each layer has its own
+        compress (float): amount of channel compression.
+        kernel (int): kernel size for the convolutions.
+        """
+    def __init__(self, channels, depth=2, compress=4, kernel=3):
+        super().__init__()
+        assert kernel % 2 == 1
+        self.depth = abs(depth)
+        hidden_size = int(channels / compress)
+        norm = lambda d: nn.GroupNorm(1, d)
+        self.layers = nn.ModuleList([])
+        for _ in range(self.depth):
+            padding = (kernel // 2)
+            mods = [
+                norm(channels),
+                nn.Conv1d(channels, hidden_size * 2, kernel, padding=padding),
+                nn.GLU(1),
+                nn.Conv1d(hidden_size, hidden_size, kernel, padding=padding, groups=hidden_size),
+                norm(hidden_size),
+                Swish(),
+                nn.Conv1d(hidden_size, channels, 1),
+            ]
+            layer = nn.Sequential(*mods)
+            self.layers.append(layer)
+    def forward(self, x):
+        for layer in self.layers:
+            x = x + layer(x)
+        return x
+class FusionLayer(nn.Module):
+    """
+    A FusionLayer within the decoder.
+    Args:
+    - channels (int): Number of input channels.
+    - kernel_size (int, optional): Kernel size for the convolutional layer, defaults to 3.
+    - stride (int, optional): Stride for the convolutional layer, defaults to 1.
+    - padding (int, optional): Padding for the convolutional layer, defaults to 1.
+    """
+    def __init__(self, channels, kernel_size=3, stride=1, padding=1):
+        super(FusionLayer, self).__init__()
+        self.conv = nn.Conv2d(channels * 2, channels * 2, kernel_size, stride=stride, padding=padding)
+    def forward(self, x, skip=None):
+        if skip is not None:
+            x += skip
+        x = x.repeat(1, 2, 1, 1)
+        x = self.conv(x)
+        x = F.glu(x, dim=1)
+        return x
+class SDlayer(nn.Module):
+    """
+    Implements a Sparse Down-sample Layer for processing different frequency bands separately.
+    Args:
+    - channels_in (int): Input channel count.
+    - channels_out (int): Output channel count.
+    - band_configs (dict): A dictionary containing configuration for each frequency band.
+                           Keys are 'low', 'mid', 'high' for each band, and values are
+                           dictionaries with keys 'SR', 'stride', and 'kernel' for proportion,
+                           stride, and kernel size, respectively.
+    """
+    def __init__(self, channels_in, channels_out, band_configs):
+        super(SDlayer, self).__init__()
+        # Initializing convolutional layers for each band
+        self.convs = nn.ModuleList()
+        self.strides = []
+        self.kernels = []
+        for config in band_configs.values():
+            self.convs.append(
+                nn.Conv2d(channels_in, channels_out, (config['kernel'], 1), (config['stride'], 1), (0, 0)))
+            self.strides.append(config['stride'])
+            self.kernels.append(config['kernel'])
+        # Saving rate proportions for determining splits
+        self.SR_low = band_configs['low']['SR']
+        self.SR_mid = band_configs['mid']['SR']
+    def forward(self, x):
+        B, C, Fr, T = x.shape
+        # Define splitting points based on sampling rates
+        splits = [
+            (0, math.ceil(Fr * self.SR_low)),
+            (math.ceil(Fr * self.SR_low), math.ceil(Fr * (self.SR_low + self.SR_mid))),
+            (math.ceil(Fr * (self.SR_low + self.SR_mid)), Fr)
+        ]
+        # Processing each band with the corresponding convolution
+        outputs = []
+        original_lengths = []
+        for conv, stride, kernel, (start, end) in zip(self.convs, self.strides, self.kernels, splits):
+            extracted = x[:, :, start:end, :]
+            original_lengths.append(end - start)
+            current_length = extracted.shape[2]
+            # padding
+            if stride == 1:
+                total_padding = kernel - stride
+            else:
+                total_padding = (stride - current_length % stride) % stride
+            pad_left = total_padding // 2
+            pad_right = total_padding - pad_left
+            padded = F.pad(extracted, (0, 0, pad_left, pad_right))
+            output = conv(padded)
+            outputs.append(output)
+        return outputs, original_lengths
+class SUlayer(nn.Module):
+    """
+    Implements a Sparse Up-sample Layer in decoder.
+    Args:
+    - channels_in: The number of input channels.
+    - channels_out: The number of output channels.
+    - convtr_configs: Dictionary containing the configurations for transposed convolutions.
+    """
+    def __init__(self, channels_in, channels_out, band_configs):
+        super(SUlayer, self).__init__()
+        # Initializing convolutional layers for each band
+        self.convtrs = nn.ModuleList([
+            nn.ConvTranspose2d(channels_in, channels_out, [config['kernel'], 1], [config['stride'], 1])
+            for _, config in band_configs.items()
+        ])
+    def forward(self, x, lengths, origin_lengths):
+        B, C, Fr, T = x.shape
+        # Define splitting points based on input lengths
+        splits = [
+            (0, lengths[0]),
+            (lengths[0], lengths[0] + lengths[1]),
+            (lengths[0] + lengths[1], None)
+        ]
+        # Processing each band with the corresponding convolution
+        outputs = []
+        for idx, (convtr, (start, end)) in enumerate(zip(self.convtrs, splits)):
+            out = convtr(x[:, :, start:end, :])
+            # Calculate the distance to trim the output symmetrically to original length
+            current_Fr_length = out.shape[2]
+            dist = abs(origin_lengths[idx] - current_Fr_length) // 2
+            # Trim the output to the original length symmetrically
+            trimmed_out = out[:, :, dist:dist + origin_lengths[idx], :]
+            outputs.append(trimmed_out)
+        # Concatenate trimmed outputs along the frequency dimension to return the final tensor
+        x = torch.cat(outputs, dim=2)
+        return x
+class SDblock(nn.Module):
+    """
+    Implements a simplified Sparse Down-sample block in encoder.
+    Args:
+    - channels_in (int): Number of input channels.
+    - channels_out (int): Number of output channels.
+    - band_config (dict): Configuration for the SDlayer specifying band splits and convolutions.
+    - conv_config (dict): Configuration for convolution modules applied to each band.
+    - depths (list of int): List specifying the convolution depths for low, mid, and high frequency bands.
+    """
+    def __init__(self, channels_in, channels_out, band_configs={}, conv_config={}, depths=[3, 2, 1], kernel_size=3):
+        super(SDblock, self).__init__()
+        self.SDlayer = SDlayer(channels_in, channels_out, band_configs)
+        # Dynamically create convolution modules for each band based on depths
+        self.conv_modules = nn.ModuleList([
+            ConvolutionModule(channels_out, depth, **conv_config) for depth in depths
+        ])
+        # Set the kernel_size to an odd number.
+        self.globalconv = nn.Conv2d(channels_out, channels_out, kernel_size, 1, (kernel_size - 1) // 2)
+    def forward(self, x):
+        bands, original_lengths = self.SDlayer(x)
+        # B, C, f, T = band.shape
+        bands = [
+            F.gelu(
+                conv(band.permute(0, 2, 1, 3).reshape(-1, band.shape[1], band.shape[3]))
+                .view(band.shape[0], band.shape[2], band.shape[1], band.shape[3])
+                .permute(0, 2, 1, 3)
+            )
+            for conv, band in zip(self.conv_modules, bands)
+        ]
+        lengths = [band.size(-2) for band in bands]
+        full_band = torch.cat(bands, dim=2)
+        skip = full_band
+        output = self.globalconv(full_band)
+        return output, skip, lengths, original_lengths
+class SCNet(nn.Module):
+    """
+    The implementation of SCNet: Sparse Compression Network for Music Source Separation. Paper: https://arxiv.org/abs/2401.13276.pdf
+    Args:
+    - sources (List[str]): List of sources to be separated.
+    - audio_channels (int): Number of audio channels.
+    - nfft (int): Number of FFTs to determine the frequency dimension of the input.
+    - hop_size (int): Hop size for the STFT.
+    - win_size (int): Window size for STFT.
+    - normalized (bool): Whether to normalize the STFT.
+    - dims (List[int]): List of channel dimensions for each block.
+    - band_SR (List[float]): The proportion of each frequency band.
+    - band_stride (List[int]): The down-sampling ratio of each frequency band.
+    - band_kernel (List[int]): The kernel sizes for down-sampling convolution in each frequency band
+    - conv_depths (List[int]): List specifying the number of convolution modules in each SD block.
+    - compress (int): Compression factor for convolution module.
+    - conv_kernel (int): Kernel size for convolution layer in convolution module.
+    - num_dplayer (int): Number of dual-path layers.
+    - expand (int): Expansion factor in the dual-path RNN, default is 1.
+    """
+    def __init__(self,
+                 sources=['drums', 'bass', 'other', 'vocals'],
+                 audio_channels=2,
+                 # Main structure
+                 dims=[4, 32, 64, 128],  # dims = [4, 64, 128, 256] in SCNet-large
+                 # STFT
+                 nfft=4096,
+                 hop_size=1024,
+                 win_size=4096,
+                 normalized=True,
+                 # SD/SU layer
+                 band_SR=[0.175, 0.392, 0.433],
+                 band_stride=[1, 4, 16],
+                 band_kernel=[3, 4, 16],
+                 # Convolution Module
+                 conv_depths=[3, 2, 1],
+                 compress=4,
+                 conv_kernel=3,
+                 # Dual-path RNN
+                 num_dplayer=6,
+                 expand=1,
+                 ):
+        super().__init__()
+        self.sources = sources
+        self.audio_channels = audio_channels
+        self.dims = dims
+        band_keys = ['low', 'mid', 'high']
+        self.band_configs = {band_keys[i]: {'SR': band_SR[i], 'stride': band_stride[i], 'kernel': band_kernel[i]} for i
+                             in range(len(band_keys))}
+        self.hop_length = hop_size
+        self.conv_config = {
+            'compress': compress,
+            'kernel': conv_kernel,
+        }
+        self.embed_dim = dims[0]
+        self.max_f = nfft // 2 + 1
+        self.pos_embed_f = nn.Parameter(torch.zeros(1, self.embed_dim, self.max_f, 1))
+        nn.init.trunc_normal_(self.pos_embed_f, std=.02)
+        window = torch.hann_window(window_length=nfft, periodic=True)
+        self.register_buffer('window', window, persistent=False)
+        self.stft_config = {
+            'n_fft': nfft,
+            'hop_length': hop_size,
+            'win_length': win_size,
+            'center': True,
+            'normalized': normalized
+        }
+        self.encoder = nn.ModuleList()
+        self.decoder = nn.ModuleList()
+        for index in range(len(dims) - 1):
+            enc = SDblock(
+                channels_in=dims[index],
+                channels_out=dims[index + 1],
+                band_configs=self.band_configs,
+                conv_config=self.conv_config,
+                depths=conv_depths
+            )
+            self.encoder.append(enc)
+            dec = nn.Sequential(
+                FusionLayer(channels=dims[index + 1]),
+                SUlayer(
+                    channels_in=dims[index + 1],
+                    channels_out=dims[index] if index != 0 else dims[index] * len(sources),
+                    band_configs=self.band_configs,
+                )
+            )
+            self.decoder.insert(0, dec)
+        self.separation_net = SeparationNet(
+            channels=dims[-1],
+            expand=expand,
+            num_layers=num_dplayer,
+        )
+        self.mask_layer = nn.Sequential(
+            nn.Conv2d(
+                4 * len(self.sources),
+                64,
+                kernel_size=3,
+                padding="same"
+            ),
+            nn.GELU(),
+            nn.Conv2d(
+                64,
+                4 * len(self.sources),
+                kernel_size=1,
+                padding="same",
+            ),
+            nn.Tanh()
+        )
+    def forward(self, x):
+        # B, C, L = x.shape
+        B = x.shape[0]
+        # In the initial padding, ensure that the number of frames after the STFT (the length of the T dimension) is even,
+        # so that the RFFT operation can be used in the separation network.
+        padding = self.hop_length - x.shape[-1] % self.hop_length
+        if (x.shape[-1] + padding) // self.hop_length % 2 == 0:
+            padding += self.hop_length
+        x = F.pad(x, (0, padding))
+        # STFT
+        L = x.shape[-1]
+        x = x.reshape(-1, L)
+        stft_opts = {**self.stft_config, 'window': self.window.to(x.device)}
+        x = torch.stft(x, **stft_opts, return_complex=True)
+        x = torch.view_as_real(x)
+        x = x.permute(0, 3, 1, 2).reshape(x.shape[0] // self.audio_channels, x.shape[3] * self.audio_channels, x.shape[1], x.shape[2])
+        B, C, Fr, T = x.shape
+        assert C == self.embed_dim, f"Input channel dimension {C} after STFT/reshape doesn't match self.embed_dim {self.embed_dim}"
+        mixture = x.repeat(1, len(self.sources), 1, 1)
+        if Fr > self.max_f:
+             print(f"Warning: Input frequency dim {Fr} > max_f {self.max_f}. Positional embedding will be truncated/repeated.")
+             repeats = math.ceil(Fr / self.max_f)
+             pos_f = self.pos_embed_f.repeat(1, 1, repeats, 1)[:, :, :Fr, :]
+        else:
+             pos_f = self.pos_embed_f[:, :, :Fr, :]
+        x = x + pos_f
+        save_skip = deque()
+        save_lengths = deque()
+        save_original_lengths = deque()
+        # encoder
+        for sd_layer in self.encoder:
+            x, skip, lengths, original_lengths = sd_layer(x)
+            save_skip.append(skip)
+            save_lengths.append(lengths)
+            save_original_lengths.append(original_lengths)
+        # separation
+        x = self.separation_net(x)
+        # decoder
+        for fusion_layer, su_layer in self.decoder:
+            x = fusion_layer(x, save_skip.pop())
+            x = su_layer(x, save_lengths.pop(), save_original_lengths.pop())
+        mask = self.mask_layer(x)
+        # output
+        n = self.dims[0]
+        mixture = mixture.view(B, n, -1, Fr, T)
+        mixture = mixture.reshape(-1, 2, Fr, T).permute(0, 2, 3, 1)
+        mixture = torch.view_as_complex(mixture.contiguous())
+        mask = mask.view(B, n, -1, Fr, T)
+        mask = mask.reshape(-1, 2, Fr, T).permute(0, 2, 3, 1)
+        mask = torch.view_as_complex(mask.contiguous())
+        x = mixture * mask
+        x = torch.istft(x, **stft_opts)
+        x = x.reshape(B, len(self.sources), self.audio_channels, -1)
+        x = x[:, :, :, :-padding]
+        return x

models/scnet/scnet_tran.py ADDED Viewed

	@@ -0,0 +1,668 @@

+import torch
+from collections import deque
+import typing as tp
+import math
+import torch
+import torch.nn as nn
+from torch.nn.modules.rnn import LSTM
+from torch.nn import Module, ModuleList
+from einops import rearrange, pack, unpack, reduce, repeat
+from einops.layers.torch import Rearrange
+import torch.nn.functional as F
+from models.bs_roformer.attend import Attend
+from rotary_embedding_torch import RotaryEmbedding
+# helper functions
+def exists(val):
+    return val is not None
+def default(v, d):
+    return v if exists(v) else d
+def pack_one(t, pattern):
+    return pack([t], pattern)
+def unpack_one(t, ps, pattern):
+    return unpack(t, ps, pattern)[0]
+def pad_at_dim(t, pad, dim=-1, value=0.):
+    dims_from_right = (- dim - 1) if dim < 0 else (t.ndim - dim - 1)
+    zeros = ((0, 0) * dims_from_right)
+    return F.pad(t, (*zeros, *pad), value=value)
+def l2norm(t):
+    return F.normalize(t, dim=-1, p=2)
+# norm
+class RMSNorm(Module):
+    def __init__(self, dim):
+        super().__init__()
+        self.scale = dim ** 0.5
+        self.gamma = nn.Parameter(torch.ones(dim))
+    def forward(self, x):
+        return F.normalize(x, dim=-1) * self.scale * self.gamma
+# attention
+class FeedForward(Module):
+    def __init__(
+            self,
+            dim,
+            mult=4,
+            dropout=0.
+    ):
+        super().__init__()
+        dim_inner = int(dim * mult)
+        self.net = nn.Sequential(
+            RMSNorm(dim),
+            nn.Linear(dim, dim_inner),
+            nn.GELU(),
+            nn.Dropout(dropout),
+            nn.Linear(dim_inner, dim),
+            nn.Dropout(dropout)
+        )
+    def forward(self, x):
+        return self.net(x)
+class Attention(Module):
+    def __init__(
+            self,
+            dim,
+            heads=8,
+            dim_head=64,
+            dropout=0.,
+            rotary_embed=None,
+            flash=True
+    ):
+        super().__init__()
+        self.heads = heads
+        self.scale = dim_head ** -0.5
+        dim_inner = heads * dim_head
+        self.rotary_embed = rotary_embed
+        self.attend = Attend(flash=flash, dropout=dropout)
+        self.norm = RMSNorm(dim)
+        self.to_qkv = nn.Linear(dim, dim_inner * 3, bias=False)
+        self.to_gates = nn.Linear(dim, heads)
+        self.to_out = nn.Sequential(
+            nn.Linear(dim_inner, dim, bias=False),
+            nn.Dropout(dropout)
+        )
+    def forward(self, x):
+        x = self.norm(x)
+        q, k, v = rearrange(self.to_qkv(x), 'b n (qkv h d) -> qkv b h n d', qkv=3, h=self.heads)
+        if exists(self.rotary_embed):
+            q = self.rotary_embed.rotate_queries_or_keys(q)
+            k = self.rotary_embed.rotate_queries_or_keys(k)
+        out = self.attend(q, k, v)
+        gates = self.to_gates(x)
+        out = out * rearrange(gates, 'b n h -> b h n 1').sigmoid()
+        out = rearrange(out, 'b h n d -> b n (h d)')
+        return self.to_out(out)
+class Transformer(Module):
+    def __init__(
+            self,
+            *,
+            dim,
+            depth,
+            dim_head=64,
+            heads=8,
+            attn_dropout=0.,
+            ff_dropout=0.,
+            ff_mult=4,
+            norm_output=True,
+            rotary_embed=None,
+            flash_attn=True,
+            linear_attn=False
+    ):
+        super().__init__()
+        self.layers = ModuleList([])
+        for _ in range(depth):
+            attn = Attention(dim=dim, dim_head=dim_head, heads=heads, dropout=attn_dropout, rotary_embed=rotary_embed, flash=flash_attn)
+            self.layers.append(ModuleList([
+                attn,
+                FeedForward(dim=dim, mult=ff_mult, dropout=ff_dropout)
+            ]))
+        self.norm = RMSNorm(dim) if norm_output else nn.Identity()
+    def forward(self, x):
+        for attn, ff in self.layers:
+            x = attn(x) + x
+            x = ff(x) + x
+        return self.norm(x)
+class FeatureConversion(nn.Module):
+    """
+    Integrates into the adjacent Dual-Path layer.
+    Args:
+        channels (int): Number of input channels.
+        inverse (bool): If True, uses ifft; otherwise, uses rfft.
+    """
+    def __init__(self, channels, inverse):
+        super().__init__()
+        self.inverse = inverse
+        self.channels = channels
+    def forward(self, x):
+        # B, C, F, T = x.shape
+        if self.inverse:
+            x = x.float()
+            x_r = x[:, :self.channels // 2, :, :]
+            x_i = x[:, self.channels // 2:, :, :]
+            x = torch.complex(x_r, x_i)
+            x = torch.fft.irfft(x, dim=3, norm="ortho")
+        else:
+            x = x.float()
+            x = torch.fft.rfft(x, dim=3, norm="ortho")
+            x_real = x.real
+            x_imag = x.imag
+            x = torch.cat([x_real, x_imag], dim=1)
+        return x
+class DualPathTran(nn.Module):
+    """
+    Dual-Path Transformer in Separation Network.
+    Args:
+        d_model (int): The number of expected features in the input (input_size).
+        expand (int): Expansion factor used to calculate the hidden_size of LSTM.
+        bidirectional (bool): If True, becomes a bidirectional LSTM.
+    """
+    def __init__(self, d_model, time_rotary_embed, freq_rotary_embed, tran_params):
+        super(DualPathTran, self).__init__()
+        self.d_model = d_model
+        transformer_kwargs = dict(
+            dim=d_model,
+            heads=tran_params['heads'],
+            dim_head=tran_params['dim_head'],
+            attn_dropout=tran_params['attn_dropout'],
+            ff_dropout=tran_params['ff_dropout'],
+            flash_attn=tran_params['flash_attn']
+        )
+        self.norm_layers = nn.ModuleList([nn.GroupNorm(1, d_model) for _ in range(2)])
+        self.time_layer = Transformer(depth=tran_params['depth'], rotary_embed=time_rotary_embed, **transformer_kwargs)
+        self.freq_layer = Transformer(depth=tran_params['depth'], rotary_embed=freq_rotary_embed, **transformer_kwargs)
+    def forward(self, x):
+        B, C, F, T = x.shape
+        # Process dual-path rnn
+        original_x = x
+        # Frequency-path
+        x = self.norm_layers[0](x)
+        x = x.transpose(1, 3).contiguous().view(B * T, F, C)
+        # print('XXX', x.shape)
+        x = self.freq_layer(x)
+        x = x.view(B, T, F, C).transpose(1, 3)
+        x = x + original_x
+        original_x = x
+        # Time-path
+        x = self.norm_layers[1](x)
+        x = x.transpose(1, 2).contiguous().view(B * F, C, T).transpose(1, 2)
+        # print('RRR', x.shape)
+        x = self.time_layer(x)
+        x = x.transpose(1, 2).contiguous().view(B, F, C, T).transpose(1, 2)
+        x = x + original_x
+        return x
+class SeparationNetTran(nn.Module):
+    """
+    Implements a simplified Sparse Down-sample block in an encoder architecture.
+    Args:
+    - channels (int): Number input channels.
+    - expand (int): Expansion factor used to calculate the hidden_size of LSTM.
+    - num_layers (int): Number of dual-path layers.
+    """
+    def __init__(self, channels, expand=1, num_layers=6, tran_params=None):
+        super(SeparationNetTran, self).__init__()
+        self.num_layers = num_layers
+        time_rotary_embed = RotaryEmbedding(dim=tran_params['rotary_embedding_dim'])
+        freq_rotary_embed = RotaryEmbedding(dim=tran_params['rotary_embedding_dim'])
+        modules = []
+        for i in range(num_layers):
+            m = DualPathTran(channels * (2 if i % 2 == 1 else 1), time_rotary_embed, freq_rotary_embed, tran_params)
+            modules.append(m)
+        self.dp_modules = nn.ModuleList(modules)
+        self.feature_conversion = nn.ModuleList([
+            FeatureConversion(channels * 2, inverse=False if i % 2 == 0 else True) for i in range(num_layers)
+        ])
+    def forward(self, x):
+        for i in range(self.num_layers):
+            x = self.dp_modules[i](x)
+            x = self.feature_conversion[i](x)
+        return x
+class Swish(nn.Module):
+    def forward(self, x):
+        return x * x.sigmoid()
+class ConvolutionModule(nn.Module):
+    """
+    Convolution Module in SD block.
+    Args:
+        channels (int): input/output channels.
+        depth (int): number of layers in the residual branch. Each layer has its own
+        compress (float): amount of channel compression.
+        kernel (int): kernel size for the convolutions.
+        """
+    def __init__(self, channels, depth=2, compress=4, kernel=3):
+        super().__init__()
+        assert kernel % 2 == 1
+        self.depth = abs(depth)
+        hidden_size = int(channels / compress)
+        norm = lambda d: nn.GroupNorm(1, d)
+        self.layers = nn.ModuleList([])
+        for _ in range(self.depth):
+            padding = (kernel // 2)
+            mods = [
+                norm(channels),
+                nn.Conv1d(channels, hidden_size * 2, kernel, padding=padding),
+                nn.GLU(1),
+                nn.Conv1d(hidden_size, hidden_size, kernel, padding=padding, groups=hidden_size),
+                norm(hidden_size),
+                Swish(),
+                nn.Conv1d(hidden_size, channels, 1),
+            ]
+            layer = nn.Sequential(*mods)
+            self.layers.append(layer)
+    def forward(self, x):
+        for layer in self.layers:
+            x = x + layer(x)
+        return x
+class FusionLayer(nn.Module):
+    """
+    A FusionLayer within the decoder.
+    Args:
+    - channels (int): Number of input channels.
+    - kernel_size (int, optional): Kernel size for the convolutional layer, defaults to 3.
+    - stride (int, optional): Stride for the convolutional layer, defaults to 1.
+    - padding (int, optional): Padding for the convolutional layer, defaults to 1.
+    """
+    def __init__(self, channels, kernel_size=3, stride=1, padding=1):
+        super(FusionLayer, self).__init__()
+        self.conv = nn.Conv2d(channels * 2, channels * 2, kernel_size, stride=stride, padding=padding)
+    def forward(self, x, skip=None):
+        if skip is not None:
+            x += skip
+        x = x.repeat(1, 2, 1, 1)
+        x = self.conv(x)
+        x = F.glu(x, dim=1)
+        return x
+class SDlayer(nn.Module):
+    """
+    Implements a Sparse Down-sample Layer for processing different frequency bands separately.
+    Args:
+    - channels_in (int): Input channel count.
+    - channels_out (int): Output channel count.
+    - band_configs (dict): A dictionary containing configuration for each frequency band.
+                           Keys are 'low', 'mid', 'high' for each band, and values are
+                           dictionaries with keys 'SR', 'stride', and 'kernel' for proportion,
+                           stride, and kernel size, respectively.
+    """
+    def __init__(self, channels_in, channels_out, band_configs):
+        super(SDlayer, self).__init__()
+        # Initializing convolutional layers for each band
+        self.convs = nn.ModuleList()
+        self.strides = []
+        self.kernels = []
+        for config in band_configs.values():
+            self.convs.append(
+                nn.Conv2d(channels_in, channels_out, (config['kernel'], 1), (config['stride'], 1), (0, 0)))
+            self.strides.append(config['stride'])
+            self.kernels.append(config['kernel'])
+        # Saving rate proportions for determining splits
+        self.SR_low = band_configs['low']['SR']
+        self.SR_mid = band_configs['mid']['SR']
+    def forward(self, x):
+        B, C, Fr, T = x.shape
+        # Define splitting points based on sampling rates
+        splits = [
+            (0, math.ceil(Fr * self.SR_low)),
+            (math.ceil(Fr * self.SR_low), math.ceil(Fr * (self.SR_low + self.SR_mid))),
+            (math.ceil(Fr * (self.SR_low + self.SR_mid)), Fr)
+        ]
+        # Processing each band with the corresponding convolution
+        outputs = []
+        original_lengths = []
+        for conv, stride, kernel, (start, end) in zip(self.convs, self.strides, self.kernels, splits):
+            extracted = x[:, :, start:end, :]
+            original_lengths.append(end - start)
+            current_length = extracted.shape[2]
+            # padding
+            if stride == 1:
+                total_padding = kernel - stride
+            else:
+                total_padding = (stride - current_length % stride) % stride
+            pad_left = total_padding // 2
+            pad_right = total_padding - pad_left
+            padded = F.pad(extracted, (0, 0, pad_left, pad_right))
+            output = conv(padded)
+            outputs.append(output)
+        return outputs, original_lengths
+class SUlayer(nn.Module):
+    """
+    Implements a Sparse Up-sample Layer in decoder.
+    Args:
+    - channels_in: The number of input channels.
+    - channels_out: The number of output channels.
+    - convtr_configs: Dictionary containing the configurations for transposed convolutions.
+    """
+    def __init__(self, channels_in, channels_out, band_configs):
+        super(SUlayer, self).__init__()
+        # Initializing convolutional layers for each band
+        self.convtrs = nn.ModuleList([
+            nn.ConvTranspose2d(channels_in, channels_out, [config['kernel'], 1], [config['stride'], 1])
+            for _, config in band_configs.items()
+        ])
+    def forward(self, x, lengths, origin_lengths):
+        B, C, Fr, T = x.shape
+        # Define splitting points based on input lengths
+        splits = [
+            (0, lengths[0]),
+            (lengths[0], lengths[0] + lengths[1]),
+            (lengths[0] + lengths[1], None)
+        ]
+        # Processing each band with the corresponding convolution
+        outputs = []
+        for idx, (convtr, (start, end)) in enumerate(zip(self.convtrs, splits)):
+            out = convtr(x[:, :, start:end, :])
+            # Calculate the distance to trim the output symmetrically to original length
+            current_Fr_length = out.shape[2]
+            dist = abs(origin_lengths[idx] - current_Fr_length) // 2
+            # Trim the output to the original length symmetrically
+            trimmed_out = out[:, :, dist:dist + origin_lengths[idx], :]
+            outputs.append(trimmed_out)
+        # Concatenate trimmed outputs along the frequency dimension to return the final tensor
+        x = torch.cat(outputs, dim=2)
+        return x
+class SDblock(nn.Module):
+    """
+    Implements a simplified Sparse Down-sample block in encoder.
+    Args:
+    - channels_in (int): Number of input channels.
+    - channels_out (int): Number of output channels.
+    - band_config (dict): Configuration for the SDlayer specifying band splits and convolutions.
+    - conv_config (dict): Configuration for convolution modules applied to each band.
+    - depths (list of int): List specifying the convolution depths for low, mid, and high frequency bands.
+    """
+    def __init__(self, channels_in, channels_out, band_configs={}, conv_config={}, depths=[3, 2, 1], kernel_size=3):
+        super(SDblock, self).__init__()
+        self.SDlayer = SDlayer(channels_in, channels_out, band_configs)
+        # Dynamically create convolution modules for each band based on depths
+        self.conv_modules = nn.ModuleList([
+            ConvolutionModule(channels_out, depth, **conv_config) for depth in depths
+        ])
+        # Set the kernel_size to an odd number.
+        self.globalconv = nn.Conv2d(channels_out, channels_out, kernel_size, 1, (kernel_size - 1) // 2)
+    def forward(self, x):
+        bands, original_lengths = self.SDlayer(x)
+        # B, C, f, T = band.shape
+        bands = [
+            F.gelu(
+                conv(band.permute(0, 2, 1, 3).reshape(-1, band.shape[1], band.shape[3]))
+                .view(band.shape[0], band.shape[2], band.shape[1], band.shape[3])
+                .permute(0, 2, 1, 3)
+            )
+            for conv, band in zip(self.conv_modules, bands)
+        ]
+        lengths = [band.size(-2) for band in bands]
+        full_band = torch.cat(bands, dim=2)
+        skip = full_band
+        output = self.globalconv(full_band)
+        return output, skip, lengths, original_lengths
+class SCNet_Tran(nn.Module):
+    """
+    The implementation of SCNet: Sparse Compression Network for Music Source Separation. Paper: https://arxiv.org/abs/2401.13276.pdf
+    LSTM layers replaced with transformer layers
+    Args:
+    - sources (List[str]): List of sources to be separated.
+    - audio_channels (int): Number of audio channels.
+    - nfft (int): Number of FFTs to determine the frequency dimension of the input.
+    - hop_size (int): Hop size for the STFT.
+    - win_size (int): Window size for STFT.
+    - normalized (bool): Whether to normalize the STFT.
+    - dims (List[int]): List of channel dimensions for each block.
+    - band_SR (List[float]): The proportion of each frequency band.
+    - band_stride (List[int]): The down-sampling ratio of each frequency band.
+    - band_kernel (List[int]): The kernel sizes for down-sampling convolution in each frequency band
+    - conv_depths (List[int]): List specifying the number of convolution modules in each SD block.
+    - compress (int): Compression factor for convolution module.
+    - conv_kernel (int): Kernel size for convolution layer in convolution module.
+    - num_dplayer (int): Number of dual-path layers.
+    - expand (int): Expansion factor in the dual-path RNN, default is 1.
+    """
+    def __init__(
+            self,
+            sources=('drums', 'bass', 'other', 'vocals'),
+            audio_channels=2,
+            # Main structure
+            dims=(4, 32, 64, 128),  # dims = [4, 64, 128, 256] in SCNet-large
+            # STFT
+            nfft=4096,
+            hop_size=1024,
+            win_size=4096,
+            normalized=True,
+            # SD/SU layer
+            band_SR=(0.175, 0.392, 0.433),
+            band_stride=(1, 4, 16),
+            band_kernel=(3, 4, 16),
+            # Convolution Module
+            conv_depths=(3, 2, 1),
+            compress=4,
+            conv_kernel=3,
+            # Dual-path RNN
+            num_dplayer=6,
+            expand=1,
+            tran_rotary_embedding_dim=64,
+            tran_depth=1,
+            tran_heads=8,
+            tran_dim_head=64,
+            tran_attn_dropout=0.0,
+            tran_ff_dropout=0.0,
+            tran_flash_attn=False,
+    ):
+        super().__init__()
+        self.sources = sources
+        self.audio_channels = audio_channels
+        self.dims = dims
+        band_keys = ['low', 'mid', 'high']
+        self.band_configs = {band_keys[i]: {'SR': band_SR[i], 'stride': band_stride[i], 'kernel': band_kernel[i]} for i
+                             in range(len(band_keys))}
+        self.hop_length = hop_size
+        self.conv_config = {
+            'compress': compress,
+            'kernel': conv_kernel,
+        }
+        self.tran_params = {
+            'rotary_embedding_dim': tran_rotary_embedding_dim,
+            'depth': tran_depth,
+            'heads': tran_heads,
+            'dim_head': tran_dim_head,
+            'attn_dropout': tran_attn_dropout,
+            'ff_dropout': tran_ff_dropout,
+            'flash_attn': tran_flash_attn,
+        }
+        self.stft_config = {
+            'n_fft': nfft,
+            'hop_length': hop_size,
+            'win_length': win_size,
+            'center': True,
+            'normalized': normalized
+        }
+        self.first_conv = nn.Conv2d(dims[0], dims[0], 1, 1, 0, bias=False)
+        self.encoder = nn.ModuleList()
+        self.decoder = nn.ModuleList()
+        for index in range(len(dims) - 1):
+            enc = SDblock(
+                channels_in=dims[index],
+                channels_out=dims[index + 1],
+                band_configs=self.band_configs,
+                conv_config=self.conv_config,
+                depths=conv_depths
+            )
+            self.encoder.append(enc)
+            dec = nn.Sequential(
+                FusionLayer(channels=dims[index + 1]),
+                SUlayer(
+                    channels_in=dims[index + 1],
+                    channels_out=dims[index] if index != 0 else dims[index] * len(sources),
+                    band_configs=self.band_configs,
+                )
+            )
+            self.decoder.insert(0, dec)
+        self.separation_net = SeparationNetTran(
+            channels=dims[-1],
+            expand=expand,
+            num_layers=num_dplayer,
+            tran_params=self.tran_params
+        )
+    def forward(self, x):
+        # B, C, L = x.shape
+        B = x.shape[0]
+        # In the initial padding, ensure that the number of frames after the STFT (the length of the T dimension) is even,
+        # so that the RFFT operation can be used in the separation network.
+        padding = self.hop_length - x.shape[-1] % self.hop_length
+        if (x.shape[-1] + padding) // self.hop_length % 2 == 0:
+            padding += self.hop_length
+        x = F.pad(x, (0, padding))
+        # STFT
+        L = x.shape[-1]
+        x = x.reshape(-1, L)
+        x = torch.stft(x, **self.stft_config, return_complex=True)
+        x = torch.view_as_real(x)
+        x = x.permute(0, 3, 1, 2).reshape(x.shape[0] // self.audio_channels, x.shape[3] * self.audio_channels,
+                                          x.shape[1], x.shape[2])
+        B, C, Fr, T = x.shape
+        save_skip = deque()
+        save_lengths = deque()
+        save_original_lengths = deque()
+        # encoder
+        for sd_layer in self.encoder:
+            x, skip, lengths, original_lengths = sd_layer(x)
+            save_skip.append(skip)
+            save_lengths.append(lengths)
+            save_original_lengths.append(original_lengths)
+        # separation
+        x = self.separation_net(x)
+        # decoder
+        for fusion_layer, su_layer in self.decoder:
+            x = fusion_layer(x, save_skip.pop())
+            x = su_layer(x, save_lengths.pop(), save_original_lengths.pop())
+        # output
+        n = self.dims[0]
+        x = x.view(B, n, -1, Fr, T)
+        x = x.reshape(-1, 2, Fr, T).permute(0, 2, 3, 1)
+        x = torch.view_as_complex(x.contiguous())
+        x = torch.istft(x, **self.stft_config)
+        x = x.reshape(B, len(self.sources), self.audio_channels, -1)
+        x = x[:, :, :, :-padding]
+        return x

phase_fixer.py ADDED Viewed

	@@ -0,0 +1,139 @@

+import torch
+import torchaudio
+import os
+import gc
+def frequency_blend_phases(phase1, phase2, freq_bins, low_cutoff=500, high_cutoff=5000, base_factor=0.25, scale_factor=1.85):
+    if phase1.shape != phase2.shape:
+        raise ValueError("phase1 and phase2 must have the same shape.")
+    if len(freq_bins) != phase1.shape[0]:
+        raise ValueError("freq_bins must have the same length as the number of frequency bins in phase1 and phase2.")
+    if low_cutoff >= high_cutoff:
+        raise ValueError("low_cutoff must be less than high_cutoff.")
+    blended_phase = torch.zeros_like(phase1)
+    blend_factors = torch.zeros_like(freq_bins)
+    blend_factors[freq_bins < low_cutoff] = base_factor
+    blend_factors[freq_bins > high_cutoff] = base_factor + scale_factor
+    in_range_mask = (freq_bins >= low_cutoff) & (freq_bins <= high_cutoff)
+    blend_factors[in_range_mask] = base_factor + scale_factor * (
+        (freq_bins[in_range_mask] - low_cutoff) / (high_cutoff - low_cutoff)
+    )
+    for i in range(phase1.shape[0]):
+        blended_phase[i, :] = (1 - blend_factors[i]) * phase1[i, :] + blend_factors[i] * phase2[i, :]
+    blended_phase = torch.remainder(blended_phase + torch.pi, 2 * torch.pi) - torch.pi
+    return blended_phase
+def transfer_magnitude_phase(source_file, target_file, output_folder, transfer_magnitude=False, transfer_phase=True,
+                              low_cutoff=500, high_cutoff=9000, scale_factor=1.4, output_format='flac'):
+    target_name, target_ext = os.path.splitext(os.path.basename(target_file))
+    target_name = target_name.replace("_other", "").replace("_vocals", "").replace("_instrumental", "")
+    target_name = target_name.replace("_Other", "").replace("_Vocals", "").replace("_Instrumental", "").strip()
+    ext = '.flac' if output_format == 'flac' else '.wav'
+    output_file = os.path.join(output_folder, f"{target_name} (Fixed Instrumental){ext}")
+    print(f"Phase Fixing: {os.path.basename(target_file)}...")
+    source_waveform, source_sr = torchaudio.load(source_file)
+    target_waveform, target_sr = torchaudio.load(target_file)
+    if source_sr != target_sr:
+        raise ValueError("Sample rates of source and target audio files must match.")
+    n_fft = 2048
+    hop_length = 512
+    window = torch.hann_window(n_fft)
+    source_stfts = torch.stft(source_waveform, n_fft=n_fft, hop_length=hop_length, window=window, return_complex=True, pad_mode="reflect")
+    target_stfts = torch.stft(target_waveform, n_fft=n_fft, hop_length=hop_length, window=window, return_complex=True, pad_mode="reflect")
+    freqs = torch.linspace(0, source_sr // 2, steps=n_fft // 2 + 1)
+    modified_stfts = []
+    for source_stft, target_stft in zip(source_stfts, target_stfts):
+        source_mag, source_phs = torch.abs(source_stft), torch.angle(source_stft)
+        target_mag, target_phs = torch.abs(target_stft), torch.angle(target_stft)
+        modified_stft = target_stft.clone()
+        if transfer_magnitude:
+            modified_stft = source_mag * torch.exp(1j * torch.angle(modified_stft))
+        if transfer_phase:
+            blended_phase = frequency_blend_phases(target_phs, source_phs, freqs, low_cutoff, high_cutoff, scale_factor=scale_factor)
+            modified_stft = torch.abs(modified_stft) * torch.exp(1j * blended_phase)
+        modified_stfts.append(modified_stft)
+    modified_waveform = torch.istft(
+        torch.stack(modified_stfts),
+        n_fft=n_fft,
+        hop_length=hop_length,
+        window=window,
+        length=source_waveform.size(1)
+    )
+    if output_format == 'flac':
+        torchaudio.save(output_file, modified_waveform, target_sr, format="flac", bits_per_sample=16)
+    else:
+        torchaudio.save(output_file, modified_waveform, target_sr)
+    print(f"Saved: {output_file}")
+    return output_file
+def process_phase_fix(source_file, target_file, output_folder, low_cutoff=500, high_cutoff=9000,
+                      scale_factor=1.4, output_format='flac'):
+    os.makedirs(output_folder, exist_ok=True)
+    try:
+        output_file = transfer_magnitude_phase(
+            source_file=source_file,
+            target_file=target_file,
+            output_folder=output_folder,
+            transfer_magnitude=False,
+            transfer_phase=True,
+            low_cutoff=low_cutoff,
+            high_cutoff=high_cutoff,
+            scale_factor=scale_factor,
+            output_format=output_format
+        )
+        gc.collect()
+        torch.cuda.empty_cache() if torch.cuda.is_available() else None
+        return output_file, "Phase fix completed successfully!"
+    except Exception as e:
+        return None, f"Error during phase fix: {str(e)}"
+SOURCE_MODELS = [
+    'VOCALS-MelBand-Roformer (by Becruily)',
+    'VOCALS-Mel-Roformer big beta 4 (by unwa)',
+    'VOCALS-Melband-Roformer BigBeta5e (by unwa)',
+    'VOCALS-big_beta6 (by Unwa)',
+    'VOCALS-big_beta6X (by Unwa)',
+    'VOCALS-MelBand-Roformer (by KimberleyJSN)',
+    'VOCALS-MelBand-Roformer Kim FT (by Unwa)',
+    'VOCALS-MelBand-Roformer Kim FT 2 (by Unwa)',
+    'VOCALS-MelBand-Roformer Kim FT 2 Blendless (by unwa)',
+    'VOCALS-Mel-Roformer FT 3 Preview (by unwa)',
+    'VOCALS-BS-Roformer_1296 (by viperx)',
+    'VOCALS-BS-Roformer_1297 (by viperx)',
+    'VOCALS-BS-RoformerLargev1 (by unwa)',
+    'bs_roformer_revive (by unwa)'
+]
+TARGET_MODELS = [
+    'INST-MelBand-Roformer (by Becruily)',
+    'INST-Mel-Roformer v1 (by unwa)',
+    'INST-Mel-Roformer v2 (by unwa)',
+    'inst_v1e (by unwa)',
+    'INST-Mel-Roformer v1e+ (by unwa)',
+    'Inst_GaboxV7 (by Gabox)',
+    'INST-VOC-Mel-Roformer a.k.a. duality (by unwa)',
+    'INST-VOC-Mel-Roformer a.k.a. duality v2 (by unwa)',
+    'inst_gabox (by Gabox)',
+    'inst_gaboxFlowersV10 (by Gabox)'
+]

processing.py CHANGED Viewed

@@ -13,9 +13,16 @@ sys.path.append(current_dir)
 from datetime import datetime
 from helpers import INPUT_DIR, OLD_OUTPUT_DIR, ENSEMBLE_DIR, AUTO_ENSEMBLE_TEMP, move_old_files, clear_directory, BASE_DIR, clean_model, extract_model_name_from_checkpoint, sanitize_filename, find_clear_segment, save_segment, run_matchering, clamp_percentage
-from model import get_model_config
 from apollo_processing import process_with_apollo  # Import Apollo processing
 import torch
 import yaml
 import gradio as gr
 import threading
@@ -29,15 +36,25 @@ import locale
 import re
 import psutil
 import concurrent.futures
-from google.oauth2.credentials import Credentials
 import tempfile
-import traceback
 from urllib.parse import urlparse, quote
 try:
     from google.colab import drive
     IS_COLAB = True
 except ImportError:
     IS_COLAB = False
 import matchering as mg
 import warnings
@@ -61,14 +78,24 @@ def setup_directories():
     """Create necessary directories and check Google Drive access."""
     if IS_COLAB:
         try:
-            if not os.path.exists('/content/drive/MyDrive'):
                 print("Mounting Google Drive...")
-                from google.colab import drive
-                drive.mount('/content/drive', force_remount=True)
-            if not os.path.exists('/content/drive/MyDrive'):
-                raise RuntimeError("Google Drive mount failed. Please mount manually with 'from google.colab import drive; drive.mount('/content/drive', force_remount=True)'.")
         except Exception as e:
-            raise RuntimeError(f"Failed to mount Google Drive: {str(e)}")
     os.makedirs(OUTPUT_DIR, exist_ok=True)
     os.makedirs(INPUT_DIR, exist_ok=True)
     os.makedirs(OLD_OUTPUT_DIR, exist_ok=True)
@@ -85,25 +112,47 @@ def refresh_auto_output():
     except Exception as e:
         return None, f"Error refreshing output: {str(e)}"
-import logging
-# Loglama ayarları
-logging.basicConfig(
-    level=logging.DEBUG,
-    filename='utils.log',
-    filemode='a',
-    format='%(asctime)s - %(levelname)s - %(message)s'
-)
-def update_progress_html(progress_label, progress_percent):
-    """Gradio arayüzü için ilerleme çubuğu HTML'si oluşturur."""
-    progress_percent = min(max(round(progress_percent), 0), 100)  # %1 hassasiyet
     return f"""
     <div id="custom-progress" style="margin-top: 10px;">
         <div style="font-size: 1rem; color: #C0C0C0; margin-bottom: 5px;" id="progress-label">{progress_label}</div>
         <div style="width: 100%; background-color: #444; border-radius: 5px; overflow: hidden;">
-            <div id="progress-bar" style="width: {progress_percent}%; height: 20px; background-color: #6e8efb; transition: width 0.3s; max-width: 100%;"></div>
         </div>
     </div>
     """
@@ -112,18 +161,38 @@ def extract_model_name_from_checkpoint(checkpoint_path):
         return "Unknown"
     base_name = os.path.basename(checkpoint_path)
     model_name = os.path.splitext(base_name)[0]
-    print(f"Original checkpoint path: {checkpoint_path}, extracted model_name: {model_name}")
     return model_name.strip()
 def run_command_and_process_files(
     model_type,
     config_path,
     start_check_point,
     INPUT_DIR,
     OUTPUT_DIR,
-    extract_instrumental=False,
-    use_tta=False,
-    demud_phaseremix_inst=False,
     progress=None,
     use_apollo=True,
     apollo_normal_model="Apollo Universal Model",
@@ -133,52 +202,113 @@ def run_command_and_process_files(
     apollo_overlap=2,
     apollo_method="normal_method",
     apollo_midside_model=None,
-    output_format="wav"
 ):
     try:
-        logging.info(f"Starting run_command_and_process_files: model_type={model_type}, config_path={config_path}, inference_chunk_size={inference_chunk_size}, inference_overlap={inference_overlap}")
-        # Doğrulama
-        for path, name in [
-            (config_path, "Configuration file"),
-            (start_check_point, "Checkpoint file"),
-            (INPUT_DIR, "Input directory")
-        ]:
-            if not path:
-                raise ValueError(f"{name} is empty")
-            if not os.path.exists(path):
-                raise FileNotFoundError(f"{name} not found: {path}")
-        os.makedirs(OUTPUT_DIR, exist_ok=True)
-        # Komut oluştur
-        INFERENCE_PATH = os.path.join(os.path.dirname(os.path.abspath(__file__)), "inference.py")
         cmd_parts = [
-            "python", INFERENCE_PATH,
-            "--model_type", str(model_type),
-            "--config_path", str(config_path),
-            "--start_check_point", str(start_check_point),
-            "--input_folder", str(INPUT_DIR),
-            "--store_dir", str(OUTPUT_DIR),
             "--chunk_size", str(inference_chunk_size),
             "--overlap", str(inference_overlap),
             "--export_format", f"{output_format} FLOAT"
         ]
-        for flag, value in [
-            ("--extract_instrumental", extract_instrumental),
-            ("--use_tta", use_tta),
-            ("--demud_phaseremix_inst", demud_phaseremix_inst)
-        ]:
-            if value:
-                cmd_parts.append(flag)
-        logging.info(f"Executing command: {' '.join(cmd_parts)}")
-        start_time = time.time()
-        # Subprocess başlat
         process = subprocess.Popen(
             cmd_parts,
-            cwd=os.path.dirname(os.path.abspath(__file__)),
             stdout=subprocess.PIPE,
             stderr=subprocess.PIPE,
             text=True,
@@ -186,156 +316,188 @@ def run_command_and_process_files(
             universal_newlines=True
         )
-        # İlerleme takibi
-        mixture_paths = sorted(glob.glob(os.path.join(INPUT_DIR, '*.*')))
-        total_files = len(mixture_paths)
-        processed_files = 0
-        base_progress_per_file = 80 / total_files if total_files > 0 else 80  # 0-80% ayrıştırma
         stderr_output = ""
-        stdout_output = ""
-        while process.poll() is None:
-            line = process.stdout.readline().strip()
-            if line:
-                stdout_output += line + "\n"
-                if i18n("loaded_audio").lower() in line.lower():
-                    processed_files += 1
-                    progress_value = round(processed_files * base_progress_per_file)
-                    if progress is not None and callable(getattr(progress, '__call__', None)):
-                        progress(progress_value / 100, desc=i18n("running_separation").format(processed_files, total_files))
-                        update_progress_html(i18n("running_separation").format(processed_files, total_files), progress_value)
-                logging.debug(line)
-            err_line = process.stderr.readline().strip()
-            if err_line:
-                stderr_output += err_line + "\n"
-                logging.error(err_line)
-        # Kalan çıktıları topla
-        stdout, stderr = process.communicate()
-        stdout_output += stdout
-        stderr_output += stderr
-        logging.debug(f"Subprocess stdout: {stdout_output}")
-        if stderr_output:
-            logging.error(f"Subprocess stderr: {stderr_output}")
         if process.returncode != 0:
-            raise RuntimeError(f"Subprocess failed with code {process.returncode}: {stderr_output}")
-        elapsed_time = time.time() - start_time
-        logging.info(f"Subprocess completed in {elapsed_time:.2f} seconds")
-        # Çıktıları işle
         filename_model = extract_model_name_from_checkpoint(start_check_point)
-        output_files = sorted(os.listdir(OUTPUT_DIR))
         if not output_files:
-            raise FileNotFoundError(i18n("no_output_files").format(OUTPUT_DIR))
-        # Dosya yeniden adlandırma: 80-90%
-        total_output_files = len(output_files)
-        renamed_files = 0
-        for filename in output_files:
-            file_path = os.path.join(OUTPUT_DIR, filename)
-            if not any(filename.lower().endswith(ext) for ext in ['.mp3', '.wav', '.flac', '.aac', '.ogg', '.m4a']):
-                continue
-            base, ext = os.path.splitext(filename)
-            detected_type = None
-            for type_key in ['vocals', 'instrumental', 'phaseremix', 'drum', 'bass', 'other', 'effects', 'speech', 'music', 'dry', 'male', 'female', 'bleed', 'karaoke']:
-                if type_key.lower() in base.lower():
-                    detected_type = type_key
-                    break
-            type_suffix = detected_type.capitalize() if detected_type else 'Processed'
-            clean_base = sanitize_filename(base.split('_')[0]).rsplit('.', 1)[0]
-            new_filename = f"{clean_base}_{type_suffix}_{filename_model}{ext}"
-            new_file_path = os.path.join(OUTPUT_DIR, new_filename)
-            try:
-                os.rename(file_path, new_file_path)
-                renamed_files += 1
-                progress_value = round(80 + (renamed_files / total_output_files) * 10)
-                if progress is not None and callable(getattr(progress, '__call__', None)):
-                    progress(progress_value / 100, desc=i18n("renaming_files").format(renamed_files, total_output_files))
-                    update_progress_html(i18n("renaming_files").format(renamed_files, total_output_files), progress_value)
-            except Exception as e:
-                logging.error(f"Could not rename {file_path} to {new_file_path}: {e}")
-        output_files = sorted(os.listdir(OUTPUT_DIR))
         if not output_files:
-            raise FileNotFoundError(i18n("no_output_files_after_rename").format(OUTPUT_DIR))
-        # Çıktıları eşleştir
-        def find_file(keyword):
             matching_files = [
-                os.path.join(OUTPUT_DIR, f) for f in output_files
-                if keyword.lower() in f.lower()
             ]
             return matching_files[0] if matching_files else None
         output_list = [
-            find_file('vocals'), find_file('instrumental'), find_file('phaseremix'),
             find_file('drum'), find_file('bass'), find_file('other'), find_file('effects'),
             find_file('speech'), find_file('music'), find_file('dry'), find_file('male'),
-            find_file('female'), find_file('bleed'), find_file('karaoke')
         ]
-        # Normalizasyon: 90-95%
         normalized_outputs = []
-        for i, output_file in enumerate(output_list):
             if output_file and os.path.exists(output_file):
                 normalized_file = os.path.join(OUTPUT_DIR, f"{sanitize_filename(os.path.splitext(os.path.basename(output_file))[0])}.{output_format}")
-                try:
-                    if output_file.endswith(f".{output_format}") and output_file != normalized_file:
-                        shutil.copy(output_file, normalized_file)
-                    elif output_file != normalized_file:
-                        audio, sr = librosa.load(output_file, sr=None, mono=False)
-                        sf.write(normalized_file, audio.T if audio.ndim > 1 else audio, sr)
-                    else:
-                        normalized_file = output_file
-                    normalized_outputs.append(normalized_file)
-                    progress_value = round(90 + (i + 1) / len(output_list) * 5)
-                    if progress is not None and callable(getattr(progress, '__call__', None)):
-                        progress(progress_value / 100, desc=i18n("normalizing_output").format(i + 1, len(output_list)))
-                        update_progress_html(i18n("normalizing_output").format(i + 1, len(output_list), progress_value))
-                except Exception as e:
-                    logging.error(f"Normalization failed for {output_file}: {e}")
-                    normalized_outputs.append(None)
             else:
-                normalized_outputs.append(None)
-        # Apollo işlemi: 95-100%
         if use_apollo:
-            try:
-                from apollo_processing import process_with_apollo
-                normalized_outputs = process_with_apollo(
-                    output_files=normalized_outputs,
-                    output_dir=OUTPUT_DIR,
-                    apollo_chunk_size=apollo_chunk_size,
-                    apollo_overlap=apollo_overlap,
-                    apollo_method=apollo_method,
-                    apollo_normal_model=apollo_normal_model,
-                    apollo_midside_model=apollo_midside_model,
-                    output_format=output_format,
-                    progress=lambda p, desc: progress((95 + p * 5) / 100, desc=desc) if progress else None,
-                    total_progress_start=95,
-                    total_progress_end=100
-                )
-            except ImportError:
-                logging.warning("apollo_processing module not found, skipping Apollo processing")
-            except Exception as e:
-                logging.error(f"Apollo processing failed: {e}")
-        # Tamamlandı
-        if progress is not None and callable(getattr(progress, '__call__', None)):
-            progress(1.0, desc=i18n("separation_complete"))
-            update_progress_html(i18n("separation_complete"), 100)
-        logging.info(f"Processing completed successfully. Outputs: {normalized_outputs}")
-        return tuple(normalized_outputs)
     except Exception as e:
-        logging.error(f"run_command_and_process_files error: {str(e)}")
-        traceback.print_exc(file=sys.stderr)
-        return (None,) * 14
 def process_audio(
     input_audio_file,
@@ -343,6 +505,10 @@ def process_audio(
     chunk_size,
     overlap,
     export_format,
     use_tta,
     demud_phaseremix_inst,
     extract_instrumental,
@@ -352,12 +518,16 @@ def process_audio(
     apollo_method,
     apollo_normal_model,
     apollo_midside_model,
-    use_matchering=False,
-    matchering_passes=1,
     progress=gr.Progress(track_tqdm=True),
     *args,
     **kwargs
 ):
     try:
         # Check Google Drive connection
         setup_directories()
@@ -365,29 +535,29 @@ def process_audio(
         if input_audio_file is not None:
             audio_path = input_audio_file.name if hasattr(input_audio_file, 'name') else input_audio_file
         else:
-            return (
-                None, None, None, None, None, None, None, None, None, None, None, None, None, None,
                 "No audio file provided",
                 update_progress_html("No input provided", 0)
             )
         os.makedirs(OUTPUT_DIR, exist_ok=True)
         os.makedirs(OLD_OUTPUT_DIR, exist_ok=True)
         move_old_files(OUTPUT_DIR)
-        print(f"process_audio: model parameter received: {model}")
         # Clean model name, remove ⭐ and other unwanted characters
         clean_model_name = clean_model(model) if not model.startswith("/") else extract_model_name_from_checkpoint(model)
-        print(f"Processing audio: {audio_path}, model: {clean_model_name}")
-        print(f"Raw UI inputs - chunk_size: {chunk_size}, overlap: {overlap}, apollo_chunk_size: {apollo_chunk_size}, apollo_overlap: {apollo_overlap}, apollo_method: {apollo_method}")
         # Validate inference parameters
         try:
-            inference_chunk_size = int(chunk_size)
         except (TypeError, ValueError):
             print(f"Invalid chunk_size: {chunk_size}. Defaulting to: 352800.")
             inference_chunk_size = 352800
         try:
             inference_overlap = int(overlap)
@@ -416,21 +586,32 @@ def process_audio(
         else:
             print(f"Invalid apollo_method: {apollo_method}. Defaulting to: normal_method.")
             apollo_method = "normal_method"
-        print(f"Parsed apollo_method: {apollo_method}")
-        print(f"Corrected values - inference_chunk_size: {inference_chunk_size}, inference_overlap: {inference_overlap}, apollo_chunk_size: {apollo_chunk_size}, apollo_overlap: {apollo_overlap}")
         # Copy input file to INPUT_DIR
         input_filename = os.path.basename(audio_path)
         dest_path = os.path.join(INPUT_DIR, input_filename)
         shutil.copy(audio_path, dest_path)
-        print(f"Input file copied: {dest_path}")
-        # Get model configuration with cleaned model name
         model_type, config_path, start_check_point = get_model_config(clean_model_name, inference_chunk_size, inference_overlap)
-        print(f"Model configuration: model_type={model_type}, config_path={config_path}, start_check_point={start_check_point}")
-        outputs = run_command_and_process_files(
             model_type=model_type,
             config_path=config_path,
             start_check_point=start_check_point,
@@ -448,17 +629,32 @@ def process_audio(
             apollo_overlap=apollo_overlap,
             apollo_method=apollo_method,
             apollo_midside_model=apollo_midside_model,
-            output_format=export_format.split()[0].lower()
-        )
         if outputs is None or all(output is None for output in outputs):
             raise ValueError("run_command_and_process_files returned None or all None outputs")
         # Apply Matchering (if enabled)
         if use_matchering:
-            # Progress update for Matchering
-            if progress is not None and callable(getattr(progress, '__call__', None)):
-                progress(90, desc="Applying Matchering")
             # Find clean segment from original audio
             segment_start, segment_end, segment_audio = find_clear_segment(audio_path)
@@ -488,12 +684,11 @@ def process_audio(
             outputs = tuple(mastered_outputs)
-        if progress is not None and callable(getattr(progress, '__call__', None)):
-            progress(100, desc="Processing complete")
-        return (
             outputs[0], outputs[1], outputs[2], outputs[3], outputs[4], outputs[5], outputs[6],
             outputs[7], outputs[8], outputs[9], outputs[10], outputs[11], outputs[12], outputs[13],
             "Audio processing completed",
             update_progress_html("Audio processing completed", 100)
         )
@@ -502,8 +697,8 @@ def process_audio(
         print(f"process_audio error: {str(e)}")
         import traceback
         traceback.print_exc()
-        return (
-            None, None, None, None, None, None, None, None, None, None, None, None, None, None,
             f"Error occurred: {str(e)}",
             update_progress_html("Error occurred", 0)
         )
@@ -534,23 +729,63 @@ def ensemble_audio_fn(files, method, weights, progress=gr.Progress()):
             ensemble_args += ["--weights", *weights_list]
         progress(0, desc="Starting ensemble process", total=100)
-        result = subprocess.run(
             ["python", "ensemble.py"] + ensemble_args,
-            capture_output=True,
-            text=True
         )
-        start_time = time.time()
-        total_estimated_time = 10.0  # Adjust based on actual ensemble duration
-        elapsed_time = 0
-        while elapsed_time < total_estimated_time:
-            elapsed_time = time.time() - start_time
-            progress_value = (elapsed_time / total_estimated_time) * 100
-            progress_value = clamp_percentage(progress_value)
-            progress(progress_value, desc=f"Ensembling progress: {progress_value}%")
-            time.sleep(0.1)
-        progress(100, desc="Finalizing ensemble output")
         log = f"Success: {result.stdout}" if not result.stderr else f"Error: {result.stderr}"
         return output_path, log
@@ -602,18 +837,15 @@ def auto_ensemble_process(
         input_filename = os.path.basename(audio_path)
         dest_path = os.path.join(INPUT_DIR, input_filename)
         shutil.copy(audio_path, dest_path)
-        print(f"Input file copied: {dest_path}")
         # Parse apollo method
         if auto_apollo_method in ["2", 2]:
             auto_apollo_method = "mid_side_method"
         elif auto_apollo_method in ["1", 1]:
             auto_apollo_method = "normal_method"
-        print(f"Parsed auto_apollo_method: {auto_apollo_method}")
         corrected_auto_chunk_size = int(auto_apollo_chunk_size)
         corrected_auto_overlap = int(auto_apollo_overlap)
-        print(f"Corrected values - auto_apollo_chunk_size: {corrected_auto_chunk_size}, auto_apollo_overlap: {corrected_auto_overlap}")
         # Setup temporary directories
         auto_ensemble_temp = os.path.join(BASE_DIR, "auto_ensemble_temp")
@@ -627,7 +859,6 @@ def auto_ensemble_process(
         for i, model in enumerate(selected_models):
             clean_model_name = clean_model(model)
-            print(f"Processing model {i+1}/{total_models}: Original={model}, Cleaned={clean_model_name}")
             model_output_dir = os.path.join(auto_ensemble_temp, clean_model_name)
             os.makedirs(model_output_dir, exist_ok=True)
@@ -639,7 +870,12 @@ def auto_ensemble_process(
             )
             model_type, config_path, start_check_point = get_model_config(clean_model_name, auto_chunk_size, auto_overlap)
-            print(f"Model configuration: model_type={model_type}, config_path={config_path}, start_check_point={start_check_point}")
             cmd = [
                 "python", INFERENCE_PATH,
@@ -648,7 +884,7 @@ def auto_ensemble_process(
                 "--start_check_point", start_check_point,
                 "--input_folder", INPUT_DIR,
                 "--store_dir", model_output_dir,
-                "--chunk_size", str(auto_chunk_size),
                 "--overlap", str(auto_overlap),
                 "--export_format", f"{export_format.split()[0].lower()} FLOAT"
             ]
@@ -668,20 +904,83 @@ def auto_ensemble_process(
             )
             stderr_output = ""
             for line in process.stdout:
-                print(line.strip())
-                if "Progress:" in line:
                     try:
-                        percentage = float(re.search(r"Progress: (\d+\.\d+)%", line).group(1))
                         model_percentage = (percentage / 100) * model_progress_per_step
                         current_progress = (i * model_progress_per_step) + model_percentage
                         current_progress = clamp_percentage(current_progress)
-                        yield None, i18n("loading_model").format(i+1, total_models, clean_model_name), update_progress_html(
-                            i18n("loading_model_progress").format(i+1, total_models, clean_model_name, current_progress),
-                            current_progress
-                        )
-                    except (AttributeError, ValueError) as e:
-                        print(f"Progress parsing error: {e}")
             for line in process.stderr:
                 stderr_output += line
@@ -868,6 +1167,8 @@ def auto_ensemble_process(
                 print(f"File not found in Google Drive, copying from local path: {output_path}")
                 shutil.copy(output_path, drive_output_path)
                 print(f"Copied to Google Drive: {drive_output_path}")
         yield output_path, i18n("success_output_created") + f" Saved to {drive_output_path if IS_COLAB else output_path}", update_progress_html(
             i18n("ensemble_completed"), 100

 from datetime import datetime
 from helpers import INPUT_DIR, OLD_OUTPUT_DIR, ENSEMBLE_DIR, AUTO_ENSEMBLE_TEMP, move_old_files, clear_directory, BASE_DIR, clean_model, extract_model_name_from_checkpoint, sanitize_filename, find_clear_segment, save_segment, run_matchering, clamp_percentage
+from model import get_model_config, get_model_chunk_size
 from apollo_processing import process_with_apollo  # Import Apollo processing
 import torch
+# PyTorch optimized backend (always available)
+try:
+    from pytorch_backend import PyTorchBackend
+    PYTORCH_OPTIMIZED_AVAILABLE = True
+except ImportError:
+    PYTORCH_OPTIMIZED_AVAILABLE = False
 import yaml
 import gradio as gr
 import threading
 import re
 import psutil
 import concurrent.futures
+from tqdm import tqdm
+# Google OAuth imports (optional - for Colab/Google Drive support)
+try:
+    from google.oauth2.credentials import Credentials
+    GOOGLE_OAUTH_AVAILABLE = True
+except ImportError:
+    GOOGLE_OAUTH_AVAILABLE = False
+    Credentials = None
 import tempfile
 from urllib.parse import urlparse, quote
 try:
     from google.colab import drive
+    # Verify we're actually in a working Colab environment
     IS_COLAB = True
 except ImportError:
     IS_COLAB = False
+    drive = None
 import matchering as mg
 import warnings
     """Create necessary directories and check Google Drive access."""
     if IS_COLAB:
         try:
+            # Check if Google Drive is already mounted
+            if os.path.exists('/content/drive/MyDrive'):
+                pass  # Already mounted, no action needed
+            else:
                 print("Mounting Google Drive...")
+                try:
+                    from google.colab import drive
+                    drive.mount('/content/drive', force_remount=True)
+                except AttributeError as ae:
+                    # Handle 'NoneType' object has no attribute 'kernel' error
+                    print(f"Warning: Google Drive mount skipped (Colab kernel issue): {str(ae)}")
+                    print("Continuing with local storage...")
+                except Exception as mount_error:
+                    print(f"Warning: Google Drive mount failed: {str(mount_error)}")
+                    print("Continuing with local storage...")
         except Exception as e:
+            print(f"Warning: Google Drive setup error: {str(e)}")
+            print("Continuing without Google Drive...")
     os.makedirs(OUTPUT_DIR, exist_ok=True)
     os.makedirs(INPUT_DIR, exist_ok=True)
     os.makedirs(OLD_OUTPUT_DIR, exist_ok=True)
     except Exception as e:
         return None, f"Error refreshing output: {str(e)}"
+def update_progress_html(progress_label, progress_percent, download_info=None):
+    """Generate progress HTML with smooth animations and optional download percentage.
+    Args:
+        progress_label: Text label to show above the progress bar
+        progress_percent: Overall progress percentage (0-100)
+        download_info: Optional dict with 'filename' and 'percent' for download progress
+    """
+    progress_percent = clamp_percentage(progress_percent)
+    # Determine if processing is active for pulse animation
+    is_active = 0 < progress_percent < 100
+    pulse_style = "animation: progress-pulse 1.5s ease-in-out infinite;" if is_active else ""
+    # Build download sub-bar if downloading
+    download_html = ""
+    if download_info and isinstance(download_info, dict):
+        dl_filename = download_info.get('filename', '')
+        dl_percent = clamp_percentage(download_info.get('percent', 0))
+        download_html = f"""
+        <div style="margin-top: 8px; padding: 8px; background: rgba(0,0,0,0.3); border-radius: 5px;">
+            <div style="font-size: 0.85rem; color: #a0a0a0; margin-bottom: 4px;">{dl_filename} - %{int(dl_percent)}</div>
+            <div style="width: 100%; background-color: #333; border-radius: 4px; overflow: hidden;">
+                <div style="width: {dl_percent}%; height: 14px; background: linear-gradient(90deg, #4ade80, #22d3ee); transition: width 0.3s ease-out; border-radius: 4px;"></div>
+            </div>
+        </div>
+        """
     return f"""
+    <style>
+        @keyframes progress-pulse {{
+            0%, 100% {{ opacity: 1; }}
+            50% {{ opacity: 0.85; }}
+        }}
+    </style>
     <div id="custom-progress" style="margin-top: 10px;">
         <div style="font-size: 1rem; color: #C0C0C0; margin-bottom: 5px;" id="progress-label">{progress_label}</div>
         <div style="width: 100%; background-color: #444; border-radius: 5px; overflow: hidden;">
+            <div id="progress-bar" style="width: {progress_percent}%; height: 20px; background: linear-gradient(90deg, #6e8efb, #a855f7); transition: width 0.5s ease-out; max-width: 100%; {pulse_style}"></div>
         </div>
+        {download_html}
     </div>
     """
         return "Unknown"
     base_name = os.path.basename(checkpoint_path)
     model_name = os.path.splitext(base_name)[0]
     return model_name.strip()
 def run_command_and_process_files(
     model_type,
     config_path,
     start_check_point,
     INPUT_DIR,
     OUTPUT_DIR,
+    extract_instrumental,
+    use_tta,
+    demud_phaseremix_inst,
     progress=None,
     use_apollo=True,
     apollo_normal_model="Apollo Universal Model",
     apollo_overlap=2,
     apollo_method="normal_method",
     apollo_midside_model=None,
+    output_format="wav",
+    optimize_mode='channels_last',
+    enable_amp=True,
+    enable_tf32=True,
+    enable_cudnn_benchmark=True
 ):
+    """
+    Run inference.py with specified parameters and process output files.
+    This is a generator function that yields progress updates for real-time UI feedback.
+    """
     try:
+        # Create directories and check Google Drive access
+        setup_directories()
+        if not config_path:
+            raise ValueError(f"Configuration path is empty: model_type: {model_type}")
+        if not os.path.exists(config_path):
+            raise FileNotFoundError(f"Configuration file not found: {config_path}")
+        if not start_check_point or not os.path.exists(start_check_point):
+            raise FileNotFoundError(f"Checkpoint file not found: {start_check_point}")
+        # Validate inference parameters
+        try:
+            inference_chunk_size = int(inference_chunk_size)
+            inference_overlap = int(inference_overlap)
+        except (TypeError, ValueError) as e:
+            print(f"Invalid inference_chunk_size or inference_overlap: {e}. Defaulting to: inference_chunk_size=352800, inference_overlap=2")
+            inference_chunk_size = 352800
+            inference_overlap = 2
+        # Validate Apollo parameters
+        try:
+            apollo_chunk_size = int(apollo_chunk_size)
+            apollo_overlap = int(apollo_overlap)
+        except (TypeError, ValueError) as e:
+            print(f"Invalid apollo_chunk_size or apollo_overlap: {e}. Defaulting to: apollo_chunk_size=19, apollo_overlap=2")
+            apollo_chunk_size = 19
+            apollo_overlap = 2
+        # Initial progress yield
+        yield {"progress": 0, "status": "Starting audio separation...", "outputs": None}
+        # Always use optimized PyTorch backend
+        python_exe = "python"
+        if PYTORCH_OPTIMIZED_AVAILABLE:
+            from inference_pytorch import INFERENCE_PATH as PYTORCH_INFERENCE_PATH
+            inference_script = PYTORCH_INFERENCE_PATH if os.path.exists(PYTORCH_INFERENCE_PATH) else INFERENCE_PATH
+            print(f"Using PyTorch backend (mode: {optimize_mode})")
+            print(f"   AMP: {enable_amp} | TF32: {enable_tf32} | cuDNN: {enable_cudnn_benchmark}")
+        else:
+            inference_script = INFERENCE_PATH
+            print("Warning: PyTorch optimized backend not available, using standard inference")
         cmd_parts = [
+            python_exe, inference_script,
+            "--model_type", model_type,
+            "--config_path", config_path,
+            "--start_check_point", start_check_point,
+            "--input_folder", INPUT_DIR,
+            "--store_dir", OUTPUT_DIR,
             "--chunk_size", str(inference_chunk_size),
             "--overlap", str(inference_overlap),
             "--export_format", f"{output_format} FLOAT"
         ]
+        # Add optimized backend arguments (always enabled)
+        if PYTORCH_OPTIMIZED_AVAILABLE:
+            cmd_parts.extend([
+                "--optimize_mode", optimize_mode
+            ])
+            if enable_amp:
+                cmd_parts.append("--enable_amp")
+            if enable_tf32:
+                cmd_parts.append("--enable_tf32")
+            if enable_cudnn_benchmark:
+                cmd_parts.append("--enable_cudnn_benchmark")
+        if extract_instrumental:
+            cmd_parts.append("--extract_instrumental")
+        if use_tta:
+            cmd_parts.append("--use_tta")
+        if demud_phaseremix_inst:
+            cmd_parts.append("--demud_phaseremix_inst")
+        print(f"Running command: {' '.join(cmd_parts)}")
+        # Use subprocess.Popen for real-time progress capture
         process = subprocess.Popen(
             cmd_parts,
+            cwd=BASE_DIR,
             stdout=subprocess.PIPE,
             stderr=subprocess.PIPE,
             text=True,
             universal_newlines=True
         )
         stderr_output = ""
+        last_yield_percent = -1
+        downloading_file = None
+        # Read stdout line-by-line for real-time progress updates
+        for line in process.stdout:
+            line_stripped = line.strip()
+            # Check for download progress [SESA_DOWNLOAD]
+            if line_stripped.startswith("[SESA_DOWNLOAD]"):
+                try:
+                    dl_info = line_stripped.replace("[SESA_DOWNLOAD]", "")
+                    if dl_info.startswith("START:"):
+                        downloading_file = dl_info.replace("START:", "")
+                        yield {"progress": 0, "status": i18n("downloading_model_file").format(downloading_file), "outputs": None}
+                    elif dl_info.startswith("END:"):
+                        downloading_file = None
+                    elif ":" in dl_info:
+                        parts = dl_info.rsplit(":", 1)
+                        if len(parts) == 2:
+                            filename, percent_str = parts
+                            download_percent = int(percent_str)
+                            yield {"progress": 0, "status": i18n("downloading_file_progress").format(filename, download_percent), "outputs": None}
+                except (ValueError, TypeError):
+                    pass
+            # Check for [SESA_PROGRESS] prefix from inference script
+            elif line_stripped.startswith("[SESA_PROGRESS]"):
+                try:
+                    percentage_str = line_stripped.replace("[SESA_PROGRESS]", "").strip()
+                    percentage = float(percentage_str) if percentage_str else 0
+                    percentage = min(max(percentage, 0), 100)
+                    # Scale progress to 0-80% range (saving 80-100% for Apollo)
+                    scaled_progress = int(percentage * 0.8)
+                    # Yield on every percent change for smooth updates
+                    if int(percentage) != last_yield_percent:
+                        last_yield_percent = int(percentage)
+                        yield {"progress": scaled_progress, "status": f"Separating audio... {int(percentage)}%", "outputs": None}
+                except (ValueError, TypeError):
+                    pass
+            else:
+                # Only print important non-progress lines (errors, warnings, key info)
+                if line_stripped and not line_stripped.startswith(("  ", "    ")):
+                    print(line_stripped)
+        # Capture stderr (only print errors)
+        for line in process.stderr:
+            stderr_output += line
+            line_s = line.strip()
+            if line_s and ("error" in line_s.lower() or "warning" in line_s.lower() or "traceback" in line_s.lower()):
+                print(f"Warning: {line_s}")
+        process.wait()
         if process.returncode != 0:
+            raise subprocess.CalledProcessError(process.returncode, cmd_parts, stderr=stderr_output)
+        yield {"progress": 80, "status": "Separation complete, processing outputs...", "outputs": None}
+        # Check if output files were created
         filename_model = extract_model_name_from_checkpoint(start_check_point)
+        output_files = os.listdir(OUTPUT_DIR)
         if not output_files:
+            raise FileNotFoundError("No output files created in OUTPUT_DIR")
+        def rename_files_with_model(folder, filename_model):
+            timestamp = datetime.now().strftime("%d-%m-%Y_%H-%M")
+            for filename in sorted(os.listdir(folder)):
+                file_path = os.path.join(folder, filename)
+                if not any(filename.lower().endswith(ext) for ext in ['.mp3', '.wav', '.flac', '.aac', '.ogg', '.m4a']):
+                    continue
+                base, ext = os.path.splitext(filename)
+                detected_type = None
+                for type_key in ['vocals', 'instrumental', 'instrument', 'phaseremix', 'drum', 'bass', 'other', 'effects', 'speech', 'music', 'dry', 'male', 'female', 'bleed', 'karaoke', 'mid', 'side']:
+                    if type_key in base.lower():
+                        detected_type = type_key
+                        break
+                # Normalize 'instrument' to 'Instrumental' for consistency
+                type_suffix = 'Instrumental' if detected_type == 'instrument' else (detected_type.capitalize() if detected_type else "Processed")
+                clean_base = sanitize_filename(base.split('_')[0]).rsplit('.', 1)[0]
+                new_filename = f"{timestamp}_{clean_base}_{type_suffix}_{filename_model}{ext}"
+                new_file_path = os.path.join(folder, new_filename)
+                try:
+                    os.rename(file_path, new_file_path)
+                except Exception as e:
+                    print(f"Could not rename file: {os.path.basename(file_path)} -> {os.path.basename(new_file_path)}: {str(e)}")
+        rename_files_with_model(OUTPUT_DIR, filename_model)
+        output_files = os.listdir(OUTPUT_DIR)
         if not output_files:
+            raise FileNotFoundError("No output files in OUTPUT_DIR after renaming")
+        def find_file(keywords):
+            """Find file matching any of the keywords (can be single keyword or list)."""
+            if isinstance(keywords, str):
+                keywords = [keywords]
             matching_files = [
+                os.path.join(OUTPUT_DIR, f) for f in output_files
+                if any(kw in f.lower() for kw in keywords)
             ]
             return matching_files[0] if matching_files else None
         output_list = [
+            find_file('vocals'), find_file(['instrumental', 'instrument']), find_file('phaseremix'),
             find_file('drum'), find_file('bass'), find_file('other'), find_file('effects'),
             find_file('speech'), find_file('music'), find_file('dry'), find_file('male'),
+            find_file('female'), find_file('bleed'), find_file('karaoke'),
+            find_file('mid'), find_file('side')
         ]
         normalized_outputs = []
+        for output_file in output_list:
             if output_file and os.path.exists(output_file):
                 normalized_file = os.path.join(OUTPUT_DIR, f"{sanitize_filename(os.path.splitext(os.path.basename(output_file))[0])}.{output_format}")
+                if output_file.endswith(f".{output_format}") and output_file != normalized_file:
+                    shutil.copy(output_file, normalized_file)
+                elif output_file != normalized_file:
+                    audio, sr = librosa.load(output_file, sr=None, mono=False)
+                    sf.write(normalized_file, audio.T if audio.ndim > 1 else audio, sr)
+                else:
+                    normalized_file = output_file
+                normalized_outputs.append(normalized_file)
             else:
+                normalized_outputs.append(output_file)
+        # Apollo processing
         if use_apollo:
+            yield {"progress": 80, "status": "Enhancing with Apollo...", "outputs": None}
+            normalized_outputs = process_with_apollo(
+                output_files=normalized_outputs,
+                output_dir=OUTPUT_DIR,
+                apollo_chunk_size=apollo_chunk_size,
+                apollo_overlap=apollo_overlap,
+                apollo_method=apollo_method,
+                apollo_normal_model=apollo_normal_model,
+                apollo_midside_model=apollo_midside_model,
+                output_format=output_format,
+                progress=progress,
+                total_progress_start=80,
+                total_progress_end=100
+            )
+        # Final yield with outputs
+        yield {"progress": 100, "status": "Separation complete", "outputs": tuple(normalized_outputs)}
+    except subprocess.CalledProcessError as e:
+        print(f"Subprocess failed, code: {e.returncode}: {e.stderr}")
+        yield {"progress": 0, "status": f"Error: {e.stderr}", "outputs": (None,) * 16}
     except Exception as e:
+        print(f"run_command_and_process_files error: {str(e)}")
+        import traceback
+        traceback.print_exc()
+        yield {"progress": 0, "status": f"Error: {str(e)}", "outputs": (None,) * 16}
 def process_audio(
     input_audio_file,
     chunk_size,
     overlap,
     export_format,
+    optimize_mode,
+    enable_amp,
+    enable_tf32,
+    enable_cudnn_benchmark,
     use_tta,
     demud_phaseremix_inst,
     extract_instrumental,
     apollo_method,
     apollo_normal_model,
     apollo_midside_model,
+    use_matchering,
+    matchering_passes,
     progress=gr.Progress(track_tqdm=True),
     *args,
     **kwargs
 ):
+    """
+    Process audio with the selected model. This is a generator function that yields
+    progress updates for real-time UI feedback.
+    """
     try:
         # Check Google Drive connection
         setup_directories()
         if input_audio_file is not None:
             audio_path = input_audio_file.name if hasattr(input_audio_file, 'name') else input_audio_file
         else:
+            yield (
+                None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None,
                 "No audio file provided",
                 update_progress_html("No input provided", 0)
             )
+            return
         os.makedirs(OUTPUT_DIR, exist_ok=True)
         os.makedirs(OLD_OUTPUT_DIR, exist_ok=True)
         move_old_files(OUTPUT_DIR)
         # Clean model name, remove ⭐ and other unwanted characters
         clean_model_name = clean_model(model) if not model.startswith("/") else extract_model_name_from_checkpoint(model)
+        print(f"Processing: {os.path.basename(audio_path)} | Model: {clean_model_name}")
         # Validate inference parameters
+        _use_yaml_chunk = (chunk_size == "yaml")
         try:
+            inference_chunk_size = 352800 if _use_yaml_chunk else int(chunk_size)
         except (TypeError, ValueError):
             print(f"Invalid chunk_size: {chunk_size}. Defaulting to: 352800.")
             inference_chunk_size = 352800
+            _use_yaml_chunk = True  # fallback: read from YAML
         try:
             inference_overlap = int(overlap)
         else:
             print(f"Invalid apollo_method: {apollo_method}. Defaulting to: normal_method.")
             apollo_method = "normal_method"
         # Copy input file to INPUT_DIR
         input_filename = os.path.basename(audio_path)
         dest_path = os.path.join(INPUT_DIR, input_filename)
         shutil.copy(audio_path, dest_path)
+        # Yield status for model loading
+        yield (
+            None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None,
+            f"Loading model: {clean_model_name}...",
+            update_progress_html(f"Loading model: {clean_model_name}", 0)
+        )
+        # Get model configuration with cleaned model name (downloads if needed)
         model_type, config_path, start_check_point = get_model_config(clean_model_name, inference_chunk_size, inference_overlap)
+        # Read the model's native chunk_size from its YAML (now guaranteed to be downloaded)
+        native_chunk = get_model_chunk_size(clean_model_name)
+        if _use_yaml_chunk and native_chunk:
+            print(f"Using model's native chunk_size from YAML: {native_chunk}")
+            inference_chunk_size = native_chunk
+        elif not _use_yaml_chunk:
+            print(f"Using user-selected chunk_size: {inference_chunk_size}")
+        # Iterate over the generator and yield progress updates
+        outputs = None
+        for update in run_command_and_process_files(
             model_type=model_type,
             config_path=config_path,
             start_check_point=start_check_point,
             apollo_overlap=apollo_overlap,
             apollo_method=apollo_method,
             apollo_midside_model=apollo_midside_model,
+            output_format=export_format.split()[0].lower(),
+            optimize_mode=optimize_mode,
+            enable_amp=enable_amp,
+            enable_tf32=enable_tf32,
+            enable_cudnn_benchmark=enable_cudnn_benchmark
+        ):
+            if update.get("outputs") is not None:
+                outputs = update["outputs"]
+            # Yield progress update to Gradio
+            yield (
+                None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None,
+                update["status"],
+                update_progress_html(update["status"], update["progress"])
+            )
         if outputs is None or all(output is None for output in outputs):
             raise ValueError("run_command_and_process_files returned None or all None outputs")
         # Apply Matchering (if enabled)
         if use_matchering:
+            # Yield progress update for Matchering
+            yield (
+                None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None,
+                "Applying Matchering...",
+                update_progress_html("Applying Matchering...", 90)
+            )
             # Find clean segment from original audio
             segment_start, segment_end, segment_audio = find_clear_segment(audio_path)
             outputs = tuple(mastered_outputs)
+        # Final yield with all outputs
+        yield (
             outputs[0], outputs[1], outputs[2], outputs[3], outputs[4], outputs[5], outputs[6],
             outputs[7], outputs[8], outputs[9], outputs[10], outputs[11], outputs[12], outputs[13],
+            outputs[14], outputs[15],
             "Audio processing completed",
             update_progress_html("Audio processing completed", 100)
         )
         print(f"process_audio error: {str(e)}")
         import traceback
         traceback.print_exc()
+        yield (
+            None, None, None, None, None, None, None, None, None, None, None, None, None, None, None, None,
             f"Error occurred: {str(e)}",
             update_progress_html("Error occurred", 0)
         )
             ensemble_args += ["--weights", *weights_list]
         progress(0, desc="Starting ensemble process", total=100)
+        # Run ensemble subprocess with real-time output capture
+        process = subprocess.Popen(
             ["python", "ensemble.py"] + ensemble_args,
+            stdout=subprocess.PIPE,
+            stderr=subprocess.PIPE,
+            text=True,
+            bufsize=1,
+            universal_newlines=True
         )
+        stdout_output = ""
+        stderr_output = ""
+        # Read output in real-time and capture actual progress
+        for line in process.stdout:
+            stdout_output += line
+            line_stripped = line.strip()
+            # Capture real progress percentage from ensemble.py with new format
+            if line_stripped.startswith("[SESA_PROGRESS]"):
+                try:
+                    percent_str = line_stripped.replace("[SESA_PROGRESS]", "").strip()
+                    percent = int(float(percent_str)) if percent_str else 0
+                    percent = min(max(percent, 0), 100)
+                    progress(percent, desc=f"Ensemble progress: {percent}%")
+                except (ValueError, TypeError):
+                    pass
+            # Legacy format support
+            elif line_stripped.startswith("Progress:"):
+                try:
+                    percent = int(line_stripped.split(":")[1].strip().replace("%", ""))
+                    percent = min(max(percent, 0), 100)
+                    progress(percent, desc=f"Ensemble progress: {percent}%")
+                except (ValueError, IndexError):
+                    pass
+            elif "loading" in line.lower():
+                print(f"Ensemble: {line_stripped}")
+                progress(5, desc="Loading audio files for ensemble...")
+            elif "processing ensemble" in line.lower():
+                print(f"Ensemble: {line_stripped}")
+                progress(10, desc="Starting ensemble processing...")
+            elif "saving" in line.lower():
+                print(f"Ensemble: {line_stripped}")
+                progress(95, desc="Saving ensemble output...")
+            elif line_stripped and not line_stripped.startswith("[SESA_PROGRESS]") and not line_stripped.startswith("Progress:"):
+                # Only print non-progress messages
+                print(f"Ensemble: {line_stripped}")
+        for line in process.stderr:
+            stderr_output += line
+            print(f"Ensemble stderr: {line.strip()}")
+        process.wait()
+        result = type('Result', (), {'stdout': stdout_output, 'stderr': stderr_output, 'returncode': process.returncode})()
+        progress(100, desc="Ensemble complete")
         log = f"Success: {result.stdout}" if not result.stderr else f"Error: {result.stderr}"
         return output_path, log
         input_filename = os.path.basename(audio_path)
         dest_path = os.path.join(INPUT_DIR, input_filename)
         shutil.copy(audio_path, dest_path)
         # Parse apollo method
         if auto_apollo_method in ["2", 2]:
             auto_apollo_method = "mid_side_method"
         elif auto_apollo_method in ["1", 1]:
             auto_apollo_method = "normal_method"
         corrected_auto_chunk_size = int(auto_apollo_chunk_size)
         corrected_auto_overlap = int(auto_apollo_overlap)
         # Setup temporary directories
         auto_ensemble_temp = os.path.join(BASE_DIR, "auto_ensemble_temp")
         for i, model in enumerate(selected_models):
             clean_model_name = clean_model(model)
             model_output_dir = os.path.join(auto_ensemble_temp, clean_model_name)
             os.makedirs(model_output_dir, exist_ok=True)
             )
             model_type, config_path, start_check_point = get_model_config(clean_model_name, auto_chunk_size, auto_overlap)
+            # Read the model's native chunk_size from its YAML after download
+            native_chunk = get_model_chunk_size(clean_model_name)
+            effective_chunk_size = native_chunk if native_chunk else auto_chunk_size
+            if native_chunk:
+                print(f"Using model's native chunk_size from YAML: {native_chunk} (UI value was: {auto_chunk_size})")
             cmd = [
                 "python", INFERENCE_PATH,
                 "--start_check_point", start_check_point,
                 "--input_folder", INPUT_DIR,
                 "--store_dir", model_output_dir,
+                "--chunk_size", str(effective_chunk_size),
                 "--overlap", str(auto_overlap),
                 "--export_format", f"{export_format.split()[0].lower()} FLOAT"
             ]
             )
             stderr_output = ""
+            last_yield_percent = -1
+            downloading_file = None
             for line in process.stdout:
+                line_stripped = line.strip()
+                # Check for download progress [SESA_DOWNLOAD]
+                if line_stripped.startswith("[SESA_DOWNLOAD]"):
+                    try:
+                        dl_info = line_stripped.replace("[SESA_DOWNLOAD]", "")
+                        if dl_info.startswith("START:"):
+                            downloading_file = dl_info.replace("START:", "")
+                            yield None, i18n("downloading_model_file").format(downloading_file), update_progress_html(
+                                i18n("downloading_model_file").format(downloading_file),
+                                i * model_progress_per_step,
+                                download_info={"filename": downloading_file, "percent": 0}
+                            )
+                        elif dl_info.startswith("END:"):
+                            downloading_file = None
+                        elif ":" in dl_info:
+                            parts = dl_info.rsplit(":", 1)
+                            if len(parts) == 2:
+                                filename, percent_str = parts
+                                download_percent = int(percent_str)
+                                yield None, i18n("downloading_file_progress").format(filename, download_percent), update_progress_html(
+                                    i18n("downloading_model_file").format(filename),
+                                    i * model_progress_per_step,
+                                    download_info={"filename": filename, "percent": download_percent}
+                                )
+                    except (ValueError, TypeError):
+                        pass
+                # Check for unique progress prefix [SESA_PROGRESS]
+                elif line_stripped.startswith("[SESA_PROGRESS]"):
                     try:
+                        # Extract percentage from [SESA_PROGRESS]XX format
+                        percentage_str = line_stripped.replace("[SESA_PROGRESS]", "").strip()
+                        percentage = float(percentage_str) if percentage_str else 0
+                        percentage = min(max(percentage, 0), 100)  # Clamp to 0-100
                         model_percentage = (percentage / 100) * model_progress_per_step
                         current_progress = (i * model_progress_per_step) + model_percentage
                         current_progress = clamp_percentage(current_progress)
+                        # Yield on every percent change for smooth updates
+                        if int(percentage) != last_yield_percent:
+                            last_yield_percent = int(percentage)
+                            yield None, i18n("loading_model_progress_label").format(i+1, total_models, clean_model_name, int(percentage)), update_progress_html(
+                                f"Model {i+1}/{total_models}: {clean_model_name} - {int(percentage)}%",
+                                current_progress
+                            )
+                    except (ValueError, TypeError):
+                        # Silently ignore parsing errors for progress lines
+                        pass
+                # Also support legacy "Progress: XX%" format for backwards compatibility
+                elif line_stripped.startswith("Progress:"):
+                    try:
+                        match = re.search(r"Progress:\s*(\d+(?:\.\d+)?)%?", line_stripped)
+                        if match:
+                            percentage = float(match.group(1))
+                            percentage = min(max(percentage, 0), 100)
+                            model_percentage = (percentage / 100) * model_progress_per_step
+                            current_progress = (i * model_progress_per_step) + model_percentage
+                            current_progress = clamp_percentage(current_progress)
+                            if int(percentage) != last_yield_percent:
+                                last_yield_percent = int(percentage)
+                                yield None, i18n("loading_model_progress_label").format(i+1, total_models, clean_model_name, int(percentage)), update_progress_html(
+                                    f"Model {i+1}/{total_models}: {clean_model_name} - {int(percentage)}%",
+                                    current_progress
+                                )
+                    except (ValueError, TypeError):
+                        pass
+                else:
+                    # Print non-progress lines
+                    if line_stripped:
+                        print(line_stripped)
             for line in process.stderr:
                 stderr_output += line
                 print(f"File not found in Google Drive, copying from local path: {output_path}")
                 shutil.copy(output_path, drive_output_path)
                 print(f"Copied to Google Drive: {drive_output_path}")
+        else:
+            drive_output_path = output_path
         yield output_path, i18n("success_output_created") + f" Saved to {drive_output_path if IS_COLAB else output_path}", update_progress_html(
             i18n("ensemble_completed"), 100

pytorch_backend.py ADDED Viewed

	@@ -0,0 +1,621 @@

+# coding: utf-8
+__author__ = 'PyTorch Backend Implementation'
+import os
+import pickle
+import numpy as np
+import torch
+import torch.nn as nn
+from typing import Dict, Tuple, Optional, Any
+import warnings
+import hashlib
+import time
+# Suppress channels_last warnings for 3D audio tensors
+warnings.filterwarnings("ignore", message=".*channels_last.*")
+warnings.filterwarnings("ignore", message=".*rank 3.*")
+class PyTorchBackend:
+    """
+    ULTRA-OPTIMIZED PyTorch backend for model inference.
+    Provides various optimization techniques for maximum speed.
+    """
+    def __init__(self, device='cuda:0', optimize_mode='channels_last'):
+        """
+        Initialize ULTRA-OPTIMIZED PyTorch backend.
+        Parameters:
+        ----------
+        device : str
+            Device to use for inference (cuda:0, cpu, mps, etc.)
+        optimize_mode : str
+            Optimization mode: 'channels_last' (recommended), 'compile', 'jit', or 'default'
+        """
+        self.device = device
+        self.optimize_mode = optimize_mode
+        self.model = None
+        self.compiled_model = None
+        # Check device availability
+        if device.startswith('cuda') and not torch.cuda.is_available():
+            warnings.warn("CUDA not available, falling back to CPU")
+            self.device = 'cpu'
+        elif device == 'mps' and not torch.backends.mps.is_available():
+            warnings.warn("MPS not available, falling back to CPU")
+            self.device = 'cpu'
+        # Apply ultra optimization settings
+        self._apply_ultra_optimizations()
+    def _apply_ultra_optimizations(self):
+        """Apply ultra-speed optimizations globally."""
+        if self.device.startswith('cuda'):
+            # Enable all CUDA optimizations
+            torch.backends.cudnn.benchmark = True
+            torch.backends.cuda.matmul.allow_tf32 = True
+            torch.backends.cudnn.allow_tf32 = True
+            # Set optimal CUDA settings
+            torch.backends.cudnn.deterministic = False
+            torch.backends.cudnn.enabled = True
+            # Enable cuBLAS optimizations
+            os.environ['CUBLAS_WORKSPACE_CONFIG'] = ':4096:8'
+        # Optimize CPU inference
+        if self.device == 'cpu':
+            import multiprocessing
+            num_threads = multiprocessing.cpu_count()
+            torch.set_num_threads(num_threads)
+            torch.set_num_interop_threads(num_threads)
+            print(f"CPU threads set to {num_threads}")
+    def optimize_model(
+        self,
+        model: nn.Module,
+        example_input: Optional[torch.Tensor] = None,
+        use_amp: bool = True,
+        use_channels_last: bool = True
+    ) -> nn.Module:
+        """
+        Optimize PyTorch model for inference.
+        Parameters:
+        ----------
+        model : nn.Module
+            PyTorch model to optimize
+        example_input : Optional[torch.Tensor]
+            Example input for optimization (required for some modes)
+        use_amp : bool
+            Use automatic mixed precision (AMP)
+        use_channels_last : bool
+            Use channels-last memory format
+        Returns:
+        -------
+        nn.Module
+            Optimized model
+        """
+        print(f"Optimizing model with mode: {self.optimize_mode}")
+        self.model = model.eval().to(self.device)
+        self.use_amp = use_amp
+        # Disable gradients for all parameters (inference only)
+        for param in self.model.parameters():
+            param.requires_grad = False
+        # Apply memory format optimization (default: channels_last for CUDA)
+        # Note: Audio models use 3D tensors, so channels_last is applied only where beneficial
+        if use_channels_last and self.device.startswith('cuda'):
+            print("  Using channels-last optimization")
+            # Only apply to model if it has 4D conv layers, otherwise skip silently
+            try:
+                with warnings.catch_warnings():
+                    warnings.simplefilter("ignore")
+                    self.model = self.model.to(memory_format=torch.channels_last)
+            except Exception:
+                pass  # Silently skip for models that don't support channels_last
+        # Set model to inference mode
+        torch.set_grad_enabled(False)
+        # Apply optimization based on mode
+        if self.optimize_mode == 'compile':
+            self.compiled_model = self._compile_model(self.model)
+        elif self.optimize_mode == 'jit':
+            if example_input is None:
+                raise ValueError("example_input required for JIT optimization")
+            self.compiled_model = self._jit_trace_model(self.model, example_input)
+        elif self.optimize_mode == 'channels_last':
+            self.compiled_model = self.model
+        else:
+            print("  Using default optimization")
+            self.compiled_model = self.model
+        # Apply fusion optimizations if possible
+        try:
+            if hasattr(torch.nn.utils, 'fusion'):
+                self.compiled_model = torch.nn.utils.fusion.fuse_conv_bn_eval(self.compiled_model)
+                print("  Conv-BN fusion applied")
+        except:
+            pass
+        print("Optimization complete")
+        return self.compiled_model
+    def _compile_model(self, model: nn.Module) -> nn.Module:
+        """
+        Compile model using torch.compile (PyTorch 2.0+) with ULTRA optimization.
+        Parameters:
+        ----------
+        model : nn.Module
+            Model to compile
+        Returns:
+        -------
+        nn.Module
+            Compiled model
+        """
+        try:
+            if hasattr(torch, 'compile'):
+                print("  Compiling model with torch.compile")
+                # Try max-autotune for best performance
+                try:
+                    compiled = torch.compile(model, mode='max-autotune', fullgraph=True)
+                    print("  Using max-autotune mode")
+                    return compiled
+                except:
+                    # Fallback to reduce-overhead
+                    compiled = torch.compile(model, mode='reduce-overhead')
+                    print("  Using reduce-overhead mode")
+                    return compiled
+            else:
+                print("  torch.compile not available (requires PyTorch 2.0+)")
+                return model
+        except Exception as e:
+            print(f"  Compilation failed: {e}")
+            return model
+    def _jit_trace_model(self, model: nn.Module, example_input: torch.Tensor) -> nn.Module:
+        """
+        Trace model using TorchScript JIT.
+        Parameters:
+        ----------
+        model : nn.Module
+            Model to trace
+        example_input : torch.Tensor
+            Example input for tracing
+        Returns:
+        -------
+        nn.Module
+            Traced model
+        """
+        try:
+            print("  → Tracing model with TorchScript JIT")
+            with torch.no_grad():
+                traced = torch.jit.trace(model, example_input)
+            traced = torch.jit.optimize_for_inference(traced)
+            return traced
+        except Exception as e:
+            print(f"  JIT tracing failed: {e}")
+            return model
+    def save_optimized_model(self, save_path: str):
+        """
+        Save optimized model to file.
+        Parameters:
+        ----------
+        save_path : str
+            Path to save the model
+        """
+        if self.compiled_model is None:
+            raise RuntimeError("No model has been optimized yet")
+        try:
+            # Save based on optimization mode
+            if self.optimize_mode == 'jit':
+                torch.jit.save(self.compiled_model, save_path)
+            else:
+                torch.save(self.compiled_model.state_dict(), save_path)
+            print(f"✓ Model saved to: {save_path}")
+        except Exception as e:
+            print(f"✗ Failed to save model: {e}")
+    def load_optimized_model(self, load_path: str, model_template: nn.Module) -> nn.Module:
+        """
+        Load optimized model from file.
+        Parameters:
+        ----------
+        load_path : str
+            Path to the saved model
+        model_template : nn.Module
+            Model template for loading state dict
+        Returns:
+        -------
+        nn.Module
+            Loaded model
+        """
+        try:
+            if self.optimize_mode == 'jit':
+                self.compiled_model = torch.jit.load(load_path, map_location=self.device)
+            else:
+                model_template.load_state_dict(torch.load(load_path, map_location=self.device, weights_only=False))
+                self.compiled_model = model_template.eval()
+            print(f"✓ Model loaded from: {load_path}")
+            return self.compiled_model
+        except (pickle.UnpicklingError, RuntimeError, EOFError) as e:
+            error_details = f"""
+CHECKPOINT FILE CORRUPTED
+Error: {str(e)}
+The checkpoint file appears to be corrupted or was not downloaded correctly.
+File: {load_path}
+Common causes:
+  - File is an HTML page (wrong download URL, e.g., HuggingFace /blob/ instead of /resolve/)
+  - Incomplete or interrupted download
+  - Network issues during download
+  - File system corruption
+Solution:
+  1. Delete the corrupted checkpoint file:
+     {load_path}
+  2. Re-run the application - it will automatically re-download the model
+  3. If the problem persists, check that your model URL uses /resolve/ not /blob/
+     Example: https://huggingface.co/user/repo/resolve/main/model.ckpt
+"""
+            print(error_details)
+            raise
+        except Exception as e:
+            print(f"✗ Failed to load model: {e}")
+            raise
+    def __call__(self, x: torch.Tensor) -> torch.Tensor:
+        """
+        Run inference with optimized model.
+        Parameters:
+        ----------
+        x : torch.Tensor
+            Input tensor
+        Returns:
+        -------
+        torch.Tensor
+            Model output
+        """
+        if self.compiled_model is None:
+            raise RuntimeError("No model has been optimized yet")
+        # Apply memory format if needed (only for 4D tensors - images)
+        # Audio models typically use 3D tensors, so we silently skip channels_last for them
+        if self.optimize_mode == 'channels_last' and x.dim() == 4:
+            x = x.to(memory_format=torch.channels_last)
+        # Run inference with AMP if enabled
+        try:
+            if self.use_amp and self.device.startswith('cuda'):
+                with torch.cuda.amp.autocast():
+                    with torch.no_grad():
+                        return self.compiled_model(x)
+            else:
+                with torch.no_grad():
+                    return self.compiled_model(x)
+        except Exception as e:
+            # Fallback to non-compiled model if torch.compile fails at runtime
+            # This can happen with rotary embeddings that mutate class variables
+            if self.optimize_mode == 'compile' and self.model is not None:
+                print(f"  ⚠️ torch.compile runtime error: {type(e).__name__}")
+                print(f"  🔄 Falling back to non-compiled model...")
+                self.compiled_model = self.model
+                self.optimize_mode = 'fallback'
+                # Retry with non-compiled model
+                if self.use_amp and self.device.startswith('cuda'):
+                    with torch.cuda.amp.autocast():
+                        with torch.no_grad():
+                            return self.compiled_model(x)
+                else:
+                    with torch.no_grad():
+                        return self.compiled_model(x)
+            else:
+                raise
+class PyTorchOptimizer:
+    """
+    Helper class for various PyTorch optimization techniques.
+    """
+    @staticmethod
+    def enable_cudnn_benchmark():
+        """Enable cuDNN benchmark mode."""
+        if torch.cuda.is_available():
+            torch.backends.cudnn.benchmark = True
+            torch.backends.cudnn.deterministic = False
+            print("cuDNN benchmark enabled")
+    @staticmethod
+    def enable_cudnn_deterministic():
+        """Enable cuDNN deterministic mode for reproducible results."""
+        if torch.cuda.is_available():
+            torch.backends.cudnn.deterministic = True
+            torch.backends.cudnn.benchmark = False
+            print("✓ cuDNN deterministic mode enabled")
+    @staticmethod
+    def enable_tf32():
+        """Enable TF32 for Ampere GPUs (RTX 30xx+)."""
+        if torch.cuda.is_available():
+            torch.backends.cuda.matmul.allow_tf32 = True
+            torch.backends.cudnn.allow_tf32 = True
+            # Also enable for float32 matmul precision
+            torch.set_float32_matmul_precision('high')  # or 'highest' for max speed
+            print("TF32 enabled")
+    @staticmethod
+    def set_num_threads(num_threads: int):
+        """Set number of threads for CPU inference."""
+        torch.set_num_threads(num_threads)
+        print(f"✓ Number of threads set to: {num_threads}")
+    @staticmethod
+    def optimize_for_inference(model: nn.Module) -> nn.Module:
+        """
+        Apply ULTRA optimization for inference.
+        Parameters:
+        ----------
+        model : nn.Module
+            Model to optimize
+        Returns:
+        -------
+        nn.Module
+            ULTRA-optimized model
+        """
+        model.eval()
+        torch.set_grad_enabled(False)
+        # Disable gradient computation for all parameters
+        for param in model.parameters():
+            param.requires_grad = False
+        # Fuse operations if possible
+        try:
+            # Try to fuse batch norm
+            model = torch.quantization.fuse_modules(model, inplace=True)
+            print("Batch norm fused")
+        except:
+            pass
+        try:
+            # Try to fuse conv-bn if available
+            if hasattr(torch.nn.utils, 'fusion'):
+                model = torch.nn.utils.fusion.fuse_conv_bn_eval(model)
+                print("Conv-BN fused")
+        except:
+            pass
+        return model
+def benchmark_pytorch_optimizations(
+    model: nn.Module,
+    input_shape: Tuple[int, ...],
+    device: str = 'cuda:0',
+    num_iterations: int = 100,
+    warmup_iterations: int = 10
+) -> Dict[str, float]:
+    """
+    Benchmark different PyTorch optimization techniques.
+    Parameters:
+    ----------
+    model : nn.Module
+        Model to benchmark
+    input_shape : Tuple[int, ...]
+        Input tensor shape
+    device : str
+        Device to use
+    num_iterations : int
+        Number of benchmark iterations
+    warmup_iterations : int
+        Number of warmup iterations
+    Returns:
+    -------
+    Dict[str, float]
+        Benchmark results with average inference times
+    """
+    results = {}
+    dummy_input = torch.randn(*input_shape).to(device)
+    optimization_modes = ['default', 'compile', 'channels_last']
+    for mode in optimization_modes:
+        print(f"\n{'='*60}")
+        print(f"Benchmarking: {mode}")
+        print('='*60)
+        try:
+            backend = PyTorchBackend(device=device, optimize_mode=mode)
+            # Optimize model
+            if mode == 'compile':
+                optimized_model = backend.optimize_model(model, use_amp=True)
+            else:
+                optimized_model = backend.optimize_model(
+                    model,
+                    example_input=dummy_input,
+                    use_amp=True,
+                    use_channels_last=(mode == 'channels_last')
+                )
+            # Warmup
+            for _ in range(warmup_iterations):
+                _ = backend(dummy_input)
+            # Benchmark
+            if device.startswith('cuda'):
+                torch.cuda.synchronize()
+            start = time.time()
+            for _ in range(num_iterations):
+                _ = backend(dummy_input)
+            if device.startswith('cuda'):
+                torch.cuda.synchronize()
+            elapsed = (time.time() - start) / num_iterations
+            results[mode] = elapsed * 1000  # Convert to ms
+            print(f"  Average time: {results[mode]:.2f} ms")
+        except Exception as e:
+            print(f"  Failed: {e}")
+            results[mode] = None
+    return results
+def create_inference_session(
+    model: nn.Module,
+    device: str = 'cuda:0',
+    optimize_mode: str = 'default',
+    enable_amp: bool = True,
+    enable_tf32: bool = True,
+    enable_cudnn_benchmark: bool = True
+) -> PyTorchBackend:
+    """
+    Create an optimized inference session.
+    Parameters:
+    ----------
+    model : nn.Module
+        Model to use for inference
+    device : str
+        Device to use
+    optimize_mode : str
+        Optimization mode
+    enable_amp : bool
+        Enable automatic mixed precision
+    enable_tf32 : bool
+        Enable TF32 (for Ampere GPUs)
+    enable_cudnn_benchmark : bool
+        Enable cuDNN benchmark
+    Returns:
+    -------
+    PyTorchBackend
+        Configured inference session
+    """
+    # Apply global optimizations
+    optimizer = PyTorchOptimizer()
+    if enable_cudnn_benchmark:
+        optimizer.enable_cudnn_benchmark()
+    if enable_tf32 and device.startswith('cuda'):
+        optimizer.enable_tf32()
+    # Create backend
+    backend = PyTorchBackend(device=device, optimize_mode=optimize_mode)
+    backend.optimize_model(model, use_amp=enable_amp)
+    return backend
+def convert_model_to_onnx(
+    model: nn.Module,
+    input_shape: Tuple[int, ...],
+    output_path: str,
+    opset_version: int = 14
+):
+    """
+    Convert PyTorch model to ONNX format.
+    Parameters:
+    ----------
+    model : nn.Module
+        Model to convert
+    input_shape : Tuple[int, ...]
+        Input tensor shape
+    output_path : str
+        Path to save ONNX model
+    opset_version : int
+        ONNX opset version
+    """
+    try:
+        import onnx
+        model.eval()
+        dummy_input = torch.randn(*input_shape)
+        print(f"Converting model to ONNX (opset {opset_version})...")
+        torch.onnx.export(
+            model,
+            dummy_input,
+            output_path,
+            export_params=True,
+            opset_version=opset_version,
+            do_constant_folding=True,
+            input_names=['input'],
+            output_names=['output'],
+            dynamic_axes={
+                'input': {0: 'batch_size'},
+                'output': {0: 'batch_size'}
+            }
+        )
+        # Verify ONNX model
+        onnx_model = onnx.load(output_path)
+        onnx.checker.check_model(onnx_model)
+        print(f"✓ ONNX model saved to: {output_path}")
+    except ImportError:
+        print("✗ ONNX not available. Install with: pip install onnx")
+    except Exception as e:
+        print(f"✗ ONNX conversion failed: {e}")
+def get_model_info(model: nn.Module) -> Dict[str, Any]:
+    """
+    Get information about a PyTorch model.
+    Parameters:
+    ----------
+    model : nn.Module
+        Model to analyze
+    Returns:
+    -------
+    Dict[str, Any]
+        Model information
+    """
+    total_params = sum(p.numel() for p in model.parameters())
+    trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
+    # Estimate model size
+    param_size = sum(p.nelement() * p.element_size() for p in model.parameters())
+    buffer_size = sum(b.nelement() * b.element_size() for b in model.buffers())
+    size_mb = (param_size + buffer_size) / (1024 ** 2)
+    return {
+        'total_parameters': total_params,
+        'trainable_parameters': trainable_params,
+        'model_size_mb': size_mb,
+        'device': next(model.parameters()).device,
+        'dtype': next(model.parameters()).dtype
+    }

requirements.txt CHANGED Viewed

@@ -5,6 +5,7 @@ numpy
 pandas
 scipy
 torch
 torchvision
 torchmetrics
 ml_collections
@@ -17,7 +18,7 @@ demucs
 audiomentations
 torch_audiomentations
 httpx
-gradio
 google-api-python-client
 pytube
 tqdm
@@ -37,4 +38,10 @@ pyloudnorm
 gdown
 validators
 requests
-spaces

 pandas
 scipy
 torch
+torchaudio
 torchvision
 torchmetrics
 ml_collections
 audiomentations
 torch_audiomentations
 httpx
+gradio>=4.0
 google-api-python-client
 pytube
 tqdm
 gdown
 validators
 requests
+sympy
+typing_extensions
+packaging
+opencv-python-headless
+pypresence
+mpmath
+pillow

utils.py CHANGED Viewed

@@ -13,13 +13,39 @@ from omegaconf import OmegaConf
 from tqdm.auto import tqdm
 from typing import Dict, List, Tuple, Any, Union
 import loralib as lora
-import gc  # For garbage collection
-import logging  # Hata takibi için
-# Log ayarları
-logging.basicConfig(level=logging.INFO, filename='utils.log', format='%(asctime)s - %(message)s')
 def load_config(model_type: str, config_path: str) -> Union[ConfigDict, OmegaConf]:
     try:
         with open(config_path, 'r') as f:
             if model_type == 'htdemucs':
@@ -32,6 +58,7 @@ def load_config(model_type: str, config_path: str) -> Union[ConfigDict, OmegaCon
     except Exception as e:
         raise ValueError(f"Error loading configuration: {e}")
 def get_model_from_config(model_type: str, config_path: str) -> Tuple:
     """
     Load the model specified by the model type and configuration file.
@@ -101,97 +128,251 @@ def get_model_from_config(model_type: str, config_path: str) -> Tuple:
     elif model_type == 'experimental_mdx23c_stht':
         from models.mdx23c_tfc_tdf_v3_with_STHT import TFC_TDF_net
         model = TFC_TDF_net(config)
     else:
         raise ValueError(f"Unknown model type: {model_type}")
     return model, config
 def read_audio_transposed(path: str, instr: str = None, skip_err: bool = False) -> Tuple[np.ndarray, int]:
     try:
         mix, sr = sf.read(path)
-        if len(mix.shape) == 1:  # Mono audio
-            mix = np.expand_dims(mix, axis=-1)
-        return mix.T, sr
     except Exception as e:
         if skip_err:
             print(f"No stem {instr}: skip!")
             return None, None
-        raise RuntimeError(f"Error reading the file at {path}: {e}")
-def normalize_audio(audio: np.ndarray) -> Tuple[np.ndarray, Dict[str, float]]:
     mono = audio.mean(0)
     mean, std = mono.mean(), mono.std()
-    return (audio - mean) / (std + 1e-8), {"mean": mean, "std": std}
 def denormalize_audio(audio: np.ndarray, norm_params: Dict[str, float]) -> np.ndarray:
     return audio * norm_params["std"] + norm_params["mean"]
 def apply_tta(
-    config,
-    model: nn.Module,
-    mix: torch.Tensor,
-    waveforms_orig: Dict[str, torch.Tensor],
-    device: str,
-    model_type: str,
-    progress=None  # Gradio progress nesnesi
 ) -> Dict[str, torch.Tensor]:
-    track_proc_list = [mix[::-1].clone(), -mix.clone()]
-    total_steps = len(track_proc_list)
-    processed_steps = 0
     for i, augmented_mix in enumerate(track_proc_list):
-        # TTA adımı için ilerleme güncellemesi
-        processed_steps += 1
-        progress_value = round((processed_steps / total_steps) * 50)  # TTA için 0-50% aralığı
-        if progress is not None and callable(getattr(progress, '__call__', None)):
-            progress(progress_value / 100, desc=f"Applying TTA step {processed_steps}/{total_steps}")
-            update_progress_html(f"Applying TTA step {processed_steps}/{total_steps}", progress_value)
-        waveforms = demix(config, model, augmented_mix, device, model_type=model_type, pbar=False, progress=progress)
         for el in waveforms:
             if i == 0:
-                waveforms_orig[el] += waveforms[el][::-1].clone()
             else:
                 waveforms_orig[el] -= waveforms[el]
-        del waveforms, augmented_mix
-        gc.collect()
-        if device.startswith('cuda'):
-            torch.cuda.empty_cache()
     for el in waveforms_orig:
-        waveforms_orig[el] /= (len(track_proc_list) + 1)
-    # TTA tamamlandı
-    if progress is not None and callable(getattr(progress, '__call__', None)):
-        progress(0.5, desc="TTA completed")
-        update_progress_html("TTA completed", 50)
     return waveforms_orig
 def _getWindowingArray(window_size: int, fade_size: int) -> torch.Tensor:
     fadein = torch.linspace(0, 1, fade_size)
     fadeout = torch.linspace(1, 0, fade_size)
     window = torch.ones(window_size)
     window[-fade_size:] = fadeout
     window[:fade_size] = fadein
     return window
 def demix(
-    config: ConfigDict,
-    model: nn.Module,
-    mix: torch.Tensor,
-    device: str,
-    model_type: str,
-    pbar: bool = False,
-    progress=None  # Gradio progress nesnesi
-) -> Dict[str, np.ndarray]:
-    logging.info(f"Starting demix for model_type: {model_type}, chunk_size: {config.audio.chunk_size}")
-    # CPU'da FP16 ile başla
-    mix = torch.tensor(mix, dtype=torch.float16, device='cpu')
-    mode = 'demucs' if model_type == 'htdemucs' else 'generic'
-    # İşlem parametreleri
     if mode == 'demucs':
         chunk_size = config.training.samplerate * config.training.segment
         num_instruments = len(config.training.instruments)
@@ -201,146 +382,272 @@ def demix(
         chunk_size = config.audio.chunk_size
         num_instruments = len(prefer_target_instrument(config))
         num_overlap = config.inference.num_overlap
         fade_size = chunk_size // 10
         step = chunk_size // num_overlap
         border = chunk_size - step
         length_init = mix.shape[-1]
-        windowing_array = _getWindowingArray(chunk_size, fade_size).to('cpu', dtype=torch.float16)
         if length_init > 2 * border and border > 0:
             mix = nn.functional.pad(mix, (border, border), mode="reflect")
-    batch_size = getattr(config.inference, 'batch_size', 1)  # Düşük bellek için varsayılan 1
-    # Modeli cihaza taşı (ZeroGPU için cuda:0)
-    model = model.to(device)
-    model.eval()
-    # Toplam chunk sayısını hesapla
-    total_chunks = (mix.shape[1] + step - 1) // step
-    processed_chunks = 0
-    with torch.no_grad():  # Çıkarım için gradyan yok
-        with torch.cuda.amp.autocast(enabled=device.startswith('cuda'), dtype=torch.float16):
             req_shape = (num_instruments,) + mix.shape
-            result = torch.zeros(req_shape, dtype=torch.float16, device='cpu')
-            counter = torch.zeros(req_shape, dtype=torch.float16, device='cpu')
             i = 0
             batch_data = []
             batch_locations = []
-            start_time = time.time()
             while i < mix.shape[1]:
-                part = mix[:, i:i + chunk_size]
                 chunk_len = part.shape[-1]
-                pad_mode = "reflect" if mode == "generic" and chunk_len > chunk_size // 2 else "constant"
                 part = nn.functional.pad(part, (0, chunk_size - chunk_len), mode=pad_mode, value=0)
                 batch_data.append(part)
                 batch_locations.append((i, chunk_len))
                 i += step
                 if len(batch_data) >= batch_size or i >= mix.shape[1]:
-                    # Veriyi GPU'ya taşı
-                    arr = torch.stack(batch_data, dim=0).to(device, non_blocking=True)
-                    x = model(arr)  # Model çıkarımı GPU'da
-                    # Sonuçları hemen CPU'ya taşı
-                    x = x.cpu()
                     if mode == "generic":
-                        window = windowing_array.clone()
-                        if i - step == 0:
                             window[:fade_size] = 1
-                        elif i >= mix.shape[1]:
                             window[-fade_size:] = 1
                     for j, (start, seg_len) in enumerate(batch_locations):
                         if mode == "generic":
-                            result[..., start:start + seg_len] += (x[j, ..., :seg_len] * window[..., :seg_len])
                             counter[..., start:start + seg_len] += window[..., :seg_len]
                         else:
-                            result[..., start:start + seg_len] += x[j, ..., :seg_len]
                             counter[..., start:start + seg_len] += 1.0
-                    # İlerleme güncellemesi
-                    processed_chunks += len(batch_data)
-                    progress_value = min(round((processed_chunks / total_chunks) * 100), 100)  # %1 hassasiyet
-                    if progress is not None and callable(getattr(progress, '__call__', None)):
-                        progress(progress_value / 100, desc=f"Processing chunk {processed_chunks}/{total_chunks}")
-                        update_progress_html(f"Processing chunk {processed_chunks}/{total_chunks}", progress_value)
-                    del arr, x
                     batch_data.clear()
                     batch_locations.clear()
-                    gc.collect()
-                    if device.startswith('cuda'):
-                        torch.cuda.empty_cache()
-                        logging.info("Cleared CUDA cache")
-            elapsed_time = time.time() - start_time
-            logging.info(f"Demix completed in {elapsed_time:.2f} seconds")
-            estimated_sources = result / (counter + 1e-8)
-            estimated_sources = estimated_sources.numpy().astype(np.float32)
             np.nan_to_num(estimated_sources, copy=False, nan=0.0)
-            if mode == "generic" and length_init > 2 * border and border > 0:
-                estimated_sources = estimated_sources[..., border:-border]
-    instruments = config.training.instruments if mode == "demucs" else prefer_target_instrument(config)
     ret_data = {k: v for k, v in zip(instruments, estimated_sources)}
-    logging.info("Demix completed successfully")
-    # Son ilerleme güncellemesi
-    if progress is not None and callable(getattr(progress, '__call__', None)):
-        progress(1.0, desc="Demix completed")
-        update_progress_html("Demix completed", 100)
-    return ret_data
 def prefer_target_instrument(config: ConfigDict) -> List[str]:
-    return [config.training.target_instrument] if getattr(config.training, 'target_instrument', None) else config.training.instruments
-def load_not_compatible_weights(model: nn.Module, weights: str, verbose: bool = False) -> None:
     new_model = model.state_dict()
-    old_model = torch.load(weights, map_location='cpu')
     if 'state' in old_model:
         old_model = old_model['state']
     if 'state_dict' in old_model:
         old_model = old_model['state_dict']
     for el in new_model:
-        if el in old_model and new_model[el].shape == old_model[el].shape:
-            new_model[el] = old_model[el]
-    model.load_state_dict(new_model)
-def load_lora_weights(model: nn.Module, lora_path: str, device: str = 'cpu') -> None:
-    lora_state_dict = torch.load(lora_path, map_location=device)
     model.load_state_dict(lora_state_dict, strict=False)
-def load_start_checkpoint(args: argparse.Namespace, model: nn.Module, type_='train') -> None:
     print(f'Start from checkpoint: {args.start_check_point}')
-    device = 'cpu'
-    state_dict = torch.load(args.start_check_point, map_location=device, weights_only=True)
-    if args.model_type in ['htdemucs', 'apollo'] and isinstance(state_dict, dict):
-        state_dict = state_dict.get('state', state_dict.get('state_dict', state_dict))
-    model.load_state_dict(state_dict)
-    if args.lora_checkpoint:
-        print(f"Loading LoRA weights from: {args.lora_checkpoint}")
-        load_lora_weights(model, args.lora_checkpoint, device)
 def bind_lora_to_model(config: Dict[str, Any], model: nn.Module) -> nn.Module:
     if 'lora' not in config:
         raise ValueError("Configuration must contain the 'lora' key with parameters for LoRA.")
-    replaced_layers = 0
     for name, module in model.named_modules():
         hierarchy = name.split('.')
         layer_name = hierarchy[-1]
         if isinstance(module, nn.Linear):
             try:
                 parent_module = model
                 for submodule_name in hierarchy[:-1]:
                     parent_module = getattr(parent_module, submodule_name)
                 setattr(
                     parent_module,
                     layer_name,
@@ -351,23 +658,41 @@ def bind_lora_to_model(config: Dict[str, Any], model: nn.Module) -> nn.Module:
                         **config['lora']
                     )
                 )
-                replaced_layers += 1
             except Exception as e:
                 print(f"Error replacing layer {name}: {e}")
-    print(f"Number of layers replaced with LoRA: {replaced_layers}")
     return model
 def draw_spectrogram(waveform, sample_rate, length, output_file):
     import librosa.display
     x = waveform[:int(length * sample_rate), :]
-    X = librosa.stft(x.mean(axis=-1))
-    Xdb = librosa.amplitude_to_db(np.abs(X), ref=np.max)
     fig, ax = plt.subplots()
     img = librosa.display.specshow(
-        Xdb, cmap='plasma', sr=sample_rate, x_axis='time', y_axis='linear', ax=ax
     )
     ax.set(title='File: ' + os.path.basename(output_file))
     fig.colorbar(img, ax=ax, format="%+2.f dB")
-    if output_file:
         plt.savefig(output_file)
-        plt.close()

 from tqdm.auto import tqdm
 from typing import Dict, List, Tuple, Any, Union
 import loralib as lora
+# Fix matplotlib backend for isolated Python environments
+try:
+    import matplotlib
+    matplotlib.use('Agg')  # Non-interactive backend
+    import matplotlib.pyplot as plt
+except ImportError:
+    plt = None
 def load_config(model_type: str, config_path: str) -> Union[ConfigDict, OmegaConf]:
+    """
+    Load the configuration from the specified path based on the model type.
+    Parameters:
+    ----------
+    model_type : str
+        The type of model to load (e.g., 'htdemucs', 'mdx23c', etc.).
+    config_path : str
+        The path to the YAML or OmegaConf configuration file.
+    Returns:
+    -------
+    config : Any
+        The loaded configuration, which can be in different formats (e.g., OmegaConf or ConfigDict).
+    Raises:
+    ------
+    FileNotFoundError:
+        If the configuration file at `config_path` is not found.
+    ValueError:
+        If there is an error loading the configuration file.
+    """
     try:
         with open(config_path, 'r') as f:
             if model_type == 'htdemucs':
     except Exception as e:
         raise ValueError(f"Error loading configuration: {e}")
 def get_model_from_config(model_type: str, config_path: str) -> Tuple:
     """
     Load the model specified by the model type and configuration file.
     elif model_type == 'experimental_mdx23c_stht':
         from models.mdx23c_tfc_tdf_v3_with_STHT import TFC_TDF_net
         model = TFC_TDF_net(config)
+    elif model_type == 'mel_band_roformer_experimental':
+        from models.bs_roformer.mel_band_roformer_experimental import MelBandRoformer
+        model = MelBandRoformer(**dict(config.model))
+    elif model_type == 'bs_roformer_experimental':
+        from models.bs_roformer.bs_roformer_experimental import BSRoformer
+        model = BSRoformer(**dict(config.model))
+    elif model_type == 'bs_roformer_custom':
+        from models.bs_roformer.bs_roformer_custom.bs_roformer import BSRoformer
+        model = BSRoformer(**dict(config.model))
+    elif model_type == 'scnet_tran':
+        from models.scnet.scnet_tran import SCNet_Tran
+        model = SCNet_Tran(**config.model)
+    elif model_type == 'scnet_masked':
+        from models.scnet.scnet_masked import SCNet
+        model = SCNet(**config.model)
+    elif model_type == 'conformer':
+        from models.conformer_model import ConformerMSS, NeuralModel
+        model = ConformerMSS(
+            core=NeuralModel(**config.model),
+            n_fft=config.stft.n_fft,
+            hop_length=config.stft.hop_length,
+            win_length=getattr(config.stft, 'win_length', config.stft.n_fft),
+            center=config.stft.center
+        )
+    elif model_type == 'mel_band_conformer':
+        from models.mel_band_conformer import MelBandConformer
+        model = MelBandConformer(**config.model)
     else:
         raise ValueError(f"Unknown model type: {model_type}")
     return model, config
 def read_audio_transposed(path: str, instr: str = None, skip_err: bool = False) -> Tuple[np.ndarray, int]:
+    """
+    Reads an audio file, ensuring mono audio is converted to two-dimensional format,
+    and transposes the data to have channels as the first dimension.
+    Parameters
+    ----------
+    path : str
+        Path to the audio file.
+    skip_err: bool
+        If true, not raise errors
+    instr:
+        name of instument
+    Returns
+    -------
+    Tuple[np.ndarray, int]
+        A tuple containing:
+        - Transposed audio data as a NumPy array with shape (channels, length).
+          For mono audio, the shape will be (1, length).
+        - Sampling rate (int), e.g., 44100.
+    """
     try:
         mix, sr = sf.read(path)
     except Exception as e:
         if skip_err:
             print(f"No stem {instr}: skip!")
             return None, None
+        else:
+            raise RuntimeError(f"Error reading the file at {path}: {e}")
+    else:
+        if len(mix.shape) == 1:  # For mono audio
+            mix = np.expand_dims(mix, axis=-1)
+        return mix.T, sr
+def normalize_audio(audio: np.ndarray) -> tuple[np.ndarray, Dict[str, float]]:
+    """
+    Normalize an audio signal by subtracting the mean and dividing by the standard deviation.
+    Parameters:
+    ----------
+    audio : np.ndarray
+        Input audio array with shape (channels, time) or (time,).
+    Returns:
+    -------
+    tuple[np.ndarray, dict[str, float]]
+        - Normalized audio array with the same shape as the input.
+        - Dictionary containing the mean and standard deviation of the original audio.
+    """
     mono = audio.mean(0)
     mean, std = mono.mean(), mono.std()
+    return (audio - mean) / std, {"mean": mean, "std": std}
 def denormalize_audio(audio: np.ndarray, norm_params: Dict[str, float]) -> np.ndarray:
+    """
+    Denormalize an audio signal by reversing the normalization process (multiplying by the standard deviation
+    and adding the mean).
+    Parameters:
+    ----------
+    audio : np.ndarray
+        Normalized audio array to be denormalized.
+    norm_params : dict[str, float]
+        Dictionary containing the 'mean' and 'std' values used for normalization.
+    Returns:
+    -------
+    np.ndarray
+        Denormalized audio array with the same shape as the input.
+    """
     return audio * norm_params["std"] + norm_params["mean"]
 def apply_tta(
+        config,
+        model: torch.nn.Module,
+        mix: torch.Tensor,
+        waveforms_orig: Dict[str, torch.Tensor],
+        device: torch.device,
+        model_type: str
 ) -> Dict[str, torch.Tensor]:
+    """
+    Apply Test-Time Augmentation (TTA) for source separation.
+    This function processes the input mixture with test-time augmentations, including
+    channel inversion and polarity inversion, to enhance the separation results. The
+    results from all augmentations are averaged to produce the final output.
+    Parameters:
+    ----------
+    config : Any
+        Configuration object containing model and processing parameters.
+    model : torch.nn.Module
+        The trained model used for source separation.
+    mix : torch.Tensor
+        The mixed audio tensor with shape (channels, time).
+    waveforms_orig : Dict[str, torch.Tensor]
+        Dictionary of original separated waveforms (before TTA) for each instrument.
+    device : torch.device
+        Device (CPU or CUDA) on which the model will be executed.
+    model_type : str
+        Type of the model being used (e.g., "demucs", "custom_model").
+    Returns:
+    -------
+    Dict[str, torch.Tensor]
+        Updated dictionary of separated waveforms after applying TTA.
+    """
+    # Create augmentations: channel inversion and polarity inversion
+    track_proc_list = [mix[::-1].copy(), -1.0 * mix.copy()]
+    # Process each augmented mixture
     for i, augmented_mix in enumerate(track_proc_list):
+        waveforms = demix(config, model, augmented_mix, device, model_type=model_type)
         for el in waveforms:
             if i == 0:
+                waveforms_orig[el] += waveforms[el][::-1].copy()
             else:
                 waveforms_orig[el] -= waveforms[el]
+    # Average the results across augmentations
     for el in waveforms_orig:
+        waveforms_orig[el] /= len(track_proc_list) + 1
     return waveforms_orig
 def _getWindowingArray(window_size: int, fade_size: int) -> torch.Tensor:
+    """
+    Generate a windowing array with a linear fade-in at the beginning and a fade-out at the end.
+    This function creates a window of size `window_size` where the first `fade_size` elements
+    linearly increase from 0 to 1 (fade-in) and the last `fade_size` elements linearly decrease
+    from 1 to 0 (fade-out). The middle part of the window is filled with ones.
+    Parameters:
+    ----------
+    window_size : int
+        The total size of the window.
+    fade_size : int
+        The size of the fade-in and fade-out regions.
+    Returns:
+    -------
+    torch.Tensor
+        A tensor of shape (window_size,) containing the generated windowing array.
+    Example:
+    -------
+    If `window_size=10` and `fade_size=3`, the output will be:
+    tensor([0.0000, 0.5000, 1.0000, 1.0000, 1.0000, 1.0000, 1.0000, 1.0000, 0.5000, 0.0000])
+    """
     fadein = torch.linspace(0, 1, fade_size)
     fadeout = torch.linspace(1, 0, fade_size)
     window = torch.ones(window_size)
     window[-fade_size:] = fadeout
     window[:fade_size] = fadein
     return window
 def demix(
+        config: ConfigDict,
+        model: torch.nn.Module,
+        mix: torch.Tensor,
+        device: torch.device,
+        model_type: str,
+        pbar: bool = False
+) -> Tuple[List[Dict[str, np.ndarray]], np.ndarray]:
+    """
+    Unified function for audio source separation with support for multiple processing modes.
+    This function separates audio into its constituent sources using either a generic custom logic
+    or a Demucs-specific logic. It supports batch processing and overlapping window-based chunking
+    for efficient and artifact-free separation.
+    Parameters:
+    ----------
+    config : ConfigDict
+        Configuration object containing audio and inference settings.
+    model : torch.nn.Module
+        The trained model used for audio source separation.
+    mix : torch.Tensor
+        Input audio tensor with shape (channels, time).
+    device : torch.device
+        The computation device (CPU or CUDA).
+    model_type : str, optional
+        Processing mode:
+            - "demucs" for logic specific to the Demucs model.
+        Default is "generic".
+    pbar : bool, optional
+        If True, displays a progress bar during chunk processing. Default is False.
+    Returns:
+    -------
+    Union[Dict[str, np.ndarray], np.ndarray]
+        - A dictionary mapping target instruments to separated audio sources if multiple instruments are present.
+        - A numpy array of the separated source if only one instrument is present.
+    """
+    mix = torch.tensor(mix, dtype=torch.float32)
+    if model_type == 'htdemucs':
+        mode = 'demucs'
+    else:
+        mode = 'generic'
+    # Define processing parameters based on the mode
     if mode == 'demucs':
         chunk_size = config.training.samplerate * config.training.segment
         num_instruments = len(config.training.instruments)
         chunk_size = config.audio.chunk_size
         num_instruments = len(prefer_target_instrument(config))
         num_overlap = config.inference.num_overlap
         fade_size = chunk_size // 10
         step = chunk_size // num_overlap
         border = chunk_size - step
         length_init = mix.shape[-1]
+        windowing_array = _getWindowingArray(chunk_size, fade_size)
+        # Add padding for generic mode to handle edge artifacts
         if length_init > 2 * border and border > 0:
             mix = nn.functional.pad(mix, (border, border), mode="reflect")
+    batch_size = config.inference.batch_size
+    use_amp = getattr(config.training, 'use_amp', True)
+    with torch.cuda.amp.autocast(enabled=use_amp):
+        with torch.inference_mode():
+            # Initialize result and counter tensors
             req_shape = (num_instruments,) + mix.shape
+            result = torch.zeros(req_shape, dtype=torch.float32)
+            counter = torch.zeros(req_shape, dtype=torch.float32)
             i = 0
             batch_data = []
             batch_locations = []
+            progress_bar = tqdm(
+                total=mix.shape[1], desc="Processing audio chunks", leave=False
+            ) if pbar else None
             while i < mix.shape[1]:
+                # Extract chunk and apply padding if necessary
+                part = mix[:, i:i + chunk_size].to(device)
                 chunk_len = part.shape[-1]
+                if mode == "generic" and chunk_len > chunk_size // 2:
+                    pad_mode = "reflect"
+                else:
+                    pad_mode = "constant"
                 part = nn.functional.pad(part, (0, chunk_size - chunk_len), mode=pad_mode, value=0)
                 batch_data.append(part)
                 batch_locations.append((i, chunk_len))
                 i += step
+                # Process batch if it's full or the end is reached
                 if len(batch_data) >= batch_size or i >= mix.shape[1]:
+                    arr = torch.stack(batch_data, dim=0)
+                    x = model(arr)
                     if mode == "generic":
+                        window = windowing_array.clone() # using clone() fixes the clicks at chunk edges when using batch_size=1
+                        if i - step == 0:  # First audio chunk, no fadein
                             window[:fade_size] = 1
+                        elif i >= mix.shape[1]:  # Last audio chunk, no fadeout
                             window[-fade_size:] = 1
                     for j, (start, seg_len) in enumerate(batch_locations):
                         if mode == "generic":
+                            result[..., start:start + seg_len] += x[j, ..., :seg_len].cpu() * window[..., :seg_len]
                             counter[..., start:start + seg_len] += window[..., :seg_len]
                         else:
+                            result[..., start:start + seg_len] += x[j, ..., :seg_len].cpu()
                             counter[..., start:start + seg_len] += 1.0
                     batch_data.clear()
                     batch_locations.clear()
+                if progress_bar:
+                    progress_bar.update(step)
+            if progress_bar:
+                progress_bar.close()
+            # Compute final estimated sources
+            estimated_sources = result / counter
+            estimated_sources = estimated_sources.cpu().numpy()
             np.nan_to_num(estimated_sources, copy=False, nan=0.0)
+            # Remove padding for generic mode
+            if mode == "generic":
+                if length_init > 2 * border and border > 0:
+                    estimated_sources = estimated_sources[..., border:-border]
+    # Return the result as a dictionary or a single array
+    if mode == "demucs":
+        instruments = config.training.instruments
+    else:
+        instruments = prefer_target_instrument(config)
     ret_data = {k: v for k, v in zip(instruments, estimated_sources)}
+    if mode == "demucs" and num_instruments <= 1:
+        return estimated_sources
+    else:
+        return ret_data
 def prefer_target_instrument(config: ConfigDict) -> List[str]:
+    """
+        Return the list of target instruments based on the configuration.
+        If a specific target instrument is specified in the configuration,
+        it returns a list with that instrument. Otherwise, it returns the list of instruments.
+        Parameters:
+        ----------
+        config : ConfigDict
+            Configuration object containing the list of instruments or the target instrument.
+        Returns:
+        -------
+        List[str]
+            A list of target instruments.
+        """
+    if getattr(config.training, 'target_instrument', None):
+        return [config.training.target_instrument]
+    else:
+        return config.training.instruments
+def load_not_compatible_weights(model: torch.nn.Module, weights: str, verbose: bool = False) -> None:
+    """
+    Load weights into a model, handling mismatched shapes and dimensions.
+    Args:
+        model: PyTorch model into which the weights will be loaded.
+        weights: Path to the weights file.
+        verbose: If True, prints detailed information about matching and mismatched layers.
+    """
     new_model = model.state_dict()
+    old_model = torch.load(weights, weights_only=False)
     if 'state' in old_model:
+        # Fix for htdemucs weights loading
         old_model = old_model['state']
     if 'state_dict' in old_model:
+        # Fix for apollo weights loading
         old_model = old_model['state_dict']
     for el in new_model:
+        if el in old_model:
+            if verbose:
+                print(f'Match found for {el}!')
+            if new_model[el].shape == old_model[el].shape:
+                if verbose:
+                    print('Action: Just copy weights!')
+                new_model[el] = old_model[el]
+            else:
+                if len(new_model[el].shape) != len(old_model[el].shape):
+                    if verbose:
+                        print('Action: Different dimension! Too lazy to write the code... Skip it')
+                else:
+                    if verbose:
+                        print(f'Shape is different: {tuple(new_model[el].shape)} != {tuple(old_model[el].shape)}')
+                    ln = len(new_model[el].shape)
+                    max_shape = []
+                    slices_old = []
+                    slices_new = []
+                    for i in range(ln):
+                        max_shape.append(max(new_model[el].shape[i], old_model[el].shape[i]))
+                        slices_old.append(slice(0, old_model[el].shape[i]))
+                        slices_new.append(slice(0, new_model[el].shape[i]))
+                    # print(max_shape)
+                    # print(slices_old, slices_new)
+                    slices_old = tuple(slices_old)
+                    slices_new = tuple(slices_new)
+                    max_matrix = np.zeros(max_shape, dtype=np.float32)
+                    for i in range(ln):
+                        max_matrix[slices_old] = old_model[el].cpu().numpy()
+                    max_matrix = torch.from_numpy(max_matrix)
+                    new_model[el] = max_matrix[slices_new]
+        else:
+            if verbose:
+                print(f'Match not found for {el}!')
+    model.load_state_dict(
+        new_model
+    )
+def load_lora_weights(model: torch.nn.Module, lora_path: str, device: str = 'cpu') -> None:
+    """
+    Load LoRA weights into a model.
+    This function updates the given model with LoRA-specific weights from the specified checkpoint file.
+    It does not require the checkpoint to match the model's full state dictionary, as only LoRA layers are updated.
+    Parameters:
+    ----------
+    model : Module
+        The PyTorch model into which the LoRA weights will be loaded.
+    lora_path : str
+        Path to the LoRA checkpoint file.
+    device : str, optional
+        The device to load the weights onto, by default 'cpu'. Common values are 'cpu' or 'cuda'.
+    Returns:
+    -------
+    None
+        The model is updated in place.
+    """
+    lora_state_dict = torch.load(lora_path, map_location=device, weights_only=False)
     model.load_state_dict(lora_state_dict, strict=False)
+def load_start_checkpoint(args: argparse.Namespace, model: torch.nn.Module, type_='train') -> None:
+    """
+    Load the starting checkpoint for a model.
+    Args:
+        args: Parsed command-line arguments containing the checkpoint path.
+        model: PyTorch model to load the checkpoint into.
+        type_: how to load weights - for train we can load not fully compatible weights
+    """
     print(f'Start from checkpoint: {args.start_check_point}')
+    if type_ in ['train']:
+        if 1:
+            load_not_compatible_weights(model, args.start_check_point, verbose=False)
+        else:
+            model.load_state_dict(torch.load(args.start_check_point, weights_only=False))
+    else:
+        device='cpu'
+        if args.model_type in ['htdemucs', 'apollo']:
+            state_dict = torch.load(args.start_check_point, map_location=device, weights_only=False)
+            # Fix for htdemucs pretrained models
+            if 'state' in state_dict:
+                state_dict = state_dict['state']
+            # Fix for apollo pretrained models
+            if 'state_dict' in state_dict:
+                state_dict = state_dict['state_dict']
+        else:
+            state_dict = torch.load(args.start_check_point, map_location=device, weights_only=True)
+        model.load_state_dict(state_dict)
 def bind_lora_to_model(config: Dict[str, Any], model: nn.Module) -> nn.Module:
+    """
+    Replaces specific layers in the model with LoRA-extended versions.
+    Parameters:
+    ----------
+    config : Dict[str, Any]
+        Configuration containing parameters for LoRA. It should include a 'lora' key with parameters for `MergedLinear`.
+    model : nn.Module
+        The original model in which the layers will be replaced.
+    Returns:
+    -------
+    nn.Module
+        The modified model with the replaced layers.
+    """
     if 'lora' not in config:
         raise ValueError("Configuration must contain the 'lora' key with parameters for LoRA.")
+    replaced_layers = 0  # Counter for replaced layers
     for name, module in model.named_modules():
         hierarchy = name.split('.')
         layer_name = hierarchy[-1]
+        # Check if this is the target layer to replace (and layer_name == 'to_qkv')
         if isinstance(module, nn.Linear):
             try:
+                # Get the parent module
                 parent_module = model
                 for submodule_name in hierarchy[:-1]:
                     parent_module = getattr(parent_module, submodule_name)
+                # Replace the module with LoRA-enabled layer
                 setattr(
                     parent_module,
                     layer_name,
                         **config['lora']
                     )
                 )
+                replaced_layers += 1  # Increment the counter
             except Exception as e:
                 print(f"Error replacing layer {name}: {e}")
+    if replaced_layers == 0:
+        print("Warning: No layers were replaced. Check the model structure and configuration.")
+    else:
+        print(f"Number of layers replaced with LoRA: {replaced_layers}")
     return model
 def draw_spectrogram(waveform, sample_rate, length, output_file):
+    if plt is None:
+        print("Warning: matplotlib not available, skipping spectrogram")
+        return
     import librosa.display
+    # Cut only required part of spectorgram
     x = waveform[:int(length * sample_rate), :]
+    X = librosa.stft(x.mean(axis=-1))  # perform short-term fourier transform on mono signal
+    Xdb = librosa.amplitude_to_db(np.abs(X), ref=np.max)  # convert an amplitude spectrogram to dB-scaled spectrogram.
     fig, ax = plt.subplots()
+    # plt.figure(figsize=(30, 10))  # initialize the fig size
     img = librosa.display.specshow(
+        Xdb,
+        cmap='plasma',
+        sr=sample_rate,
+        x_axis='time',
+        y_axis='linear',
+        ax=ax
     )
     ax.set(title='File: ' + os.path.basename(output_file))
     fig.colorbar(img, ax=ax, format="%+2.f dB")
+    if output_file is not None:
         plt.savefig(output_file)