import os
import sys
import importlib
import json
import asyncio
import tempfile
from datetime import datetime

import torch
import gradio as gr
import pydub
import edge_tts
import pysrt
from pydub import AudioSegment

# --- 1) Đảm bảo src/ có trong Python path để import ChatterboxVC ---
script_dir = os.path.dirname(os.path.abspath(__file__))
src_path = os.path.join(script_dir, "src")
if src_path not in sys.path:
    sys.path.insert(0, src_path)

import chatterbox.vc
importlib.reload(chatterbox.vc)
from chatterbox.vc import ChatterboxVC

# --- 2) Khởi tạo model VC ---
DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
_vc_model = None
def get_vc_model():
    global _vc_model
    if _vc_model is None:
        print(f"[VC] Đang tải model trên {DEVICE}…")
        _vc_model = ChatterboxVC.from_pretrained(DEVICE)
        print("[VC] Model sẵn sàng.")
    return _vc_model

# --- 3) Helper cập nhật log, audio và file-download ---
global_log_messages_vc = []
def yield_vc_updates(log_msg=None, audio_data=None, file_list=None, log_append=True):
    global global_log_messages_vc
    # cập nhật log
    if log_msg is not None:
        prefix = datetime.now().strftime("[%H:%M:%S]")
        if log_append:
            global_log_messages_vc.append(f"{prefix} {log_msg}")
        else:
            global_log_messages_vc = [f"{prefix} {log_msg}"]
    log_update = gr.update(value="\n".join(global_log_messages_vc))

    # audio output
    audio_update = gr.update(
        visible=(audio_data is not None),
        value=audio_data if audio_data is not None else None
    )
    # file-download output
    files_update = gr.update(
        visible=(file_list is not None),
        value=file_list if file_list is not None else []
    )

    yield log_update, audio_update, files_update

# --- 4) Load voices Edge TTS từ voices.json ---
def load_edge_tts_voices(json_path="voices.json"):
    with open(json_path, "r", encoding="utf-8") as f:
        voices = json.load(f)
    display_list, code_map = [], {}
    for lang, genders in voices.items():
        for gender, items in genders.items():
            for v in items:
                disp = f"{lang} - {gender} - {v['display_name']} ({v['voice_code']})"
                display_list.append(disp)
                code_map[disp] = v["voice_code"]
    return display_list, code_map

edge_choices, edge_code_map = load_edge_tts_voices()

# --- 5) TTS Edge với rate & volume (cho trường hợp nhập text trực tiếp) ---
async def _edge_tts_async(text, disp, rate_pct, vol_pct):
    code = edge_code_map.get(disp)
    rate_str = f"{rate_pct:+d}%"
    vol_str  = f"{vol_pct:+d}%"
    out = "temp_edge_tts.wav"
    await edge_tts.Communicate(text, voice=code, rate=rate_str, volume=vol_str).save(out)
    return out

def run_edge_tts(text, disp, rate_pct, vol_pct):
    path = asyncio.run(_edge_tts_async(text, disp, rate_pct, vol_pct))
    return path, path

# --- 6) TTS from SRT sử dụng pysrt + chia nhỏ text nếu quá dài ---
async def _tts_save_segment(text: str, voice_code: str, rate_pct: int, vol_pct: int, path: str) -> bool:
    """
    Save một đoạn text thành file audio bằng Edge TTS.
    Trả về True nếu có audio, False nếu bị NoAudioReceived.
    """
    rate_str = f"{rate_pct:+d}%"
    vol_str  = f"{vol_pct:+d}%"
    try:
        await edge_tts.Communicate(text, voice=voice_code, rate=rate_str, volume=vol_str).save(path)
        return True
    except edge_tts.exceptions.NoAudioReceived:
        # segment quá ngắn, bỏ qua
        return False

async def _generate_audio_from_srt(
    srt_path: str,
    tmp_dir: str,
    out_path: str,
    voice_code: str,
    rate_pct: int,
    vol_pct: int
):
    """
    Đọc file .srt, chia nhỏ text nếu >200 ký tự, gọi Edge TTS từng phần,
    ghép các segment và export thành file WAV.
    """
    subs = pysrt.open(srt_path, encoding='utf-8')
    segments = []

    for i, sub in enumerate(subs):
        text = sub.text.replace('\n', ' ')
        # nếu text quá dài, chia nhỏ
        if len(text) > 200:
            parts = [text[k:k+200] for k in range(0, len(text), 200)]
        else:
            parts = [text]

        seg = AudioSegment.silent(duration=0)
        for j, part in enumerate(parts):
            seg_path = os.path.join(tmp_dir, f"seg_{i}_{j}.wav")
            ok = await _tts_save_segment(part, voice_code, rate_pct, vol_pct, seg_path)
            if ok:
                seg += AudioSegment.from_file(seg_path)
        segments.append(seg)

    # ghép tất cả segments và export
    if segments:
        combined = segments[0]
        for seg in segments[1:]:
            combined += seg
        combined.export(out_path, format="wav")

def synthesize_srt_audio(
    srt_path: str,
    disp_voice: str,
    work_dir: str,
    rate_pct: int,
    vol_pct: int
) -> str:
    """
    Wrapper đồng bộ để sinh file WAV từ SRT bằng Edge TTS,
    trả về đường dẫn file WAV để đưa vào pipeline clone voice.
    """
    # lấy mã giọng từ map
    voice_code = edge_code_map.get(disp_voice)

    # tạo tmp dir và định nghĩa output path
    tmp_dir = tempfile.mkdtemp()
    out_path = os.path.join(work_dir, "srt_source.wav")

    # chạy event loop bất đồng bộ
    loop = asyncio.new_event_loop()
    asyncio.set_event_loop(loop)
    loop.run_until_complete(
        _generate_audio_from_srt(
            srt_path, tmp_dir, out_path,
            voice_code, rate_pct, vol_pct
        )
    )
    return out_path

# --- 7) Voice Conversion chính ---
def generate_vc(
    source_audio_path,
    target_voice_path,
    cfg_rate: float,
    sigma_min: float,
    batch_mode: bool,
    batch_parameter: str,
    batch_values: str
):
    model = get_vc_model()
    yield from yield_vc_updates("Khởi tạo chuyển giọng…", log_append=False)

    # thư mục đầu ra
    date_folder = datetime.now().strftime("%Y%m%d")
    work_dir = os.path.join("outputs/vc", date_folder)
    os.makedirs(work_dir, exist_ok=True)

    def run_once(src, tgt, rate, sigma):
        return model.generate(src, target_voice_path=tgt, inference_cfg_rate=rate, sigma_min=sigma)

    outputs = []
    try:
        if batch_mode:
            try:
                vals = [float(v.strip()) for v in batch_values.split(",") if v.strip()]
            except:
                raise gr.Error("Batch values phải là số, phân cách bởi dấu phẩy.")
            yield from yield_vc_updates(f"Chạy batch '{batch_parameter}': {vals}")
            for idx, v in enumerate(vals, 1):
                r, s = cfg_rate, sigma_min
                tag = ""
                if batch_parameter == "Inference CFG Rate":
                    r, tag = v, f"cfg_{v}"
                else:
                    s, tag = v, f"sigma_{v}"
                yield from yield_vc_updates(f" • Mục {idx}/{len(vals)}: {batch_parameter}={v}")
                wav = run_once(source_audio_path, target_voice_path, r, s)
                fn = f"{tag}_{idx}.wav"
                path = os.path.join(work_dir, fn)
                model.save_wav(wav, path)
                outputs.append(path)
                yield from yield_vc_updates(f"Đã lưu: {path}")
        else:
            audio = pydub.AudioSegment.from_file(source_audio_path)
            if len(audio) > 40_000:
                yield from yield_vc_updates("Audio dài >40s: tách thành đoạn 40s…")
                chunks = [audio[i:i+40_000] for i in range(0, len(audio), 40_000)]
                temp_paths = []
                for i, chunk in enumerate(chunks):
                    tmp = f"{source_audio_path}_chunk{i}.wav"
                    chunk.export(tmp, format="wav")
                    wav = run_once(tmp, target_voice_path, cfg_rate, sigma_min)
                    outp = os.path.join(work_dir, f"part{i}.wav")
                    model.save_wav(wav, outp)
                    temp_paths.append(outp)
                    os.remove(tmp)
                    yield from yield_vc_updates(f"Xử lý đoạn {i+1}/{len(chunks)}")
                # ghép lại
                combined = AudioSegment.empty()
                for p in temp_paths:
                    combined += AudioSegment.from_file(p)
                final = os.path.join(work_dir, "combined.wav")
                combined.export(final, format="wav")
                outputs.append(final)
                yield from yield_vc_updates("Chuyển xong.")
            else:
                yield from yield_vc_updates("Đang chuyển giọng…")
                wav = run_once(source_audio_path, target_voice_path, cfg_rate, sigma_min)
                outp = os.path.join(work_dir, f"LyTranTTS_{datetime.now().strftime('%H%M%S')}.wav")
                model.save_wav(wav, outp)
                outputs.append(outp)
                yield from yield_vc_updates("Hoàn thành.")
    except Exception as e:
        yield from yield_vc_updates(f"Lỗi: {e}")
        raise

    # trả về audio đầu tiên và danh sách file để download
    first = outputs[0] if outputs else None
    yield from yield_vc_updates(log_msg=None, audio_data=first, file_list=outputs)

# --- 8) Wrapper tổng hợp ---
def run_vc_from_srt_or_file(
    use_srt: bool,
    srt_file, srt_voice, srt_rate, srt_vol,
    edge_text, edge_voice, edge_rate, edge_vol,
    src_audio, tgt_audio,
    cfg_rate, sigma_min,
    batch_mode, batch_parameter, batch_values
):
    yield from yield_vc_updates("Bắt đầu…", log_append=False)

    date_folder = datetime.now().strftime("%Y%m%d")
    work_dir = os.path.join("outputs/vc", date_folder)
    os.makedirs(work_dir, exist_ok=True)

    if use_srt:
        yield from yield_vc_updates("Sinh audio từ SRT…")
        source = synthesize_srt_audio(
            srt_file.name, srt_voice, work_dir,
            rate_pct=srt_rate, vol_pct=srt_vol
        )
    elif edge_text and edge_voice:
        yield from yield_vc_updates("Sinh audio từ Edge TTS…")
        tmp, _ = run_edge_tts(edge_text, edge_voice, edge_rate, edge_vol)
        source = tmp
    else:
        source = src_audio

    yield from generate_vc(
        source, tgt_audio,
        cfg_rate, sigma_min,
        batch_mode, batch_parameter, batch_values
    )

# --- 9) Build Gradio UI ---
with gr.Blocks(title="Chuyển Giọng Nói AI") as demo:
    gr.Markdown("## 📣 Chuyển Giọng Nói AI")
    gr.Markdown("> Tác giả: **Lý Trần**")

    with gr.Row():
        with gr.Column():
            # SRT
            use_srt   = gr.Checkbox(label="Sử dụng file SRT làm nguồn?", value=False)
            srt_file  = gr.File(file_types=[".srt"], label="Tải lên file .srt", visible=False)
            srt_voice = gr.Dropdown(choices=edge_choices, label="Giọng Edge TTS (SRT)", visible=False)
            srt_rate  = gr.Slider(-100, 100, value=0, step=1, label="Tốc độ SRT (% chuẩn)", visible=False)
            srt_vol   = gr.Slider(-100, 100, value=0, step=1, label="Âm lượng SRT (% chuẩn)", visible=False)

            # Edge TTS
            use_edge   = gr.Checkbox(label="Tạo nguồn qua Edge TTS?", value=False)
            edge_text  = gr.Textbox(label="Văn bản cho Edge TTS", visible=False)
            edge_voice = gr.Dropdown(choices=edge_choices, label="Giọng Edge TTS", visible=False)
            edge_rate  = gr.Slider(-100, 100, value=0, step=1, label="Tốc độ Edge (% chuẩn)", visible=False)
            edge_vol   = gr.Slider(-100, 100, value=0, step=1, label="Âm lượng Edge (% chuẩn)", visible=False)
            gen_edge_btn = gr.Button("🗣️ Tạo Edge TTS", visible=False)
            edge_audio   = gr.Audio(label="Nguồn Edge TTS", type="filepath", visible=False)

            # Nguồn thủ công
            src_audio = gr.Audio(sources=["upload","microphone"], type="filepath",
                                 label="Tải lên / Ghi âm nguồn")

            # Giọng tham chiếu
            gr.Markdown("### Giọng tham chiếu (mục tiêu)")
            tgt_audio = gr.Audio(sources=["upload","microphone"], type="filepath",
                                 label="Tải lên / Ghi âm giọng mục tiêu")

            # Tham số VC
            gr.Markdown("### Tham số chuyển giọng")
            cfg_slider  = gr.Slider(0.0, 30.0, value=0.5, step=0.1, label="CFG Rate")
            sigma_input = gr.Number(1e-6, label="Sigma Min",
                                   minimum=1e-7, maximum=1e-5, step=1e-7)

            # Batch sweep
            with gr.Accordion("Tùy chọn Batch Sweep", open=False):
                batch_chk   = gr.Checkbox(label="Kích hoạt Batch Sweep", value=False)
                batch_param = gr.Dropdown(choices=["Inference CFG Rate","Sigma Min"],
                                          label="Tham số thay đổi")
                batch_vals  = gr.Textbox(placeholder="ví dụ: 0.5,1.0,2.0",
                                         label="Giá trị phân cách dấu phẩy")

            run_btn = gr.Button("🚀 Chuyển giọng")

        with gr.Column():
            gr.Markdown("### Nhật ký")
            log_box = gr.Textbox(interactive=False, lines=12)
            gr.Markdown("### Kết quả")
            out_audio = gr.Audio(label="Âm thanh kết quả", type="filepath", visible=False)
            out_files = gr.Files(label="Tải xuống file đầu ra", visible=False)

    # Toggle SRT
    def toggle_srt(v):
        return (
            gr.update(visible=v),    # srt_file
            gr.update(visible=v),    # srt_voice
            gr.update(visible=v),    # srt_rate
            gr.update(visible=v),    # srt_vol
            gr.update(visible=not v),# use_edge
            gr.update(visible=not v),# edge_text
            gr.update(visible=not v),# edge_voice
            gr.update(visible=not v),# edge_rate
            gr.update(visible=not v),# edge_vol
            gr.update(visible=not v),# gen_edge_btn
            gr.update(visible=not v),# edge_audio
            gr.update(visible=not v) # src_audio
        )
    use_srt.change(
        fn=toggle_srt,
        inputs=[use_srt],
        outputs=[
            srt_file, srt_voice, srt_rate, srt_vol,
            use_edge, edge_text, edge_voice, edge_rate, edge_vol,
            gen_edge_btn, edge_audio, src_audio
        ]
    )

    # Toggle Edge TTS
    def toggle_edge(v):
        return (
            gr.update(visible=v),    # edge_text
            gr.update(visible=v),    # edge_voice
            gr.update(visible=v),    # edge_rate
            gr.update(visible=v),    # edge_vol
            gr.update(visible=v),    # gen_edge_btn
            gr.update(visible=v),    # edge_audio
            gr.update(visible=not v) # src_audio
        )
    use_edge.change(
        fn=toggle_edge,
        inputs=[use_edge],
        outputs=[edge_text, edge_voice, edge_rate, edge_vol, gen_edge_btn, edge_audio, src_audio]
    )

    # Sinh Edge TTS
    gen_edge_btn.click(
        fn=run_edge_tts,
        inputs=[edge_text, edge_voice, edge_rate, edge_vol],
        outputs=[edge_audio, src_audio]
    )

    # Chạy VC
    run_btn.click(
        fn=run_vc_from_srt_or_file,
        inputs=[
            use_srt, srt_file, srt_voice, srt_rate, srt_vol,
            edge_text, edge_voice, edge_rate, edge_vol,
            src_audio, tgt_audio,
            cfg_slider, sigma_input,
            batch_chk, batch_param, batch_vals
        ],
        outputs=[log_box, out_audio, out_files],
        show_progress="minimal"
    )

if __name__ == "__main__":
    demo.launch(share=True)