#!/usr/bin/env python3
"""Gradio interface to orchestrate the full ORD reaction training pipeline."""
import os
import sys
import shutil
import json
import time
import gradio as gr
import subprocess
import threading
from pathlib import Path
from datetime import datetime
from typing import List, Tuple

from huggingface_hub import login, hf_hub_download, HfApi, create_repo
from datasets import load_dataset, DatasetDict
from src.config import (
    FORWARD_DATASET_NAME,
    RETRO_DATASET_NAME,
    TOKENIZER_NAME,
    FORWARD_MODEL_NAME,
    RETRO_MODEL_NAME,
    STATE_REPO,
)

# -----------------------------------------------------------------------------
# Paths & configuration
# -----------------------------------------------------------------------------
HF_MODEL_TOKEN = os.environ.get("HF_MODEL_TOKEN") or os.environ.get("HF_TOKEN")

REPO_ROOT = Path(__file__).resolve().parent
SRC_DIR = REPO_ROOT / "src"
CACHE_DIR = REPO_ROOT / "cache"
HF_CACHE_DIR = REPO_ROOT / "hf_cache"
LOG_FILE = REPO_ROOT / "training.log"

FORWARD_CACHE_DIR = CACHE_DIR / "forward"
RETRO_CACHE_DIR = CACHE_DIR / "retro"
FORWARD_MODEL_DIR = REPO_ROOT / "forward_model"
RETRO_MODEL_DIR = REPO_ROOT / "retro_model"
TOKENIZER_FILE = REPO_ROOT / "tokenizer.json"

STATE_FILE = REPO_ROOT / "training_state.json"

# Ensure working directories exist
for path in (CACHE_DIR, HF_CACHE_DIR):
    path.mkdir(parents=True, exist_ok=True)

PHASES: List[Tuple[int, str, str]] = [
    (1, "Data Preparation (12-24 hours)", "dataset_prepare.py"),
    (2, "Tokenizer Training (~30 minutes)", "tokenizer_train.py"),
    (3, "Forward Model Training (4-8 hours)", "train_forward.py"),
    (4, "Retro Model Training (4-8 hours)", "train_retro.py"),
    (5, "Evaluation & Sample Inference (~10 minutes)", "evaluate.py"),
]

# -----------------------------------------------------------------------------
# Runtime status handling
# -----------------------------------------------------------------------------
training_status = {
    "running": False,
    "phase": "Idle",
    "progress": "Waiting to start...",
    "last_update": datetime.now(),
}

HF_API = HfApi(token=HF_MODEL_TOKEN)
WEIGHT_FILENAMES = {"pytorch_model.bin", "model.safetensors"}

def load_training_state() -> dict:
    if STATE_FILE.exists():
        try:
            with open(STATE_FILE, "r", encoding="utf-8") as f:
                return json.load(f)
        except Exception:
            pass
    if HF_MODEL_TOKEN:
        try:
            downloaded = hf_hub_download(
                repo_id=STATE_REPO,
                filename="training_state.json",
                repo_type="dataset",
                token=HF_MODEL_TOKEN,
            )
            shutil.copy(downloaded, STATE_FILE)
            with open(STATE_FILE, "r", encoding="utf-8") as f:
                return json.load(f)
        except Exception:
            return {}
    return {}


def save_training_state(state: dict):
    if not HF_MODEL_TOKEN:
        return
    STATE_FILE.write_text(json.dumps(state, indent=2), encoding="utf-8")
    try:
        create_repo(STATE_REPO, repo_type="dataset", exist_ok=True, token=HF_MODEL_TOKEN)
        HF_API.upload_file(
            path_or_fileobj=str(STATE_FILE),
            path_in_repo="training_state.json",
            repo_id=STATE_REPO,
            repo_type="dataset",
        )
    except Exception as exc:
        print(f"⚠️ Could not update training state repo: {exc}")


training_state = load_training_state()

def mark_phase_complete(phase_number: int):
    training_state[f"phase_{phase_number}"] = {
        "status": "complete",
        "timestamp": time.time(),
    }
    training_state["last_completed_phase"] = phase_number
    save_training_state(training_state)


def mark_phase_failed(phase_number: int, message: str):
    training_state[f"phase_{phase_number}"] = {
        "status": "failed",
        "timestamp": time.time(),
        "message": message,
    }
    save_training_state(training_state)


def _dir_has_arrow_files(path: Path) -> bool:
    return path.exists() and any(path.glob("*.arrow"))


def _ensure_clean_dir(path: Path):
    if path.exists():
        shutil.rmtree(path)
    path.mkdir(parents=True, exist_ok=True)


def _download_dataset(repo_id: str, target_dir: Path) -> bool:
    if (target_dir / "dataset_dict.json").exists() and _dir_has_arrow_files(target_dir):
        return True
    if not HF_MODEL_TOKEN:
        print(f"⚠️ Cannot download dataset {repo_id}: HF_MODEL_TOKEN not set.")
        return False
    try:
        print(f"⬇️ Loading dataset {repo_id} from Hugging Face Hub...")
        ds = load_dataset(repo_id)
        if not isinstance(ds, DatasetDict):
            ds = DatasetDict({k: v for k, v in ds.items()})
        _ensure_clean_dir(target_dir)
        ds.save_to_disk(str(target_dir))
        return (target_dir / "dataset_dict.json").exists() and _dir_has_arrow_files(target_dir)
    except Exception as exc:
        print(f"⚠️ Could not download dataset {repo_id}: {exc}")
        return False


def _download_tokenizer() -> bool:
    if TOKENIZER_FILE.exists():
        return True
    try:
        print("⬇️ Downloading tokenizer artifact...")
        hf_hub_download(
            repo_id=TOKENIZER_NAME,
            repo_type="model",
            filename="tokenizer.json",
            local_dir=str(REPO_ROOT),
            token=HF_MODEL_TOKEN,
            local_dir_use_symlinks=False,
        )
        return TOKENIZER_FILE.exists()
    except Exception as exc:
        print(f"⚠️ Could not download tokenizer: {exc}")
        return False


def _phase_completed(phase_number: int) -> bool:
    if phase_number == 1:
        if _dir_has_arrow_files(FORWARD_CACHE_DIR) and _dir_has_arrow_files(RETRO_CACHE_DIR):
            return True
        forward_ok = _download_dataset(FORWARD_DATASET_NAME, FORWARD_CACHE_DIR)
        retro_ok = _download_dataset(RETRO_DATASET_NAME, RETRO_CACHE_DIR)
        return forward_ok and retro_ok
    if phase_number == 2:
        if TOKENIZER_FILE.exists():
            return True
        try:
            HF_API.model_info(TOKENIZER_NAME)
            return _download_tokenizer()
        except Exception:
            return False
    if phase_number == 3:
        try:
            info = HF_API.model_info(FORWARD_MODEL_NAME)
            filenames = {s.rfilename for s in info.siblings}
            return bool(WEIGHT_FILENAMES & filenames)
        except Exception:
            return False
    if phase_number == 4:
        try:
            info = HF_API.model_info(RETRO_MODEL_NAME)
            filenames = {s.rfilename for s in info.siblings}
            return bool(WEIGHT_FILENAMES & filenames)
        except Exception:
            return False
    if phase_number == 5:
        return False
    return False


def _stream_process(command: List[str], env: dict, phase_label: str, log_handle) -> int:
    """Run a subprocess while streaming stdout to the log and status panel."""
    process = subprocess.Popen(
        command,
        stdout=subprocess.PIPE,
        stderr=subprocess.STDOUT,
        text=True,
        bufsize=1,
        cwd=REPO_ROOT,
        env=env,
    )

    try:
        for raw_line in iter(process.stdout.readline, ""):
            if not raw_line:
                continue

            log_handle.write(raw_line)
            log_handle.flush()

            # Echo to container stdout for real-time terminal visibility
            sys.stdout.write(raw_line)
            sys.stdout.flush()

            line = raw_line.strip()
            training_status["progress"] = f"[{phase_label}] {line}"[:240]
            training_status["last_update"] = datetime.now()
    finally:
        if process.stdout:
            process.stdout.close()

    return process.wait()


# -----------------------------------------------------------------------------
# Helpers exposed to UI
# -----------------------------------------------------------------------------
def get_log_content() -> str:
    """Read the tail of the training log for display."""
    if LOG_FILE.exists():
        try:
            with open(LOG_FILE, "r", encoding="utf-8", errors="replace") as f:
                content = f.read()
                return content[-4000:] if len(content) > 4000 else content
        except Exception as exc:  # pragma: no cover - best effort logging
            return f"Error reading log file: {exc}"
    return "Logs will appear here once the pipeline starts."


def reset_training():
    """Reset status and clear log file."""
    if training_status.get("running"):
        return "⚠️ Training in progress. Wait for completion before resetting."

    training_status.update({
        "running": False,
        "phase": "Idle",
        "progress": "Reset complete. Ready to start again.",
        "last_update": datetime.now(),
    })

    if LOG_FILE.exists():
        LOG_FILE.unlink()
    return get_status()


def start_training(start_option: str):
    """Kick off the full multi-phase training pipeline in a background thread."""
    if training_status["running"]:
        return "⚠️ Training already running. Use the refresh button to see live updates."

    if not HF_MODEL_TOKEN:
        return "❌ HF_MODEL_TOKEN not found. Please add it to your Space secrets."

    option = start_option or "Auto (skip completed phases)"
    skip_completed = option.startswith("Auto")
    if option.startswith("Auto"):
        start_from = max(1, training_state.get("last_completed_phase", 0) + 1)
    else:
        start_from = 1
    if option.startswith("Start from Phase"):
        try:
            start_from = int(option.split()[3])
        except Exception:
            start_from = 1
        skip_completed = False

    def run_pipeline():
        env = os.environ.copy()
        env.update(
            {
                "HF_MODEL_TOKEN": HF_MODEL_TOKEN,
                "HF_TOKEN": HF_MODEL_TOKEN,
                "HUGGING_FACE_HUB_TOKEN": HF_MODEL_TOKEN,
                "HF_HOME": str(HF_CACHE_DIR),
                "TRANSFORMERS_CACHE": str(HF_CACHE_DIR),
                "HF_DATASETS_CACHE": str(HF_CACHE_DIR / "datasets"),
                "ORD_PROJECT_ROOT": str(REPO_ROOT),
            }
        )

        CACHE_DIR.mkdir(parents=True, exist_ok=True)
        (HF_CACHE_DIR / "datasets").mkdir(parents=True, exist_ok=True)

        # Authenticate with Hugging Face Hub once up front
        try:
            print("🔐 Logging into Hugging Face Hub...")
            login(token=HF_MODEL_TOKEN, add_to_git_credential=False)
            print("✅ Authenticated with Hugging Face Hub")
        except Exception as exc:
            print(f"⚠️ Login warning: {exc}")

        training_status.update(
            {
                "running": True,
                "phase": "Initializing pipeline...",
                "progress": f"Starting from phase {start_from} ({option})",
            }
        )

        success = True
        try:
            with open(LOG_FILE, "w", encoding="utf-8") as log_f:
                log_f.write("=" * 72 + "\n")
                log_f.write("ORD Reaction Translator - Full Training Pipeline\n")
                log_f.write("=" * 72 + "\n\n")
                log_f.flush()

                for phase_number, phase_label, script_name in PHASES:
                    script_path = SRC_DIR / script_name
                    phase_complete = _phase_completed(phase_number)

                    if phase_number < start_from and phase_complete:
                        skip_msg = (
                            f"⏭️ Skipping Phase {phase_number}: {phase_label} (start phase = {start_from})\n"
                        )
                        log_f.write(skip_msg)
                        log_f.flush()
                        if training_state.get(f"phase_{phase_number}", {}).get("status") != "complete":
                            mark_phase_complete(phase_number)
                        continue

                    if phase_number < start_from and not phase_complete:
                        warn_msg = (
                            f"⚠️ Phase {phase_number} artifacts missing. Running {phase_label} even though"
                            f" start phase is {start_from}.\n"
                        )
                        log_f.write(warn_msg)
                        log_f.flush()

                    if skip_completed and phase_complete and phase_number >= start_from:
                        skip_msg = f"⏭️ Phase {phase_number} already completed. Skipping {phase_label}.\n"
                        log_f.write(skip_msg)
                        log_f.flush()
                        training_status["phase"] = f"PHASE {phase_number}: {phase_label}"
                        training_status["progress"] = "Already complete—skipping."
                        if training_state.get(f"phase_{phase_number}", {}).get("status") != "complete":
                            mark_phase_complete(phase_number)
                        continue

                    if not script_path.exists():
                        message = f"Missing script: {script_name}"
                        training_status["progress"] = f"❌ {message}"
                        mark_phase_failed(phase_number, message)
                        success = False
                        break

                    if phase_number == 5 and not (_phase_completed(3) and _phase_completed(4)):
                        msg = (
                            "⚠️ Skipping evaluation: forward and retro models are not yet available on the Hub."
                            " Complete Phases 3 and 4 before running evaluation.\n"
                        )
                        log_f.write(msg)
                        log_f.flush()
                        training_status["phase"] = f"PHASE {phase_number}: {phase_label}"
                        training_status["progress"] = "Skipped evaluation—models missing."
                        mark_phase_failed(phase_number, "Models missing for evaluation")
                        continue

                    phase_header = f"--- Phase {phase_number}: {phase_label} ---\n"
                    log_f.write(phase_header)
                    log_f.flush()

                    training_status["phase"] = f"PHASE {phase_number}: {phase_label}"
                    training_status["progress"] = "Starting..."
                    return_code = _stream_process(
                        [sys.executable, str(script_path)], env, f"PHASE {phase_number}", log_f
                    )

                    if return_code != 0:
                        message = (
                            f"{phase_label} failed (exit code {return_code}). Check the logs above."
                        )
                        training_status["progress"] = f"❌ {message}"
                        mark_phase_failed(phase_number, message)
                        success = False
                        break

                    training_status["progress"] = f"✅ {phase_label} completed."
                    mark_phase_complete(phase_number)

        except Exception as exc:  # pragma: no cover - defensive logging
            success = False
            training_status["progress"] = f"❌ Pipeline crashed: {exc}"
        finally:
            training_status["running"] = False
            training_status["last_update"] = datetime.now()

        if success:
            training_status.update(
                {
                    "phase": "Completed ✅",
                    "progress": "Full pipeline finished. Models and tokenizer pushed to Hugging Face Hub.",
                }
            )
        else:
            if "phase" not in training_status or "PHASE" not in training_status["phase"]:
                training_status["phase"] = "Stopped"

    thread = threading.Thread(target=run_pipeline, daemon=False)
    thread.start()

    return get_status()


def get_status() -> str:
    """Get the current training status and log content."""
    log = get_log_content()
    
    return f"""
**Phase:** {training_status['phase']}
**Status:** {'Running ⏳' if training_status['running'] else 'Ready ✅'}
**Progress:** {training_status['progress']}

---

## 📋 Real-time Logs:

```
{log}
```
"""

# Create UI
with gr.Blocks(title="ORD Training") as demo:
    gr.Markdown("# 🧪 ORD Reaction Training Pipeline")
    gr.Markdown("Train AI models on 2.4M chemical reactions from Open Reaction Database")
    
    phase_selector = gr.Dropdown(
        label="Resume / start phase",
        choices=[
            "Auto (skip completed phases)",
            "Start from Phase 1",
            "Start from Phase 2",
            "Start from Phase 3",
            "Start from Phase 4",
            "Start from Phase 5",
        ],
        value="Auto (skip completed phases)",
    )
    
    with gr.Row():
        start_btn = gr.Button("🚀 Start Training", variant="primary", size="lg")
        refresh_btn = gr.Button("🔄 Refresh Logs", variant="secondary", size="lg")
        reset_btn = gr.Button("🔧 Reset", size="lg")
    
    gr.Markdown("### 📊 Status & Real-Time Logs")
    status_box = gr.Markdown()
    
    # Event handlers
    start_btn.click(start_training, inputs=phase_selector, outputs=status_box).then(get_status, outputs=status_box)
    refresh_btn.click(get_status, outputs=status_box)
    reset_btn.click(reset_training, outputs=status_box)
    
    demo.load(get_status, outputs=status_box)

if __name__ == "__main__":
    demo.launch()