File size: 35,000 Bytes

"""
AramT5 Curriculum Learning Trainer

Features:
- Curriculum learning: short → long sequences
- Catastrophic forgetting mitigation: mixes short examples into later stages
- Character Error Rate (CER) evaluation for transliteration quality
- Early stopping based on validation loss improvement threshold
"""

import argparse
import subprocess
import sys
from pathlib import Path

import numpy as np
import torch
from datasets import concatenate_datasets, load_dataset
from transformers import (DataCollatorForSeq2Seq, EarlyStoppingCallback,
                          Seq2SeqTrainer, Seq2SeqTrainingArguments, T5Config,
                          T5ForConditionalGeneration, T5TokenizerFast)

# =============================================================================
# Configuration
# =============================================================================

# Resolve paths relative to project root (parent of src/)
_PROJECT_ROOT = Path(__file__).resolve().parent.parent

# Default paths (relative to project root)
# Use balanced corpus: 40% single, 30% two-word, 30% multi-word
# (augmented corpus was 98.5% single, causing truncated multi-word outputs)
DEFAULT_WEST_DATA = str(_PROJECT_ROOT / "src/data/syriac_west_balanced_corpus.jsonl")
DEFAULT_EAST_DATA = str(_PROJECT_ROOT / "src/data/syriac_east_balanced_corpus.jsonl")
# Source files for balancing (input to balance_corpus.py)
AUGMENTED_WEST_DATA = _PROJECT_ROOT / "src/data/syriac_west_augmented_corpus.jsonl"
AUGMENTED_EAST_DATA = _PROJECT_ROOT / "src/data/syriac_east_augmented_corpus.jsonl"
# Source files for augmentation (input to augment_atomic_tokens.py)
CLEAN_WEST_DATA = _PROJECT_ROOT / "src/data/syriac_west_clean_corpus.jsonl"
CLEAN_EAST_DATA = _PROJECT_ROOT / "src/data/syriac_east_clean_corpus.jsonl"
DEFAULT_TOKENISER = str(_PROJECT_ROOT / "src/tokeniser")
DEFAULT_OUTPUT_DIR = str(_PROJECT_ROOT / "checkpoints")


def ensure_augmented_corpus():
    """
    Ensure augmented corpus files exist.

    If augmented corpus is missing or older than clean corpus,
    regenerate it by running augment_atomic_tokens.py.
    """
    needs_augment = False

    # Check if augmented files exist
    if not AUGMENTED_WEST_DATA.exists() or not AUGMENTED_EAST_DATA.exists():
        print("Augmented corpus not found, will generate...")
        needs_augment = True
    else:
        # Check if clean files are newer (source changed)
        if CLEAN_WEST_DATA.exists():
            if CLEAN_WEST_DATA.stat().st_mtime > AUGMENTED_WEST_DATA.stat().st_mtime:
                print("Clean corpus is newer than augmented corpus, regenerating...")
                needs_augment = True
        if CLEAN_EAST_DATA.exists():
            if CLEAN_EAST_DATA.stat().st_mtime > AUGMENTED_EAST_DATA.stat().st_mtime:
                print("Clean corpus is newer than augmented corpus, regenerating...")
                needs_augment = True

    if needs_augment:
        augment_script = _PROJECT_ROOT / "src/data/augment_atomic_tokens.py"
        if not augment_script.exists():
            raise FileNotFoundError(
                f"Cannot regenerate augmented corpus: {augment_script} not found"
            )

        print("Running augment_atomic_tokens.py to generate augmented training data...")
        result = subprocess.run(
            [sys.executable, str(augment_script)],
            cwd=str(_PROJECT_ROOT),
            capture_output=True,
            text=True,
        )

        if result.returncode != 0:
            print(f"Error running augment_atomic_tokens.py:\n{result.stderr}")
            raise RuntimeError("Failed to generate augmented corpus")

        print(result.stdout)
        print("Augmented corpus generated successfully.")
    else:
        print("Augmented corpus is up-to-date.")


def ensure_balanced_corpus():
    """
    Ensure balanced corpus files exist.

    Pipeline: clean_corpus -> augmented_corpus -> balanced_corpus

    If balanced corpus is missing or older than augmented corpus,
    regenerate it by running balance_corpus.py.
    """
    # First ensure augmented corpus exists (upstream dependency)
    ensure_augmented_corpus()

    west_balanced = Path(DEFAULT_WEST_DATA)
    east_balanced = Path(DEFAULT_EAST_DATA)

    needs_rebalance = False

    # Check if balanced files exist
    if not west_balanced.exists() or not east_balanced.exists():
        print("Balanced corpus not found, will generate...")
        needs_rebalance = True
    else:
        # Check if augmented files are newer (source changed)
        if AUGMENTED_WEST_DATA.exists():
            if AUGMENTED_WEST_DATA.stat().st_mtime > west_balanced.stat().st_mtime:
                print("Augmented corpus is newer than balanced corpus, regenerating...")
                needs_rebalance = True
        if AUGMENTED_EAST_DATA.exists():
            if AUGMENTED_EAST_DATA.stat().st_mtime > east_balanced.stat().st_mtime:
                print("Augmented corpus is newer than balanced corpus, regenerating...")
                needs_rebalance = True

    if needs_rebalance:
        balance_script = _PROJECT_ROOT / "src/data/balance_corpus.py"
        if not balance_script.exists():
            raise FileNotFoundError(
                f"Cannot regenerate balanced corpus: {balance_script} not found"
            )

        print("Running balance_corpus.py to generate balanced training data...")
        result = subprocess.run(
            [sys.executable, str(balance_script)],
            cwd=str(_PROJECT_ROOT),
            capture_output=True,
            text=True,
        )

        if result.returncode != 0:
            print(f"Error running balance_corpus.py:\n{result.stderr}")
            raise RuntimeError("Failed to generate balanced corpus")

        print(result.stdout)
        print("Balanced corpus generated successfully.")
    else:
        print("Balanced corpus is up-to-date.")


# Curriculum learning stage configurations
STAGE_CONFIGS = {
    1: {
        "description": "Baseline: short sequences only",
        "num_samples": 20_000,
        "max_src_length": 15,  # Characters in source (short words)
        "short_mix_ratio": 0.0,  # No mixing needed in stage 1
        "num_epochs": 30,
        "learning_rate": 3e-4,
    },
    2: {
        "description": "Expansion: short phrases",
        "num_samples": 40_000,
        "max_src_length": 30,
        "short_mix_ratio": 0.12,  # 12% short examples from previous stages
        "short_threshold": 15,  # ≤15 chars (Stage 1)
        "new_range_ratio": 0.50,  # 50% from new range (16-30 chars)
        "new_range_min": 16,
        "num_epochs": 20,
        "learning_rate": 1.2e-4,
    },
    3: {
        "description": "Expansion: medium phrases",
        "num_samples": 60_000,
        "max_src_length": 50,
        "short_mix_ratio": 0.12,  # 12% short examples from previous stages
        "short_threshold": 30,  # ≤30 chars (Stage 1+2)
        "new_range_ratio": 0.50,  # 50% from new range (31-50 chars)
        "new_range_min": 31,
        "num_epochs": 20,
        "learning_rate": 1e-4,
    },
    4: {
        "description": "Extension: longer phrases",
        "num_samples": 120_000,  # Increased to better learn multi-word patterns
        "max_src_length": 70,
        "short_mix_ratio": 0.18,  # 18% short examples from previous stages (boosted for retention)
        "short_threshold": 50,  # ≤50 chars (Stage 1+2+3)
        "new_range_ratio": 0.45,  # 45% from new range (51-70 chars)
        "new_range_min": 51,
        "num_epochs": 10,
        "learning_rate": 8e-5,  # Higher LR to unlearn early-stopping bias from imbalanced data
    },
    5: {
        "description": "Extension: longer sentences",
        "num_samples": 150_000,  # Increased to better learn multi-word patterns
        "max_src_length": 100,
        "short_mix_ratio": 0.18,  # 18% short examples from previous stages (boosted for retention)
        "short_threshold": 70,  # ≤70 chars (Stage 1+2+3+4)
        "new_range_ratio": 0.45,  # 45% from new range (71-100 chars)
        "new_range_min": 71,
        "num_epochs": 10,
        "learning_rate": 5e-5,  # Slightly higher to reinforce multi-word patterns
        "repetition_penalty": 1.2,
    },
    6: {
        "description": "Full practical corpus: sentences and short paragraphs",
        "num_samples": 180_000,  # Increased to better learn multi-word patterns
        "max_src_length": 150,
        "short_mix_ratio": 0.20,  # 20% short examples from previous stages (highest retention)
        "short_threshold": 100,  # ≤100 chars (Stage 1+2+3+4+5)
        "new_range_ratio": 0.40,  # 40% from new range (101-150 chars)
        "new_range_min": 101,
        "num_epochs": 10,
        "learning_rate": 4e-5,  # Fine-tuning polish
        "repetition_penalty": 1.2,
    },
}

# Early stopping config
EARLY_STOPPING_PATIENCE = 3
EARLY_STOPPING_THRESHOLD = 0.005  # 0.5% improvement threshold


def parse_args():
    parser = argparse.ArgumentParser(description="AramT5 Curriculum Learning Trainer")
    parser.add_argument(
        "--stage",
        type=int,
        default=1,
        choices=[1, 2, 3, 4, 5, 6],
        help="Training stage (1=baseline, 2=medium-long, 3=expansion, 4=extension, 5=longer sentences, 6=full practical)",
    )
    parser.add_argument(
        "--hf-model",
        type=str,
        default=None,
        help="HuggingFace model ID to fine-tune (required for stage 2+)",
    )
    parser.add_argument(
        "--west-data",
        type=str,
        default=DEFAULT_WEST_DATA,
        help="Path to West Syriac corpus",
    )
    parser.add_argument(
        "--east-data",
        type=str,
        default=DEFAULT_EAST_DATA,
        help="Path to East Syriac corpus",
    )
    parser.add_argument(
        "--tokeniser",
        type=str,
        default=DEFAULT_TOKENISER,
        help="Path to tokeniser",
    )
    parser.add_argument(
        "--output-dir",
        type=str,
        default=DEFAULT_OUTPUT_DIR,
        help="Output directory for checkpoints",
    )
    parser.add_argument(
        "--batch-size",
        type=int,
        default=16,
        help="Per-device batch size",
    )
    parser.add_argument(
        "--no-early-stopping",
        action="store_true",
        help="Disable early stopping",
    )
    parser.add_argument(
        "--resume",
        type=str,
        nargs="?",
        const="auto",
        default=None,
        help="Resume from checkpoint. Use --resume for auto-detect or --resume path/to/checkpoint",
    )
    return parser.parse_args()


# =============================================================================
# Model Loading
# =============================================================================


def load_model_and_tokeniser(
    stage: int = 1,
    hf_model: str | None = None,
    tokeniser_path: str = DEFAULT_TOKENISER,
):
    """
    Load model and tokeniser based on training stage.

    Args:
        stage: Training stage (1=baseline, 2+=fine-tune from HF)
        hf_model: HuggingFace model ID (required for stage 2+)
        tokeniser_path: Path to local tokeniser directory

    Returns:
        Tuple of (model, tokeniser)
    """
    tokeniser = T5TokenizerFast.from_pretrained(tokeniser_path)
    vocab_size = tokeniser.vocab_size
    pad_token_id = tokeniser.pad_token_id

    if stage == 1:
        # Stage 1: Initialise from scratch with custom config
        print("Stage 1: Initialising new model from scratch...")
        config = T5Config(
            vocab_size=vocab_size,
            d_model=512,
            d_ff=2048,
            num_layers=6,
            num_heads=8,
            pad_token_id=pad_token_id,
            decoder_start_token_id=pad_token_id,
            tie_word_embeddings=True,
        )
        model = T5ForConditionalGeneration(config)
    else:
        # Stage 2+: Load from HuggingFace
        if not hf_model:
            raise ValueError(f"Stage {stage} requires --hf-model argument")
        print(f"Stage {stage}: Loading model from HuggingFace: {hf_model}")
        model = T5ForConditionalGeneration.from_pretrained(hf_model)

    return model, tokeniser


# =============================================================================
# Data Processing
# =============================================================================


def get_src_length(example):
    """Extract source text length for curriculum sorting."""
    return len(example["transliteration"]["src"])


def create_tokenise_function(tokeniser):
    """Create tokenisation function with closure over tokeniser."""
    pad_token_id = tokeniser.pad_token_id

    def tokenise_function(example: dict) -> dict:
        """
        Tokenise input data with dialect-aware task prefix.

        Task prefixes:
        - "Syriac2WestLatin: " for West Syriac (Serto)
        - "Syriac2EastLatin: " for East Syriac (Madnḥaya)
        """
        inputs = []
        targets = []

        for item in example["transliteration"]:
            dialect = item.get("dialect", "west")
            if dialect == "east":
                prefix = "Syriac2EastLatin: "
            else:
                prefix = "Syriac2WestLatin: "

            inputs.append(f"{prefix}{item['src']}")
            targets.append(item["tgt"])

        model_inputs = tokeniser(
            inputs, max_length=256, truncation=True, padding="max_length"
        )
        labels = tokeniser(
            targets, max_length=256, truncation=True, padding="max_length"
        )["input_ids"]

        # Replace padding token id with -100 so it's ignored in loss computation
        labels = [
            [(token if token != pad_token_id else -100) for token in label]
            for label in labels
        ]
        model_inputs["labels"] = labels

        return model_inputs

    return tokenise_function


def load_and_prepare_data(
    stage_config: dict,
    stage: int = 1,
    west_data: str = DEFAULT_WEST_DATA,
    east_data: str = DEFAULT_EAST_DATA,
):
    """
    Load and prepare data according to curriculum learning stage.

    Args:
        stage_config: Configuration dict for the current stage
        stage: Training stage number (for logging and mixing logic)
        west_data: Path to West Syriac corpus JSONL file
        east_data: Path to East Syriac corpus JSONL file

    Returns:
        Tuple of (train_dataset, val_dataset) filtered by sequence length.
    """
    print(f"\n{'=' * 60}")
    print(f"Stage {stage}: {stage_config['description']}")
    print(f"{'=' * 60}\n")

    # Load both dialect corpora
    print("Loading West Syriac corpus...")
    west_dataset = load_dataset("json", data_files=west_data, split="train")
    print(f"  Loaded {len(west_dataset)} examples")

    print("Loading East Syriac corpus...")
    east_dataset = load_dataset("json", data_files=east_data, split="train")
    print(f"  Loaded {len(east_dataset)} examples")

    # Combine datasets
    full_dataset = concatenate_datasets([west_dataset, east_dataset])
    print(f"Total combined: {len(full_dataset)} examples")

    # Add source length column for filtering/sorting
    full_dataset = full_dataset.map(
        lambda x: {"src_length": get_src_length(x)}, num_proc=4
    )

    # Sort by length (curriculum: short → long)
    full_dataset = full_dataset.sort("src_length")

    # Apply length filter if specified
    max_len = stage_config["max_src_length"]
    if max_len is not None:
        print(f"\nFiltering to sequences with src_length <= {max_len} characters...")
        filtered_dataset = full_dataset.filter(lambda x: x["src_length"] <= max_len)
        print(f"  After filtering: {len(filtered_dataset)} examples")
    else:
        filtered_dataset = full_dataset
        print("\nNo length filter applied (using all sequences)")

    # Sample to target size
    num_samples = min(stage_config["num_samples"], len(filtered_dataset))
    print(f"\nSampling {num_samples} examples for training...")

    # For stages 2+, mix in some short examples to prevent catastrophic forgetting
    short_mix_ratio = stage_config["short_mix_ratio"]
    middle_oversample = stage_config.get("middle_oversample", False)

    if middle_oversample:
        # Stage 4 special handling: oversample the rare 15-100 char range
        # to build bridge competence before full corpus
        num_short = int(num_samples * short_mix_ratio)
        num_middle = int(num_samples * 0.40)  # 40% from middle range (15-100)
        num_main = num_samples - num_short - num_middle

        # Short examples (≤15 chars = Stage 1 range) for forgetting mitigation
        short_threshold = 15
        short_examples = full_dataset.filter(
            lambda x: x["src_length"] <= short_threshold
        )
        short_examples = short_examples.shuffle(seed=42).select(
            range(min(num_short, len(short_examples)))
        )
        print(f"  Short examples (≤{short_threshold} chars): {len(short_examples)}")

        # Middle-range examples (15-100 chars) - oversample these rare sequences
        middle_examples = filtered_dataset.filter(lambda x: 15 < x["src_length"] <= 100)
        # Repeat/oversample if needed since these are scarce
        if len(middle_examples) < num_middle:
            # Repeat the middle examples to reach target
            repeats_needed = (num_middle // len(middle_examples)) + 1
            middle_repeated = concatenate_datasets([middle_examples] * repeats_needed)
            middle_examples = middle_repeated.shuffle(seed=42).select(range(num_middle))
            print(
                f"  Middle-range examples (15-100 chars, oversampled): {len(middle_examples)}"
            )
        else:
            middle_examples = middle_examples.shuffle(seed=42).select(range(num_middle))
            print(f"  Middle-range examples (15-100 chars): {len(middle_examples)}")

        # Main examples from full filtered set
        main_examples = filtered_dataset.shuffle(seed=43).select(
            range(min(num_main, len(filtered_dataset)))
        )
        print(f"  Main examples: {len(main_examples)}")

        # Combine and shuffle
        sampled_dataset = concatenate_datasets(
            [short_examples, middle_examples, main_examples]
        )
        sampled_dataset = sampled_dataset.shuffle(seed=42)

    elif short_mix_ratio > 0 and stage > 1:
        # Stratified sampling: ensure we get examples from the NEW length range
        new_range_ratio = stage_config.get("new_range_ratio", 0)
        new_range_min = stage_config.get("new_range_min", 0)

        num_short = int(num_samples * short_mix_ratio)

        if new_range_ratio > 0 and new_range_min > 0:
            # Stratified: short + new_range + remainder
            num_new_range = int(num_samples * new_range_ratio)
            num_remainder = num_samples - num_short - num_new_range

            # Short examples = everything from previous stages (for forgetting mitigation)
            short_threshold = stage_config.get("short_threshold", 15)
            short_examples = full_dataset.filter(
                lambda x, thresh=short_threshold: x["src_length"] <= thresh
            )
            short_examples = short_examples.shuffle(seed=42).select(
                range(min(num_short, len(short_examples)))
            )
            print(
                f"  Short examples (≤{short_threshold} chars, previous stages): {len(short_examples)}"
            )

            # New range examples - these are what the model needs to learn
            new_range_examples = filtered_dataset.filter(
                lambda x, min_len=new_range_min: x["src_length"] >= min_len
            )
            print(
                f"  New range pool ({new_range_min}-{max_len} chars): {len(new_range_examples)} available"
            )

            # Oversample if needed (these are scarce!)
            if len(new_range_examples) < num_new_range:
                if len(new_range_examples) > 0:
                    repeats_needed = (num_new_range // len(new_range_examples)) + 1
                    new_range_repeated = concatenate_datasets(
                        [new_range_examples] * repeats_needed
                    )
                    new_range_examples = new_range_repeated.shuffle(seed=42).select(
                        range(num_new_range)
                    )
                    print(
                        f"  New range examples (oversampled {repeats_needed}x): {len(new_range_examples)}"
                    )
                else:
                    print(f"  WARNING: No examples in new range!")
                    new_range_examples = full_dataset.filter(lambda x: False)  # empty
            else:
                new_range_examples = new_range_examples.shuffle(seed=42).select(
                    range(num_new_range)
                )
                print(f"  New range examples: {len(new_range_examples)}")

            # Remainder from full filtered set (includes all lengths up to max)
            remainder_examples = filtered_dataset.shuffle(seed=43).select(
                range(min(num_remainder, len(filtered_dataset)))
            )
            print(f"  Remainder examples: {len(remainder_examples)}")

            # Combine and shuffle
            sampled_dataset = concatenate_datasets(
                [short_examples, new_range_examples, remainder_examples]
            )
            sampled_dataset = sampled_dataset.shuffle(seed=42)
        else:
            # Original logic: just short + main
            num_main = num_samples - num_short

            # Get short examples = everything from previous stages
            short_threshold = stage_config.get("short_threshold", 15)
            short_examples = full_dataset.filter(
                lambda x, thresh=short_threshold: x["src_length"] <= thresh
            )
            short_examples = short_examples.shuffle(seed=42).select(
                range(min(num_short, len(short_examples)))
            )
            print(
                f"  Short examples (≤{short_threshold} chars, previous stages): {len(short_examples)}"
            )

            # Get main examples from filtered dataset
            # Apply minimum length filter for main examples in later stages
            min_len = stage_config.get("min_src_length", 0)
            if min_len > 0:
                main_pool = filtered_dataset.filter(
                    lambda x: x["src_length"] >= min_len
                )
                print(
                    f"  Main pool after min_length={min_len} filter: {len(main_pool)} examples"
                )
            else:
                main_pool = filtered_dataset

            main_examples = main_pool.shuffle(seed=42).select(
                range(min(num_main, len(main_pool)))
            )
            print(f"  Main examples: {len(main_examples)}")

            # Combine and shuffle
            sampled_dataset = concatenate_datasets([short_examples, main_examples])
            sampled_dataset = sampled_dataset.shuffle(seed=42)
    else:
        sampled_dataset = filtered_dataset.shuffle(seed=42).select(range(num_samples))

    print(f"  Final training pool: {len(sampled_dataset)} examples")

    # Split into train/validation (90/10 for stages 4-5, 80/20 for earlier stages)
    val_ratio = 0.1 if stage >= 4 else 0.2
    dataset_split = sampled_dataset.train_test_split(test_size=val_ratio, seed=42)
    train_dataset = dataset_split["train"]
    val_dataset = dataset_split["test"]

    print(f"\nTrain set: {len(train_dataset)} examples")
    print(f"Validation set: {len(val_dataset)} examples")

    # Report length statistics
    train_lengths = train_dataset["src_length"]
    print(f"\nSource length statistics (train):")
    print(f"  Min: {min(train_lengths)}, Max: {max(train_lengths)}")
    print(
        f"  Mean: {np.mean(train_lengths):.1f}, Median: {np.median(train_lengths):.1f}"
    )

    return train_dataset, val_dataset


# =============================================================================
# Evaluation Metrics
# =============================================================================


def compute_cer(pred_str: str, target_str: str) -> float:
    """
    Compute Character Error Rate between prediction and target.

    CER = (substitutions + insertions + deletions) / len(target)
    Uses edit distance (Levenshtein distance).
    """
    if len(target_str) == 0:
        return 0.0 if len(pred_str) == 0 else 1.0

    # Simple Levenshtein distance implementation
    m, n = len(pred_str), len(target_str)
    dp = [[0] * (n + 1) for _ in range(m + 1)]

    for i in range(m + 1):
        dp[i][0] = i
    for j in range(n + 1):
        dp[0][j] = j

    for i in range(1, m + 1):
        for j in range(1, n + 1):
            if pred_str[i - 1] == target_str[j - 1]:
                dp[i][j] = dp[i - 1][j - 1]
            else:
                dp[i][j] = 1 + min(dp[i - 1][j], dp[i][j - 1], dp[i - 1][j - 1])

    return dp[m][n] / len(target_str)


def create_compute_metrics(tokeniser):
    """Create metrics computation function with closure over tokeniser."""
    sample_count = [0]  # Mutable counter for periodic logging

    def compute_metrics(eval_preds):
        """Compute CER and exact match accuracy for evaluation."""
        preds, labels = eval_preds

        # Replace -100 with pad token for decoding
        labels = np.where(labels != -100, labels, tokeniser.pad_token_id)
        preds = np.where(preds != -100, preds, tokeniser.pad_token_id)

        # Decode to strings
        pred_strs = tokeniser.batch_decode(preds, skip_special_tokens=True)
        label_strs = tokeniser.batch_decode(labels, skip_special_tokens=True)

        # Log sample predictions periodically for debugging
        sample_count[0] += 1
        if sample_count[0] % 2 == 1:  # Every other eval
            print("\n--- Sample predictions (first 5) ---")
            for i in range(min(5, len(pred_strs))):
                print(f"  Target: '{label_strs[i]}'")
                print(f"  Pred:   '{pred_strs[i]}'")
                print(f"  CER:    {compute_cer(pred_strs[i], label_strs[i]):.3f}")
                print()

        # Compute metrics
        cer_scores = [
            compute_cer(pred, target) for pred, target in zip(pred_strs, label_strs)
        ]
        exact_matches = [
            1.0 if pred.strip() == target.strip() else 0.0
            for pred, target in zip(pred_strs, label_strs)
        ]

        # Log length statistics
        pred_lens = [len(p) for p in pred_strs]
        label_lens = [len(l) for l in label_strs]
        print(
            f"  Avg pred len: {np.mean(pred_lens):.1f}, Avg label len: {np.mean(label_lens):.1f}"
        )

        # Compute length ratio penalty (penalise under-generation)
        # Ratio < 1 means output is shorter than target
        length_ratios = [
            len(pred) / max(len(target), 1)
            for pred, target in zip(pred_strs, label_strs)
        ]
        # Penalty: how much shorter outputs are on average (0 = perfect, higher = worse)
        # Only penalise under-generation (ratio < 1), not over-generation
        length_penalties = [max(0, 1 - ratio) for ratio in length_ratios]
        avg_length_penalty = np.mean(length_penalties)
        avg_length_ratio = np.mean(length_ratios)
        print(
            f"  Avg length ratio: {avg_length_ratio:.3f}, Avg length penalty: {avg_length_penalty:.3f}"
        )

        return {
            "cer": np.mean(cer_scores),
            "exact_match": np.mean(exact_matches),
            "length_ratio": avg_length_ratio,
            "length_penalty": avg_length_penalty,
        }

    return compute_metrics


# =============================================================================
# Training
# =============================================================================


def train(args):
    """Main training function implementing curriculum learning."""
    # Ensure balanced corpus exists (auto-regenerate if needed)
    ensure_balanced_corpus()

    stage_config = STAGE_CONFIGS[args.stage]

    # Load model and tokeniser
    model, tokeniser = load_model_and_tokeniser(
        stage=args.stage,
        hf_model=args.hf_model,
        tokeniser_path=args.tokeniser,
    )

    # Enable gradient checkpointing to save memory
    model.gradient_checkpointing_enable()

    # Load and prepare data
    train_dataset, val_dataset = load_and_prepare_data(
        stage_config=stage_config,
        stage=args.stage,
        west_data=args.west_data,
        east_data=args.east_data,
    )

    # Tokenise datasets
    tokenise_fn = create_tokenise_function(tokeniser)
    tokenised_train = train_dataset.map(
        tokenise_fn,
        batched=True,
        remove_columns=train_dataset.column_names,
        desc="Tokenising train set",
    )
    tokenised_eval = val_dataset.map(
        tokenise_fn,
        batched=True,
        remove_columns=val_dataset.column_names,
        desc="Tokenising eval set",
    )

    # Data collator
    data_collator = DataCollatorForSeq2Seq(tokenizer=tokeniser, model=model)

    # Training arguments
    # Stage-specific hyperparameters for better early learning
    grad_accum = 4 if args.stage <= 2 else 8  # Smaller effective batch for early stages
    label_smooth = 0.05 if args.stage == 1 else (0.08 if args.stage <= 3 else 0.1)
    warmup = 0.10 if args.stage == 1 else 0.06  # More warmup for training from scratch

    training_args = Seq2SeqTrainingArguments(
        output_dir=args.output_dir,
        overwrite_output_dir=True,
        num_train_epochs=stage_config["num_epochs"],
        per_device_train_batch_size=args.batch_size,
        per_device_eval_batch_size=args.batch_size,
        gradient_accumulation_steps=grad_accum,
        learning_rate=stage_config["learning_rate"],
        warmup_ratio=warmup,
        weight_decay=0.01,
        label_smoothing_factor=label_smooth,
        save_strategy="epoch",
        save_total_limit=3,
        eval_strategy="epoch",
        logging_dir="logs",
        fp16=torch.cuda.is_available(),
        load_best_model_at_end=True,
        metric_for_best_model="eval_loss",
        greater_is_better=False,
        report_to="none",
        predict_with_generate=True,
        generation_max_length=256,  # Generous headroom for all stages
    )

    # Configure generation settings
    # max_length is total sequence length - set high to avoid truncation
    model.generation_config.max_length = 256
    # Don't use no_repeat_ngram_size - it blocks valid Syriac patterns
    # Don't use repetition_penalty - transliteration has legitimate repetition
    model.generation_config.eos_token_id = tokeniser.eos_token_id
    model.generation_config.pad_token_id = tokeniser.pad_token_id
    # Minimum length and length_penalty to discourage under-generation
    # Applied to ALL stages with progressive values
    model.generation_config.min_length = 2 if args.stage < 5 else 3
    # Use beam search with length_penalty to encourage full-length outputs
    # Progressive beam size and length penalty by stage
    # Increased penalties to counter systematic under-generation (~8% shorter outputs)
    if args.stage == 1:
        model.generation_config.num_beams = 2
        model.generation_config.length_penalty = 1.05  # Slight encouragement from start
    elif args.stage == 2:
        model.generation_config.num_beams = 2
        model.generation_config.length_penalty = 1.12  # Counter under-generation
    elif args.stage == 3:
        model.generation_config.num_beams = 3
        model.generation_config.length_penalty = 1.18
    elif args.stage == 4:
        model.generation_config.num_beams = 4
        model.generation_config.length_penalty = 1.22
    else:  # stages 5-6
        model.generation_config.num_beams = 4
        model.generation_config.length_penalty = (
            1.25  # >1.0 encourages longer sequences
        )
    model.generation_config.early_stopping = True

    # Callbacks
    callbacks = []
    if not args.no_early_stopping:
        callbacks.append(
            EarlyStoppingCallback(
                early_stopping_patience=EARLY_STOPPING_PATIENCE,
                early_stopping_threshold=EARLY_STOPPING_THRESHOLD,
            )
        )
        print(f"\nEarly stopping enabled:")
        print(f"  Patience: {EARLY_STOPPING_PATIENCE} evaluations")
        print(f"  Threshold: {EARLY_STOPPING_THRESHOLD * 100:.1f}% improvement")

    # Trainer
    trainer = Seq2SeqTrainer(
        model=model,
        args=training_args,
        train_dataset=tokenised_train,
        eval_dataset=tokenised_eval,
        data_collator=data_collator,
        processing_class=tokeniser,
        compute_metrics=create_compute_metrics(tokeniser),
        callbacks=callbacks,
    )

    # Train
    print(f"\n{'=' * 60}")
    print("Starting training...")
    print(f"{'=' * 60}\n")

    # Handle checkpoint resumption
    resume_from_checkpoint = None
    if args.resume:
        if args.resume == "auto":
            # Auto-detect: let Trainer find the last checkpoint
            resume_from_checkpoint = True
            print("Resuming from last checkpoint (auto-detect)...")
        else:
            # Specific checkpoint path provided
            resume_from_checkpoint = args.resume
            print(f"Resuming from checkpoint: {args.resume}")

    trainer.train(resume_from_checkpoint=resume_from_checkpoint)

    # Save final model
    final_output_dir = f"{args.output_dir}/stage{args.stage}-final"
    model.save_pretrained(final_output_dir)
    tokeniser.save_pretrained(final_output_dir)

    print(f"\n{'=' * 60}")
    print(f"Stage {args.stage} training complete!")
    print(f"Model saved to: {final_output_dir}")
    print(f"{'=' * 60}")

    # Update README metrics
    try:
        from update_readme_metrics import (extract_metrics,
                                           find_best_checkpoint,
                                           update_readme_metrics)

        checkpoint_dir = find_best_checkpoint(Path(args.output_dir))
        if checkpoint_dir:
            metrics = extract_metrics(checkpoint_dir)
            readme_path = _PROJECT_ROOT / "README.md"
            if update_readme_metrics(readme_path, metrics):
                print(
                    f"\nREADME metrics updated automatically from {checkpoint_dir.name}"
                )
    except Exception as e:
        print(f"\nNote: Could not auto-update README metrics: {e}")

    # Print next steps
    if args.stage <= 6:
        print(f"\nNext steps:")
        print(
            f"  1. Upload model to HuggingFace (e.g., 'your-username/aramt5-v{args.stage}')"
        )
        print(f"  2. Run stage {args.stage + 1}:")
        print(
            f"     python src/train_t5.py --stage {args.stage + 1} --hf-model your-username/aramt5-v{args.stage}"
        )


if __name__ == "__main__":
    args = parse_args()
    train(args)