File size: 49,463 Bytes

36ac84e

#!/usr/bin/env python3
"""
Humigence CLI - Main entry point for all Humigence commands
"""

import typer
from typing import Optional, Dict, Any
from rich.console import Console
from rich.panel import Panel
from rich.table import Table
from pathlib import Path
import sys
import os
from datetime import datetime

# Add the current directory to the path for imports
sys.path.insert(0, str(Path(__file__).parent))

from training.train_wikitext import run_training, run_training_from_config
from training.autodetect import detect_family, suggested_lora_targets
from validation.matrix import (
    get_gpu_info, precision_supported, estimate_model_params,
    estimate_memory_bytes, tokenizer_ok, PRECISIONS,
)
from validation.dryrun import dry_run
from validation.fallback import FallbackSimulator, ConfigCandidate
from config.schema import ValidationConfig, TrainingConfig, ConfigMetadata, save_config, validation_to_training_config

app = typer.Typer(
    name="humigence",
    help="Your AI. Your pipeline. Zero code.",
    add_completion=False,
    rich_markup_mode="rich"
)

console = Console()


@app.command()
def train_wikitext(
    model: str = typer.Option(
        "", 
        "--model", 
        "-m", 
        help="Path or Hugging Face model name (e.g., 'gpt2' or 'microsoft/DialoGPT-small')"
    ),
    output_dir: str = typer.Option(
        ..., 
        "--output-dir", 
        "-o", 
        help="Directory where checkpoints will be saved"
    ),
    epochs: int = typer.Option(
        1, 
        "--epochs", 
        "-e", 
        help="Number of training epochs"
    ),
    batch_size: int = typer.Option(
        2, 
        "--batch-size", 
        "-b", 
        help="Per-device batch size"
    ),
    learning_rate: float = typer.Option(
        5e-5, 
        "--learning-rate", 
        "-lr", 
        help="Learning rate for training"
    ),
    dataset: str = typer.Option(
        "wikitext", 
        "--dataset", 
        help="Dataset name (default: wikitext)"
    ),
    dataset_config: str = typer.Option(
        "wikitext-2-raw-v1", 
        "--dataset-config", 
        help="Dataset configuration (default: wikitext-2-raw-v1)"
    ),
    max_steps: Optional[int] = typer.Option(
        None, 
        "--max-steps", 
        help="Maximum training steps (overrides epochs if set)"
    ),
    block_size: int = typer.Option(
        1024, 
        "--block-size", 
        help="Maximum sequence length"
    ),
    grad_accum: int = typer.Option(
        4, 
        "--grad-accum", 
        help="Gradient accumulation steps"
    ),
    warmup_steps: int = typer.Option(
        100, 
        "--warmup-steps", 
        help="Number of warmup steps"
    ),
    logging_steps: int = typer.Option(
        10, 
        "--logging-steps", 
        help="Logging frequency in steps"
    ),
    save_steps: int = typer.Option(
        200, 
        "--save-steps", 
        help="Model saving frequency in steps"
    ),
    eval_steps: int = typer.Option(
        200, 
        "--eval-steps", 
        help="Evaluation frequency in steps"
    ),
    lora_r: int = typer.Option(
        8, 
        "--lora-r", 
        help="LoRA rank"
    ),
    lora_alpha: int = typer.Option(
        32, 
        "--lora-alpha", 
        help="LoRA alpha parameter"
    ),
    lora_dropout: float = typer.Option(
        0.05, 
        "--lora-dropout", 
        help="LoRA dropout rate"
    ),
    config: Optional[str] = typer.Option(
        None, 
        "--config", 
        help="Load configuration from YAML file"
    ),
):
    """
    Train a model on Wikitext dataset using LoRA fine-tuning.
    
    This command fine-tunes a language model on the Wikitext dataset using LoRA (Low-Rank Adaptation)
    for efficient parameter updates. The training runs on a single GPU by default.
    
    Examples:
        # Basic training with GPT-2
        humigence train-wikitext --model gpt2 --output-dir ./out
        
        # Training with custom parameters
        humigence train-wikitext --model microsoft/DialoGPT-small --output-dir ./out --epochs 2 --batch-size 4 --learning-rate 1e-4
        
        # Training with specific steps instead of epochs
        humigence train-wikitext --model gpt2 --output-dir ./out --max-steps 1000 --batch-size 2
        
        # Training with config file
        humigence train-wikitext --config ./myconfig.yaml --output-dir ./out
    """
    
    # Validate that either model or config is provided
    if not config and not model:
        console.print("[bold red]❌ Error: Either --model or --config must be provided[/bold red]")
        raise typer.Exit(1)
    
    # Load config from file if provided
    if config:
        try:
            from config.schema import load_config, validation_to_training_config
            # Try to load as TrainingConfig first, then ValidationConfig
            try:
                loaded_config, metadata = load_config(config, TrainingConfig)
            except Exception:
                # If it fails, try loading as ValidationConfig and convert
                validation_config, metadata = load_config(config, ValidationConfig)
                loaded_config = validation_to_training_config(validation_config, output_dir)
            
            # Override with CLI arguments (CLI takes precedence)
            config_dict = loaded_config.dict()
            
            # Update with CLI values (only if they're not default values)
            if model != "":  # If model was provided via CLI
                config_dict["model"] = model
            if output_dir != "":  # If output_dir was provided via CLI
                config_dict["output_dir"] = output_dir
            if epochs != 1:
                config_dict["epochs"] = epochs
            if batch_size != 2:
                config_dict["batch_size"] = batch_size
            if learning_rate != 5e-5:
                config_dict["learning_rate"] = learning_rate
            if dataset != "wikitext":
                config_dict["dataset"] = dataset
            if dataset_config != "wikitext-2-raw-v1":
                config_dict["dataset_config"] = dataset_config
            if max_steps is not None:
                config_dict["max_steps"] = max_steps
            if block_size != 1024:
                config_dict["block_size"] = block_size
            if grad_accum != 4:
                config_dict["grad_accum"] = grad_accum
            if warmup_steps != 100:
                config_dict["warmup_steps"] = warmup_steps
            if logging_steps != 10:
                config_dict["logging_steps"] = logging_steps
            if save_steps != 200:
                config_dict["save_steps"] = save_steps
            if eval_steps != 200:
                config_dict["eval_steps"] = eval_steps
            if lora_r != 8:
                config_dict["lora_r"] = lora_r
            if lora_alpha != 32:
                config_dict["lora_alpha"] = lora_alpha
            if lora_dropout != 0.05:
                config_dict["lora_dropout"] = lora_dropout
            
            # Create new config with merged values
            final_config = TrainingConfig(**config_dict)
            
            # Extract values for display and function call
            model = final_config.model
            output_dir = final_config.output_dir
            dataset = final_config.dataset
            dataset_config = final_config.dataset_config
            epochs = final_config.epochs
            batch_size = final_config.batch_size
            learning_rate = final_config.learning_rate
            max_steps = final_config.max_steps
            block_size = final_config.block_size
            grad_accum = final_config.grad_accum
            warmup_steps = final_config.warmup_steps
            logging_steps = final_config.logging_steps
            save_steps = final_config.save_steps
            eval_steps = final_config.eval_steps
            lora_r = final_config.lora_r
            lora_alpha = final_config.lora_alpha
            lora_dropout = final_config.lora_dropout
            
            console.print(f"[bold blue]📁 Loaded configuration from {config}[/bold blue]")
            
            # Display provenance information if metadata is available
            if metadata:
                provenance_info = f"Created: {metadata.created}"
                if metadata.gpu:
                    provenance_info += f" | GPU: {metadata.gpu}"
                if metadata.auto_heal and metadata.fallback_chain:
                    provenance_info += f" | Auto-healed: {' → '.join(metadata.fallback_chain)}"
                elif metadata.auto_heal:
                    provenance_info += " | Auto-healed: (no fallbacks needed)"
                else:
                    provenance_info += " | Direct validation (no auto-healing)"
                
                console.print(f"[dim]📋 {provenance_info}[/dim]")
            
        except Exception as e:
            console.print(f"[bold red]❌ Failed to load config from {config}: {e}[/bold red]")
            raise typer.Exit(1)
    
    # Display training configuration
    config_panel = Panel(
        f"""[bold blue]Training Configuration[/bold blue]
        
[cyan]Model:[/cyan] {model}
[cyan]Output Directory:[/cyan] {output_dir}
[cyan]Epochs:[/cyan] {epochs}
[cyan]Batch Size:[/cyan] {batch_size}
[cyan]Learning Rate:[/cyan] {learning_rate}
[cyan]Dataset:[/cyan] {dataset}/{dataset_config}
[cyan]Max Steps:[/cyan] {max_steps if max_steps else 'Auto-calculated'}
[cyan]Block Size:[/cyan] {block_size}
[cyan]Gradient Accumulation:[/cyan] {grad_accum}
[cyan]LoRA Rank:[/cyan] {lora_r}
[cyan]LoRA Alpha:[/cyan] {lora_alpha}
[cyan]LoRA Dropout:[/cyan] {lora_dropout}""",
        title="🚀 Starting Wikitext Training",
        border_style="green"
    )
    
    console.print(config_panel)
    
    # Create output directory if it doesn't exist
    Path(output_dir).mkdir(parents=True, exist_ok=True)
    
    # Run training
    try:
        if config:
            # Use config-based training with launcher
            from training.launcher import launch_training
            result = launch_training(final_config)
        else:
            # Use individual parameters - convert to TrainingConfig and use launcher
            from config.schema import TrainingConfig
            from training.launcher import launch_training
            
            training_config = TrainingConfig(
                model=model,
                output_dir=output_dir,
                dataset=dataset,
                dataset_config=dataset_config,
                precision="fp16",
                seq_len=block_size,
                batch_size=batch_size,
                epochs=epochs,
                learning_rate=learning_rate,
                max_steps=max_steps,
                block_size=block_size,
                grad_accum=grad_accum,
                warmup_steps=warmup_steps,
                logging_steps=logging_steps,
                save_steps=save_steps,
                eval_steps=eval_steps,
                lora=True,
                lora_r=lora_r,
                lora_alpha=lora_alpha,
                lora_dropout=lora_dropout,
                gradient_checkpointing=True,
                text_field="text",
                schema="plain",
                gpu_mode="single",
                gpu_ids=[0]
            )
            
            result = launch_training(training_config)
        
        if result["status"] == "success":
            console.print(Panel(
                f"""[bold green]✅ Training Completed Successfully![/bold green]
                
[cyan]Output Directory:[/cyan] {result['output_dir']}
[cyan]Model Path:[/cyan] {result['model_path']}

[bold blue]Final Metrics:[/bold blue]
[cyan]Train Loss:[/cyan] {result['metrics'].get('train_loss', 'N/A')}
[cyan]Eval Loss:[/cyan] {result['metrics'].get('eval_loss', 'N/A')}
[cyan]Total Steps:[/cyan] {result['metrics'].get('total_steps', 'N/A')}
[cyan]Epochs:[/cyan] {result['metrics'].get('epochs', 'N/A')}
[cyan]Train Runtime:[/cyan] {result['metrics'].get('train_runtime', 'N/A')}s
[cyan]Samples/Second:[/cyan] {result['metrics'].get('train_samples_per_second', 'N/A')}""",
                title="🎉 Training Results",
                border_style="green"
            ))
            return
        else:
            console.print(Panel(
                f"""[bold red]❌ Training Failed[/bold red]
                
[red]Error:[/red] {result.get('error', 'Unknown error')}
[cyan]Output Directory:[/cyan] {result.get('output_dir', 'N/A')}""",
                title="💥 Training Error",
                border_style="red"
            ))
            raise typer.Exit(1)
            
    except Exception as e:
        console.print(Panel(
            f"""[bold red]❌ Unexpected Error[/bold red]
            
[red]Error:[/red] {str(e)}""",
            title="💥 Unexpected Error",
            border_style="red"
        ))
        raise typer.Exit(1)


@app.command()
def train(
    config: str = typer.Option(..., "--config", "-c", help="Path to YAML configuration file"),
    output_dir: Optional[str] = typer.Option(None, "--output-dir", "-o", help="Override output directory"),
    epochs: Optional[int] = typer.Option(None, "--epochs", "-e", help="Override number of epochs"),
    batch_size: Optional[int] = typer.Option(None, "--batch-size", "-b", help="Override batch size"),
    learning_rate: Optional[float] = typer.Option(None, "--learning-rate", "-lr", help="Override learning rate"),
    max_steps: Optional[int] = typer.Option(None, "--max-steps", help="Override maximum training steps"),
    dataset: Optional[str] = typer.Option(None, "--dataset", help="Override dataset specification"),
    text_field: Optional[str] = typer.Option(None, "--text-field", help="Override text field for HF datasets"),
    schema: Optional[str] = typer.Option(None, "--schema", help="Override schema for JSONL datasets"),
    gradient_checkpointing: Optional[bool] = typer.Option(None, "--gradient-checkpointing/--no-gradient-checkpointing", help="Override gradient checkpointing"),
    flash_attn: Optional[bool] = typer.Option(None, "--flash-attn/--no-flash-attn", help="Override flash attention"),
    dtype: Optional[str] = typer.Option(None, "--dtype", help="Override data type: fp32|fp16|bf16"),
    gpu_mode: Optional[str] = typer.Option(None, "--gpu-mode", help="Override GPU mode: single|multi"),
    gpu_ids: Optional[str] = typer.Option(None, "--gpu-ids", help="Override GPU IDs (comma-separated, e.g., '0,1,2')"),
):
    """
    Train a model using a configuration file with dataset-agnostic support.
    
    This command supports training on:
    - Wikitext datasets (wikitext)
    - JSONL SFT datasets (jsonl:path/to/file.jsonl)
    - Hugging Face datasets (hf:dataset_name or dataset_name)
    
    Examples:
        # Train with Wikitext
        humigence train --config gpt2_wikitext.yaml
        
        # Train with JSONL SFT dataset
        humigence train --config my_sft_config.yaml
        
        # Train with Hugging Face dataset
        humigence train --config imdb_config.yaml
        
        # Override specific parameters
        humigence train --config my_config.yaml --epochs 3 --batch-size 4
    """
    
    # Load configuration
    try:
        from config.schema import load_config, validation_to_training_config
        # Try to load as TrainingConfig first, then ValidationConfig
        try:
            loaded_config, metadata = load_config(config, TrainingConfig)
        except Exception:
            # If it fails, try loading as ValidationConfig and convert
            validation_config, metadata = load_config(config, ValidationConfig)
            if not output_dir:
                console.print("[bold red]❌ Error: --output-dir is required when using ValidationConfig[/bold red]")
                raise typer.Exit(1)
            loaded_config = validation_to_training_config(validation_config, output_dir)
        
        # Override with CLI arguments (CLI takes precedence)
        config_dict = loaded_config.dict()
        
        if output_dir:
            config_dict["output_dir"] = output_dir
        if epochs is not None:
            config_dict["epochs"] = epochs
        if batch_size is not None:
            config_dict["batch_size"] = batch_size
        if learning_rate is not None:
            config_dict["learning_rate"] = learning_rate
        if max_steps is not None:
            config_dict["max_steps"] = max_steps
        if dataset:
            config_dict["dataset"] = dataset
        if text_field:
            config_dict["text_field"] = text_field
        if schema:
            config_dict["schema"] = schema
        if gradient_checkpointing is not None:
            config_dict["gradient_checkpointing"] = gradient_checkpointing
        if flash_attn is not None:
            config_dict["flash_attn"] = flash_attn
        if dtype:
            config_dict["dtype"] = dtype
        if gpu_mode:
            config_dict["gpu_mode"] = gpu_mode
        if gpu_ids:
            # Parse comma-separated GPU IDs
            try:
                gpu_ids_list = [int(x.strip()) for x in gpu_ids.split(",")]
                config_dict["gpu_ids"] = gpu_ids_list
            except ValueError:
                console.print(f"[red]❌ Invalid GPU IDs format: {gpu_ids}. Use comma-separated integers (e.g., '0,1,2')[/red]")
                raise typer.Exit(1)
        
        # Create final config
        final_config = TrainingConfig(**config_dict)
        
        console.print(f"[bold blue]📁 Loaded configuration from {config}[/bold blue]")
        
        # Display provenance information if metadata is available
        if metadata:
            provenance_info = f"Created: {metadata.created}"
            if metadata.gpu:
                provenance_info += f" | GPU: {metadata.gpu}"
            if metadata.auto_heal and metadata.fallback_chain:
                provenance_info += f" | Auto-healed: {' → '.join(metadata.fallback_chain)}"
            elif metadata.auto_heal:
                provenance_info += " | Auto-healed: (no fallbacks needed)"
            else:
                provenance_info += " | Direct validation (no auto-healing)"
            
            console.print(f"[dim]📋 {provenance_info}[/dim]")
            
            # Display dataset provenance if available
            if metadata.dataset:
                dataset_info = f"📁 Dataset: {metadata.dataset.get('file_path', metadata.dataset.get('dataset_name', 'N/A'))}"
                if metadata.dataset.get('schema'):
                    dataset_info += f" ({metadata.dataset['schema']})"
                console.print(f"[dim]{dataset_info}[/dim]")
                
                if 'train_size' in metadata.dataset and 'eval_size' in metadata.dataset:
                    size_info = f"🔢 Train size: {metadata.dataset['train_size']} | Eval size: {metadata.dataset['eval_size']}"
                    console.print(f"[dim]{size_info}[/dim]")
                
                if 'sha256' in metadata.dataset:
                    sha256 = metadata.dataset['sha256']
                    if len(sha256) > 12:
                        sha256 = sha256[:12] + "..."
                    console.print(f"[dim]🔑 SHA256: {sha256}[/dim]")
            else:
                console.print("[yellow]⚠️  Config missing dataset metadata. Consider re-running validate to persist provenance.[/yellow]")
        
    except Exception as e:
        console.print(f"[bold red]❌ Failed to load config from {config}: {e}[/bold red]")
        raise typer.Exit(1)
    
    # Display training configuration
    dataset_info = f"{final_config.dataset.type}"
    if final_config.dataset.path:
        dataset_info += f" ({final_config.dataset.path})"
    elif final_config.dataset.name:
        dataset_info += f" ({final_config.dataset.name})"
    
    config_panel = Panel(
        f"""[bold blue]Training Configuration[/bold blue]
        
[cyan]Model:[/cyan] {final_config.model}
[cyan]Output Directory:[/cyan] {final_config.output_dir}
[cyan]Dataset:[/cyan] {dataset_info}
[cyan]Schema:[/cyan] {final_config.dataset.schema_type or 'auto'}
[cyan]Text Field:[/cyan] {final_config.dataset.text_field or 'auto'}
[cyan]Epochs:[/cyan] {final_config.epochs}
[cyan]Batch Size:[/cyan] {final_config.batch_size}
[cyan]Learning Rate:[/cyan] {final_config.learning_rate}
[cyan]Max Steps:[/cyan] {final_config.max_steps if final_config.max_steps else 'Auto-calculated'}
[cyan]Block Size:[/cyan] {final_config.block_size}
[cyan]Gradient Accumulation:[/cyan] {final_config.grad_accum}
[cyan]LoRA Rank:[/cyan] {final_config.lora_r}
[cyan]LoRA Alpha:[/cyan] {final_config.lora_alpha}
[cyan]LoRA Dropout:[/cyan] {final_config.lora_dropout}
[cyan]Gradient Checkpointing:[/cyan] {final_config.gradient_checkpointing}
[cyan]Flash Attention:[/cyan] {final_config.flash_attn}
[cyan]Data Type:[/cyan] {final_config.dtype}""",
        title="🚀 Starting Dataset-Agnostic Training",
        border_style="green"
    )
    
    console.print(config_panel)
    
    # Create output directory if it doesn't exist
    Path(final_config.output_dir).mkdir(parents=True, exist_ok=True)
    
    # Run training
    try:
        from training.launcher import launch_training
        result = launch_training(final_config)
        
        if result["status"] == "success":
            console.print(Panel(
                f"""[bold green]✅ Training Completed Successfully![/bold green]
                
[cyan]Output Directory:[/cyan] {result['output_dir']}
[cyan]Model Path:[/cyan] {result['model_path']}

[bold blue]Final Metrics:[/bold blue]
[cyan]Train Loss:[/cyan] {result['metrics'].get('train_loss', 'N/A')}
[cyan]Eval Loss:[/cyan] {result['metrics'].get('eval_loss', 'N/A')}
[cyan]Total Steps:[/cyan] {result['metrics'].get('total_steps', 'N/A')}
[cyan]Epochs:[/cyan] {result['metrics'].get('epochs', 'N/A')}
[cyan]Train Runtime:[/cyan] {result['metrics'].get('train_runtime', 'N/A')}s
[cyan]Samples/Second:[/cyan] {result['metrics'].get('train_samples_per_second', 'N/A')}""",
                title="🎉 Training Results",
                border_style="green"
            ))
            return
        else:
            console.print(Panel(
                f"""[bold red]❌ Training Failed[/bold red]
                
[red]Error:[/red] {result.get('error', 'Unknown error')}
[cyan]Output Directory:[/cyan] {result.get('output_dir', 'N/A')}""",
                title="💥 Training Error",
                border_style="red"
            ))
            raise typer.Exit(1)
            
    except Exception as e:
        console.print(Panel(
            f"""[bold red]❌ Unexpected Error[/bold red]
            
[red]Error:[/red] {str(e)}""",
            title="💥 Unexpected Error",
            border_style="red"
        ))
        raise typer.Exit(1)


@app.command()
def validate(
    model: str = typer.Option(..., help="HF model id or local path"),
    dataset: str = typer.Option("wikitext", help="Dataset specification: wikitext | jsonl:<path> | hf:<name>"),
    precision: str = typer.Option("fp16", help="fp32|fp16|bf16|qlora4bit"),
    seq_len: int = typer.Option(1024, help="Sequence length"),
    batch_size: int = typer.Option(2, help="Batch size"),
    lora: bool = typer.Option(True, help="Enable LoRA"),
    max_samples: int = typer.Option(128, help="Max samples for schema sniff"),
    text_field: Optional[str] = typer.Option(None, help="Text field for generic HF datasets"),
    schema: Optional[str] = typer.Option(None, help="Schema for JSONL datasets: sft | dialogue | plain | auto"),
    role_markers: bool = typer.Option(True, "--role-markers/--no-role-markers", help="Use role markers for dialogue datasets"),
    user_marker: str = typer.Option("<user>", help="User role marker"),
    assistant_marker: str = typer.Option("<assistant>", help="Assistant role marker"),
    eval_split: Optional[float] = typer.Option(None, help="Fraction of data to use for evaluation (0.0-1.0)"),
    eval_file: Optional[str] = typer.Option(None, help="Path to separate evaluation file (for JSONL)"),
    gradient_checkpointing: bool = typer.Option(False, "--gradient-checkpointing/--no-gradient-checkpointing", help="Enable gradient checkpointing"),
    flash_attn: bool = typer.Option(False, "--flash-attn/--no-flash-attn", help="Enable flash attention"),
    dtype: str = typer.Option("fp16", help="Data type: fp32|fp16|bf16"),
    dry_run_flag: bool = typer.Option(True, "--dry-run/--no-dry-run", help="Do the 1-batch fwd+bwd"),
    auto_heal: bool = typer.Option(True, "--auto-heal/--no-auto-heal", help="Enable auto-healing fallback simulation"),
    max_attempts: int = typer.Option(10, help="Maximum fallback attempts for auto-healing"),
    save_config_path: Optional[str] = typer.Option(None, "--save-config", help="Save auto-healed config to YAML file"),
    overwrite: bool = typer.Option(False, "--overwrite", help="Overwrite existing config file instead of versioning"),
):
    """
    Validate model, dataset, and training configuration before training.
    
    This command performs comprehensive validation including:
    - Model family detection and LoRA target module validation
    - GPU capability and precision support checks
    - Memory estimation and OOM prevention
    - Tokenizer validation
    - Optional 1-batch dry-run to test actual training setup
    
    Examples:
        # Basic validation with GPT-2
        humigence validate --model gpt2 --dataset wikitext --precision fp16
        
        # Validate with BF16 (will fail on non-BF16 GPUs)
        humigence validate --model gpt2 --precision bf16
        
        # Validate with 4-bit quantization
        humigence validate --model gpt2 --precision qlora4bit
        
        # Validate without dry-run
        humigence validate --model gpt2 --no-dry-run
    """
    if precision not in PRECISIONS:
        typer.secho(f"Unsupported precision: {precision}", fg=typer.colors.RED, err=True)
        raise typer.Exit(1)

    # Detect model family and get config
    family, cfg = detect_family(model)
    gpu = get_gpu_info()
    tok_ok, tok_msg = tokenizer_ok(model)
    prec_ok, prec_msg = precision_supported(precision, gpu)
    
    # Detect dataset type and validate
    dataset_type = _detect_dataset_type(dataset)
    dataset_ok, dataset_msg = _validate_dataset(dataset, dataset_type, text_field, schema)
    
    # Create dataset configuration with eval split support
    dataset_config = _create_dataset_config(dataset, text_field, schema, role_markers, user_marker, assistant_marker, eval_split, eval_file)
    
    # GPU-aware defaults and warnings
    _apply_gpu_aware_defaults(gpu, precision, batch_size, seq_len, gradient_checkpointing, flash_attn, dtype)
    
    # Load dataset to capture metadata
    dataset_metadata = None
    if dataset_ok:
        try:
            from training.data_loader import create_dataset_loader
            loader = create_dataset_loader(
                dataset, 
                text_field=text_field, 
                schema=schema or "auto",
                role_markers=role_markers,
                user_marker=user_marker,
                assistant_marker=assistant_marker,
                eval_split=eval_split,
                eval_file=eval_file
            )
            # Load dataset to get metadata
            train_dataset, eval_dataset = loader.load()
            dataset_metadata = loader.get_metadata()
        except Exception as e:
            console.print(f"[yellow]⚠️  Could not load dataset metadata: {e}[/yellow]")
            dataset_metadata = None

    # Estimate parameters and memory
    params = estimate_model_params(cfg)
    mem_est = estimate_memory_bytes(params, precision, adam=True, lora=lora)
    mem_info = f"est ~{mem_est/1e9:.2f} GB" if mem_est else "n/a"

    # Collect warnings
    warns = []
    if not tok_ok:
        warns.append(f"Tokenizer: {tok_msg}")
    if not prec_ok:
        warns.append(f"Precision: {prec_msg}")
    if not dataset_ok:
        warns.append(f"Dataset: {dataset_msg}")
    
    # Check sequence length against model limits
    max_pos = getattr(cfg, "max_position_embeddings", None)
    if max_pos and seq_len > max_pos:
        warns.append(f"seq_len {seq_len} > model limit {max_pos}. Suggest <= {max_pos}.")

    # Create summary table
    tbl = Table(title="Humigence Validation Summary")
    tbl.add_column("Item", style="cyan")
    tbl.add_column("Value", style="white")
    tbl.add_row("Model", model)
    tbl.add_row("Family", family)
    tbl.add_row("Dataset Type", dataset_config.type)
    tbl.add_row("Dataset Path/Name", dataset_config.path or dataset_config.name or "N/A")
    tbl.add_row("Schema", dataset_config.schema_type or "auto")
    tbl.add_row("Text Field", dataset_config.text_field or "auto")
    if dataset_config.type == "jsonl" and dataset_config.schema_type == "dialogue":
        tbl.add_row("Role Markers", f"{dataset_config.user_marker} / {dataset_config.assistant_marker}")
    
    # Add dataset metadata if available
    if dataset_metadata:
        tbl.add_row("Train Size", str(dataset_metadata.get("train_size", "N/A")))
        tbl.add_row("Eval Size", str(dataset_metadata.get("eval_size", "N/A")))
        if "sha256" in dataset_metadata:
            sha256 = dataset_metadata["sha256"]
            if len(sha256) > 12:
                sha256 = sha256[:12] + "..."
            tbl.add_row("SHA256", sha256)
    
    tbl.add_row("Precision", precision)
    tbl.add_row("GPU", f"{gpu.name} (bf16={gpu.bf16_supported}, cc={gpu.cc_major}.{gpu.cc_minor})" if gpu.available else "CPU")
    tbl.add_row("Params (est.)", f"{params:,}" if params else "unknown")
    tbl.add_row("Memory (est.)", mem_info)
    tbl.add_row("Seq Len", str(seq_len))
    tbl.add_row("Batch Size", str(batch_size))
    tbl.add_row("LoRA", str(lora))
    tbl.add_row("Tokenizer", "OK" if tok_ok else f"ISSUE: {tok_msg}")
    tbl.add_row("Precision Support", "OK" if prec_ok else f"ISSUE: {prec_msg}")
    tbl.add_row("Dataset", "OK" if dataset_ok else f"ISSUE: {dataset_msg}")
    console.print(tbl)

    # Display warnings
    if warns:
        console.print("\n[yellow]Warnings:[/yellow]")
        for w in warns:
            console.print(f" - {w}")

    # Check precision support
    if not prec_ok:
        console.print("\n[bold red]FAIL[/bold red]: Precision not supported.")
        _print_fallback(precision, gpu, lora, seq_len, batch_size)
        raise typer.Exit(2)

    # Perform dry run if requested
    if dry_run_flag:
        console.print("\n[bold]Running 1-batch dry-run...[/bold]")
        lora_targets = suggested_lora_targets(family) if lora else None
        res = dry_run(
            model_id_or_path=model,
            precision=precision,
            seq_len=seq_len,
            batch_size=batch_size,
            lora=lora,
            lora_targets=lora_targets,
        )
        if res.ok:
            console.print(f"[green]PASS[/green]: dry-run completed. loss={res.details.get('loss'):.4f}")
            
            # Save config if requested (even without auto-healing)
            if save_config_path:
                validation_config = ValidationConfig(
                    model=model,
                    dataset=dataset_config,
                    precision=precision,
                    seq_len=seq_len,
                    batch_size=batch_size,
                    lora=lora,
                    lora_targets=lora_targets,
                    gradient_checkpointing=gradient_checkpointing,
                    flash_attn=flash_attn,
                    dtype=dtype,
                    max_samples=max_samples
                )
                
                # Create runtime metadata
                runtime_metadata = _create_runtime_metadata(gpu)
                
                # Create metadata
                metadata = ConfigMetadata(
                    created=datetime.now().isoformat(),
                    gpu=f"{gpu.name} (bf16={gpu.bf16_supported}, cc={gpu.cc_major}.{gpu.cc_minor})" if gpu.available else "CPU",
                    precision_supported=[p for p in ["fp32", "fp16", "bf16", "qlora4bit"] if precision_supported(p, gpu)[0]],
                    validator_version="0.3",
                    auto_heal=False,
                    fallback_chain=[],
                    original_config={
                        "model": model,
                        "precision": precision,
                        "seq_len": seq_len,
                        "batch_size": batch_size,
                        "lora": lora,
                        "gradient_checkpointing": gradient_checkpointing,
                        "flash_attn": flash_attn,
                        "dtype": dtype
                    },
                    dataset=dataset_metadata,
                    runtime=runtime_metadata
                )
                
                saved_path = save_config(validation_config, save_config_path, metadata, overwrite)
                console.print(f"\n[bold green]✅ Config saved to {saved_path}[/bold green]")
            
            raise typer.Exit(0)
        else:
            console.print(f"[red]FAIL[/red]: dry-run error: {res.error}")
            
            # Auto-healing fallback simulation
            if auto_heal:
                console.print(f"[yellow]Auto-healing enabled. Attempting fallback simulation...[/yellow]")
                
                # Create initial config candidate
                initial_config = ConfigCandidate(
                    model=model,
                    precision=precision,
                    seq_len=seq_len,
                    batch_size=batch_size,
                    lora=lora,
                    lora_targets=lora_targets,
                    gradient_checkpointing=False,
                    dataset=dataset,
                    text_field=text_field
                )
                
                # Run fallback simulation
                simulator = FallbackSimulator()
                success, final_config = simulator.simulate_fallbacks(initial_config, max_attempts)
                
                if success:
                    console.print(f"\n[bold green]🎉 AUTO-HEALING SUCCESSFUL![/bold green]")
                    console.print(f"[dim]Found working configuration after {len(simulator.attempts)} attempts[/dim]")
                    
                    # Generate and display YAML config
                    yaml_config = simulator.generate_yaml_config(final_config)
                    console.print(f"\n[bold blue]AUTO-HEALED CONFIG PATCH[/bold blue]")
                    console.print(f"[dim]```yaml[/dim]")
                    console.print(yaml_config)
                    console.print(f"[dim]```[/dim]")
                    
                    # Save config if requested
                    if save_config_path:
                        # Create ValidationConfig from final_config
                        validation_config = ValidationConfig(
                            model=final_config.model,
                            dataset=final_config.dataset,
                            precision=final_config.precision,
                            seq_len=final_config.seq_len,
                            batch_size=final_config.batch_size,
                            lora=final_config.lora,
                            lora_targets=final_config.lora_targets,
                            gradient_checkpointing=final_config.gradient_checkpointing,
                            text_field=final_config.text_field,
                            schema=getattr(final_config, 'schema', schema),
                            max_samples=max_samples
                        )
                        
                        # Create fallback chain from simulator attempts
                        fallback_chain = []
                        for attempt in simulator.attempts[1:]:  # Skip initial attempt
                            if attempt.notes:
                                fallback_chain.append(attempt.notes)
                            else:
                                # Generate fallback description from config changes
                                prev_config = simulator.attempts[attempt.attempt_num - 2].config
                                curr_config = attempt.config
                                
                                changes = []
                                if prev_config.precision != curr_config.precision:
                                    changes.append(f"precision {prev_config.precision} → {curr_config.precision}")
                                if prev_config.seq_len != curr_config.seq_len:
                                    changes.append(f"seq_len {prev_config.seq_len} → {curr_config.seq_len}")
                                if prev_config.batch_size != curr_config.batch_size:
                                    changes.append(f"batch_size {prev_config.batch_size} → {curr_config.batch_size}")
                                if prev_config.gradient_checkpointing != curr_config.gradient_checkpointing:
                                    changes.append(f"gradient_checkpointing {prev_config.gradient_checkpointing} → {curr_config.gradient_checkpointing}")
                                
                                if changes:
                                    fallback_chain.append(", ".join(changes))
                        
                        # Create metadata with fallback chain
                        metadata = ConfigMetadata(
                            created=datetime.now().isoformat(),
                            gpu=f"{gpu.name} (bf16={gpu.bf16_supported}, cc={gpu.cc_major}.{gpu.cc_minor})" if gpu.available else "CPU",
                            precision_supported=[p for p in ["fp32", "fp16", "bf16", "qlora4bit"] if precision_supported(p, gpu)[0]],
                            validator_version="0.3",
                            auto_heal=True,
                            fallback_chain=fallback_chain,
                            original_config={
                                "model": model,
                                "precision": precision,
                                "seq_len": seq_len,
                                "batch_size": batch_size,
                                "lora": lora
                            },
                            dataset=dataset_metadata
                        )
                        
                        saved_path = save_config(validation_config, save_config_path, metadata, overwrite)
                        console.print(f"\n[bold green]✅ Auto-healed config saved to {saved_path}[/bold green]")
                    
                    raise typer.Exit(0)
                else:
                    console.print(f"\n[bold red]❌ AUTO-HEALING FAILED[/bold red]")
                    console.print(f"[dim]Could not find working configuration after {max_attempts} attempts[/dim]")
                    _print_fallback(precision, gpu, lora, seq_len, batch_size, res.oom)
                    raise typer.Exit(3)
            else:
                # No auto-healing, just show fallback suggestions
                if res.oom:
                    console.print("[yellow]Detected OOM. Proposing fallback...[/yellow]")
                _print_fallback(precision, gpu, lora, seq_len, batch_size, res.oom)
                raise typer.Exit(3)
    else:
        # No dry-run; rely on static checks
        if warns:
            console.print("[yellow]COMPLETE WITH WARNINGS[/yellow]")
            raise typer.Exit(0)
        console.print("[green]PASS[/green]")
        raise typer.Exit(0)


def _detect_dataset_type(dataset_spec: str) -> str:
    """Detect dataset type from specification"""
    if dataset_spec == "wikitext":
        return "wikitext"
    elif dataset_spec.startswith("jsonl:"):
        return "jsonl"
    elif dataset_spec.startswith("hf:"):
        return "hf"
    else:
        # Assume it's a direct HF dataset name
        return "hf"


def _create_dataset_config(dataset_spec: str, text_field: Optional[str], schema: Optional[str], 
                          role_markers: bool, user_marker: str, assistant_marker: str,
                          eval_split: Optional[float] = None, eval_file: Optional[str] = None):
    """Create DatasetConfig from CLI parameters"""
    from config.schema import DatasetConfig
    
    dataset_type = _detect_dataset_type(dataset_spec)
    
    if dataset_type == "wikitext":
        return DatasetConfig(type="wikitext", name="wikitext")
    
    elif dataset_type == "jsonl":
        file_path = dataset_spec[6:]  # Remove "jsonl:" prefix
        return DatasetConfig(
            type="jsonl",
            path=file_path,
            schema_type=schema or "auto",
            role_markers=role_markers,
            user_marker=user_marker,
            assistant_marker=assistant_marker,
            eval_split=eval_split,
            eval_file=eval_file
        )
    
    elif dataset_type == "hf":
        dataset_name = dataset_spec[3:] if dataset_spec.startswith("hf:") else dataset_spec
        return DatasetConfig(
            type="hf",
            name=dataset_name,
            text_field=text_field or "text",
            eval_split=eval_split
        )
    
    else:
        raise ValueError(f"Unknown dataset type: {dataset_type}")


def _apply_gpu_aware_defaults(gpu, precision: str, batch_size: int, seq_len: int, 
                             gradient_checkpointing: bool, flash_attn: bool, dtype: str):
    """Apply GPU-aware defaults and warnings"""
    if not gpu.available:
        console.print("[yellow]⚠️  No GPU detected - using CPU mode[/yellow]")
        return
    
    # Get GPU memory info
    try:
        import torch
        if torch.cuda.is_available():
            gpu_memory_gb = torch.cuda.get_device_properties(0).total_memory / (1024**3)
            console.print(f"[blue]🔧 GPU Memory: {gpu_memory_gb:.1f}GB[/blue]")
            
            # Warn about potential OOM issues
            if precision == "fp32" and gpu_memory_gb < 24:
                console.print(f"[yellow]⚠️  Detected {gpu_memory_gb:.1f}GB GPU — fp32 may OOM, recommend fp16 with batch_size<=4[/yellow]")
            elif precision == "bf16" and not gpu.bf16_supported:
                console.print(f"[yellow]⚠️  GPU doesn't support BF16, recommend fp16[/yellow]")
            elif batch_size > 4 and gpu_memory_gb < 16:
                console.print(f"[yellow]⚠️  Large batch size ({batch_size}) on {gpu_memory_gb:.1f}GB GPU may cause OOM[/yellow]")
    except Exception as e:
        console.print(f"[yellow]⚠️  Could not get GPU memory info: {e}[/yellow]")


def _create_runtime_metadata(gpu) -> Dict[str, Any]:
    """Create runtime environment metadata"""
    runtime_metadata = {}
    
    try:
        import torch
        import platform
        
        # GPU info
        if gpu.available:
            runtime_metadata["gpu"] = gpu.name
            runtime_metadata["vram_gb"] = torch.cuda.get_device_properties(0).total_memory / (1024**3)
            runtime_metadata["cuda"] = torch.version.cuda
        else:
            runtime_metadata["gpu"] = "CPU"
            runtime_metadata["vram_gb"] = 0
            runtime_metadata["cuda"] = None
        
        # PyTorch version
        runtime_metadata["torch"] = torch.__version__
        
        # System info
        runtime_metadata["platform"] = platform.platform()
        runtime_metadata["python"] = platform.python_version()
        
    except Exception as e:
        console.print(f"[yellow]⚠️  Could not collect runtime metadata: {e}[/yellow]")
        runtime_metadata["error"] = str(e)
    
    return runtime_metadata


def _validate_dataset(dataset_spec: str, dataset_type: str, text_field: Optional[str], schema: Optional[str]) -> tuple[bool, str]:
    """Validate dataset specification and accessibility"""
    try:
        if dataset_type == "wikitext":
            # Wikitext is always valid
            return True, "OK"
        
        elif dataset_type == "jsonl":
            file_path = dataset_spec[6:]  # Remove "jsonl:" prefix
            if not os.path.exists(file_path):
                return False, f"File not found: {file_path}"
            
            # Try to read first line to validate JSON format
            try:
                with open(file_path, 'r', encoding='utf-8') as f:
                    first_line = f.readline().strip()
                    if first_line:
                        import json
                        json.loads(first_line)
                return True, "OK"
            except json.JSONDecodeError:
                return False, f"Invalid JSON format in {file_path}"
            except Exception as e:
                return False, f"Error reading {file_path}: {e}"
        
        elif dataset_type == "hf":
            dataset_name = dataset_spec[3:] if dataset_spec.startswith("hf:") else dataset_spec
            # Try to load dataset info (without actually downloading)
            try:
                from datasets import get_dataset_infos
                infos = get_dataset_infos(dataset_name)
                if not infos:
                    return False, f"Dataset {dataset_name} not found"
                return True, "OK"
            except Exception as e:
                return False, f"Error accessing dataset {dataset_name}: {e}"
        
        else:
            return False, f"Unknown dataset type: {dataset_type}"
    
    except Exception as e:
        return False, f"Dataset validation error: {e}"


def _print_fallback(precision: str, gpu, lora: bool, seq_len: int, batch_size: int, oom: bool = False):
    """Print fallback configuration recommendations"""
    console.print("\n[bold]RECOMMENDED CONFIG PATCH[/bold]")
    suggest = {
        "precision": precision,
        "seq_len": seq_len,
        "batch_size": batch_size,
        "lora": lora,
        "gradient_checkpointing": False,
    }
    
    # Precision fallback
    if precision == "bf16" and not gpu.bf16_supported:
        suggest["precision"] = "fp16"
    if precision == "qlora4bit" and not gpu.available:
        suggest["precision"] = "fp16"
    
    # OOM mitigations
    if oom:
        if batch_size > 1:
            suggest["batch_size"] = max(1, batch_size // 2)
        else:
            suggest["gradient_checkpointing"] = True
            if seq_len > 1024:
                suggest["seq_len"] = min(1024, seq_len // 2)
            if precision in ("bf16", "fp32"):
                suggest["precision"] = "fp16"

    for k, v in suggest.items():
        console.print(f" - {k}: {v}")


@app.command()
def gpu_info():
    """Show detailed GPU information and selection options."""
    from validation.matrix import get_all_gpu_info
    
    multi_gpu_info = get_all_gpu_info()
    
    if not multi_gpu_info.gpus:
        console.print(Panel(
            "[bold red]❌ No GPUs detected[/bold red]\n"
            "[dim]Training will run on CPU[/dim]",
            title="GPU Information",
            border_style="red"
        ))
        return
    
    # Create GPU information table
    table = Table(title="Available GPUs")
    table.add_column("Index", style="cyan", width=6)
    table.add_column("Name", style="white", width=40)
    table.add_column("VRAM", style="green", width=12)
    table.add_column("Compute Capability", style="blue", width=15)
    table.add_column("BF16 Support", style="yellow", width=12)
    
    for gpu in multi_gpu_info.gpus:
        vram_gb = gpu.total_bytes / (1024**3)
        cc = f"{gpu.cc_major}.{gpu.cc_minor}"
        bf16_support = "✅ Yes" if gpu.bf16_supported else "❌ No"
        
        table.add_row(
            str(gpu.device_index),
            gpu.name,
            f"{vram_gb:.1f} GB",
            cc,
            bf16_support
        )
    
    console.print(table)
    
    # Show selection examples
    console.print(Panel(
        f"""[bold blue]GPU Selection Examples[/bold blue]

[cyan]Single GPU Training:[/cyan]
  humigence train --config my_config.yaml --gpu-mode single --gpu-ids 0

[cyan]Multi-GPU Training (all GPUs):[/cyan]
  humigence train --config my_config.yaml --gpu-mode multi --gpu-ids 0,1

[cyan]Multi-GPU Training (specific GPUs):[/cyan]
  humigence train --config my_config.yaml --gpu-mode multi --gpu-ids 1,2

[dim]Total VRAM: {multi_gpu_info.total_vram_gb:.1f} GB across {multi_gpu_info.count} GPUs[/dim]""",
        title="Usage Examples",
        border_style="green"
    ))


@app.command()
def version():
    """Show version information."""
    console.print("[bold blue]Humigence v1.0.0[/bold blue]")
    console.print("[dim]Your AI. Your pipeline. Zero code.[/dim]")


@app.callback()
def main(
    version: bool = typer.Option(
        False, 
        "--version", 
        "-v", 
        help="Show version and exit"
    )
):
    """
    Humigence - Your AI. Your pipeline. Zero code.
    
    A complete MLOps suite built for makers, teams, and enterprises.
    """
    if version:
        console.print("[bold blue]Humigence v1.0.0[/bold blue]")
        console.print("[dim]Your AI. Your pipeline. Zero code.[/dim]")
        raise typer.Exit(0)


if __name__ == "__main__":
    app()