MergeMind / pipeline.py

Upload 10 files

66153d5 verified 20 days ago

9.86 kB

	"""
	Master Pipeline Orchestrator
	==============================
	Runs all 5 phases end-to-end or individually.

	Usage:
	# Full pipeline for 'code' category
	python pipeline.py run --category code

	# Just discover + merge
	python pipeline.py run --category reasoning --skip-ft --skip-serve

	# Iterative improvement loop
	python pipeline.py run --category medical --loop --max-iter 3
	"""

	from __future__ import annotations

	from pathlib import Path
	from typing import Optional

	import typer
	from rich.console import Console
	from rich.panel import Panel
	from rich.rule import Rule

	from configs.settings import (
	FT_BASE_MODEL, TOP_K_CANDIDATES, MERGES_DIR, ADAPTERS_DIR, HF_ORG
	)
	from utils.logger import logger

	app = typer.Typer(help="LLM Pipeline — full orchestrator")
	console = Console()


	def _banner(text: str):
	console.print(Rule(f"[bold cyan]{text}[/bold cyan]"))


	@app.command()
	def run(
	category: str = typer.Argument("reasoning", help="Model category to target"),
	top_k: int = typer.Option(TOP_K_CANDIDATES, help="Candidates per category"),
	strategy: str = typer.Option("ties", help="Merge strategy: slerp\|ties\|dare_ties\|task_arithmetic\|breadcrumbs"),
	base_model: str = typer.Option(FT_BASE_MODEL, help="Base model for fine-tuning"),
	n_eval: int = typer.Option(100, help="Eval samples"),
	n_syn: int = typer.Option(50, help="Synthetic samples per gap"),
	ft_epochs: int = typer.Option(2, help="Fine-tuning epochs"),
	loop: bool = typer.Option(False, "--loop", help="Enable iterative improvement loop"),
	max_iter: int = typer.Option(3, help="Max loop iterations"),
	skip_discover: bool = typer.Option(False, "--skip-discover"),
	skip_merge: bool = typer.Option(False, "--skip-merge"),
	skip_eval: bool = typer.Option(False, "--skip-eval"),
	skip_ft: bool = typer.Option(False, "--skip-ft"),
	skip_serve: bool = typer.Option(True, "--skip-serve/--serve"), # off by default
	deploy: bool = typer.Option(False, "--deploy"),
	hf_repo: str = typer.Option("", "--repo"),
	use_wandb: bool = typer.Option(False, "--wandb"),
	use_mergekit: bool = typer.Option(False, "--mergekit/--no-mergekit"),
	):
	console.print(Panel(
	f"[bold]LLM Pipeline[/bold]\n"
	f"Category: [cyan]{category}[/cyan] \| Strategy: [magenta]{strategy}[/magenta] \| "
	f"Base: [green]{base_model.split('/')[-1]}[/green]",
	title="Starting",
	))

	# ──────────────────────────────
	# Phase 1: Discovery
	# ──────────────────────────────
	candidates = []
	if not skip_discover:
	_banner("Phase 1 — Discovery")
	from phase1_discovery.discover import discover
	candidates = discover(category, top_k=top_k)
	if not candidates:
	logger.error("No candidates found. Exiting.")
	raise typer.Exit(1)
	console.print(f"[green]✓ Found {len(candidates)} candidates[/green]")

	# ──────────────────────────────
	# Phase 2: Merging
	# ──────────────────────────────
	merged_path: Optional[Path] = None
	if not skip_merge and candidates:
	_banner("Phase 2 — Merging")
	from phase2_merging.merge import merge_models
	model_ids = [c.model_id for c in candidates[:3]] # merge top-3
	merged_path = merge_models(
	strategy = strategy,
	models = model_ids,
	base_model = model_ids[0],
	use_mergekit = use_mergekit,
	)
	console.print(f"[green]✓ Merged → {merged_path}[/green]")

	eval_model = str(merged_path) if merged_path else base_model

	# ──────────────────────────────
	# Phase 3: Evaluation
	# ──────────────────────────────
	eval_result = None
	if not skip_eval:
	_banner("Phase 3 — Evaluation")
	from phase3_evaluation.evaluate import evaluate, load_squad
	samples = load_squad(n_eval)
	eval_result = evaluate(eval_model, samples, category, run_judge=True)
	console.print(
	f"[green]✓ ROUGE-1: {eval_result.avg_rouge1:.3f} \| "
	f"BERTScore: {eval_result.avg_bertscore:.3f} \| "
	f"Judge: {eval_result.avg_judge_score:.1f}/10[/green]"
	)

	# ──────────────────────────────
	# Phase 4: Fine-tuning
	# ──────────────────────────────
	best_adapter: Optional[Path] = None
	if not skip_ft:
	_banner("Phase 4 — Fine-Tuning")
	from phase4_finetuning.finetune import improvement_loop, fine_tune, generate_synthetic_data, format_as_hf_dataset
	from phase3_evaluation.evaluate import load_squad

	if loop:
	# Full iterative loop
	best_adapter = improvement_loop(
	base_model_id = eval_model,
	eval_samples_fn = lambda: load_squad(min(50, n_eval)),
	max_iterations = max_iter,
	n_syn_per_gap = n_syn,
	use_wandb = use_wandb,
	)
	elif eval_result and eval_result.gap_categories:
	# One-shot: target detected gaps
	from configs.settings import ADAPTERS_DIR
	syn = generate_synthetic_data(eval_result.gap_categories, n_per_gap=n_syn)
	dataset = format_as_hf_dataset(syn)
	adapter_dir = ADAPTERS_DIR / f"{category}_{strategy}"
	best_adapter = fine_tune(
	base_model_id = eval_model,
	dataset = dataset,
	output_dir = adapter_dir,
	run_name = f"{category}-{strategy}",
	epochs = ft_epochs,
	use_wandb = use_wandb,
	)
	else:
	logger.info("[FT] No gaps detected, skipping fine-tuning")

	if best_adapter:
	console.print(f"[green]✓ Adapter → {best_adapter}[/green]")

	# ──────────────────────────────
	# Phase 5a: MLOps tracking
	# ──────────────────────────────
	_banner("Phase 5 — MLOps")
	if eval_result:
	from phase5_mlops.serve import ExperimentTracker, ExperimentMetrics
	metrics = ExperimentMetrics(
	run_name = f"{category}-{strategy}",
	model_id = eval_model,
	merge_strategy = strategy,
	base_models = [c.model_id for c in candidates] if candidates else [],
	avg_rouge1 = eval_result.avg_rouge1,
	avg_rouge2 = eval_result.avg_rouge2,
	avg_rougeL = eval_result.avg_rougeL,
	avg_bertscore = eval_result.avg_bertscore,
	avg_faithfulness = eval_result.avg_faithfulness,
	hallucination_rate = eval_result.hallucination_rate,
	avg_judge_score = eval_result.avg_judge_score,
	gap_categories = eval_result.gap_categories,
	)
	tracker = ExperimentTracker(use_wandb=use_wandb, use_mlflow=True)
	tracker.log(metrics)
	console.print("[green]✓ Experiment tracked[/green]")

	# ──────────────────────────────
	# Phase 5b: HF Hub deploy
	# ──────────────────────────────
	if deploy:
	from phase5_mlops.serve import deploy_to_hub, ExperimentMetrics
	repo = hf_repo or f"{HF_ORG}/{category}-{strategy}-7b"
	deploy_to_hub(
	model_path = str(merged_path or base_model),
	repo_id = repo,
	metrics = metrics if eval_result else None,
	)

	# ──────────────────────────────
	# Phase 5c: vLLM server
	# ──────────────────────────────
	if not skip_serve:
	_banner("Phase 5 — Inference Server")
	final_model = str(best_adapter or merged_path or base_model)
	from phase5_mlops.serve import VLLMServer
	server = VLLMServer(final_model)
	server.start_api_server()

	# ──────────────────────────────
	# Summary
	# ──────────────────────────────
	_banner("Pipeline Complete")
	from phase5_mlops.serve import print_pipeline_summary
	print_pipeline_summary()


	@app.command("leaderboard")
	def leaderboard():
	"""Print the evaluation leaderboard from saved results."""
	from phase5_mlops.serve import print_pipeline_summary
	print_pipeline_summary()


	@app.command("introspect")
	def introspect(model: str = typer.Argument(..., help="Model ID to introspect")):
	"""Print DOM-tree-style architecture of a model."""
	from phase2_merging.merge import introspect_architecture, print_architecture_tree
	from transformers import AutoModelForCausalLM
	from configs.settings import HF_TOKEN
	logger.info(f"Loading {model}...")
	m = AutoModelForCausalLM.from_pretrained(model, device_map="cpu", token=HF_TOKEN or None)
	root = introspect_architecture(m, model)
	print_architecture_tree(root)


	if __name__ == "__main__":
	app()