Upload hf_scripts/run.py with huggingface_hub

a9f5d41 verified 14 days ago

25.7 kB

	#!/usr/bin/env python3
	"""
	CogNet-1B — Lanceur d'entraînement Python pur
	===============================================
	Remplace acil_submit.sh — tout est en Python !
	Détecte les GPUs automatiquement, prépare les données,
	lance l'entraînement multi-GPU avec torchrun si nécessaire.

	Usage:
	# Simple — tout automatique
	python run.py

	# Avec options
	python run.py --max-steps 100000 --batch-size 4 --hf-token hf_xxxx

	# Reprendre un checkpoint
	python run.py --resume ./checkpoints_1b/cognet_1b_latest.pt

	# Seulement préparer les données
	python run.py --prep-only

	# Sur un cluster avec SLURM (soumission auto)
	python run.py --slurm --time 72:00:00 --gpus 4
	"""

	import argparse
	import os
	import signal
	import subprocess
	import sys
	import time
	import json
	import shutil
	from datetime import datetime
	from pathlib import Path

	# ═══════════════════════════════════════════════════════════════════
	# Configuration par défaut
	# ═══════════════════════════════════════════════════════════════════

	DEFAULTS = {
	'model_size': '1b',
	'batch_size': 4,
	'grad_accum': 8,
	'seq_len': 512,
	'max_lr': 1e-4,
	'min_lr': 1e-5,
	'warmup_steps': 2000,
	'max_steps': 100000,
	'ckpt_dir': './checkpoints_1b',
	'data_dir': './data_1b',
	'save_every': 2000,
	'eval_every': 500,
	'log_every': 50,
	'weight_decay': 0.1,
	'grad_clip': 1.0,
	}

	WORKSPACE = os.path.dirname(os.path.abspath(__file__))
	TRAIN_SCRIPT = os.path.join(WORKSPACE, 'train_ultra.py')


	# ═══════════════════════════════════════════════════════════════════
	# Détection GPU
	# ═══════════════════════════════════════════════════════════════════

	def detect_gpus():
	"""Détecte le nombre de GPUs disponibles."""
	try:
	result = subprocess.run(
	['nvidia-smi', '--query-gpu=name,memory.total', '--format=csv,noheader,nounits'],
	capture_output=True, text=True, timeout=10
	)
	if result.returncode != 0:
	return 0, []
	lines = [l.strip() for l in result.stdout.strip().split('\n') if l.strip()]
	gpus = []
	for line in lines:
	parts = line.split(',')
	name = parts[0].strip()
	vram = float(parts[1].strip()) if len(parts) > 1 else 0
	gpus.append({'name': name, 'vram_mb': vram})
	return len(gpus), gpus
	except Exception:
	# Fallback: torch
	try:
	import torch
	count = torch.cuda.device_count()
	gpus = []
	for i in range(count):
	name = torch.cuda.get_device_name(i)
	vram = torch.cuda.get_device_properties(i).total_mem / 1e6 # MB
	gpus.append({'name': name, 'vram_mb': vram})
	return count, gpus
	except Exception:
	return 0, []


	def get_gpu_type(gpus):
	"""Retourne le type de GPU (A100, H100, etc.)."""
	if not gpus:
	return 'CPU'
	name = gpus[0]['name'].upper()
	if 'H100' in name:
	return 'H100'
	elif 'A100' in name:
	return 'A100'
	elif 'A6000' in name:
	return 'A6000'
	elif '4090' in name:
	return 'RTX4090'
	elif '3090' in name:
	return 'RTX3090'
	elif 'V100' in name:
	return 'V100'
	return gpus[0]['name']


	# NOTE: Les estimations de temps seront calculées dynamiquement
	# par le vrai benchmark au début du training dans train_ultra.py.
	# Plus aucune estimation fabriquée ici.


	# ═══════════════════════════════════════════════════════════════════
	# Préparation des données (Python)
	# ═══════════════════════════════════════════════════════════════════

	def prepare_data_python(data_dir, hf_token='', skip=False):
	"""Lance la préparation des données via train_ultra.py."""
	if skip:
	print('[DATA] Skip (--skip-data-prep)')
	return True

	merged = os.path.join(data_dir, 'train_merged.pt')
	if os.path.exists(merged):
	size_mb = os.path.getsize(merged) / 1e6
	print(f'[DATA] Déjà préparé: {merged} ({size_mb:.0f} MB)')
	return True

	print('[DATA] Préparation des datasets (HF + AICL + synthetic)...')
	env = os.environ.copy()
	if hf_token:
	env['HF_TOKEN'] = hf_token

	cmd = [sys.executable, TRAIN_SCRIPT, '--max-steps', '0', '--skip-data-prep']
	# Note: --max-steps 0 avec --skip-data-prep ne fait rien
	# On doit lancer sans --skip-data-prep pour que la data prep se fasse
	cmd = [sys.executable, TRAIN_SCRIPT, '--max-steps', '0']

	try:
	result = subprocess.run(cmd, env=env, cwd=WORKSPACE, timeout=7200) # 2h max
	if result.returncode != 0:
	print(f'[DATA] ERREUR: data prep a échoué (code {result.returncode})')
	return False
	except subprocess.TimeoutExpired:
	print('[DATA] ERREUR: data prep a timeout (2h)')
	return False
	except Exception as e:
	print(f'[DATA] ERREUR: {e}')
	return False

	if os.path.exists(merged):
	size_mb = os.path.getsize(merged) / 1e6
	print(f'[DATA] Préparation terminée: {merged} ({size_mb:.0f} MB)')
	return True

	print('[DATA] ERREUR: fichier merged non trouvé après préparation')
	return False


	# ═══════════════════════════════════════════════════════════════════
	# Vérification des dépendances
	# ═══════════════════════════════════════════════════════════════════

	def check_dependencies():
	"""Vérifie que les dépendances Python sont installées."""
	required = ['torch', 'datasets', 'huggingface_hub', 'tokenizers']
	missing = []

	for pkg in required:
	try:
	__import__(pkg)
	except ImportError:
	missing.append(pkg)

	# Vérification optionnelle
	optional_missing = []
	try:
	import bitsandbytes
	except ImportError:
	optional_missing.append('bitsandbytes (optionnel: 8-bit optimizer)')

	return missing, optional_missing


	def install_dependencies(packages):
	"""Installe les packages manquants."""
	for pkg in packages:
	print(f'[INSTALL] Installation de {pkg}...')
	subprocess.run([sys.executable, '-m', 'pip', 'install', pkg, '-q'], check=False)


	# ═══════════════════════════════════════════════════════════════════
	# Lancement de l'entraînement
	# ═══════════════════════════════════════════════════════════════════

	def launch_training(args, num_gpus):
	"""Lance l'entraînement — torchrun si multi-GPU, sinon python direct."""

	# Construction des arguments communs
	common_args = [
	'--model-size', str(args.model_size),
	'--batch-size', str(args.batch_size),
	'--grad-accum', str(args.grad_accum),
	'--seq-len', str(args.seq_len),
	'--max-lr', str(args.max_lr),
	'--min-lr', str(args.min_lr),
	'--warmup-steps', str(args.warmup_steps),
	'--max-steps', str(args.max_steps),
	'--ckpt-dir', str(args.ckpt_dir),
	'--save-every', str(args.save_every),
	'--eval-every', str(args.eval_every),
	'--log-every', str(args.log_every),
	'--weight-decay', str(args.weight_decay),
	'--grad-clip', str(args.grad_clip),
	]

	# Optimisations V2 — toutes activées par défaut
	if args.bf16:
	common_args.append('--bf16')
	if args.compile:
	common_args.append('--compile')
	if args.cuda_prefetch:
	common_args.append('--cuda-prefetch')
	if args.seq_warmup:
	common_args.append('--seq-warmup')
	if args.async_ckpt:
	common_args.append('--async-ckpt')
	if args.use_8bit:
	common_args.append('--8bit-optim')

	# Resume
	if args.resume:
	common_args.extend(['--resume', args.resume])

	# Skip data prep (déjà fait)
	common_args.append('--skip-data-prep')

	# Environnement
	env = os.environ.copy()
	if args.hf_token:
	env['HF_TOKEN'] = args.hf_token
	env['COGNET_WORKSPACE'] = WORKSPACE
	env['AICL_REPEAT'] = str(args.aicl_repeat)

	# CUDA optimizations
	env['CUDA_DEVICE_MAX_CONNECTIONS'] = '1'
	env['TORCH_NCCL_AVOID_RECORD_STREAMS'] = '1'
	if 'NCCL_P2P_LEVEL' not in env:
	env['NCCL_P2P_LEVEL'] = 'NVL'

	# Multi-GPU → torchrun
	if num_gpus > 1 and args.use_fsdp:
	common_args.append('--use-fsdp')

	cmd = [
	sys.executable, '-m', 'torch.distributed.run',
	'--standalone',
	f'--nproc_per_node={num_gpus}',
	TRAIN_SCRIPT,
	] + common_args

	print(f'\n[TRAIN] Lancement FSDP avec {num_gpus} GPUs via torchrun...')
	print(f'[TRAIN] Commande: {" ".join(cmd[:8])}... ({" ".join(common_args[:6])}...)')

	# Single GPU → python direct
	else:
	if args.compile_step:
	common_args.append('--compile-step')

	cmd = [sys.executable, TRAIN_SCRIPT] + common_args

	print(f'\n[TRAIN] Lancement single GPU...')
	print(f'[TRAIN] Commande: {" ".join(cmd[:4])}... ({" ".join(common_args[:6])}...)')

	# Lancement
	start_time = time.time()
	try:
	process = subprocess.Popen(
	cmd, env=env, cwd=WORKSPACE,
	stdout=sys.stdout, stderr=sys.stderr,
	)

	# Gestion des signaux pour propager au sous-processus
	def forward_signal(signum, frame):
	process.send_signal(signum)

	signal.signal(signal.SIGTERM, forward_signal)
	signal.signal(signal.SIGINT, forward_signal)

	# Attendre la fin
	return_code = process.wait()
	elapsed = time.time() - start_time

	if return_code == 0:
	print(f'\n[TRAIN] Entraînement terminé avec succès! ({elapsed/3600:.1f}h)')
	else:
	print(f'\n[TRAIN] Entraînement terminé avec code {return_code} ({elapsed/3600:.1f}h)')

	return return_code == 0

	except KeyboardInterrupt:
	print('\n[TRAIN] Interruption clavier — checkpoint sauvegardé par train_ultra.py')
	return True
	except Exception as e:
	print(f'\n[TRAIN] ERREUR: {e}')
	return False


	# ═══════════════════════════════════════════════════════════════════
	# Soumission SLURM (optionnel)
	# ═══════════════════════════════════════════════════════════════════

	def submit_slurm(args, num_gpus):
	"""Soumet le job via SLURM — mais le script reste en Python!"""
	slurm_script = f"""#!/bin/bash
	#SBATCH --job-name=cognet-1b
	#SBATCH --partition=gpu
	#SBATCH --nodes=1
	#SBATCH --ntasks-per-node={num_gpus}
	#SBATCH --cpus-per-task=8
	#SBATCH --mem=256G
	#SBATCH --gres=gpu:{num_gpus}
	#SBATCH --time={args.time}
	#SBATCH --output=logs/cognet-%j.out
	#SBATCH --error=logs/cognet-%j.err

	cd {WORKSPACE}
	{sys.executable} run.py {" ".join(get_run_args_for_slurm(args))}
	"""
	script_path = os.path.join(WORKSPACE, '_slurm_submit.sh')
	os.makedirs(os.path.join(WORKSPACE, 'logs'), exist_ok=True)

	with open(script_path, 'w') as f:
	f.write(slurm_script)

	print(f'[SLURM] Soumission du job...')
	result = subprocess.run(['sbatch', script_path], capture_output=True, text=True)
	if result.returncode == 0:
	job_id = result.stdout.strip().split()[-1]
	print(f'[SLURM] Job soumis: {job_id}')
	print(f'[SLURM] Logs: logs/cognet-{job_id}.out')
	else:
	print(f'[SLURM] ERREUR: {result.stderr}')
	os.remove(script_path)


	def get_run_args_for_slurm(args):
	"""Retourne les arguments Python pour la soumission SLURM."""
	arg_list = []
	if args.hf_token:
	arg_list.extend(['--hf-token', args.hf_token])
	arg_list.extend(['--max-steps', str(args.max_steps)])
	arg_list.extend(['--batch-size', str(args.batch_size)])
	arg_list.extend(['--grad-accum', str(args.grad_accum)])
	arg_list.extend(['--seq-len', str(args.seq_len)])
	if args.no_compile:
	arg_list.append('--no-compile')
	if args.no_fsdp:
	arg_list.append('--no-fsdp')
	return arg_list


	# ═══════════════════════════════════════════════════════════════════
	# Vérification des checkpoints
	# ═══════════════════════════════════════════════════════════════════

	def check_existing_checkpoints(ckpt_dir):
	"""Affiche les checkpoints existants."""
	ckpt_path = Path(ckpt_dir)
	if not ckpt_path.exists():
	return None

	latest = ckpt_path / 'cognet_1b_latest.pt'
	best = ckpt_path / 'cognet_1b_best.pt'
	final = ckpt_path / 'cognet_1b_final.pt'

	info = {}
	if latest.exists():
	try:
	data = torch.load(str(latest), map_location='cpu', weights_only=False)
	info['latest_step'] = data.get('step', 0)
	info['latest_loss'] = data.get('loss', float('inf'))
	info['latest_path'] = str(latest)
	except Exception:
	pass
	if best.exists():
	try:
	data = torch.load(str(best), map_location='cpu', weights_only=False)
	info['best_step'] = data.get('step', 0)
	info['best_loss'] = data.get('best_loss', float('inf'))
	info['best_path'] = str(best)
	except Exception:
	pass
	if final.exists():
	info['final_path'] = str(final)

	return info


	# ═══════════════════════════════════════════════════════════════════
	# Main
	# ═══════════════════════════════════════════════════════════════════

	def main():
	parser = argparse.ArgumentParser(
	description='CogNet-1B — Lanceur Python (remplace acil_submit.sh)',
	formatter_class=argparse.RawDescriptionHelpFormatter,
	epilog="""
	Exemples:
	python run.py # Tout automatique
	python run.py --max-steps 50000 # 50k steps
	python run.py --hf-token hf_xxx # Avec token HF
	python run.py --resume ./checkpoints_1b/cognet_1b_latest.pt # Reprendre
	python run.py --prep-only # Seulement data prep
	python run.py --slurm --gpus 4 --time 72:00:00 # SLURM auto
	python run.py --no-fsdp # Single GPU
	"""
	)

	# Config
	parser.add_argument('--model-size', type=str, default=DEFAULTS['model_size'], choices=['1b', '350m'])
	parser.add_argument('--batch-size', type=int, default=DEFAULTS['batch_size'])
	parser.add_argument('--grad-accum', type=int, default=DEFAULTS['grad_accum'])
	parser.add_argument('--seq-len', type=int, default=DEFAULTS['seq_len'])
	parser.add_argument('--max-lr', type=float, default=DEFAULTS['max_lr'])
	parser.add_argument('--min-lr', type=float, default=DEFAULTS['min_lr'])
	parser.add_argument('--warmup-steps', type=int, default=DEFAULTS['warmup_steps'])
	parser.add_argument('--max-steps', type=int, default=DEFAULTS['max_steps'])
	parser.add_argument('--ckpt-dir', type=str, default=DEFAULTS['ckpt_dir'])
	parser.add_argument('--data-dir', type=str, default=DEFAULTS['data_dir'])
	parser.add_argument('--save-every', type=int, default=DEFAULTS['save_every'])
	parser.add_argument('--eval-every', type=int, default=DEFAULTS['eval_every'])
	parser.add_argument('--log-every', type=int, default=DEFAULTS['log_every'])
	parser.add_argument('--weight-decay', type=float, default=DEFAULTS['weight_decay'])
	parser.add_argument('--grad-clip', type=float, default=DEFAULTS['grad_clip'])

	# Token & repos
	parser.add_argument('--hf-token', type=str, default=os.environ.get('HF_TOKEN', ''),
	help='HuggingFace API token')
	parser.add_argument('--aicl-repeat', type=int, default=10,
	help='Nombre de répétitions des données AICL')

	# Optimizations (activées par défaut)
	parser.add_argument('--no-compile', action='store_true', help='Désactiver torch.compile')
	parser.add_argument('--no-fsdp', action='store_true', help='Désactiver FSDP (single GPU)')
	parser.add_argument('--no-cuda-prefetch', action='store_true', help='Désactiver CUDA prefetch')
	parser.add_argument('--no-seq-warmup', action='store_true', help='Désactiver seq length warmup')
	parser.add_argument('--no-async-ckpt', action='store_true', help='Désactiver async checkpointing')
	parser.add_argument('--no-bf16', action='store_true', help='Désactiver BF16 (utiliser FP16)')
	parser.add_argument('--8bit', action='store_true', help='Activer 8-bit optimizer (bitsandbytes)')
	parser.add_argument('--compile-step', action='store_true', help='Compiler forward+backward ensemble')

	# Resume
	parser.add_argument('--resume', type=str, default=None, help='Chemin du checkpoint à reprendre')

	# Modes spéciaux
	parser.add_argument('--prep-only', action='store_true', help='Seulement préparer les données')
	parser.add_argument('--skip-data-prep', action='store_true', help='Sauter la préparation des données')
	parser.add_argument('--check-only', action='store_true', help='Seulement vérifier le setup')

	# SLURM
	parser.add_argument('--slurm', action='store_true', help='Soumettre via SLURM')
	parser.add_argument('--gpus', type=int, default=None, help='Nombre de GPUs pour SLURM')
	parser.add_argument('--time', type=str, default='72:00:00', help='Temps SLURM')

	args = parser.parse_args()

	# Dériver les flags booléens (inversés car les flags sont "no-*")
	args.bf16 = not args.no_bf16
	args.compile = not args.no_compile
	args.use_fsdp = not args.no_fsdp
	args.cuda_prefetch = not args.no_cuda_prefetch
	args.seq_warmup = not args.no_seq_warmup
	args.async_ckpt = not args.no_async_ckpt
	args.use_8bit = getattr(args, '8bit', False)

	# ═══ Bannière ═══
	print()
	print('╔══════════════════════════════════════════════════════════╗')
	print('║ CogNet-1B — Lanceur Python V2 ║')
	print('║ Les performances seront mesurées par benchmark ║')
	print('╚══════════════════════════════════════════════════════════╝')
	print()

	# ═══ Détection GPU ═══
	num_gpus, gpus = detect_gpus()
	gpu_type = get_gpu_type(gpus)

	print(f'[GPU] {num_gpus} GPU(s) détecté(s):')
	for i, gpu in enumerate(gpus):
	print(f' GPU {i}: {gpu["name"]} ({gpu["vram_mb"]:.0f} MB VRAM)')
	print(f' Type: {gpu_type}')

	if num_gpus == 0:
	print('[GPU] ATTENTION: Aucun GPU détecté — entraînement sur CPU (très lent!)')
	print('[GPU] Vérifiez que nvidia-smi fonctionne et que CUDA est installé')

	# ═══ Vérification dépendances ═══
	missing, optional = check_dependencies()
	if missing:
	print(f'\n[DEPS] Packages manquants: {", ".join(missing)}')
	response = input('[DEPS] Installer automatiquement? (o/n) [o] ').strip().lower()
	if response in ('', 'o', 'oui', 'y', 'yes'):
	install_dependencies(missing)
	else:
	print('[DEPS] Installation annulée. Installez manuellement:')
	print(f' pip install {" ".join(missing)}')
	sys.exit(1)

	if optional:
	print(f'[DEPS] Optionnels non installés: {", ".join(optional)}')

	# ═══ Vérification du script d'entraînement ═══
	if not os.path.exists(TRAIN_SCRIPT):
	print(f'[ERREUR] Script d\'entraînement introuvable: {TRAIN_SCRIPT}')
	sys.exit(1)

	if not os.path.exists(os.path.join(WORKSPACE, 'cognet_1b_optimized.py')):
	print(f'[ERREUR] Modèle optimisé introuvable: cognet_1b_optimized.py')
	sys.exit(1)

	# ═══ Checkpoints existants ═══
	ckpt_info = check_existing_checkpoints(args.ckpt_dir)
	if ckpt_info:
	print(f'\n[CKPT] Checkpoints existants dans {args.ckpt_dir}:')
	if 'latest_step' in ckpt_info:
	print(f' Latest: step {ckpt_info["latest_step"]}, loss={ckpt_info["latest_loss"]:.4f}')
	if 'best_step' in ckpt_info:
	print(f' Best: step {ckpt_info["best_step"]}, loss={ckpt_info["best_loss"]:.4f}')

	else:
	print(f'\n[CKPT] Aucun checkpoint existant')

	# ═══ Estimation du temps ═══
	# NOTE: Le vrai benchmark sera fait par train_ultra.py au début du training.
	# Pas d'estimation fabriquée ici — les chiffres réels seront mesurés.
	if num_gpus > 0 and not args.check_only:
	effective_batch = args.batch_size * args.grad_accum * num_gpus
	print(f'\n[BENCH] Les performances seront mesurées par un vrai benchmark au démarrage.')
	print(f' GPU: {num_gpus}x {gpu_type}')
	print(f' Batch effectif: {effective_batch} ({args.batch_size} x {args.grad_accum} x {num_gpus} GPUs)')
	print(f' Le temps restant sera calculé à partir de la vitesse mesurée.')

	# ═══ Config finale ═══
	print(f'\n[CONFIG] Configuration finale:')
	print(f' Model: CogNet-{args.model_size.upper()} (16 blocks, 8 channels, 384 ch_dim, 8192 ff)')
	print(f' Vocab: 136 (CharTokenizer)')
	print(f' Seq len: {args.seq_len}')
	print(f' Batch: {args.batch_size} x grad_accum={args.grad_accum} x GPUs={num_gpus} = {args.batch_size * args.grad_accum * num_gpus}')
	print(f' LR: {args.min_lr} → {args.max_lr}')
	print(f' Steps: {args.max_steps:,}')
	print(f' HF token: {"SET" if args.hf_token else "NOT SET"}')
	print(f' BF16: {args.bf16}')
	print(f' Compile: {args.compile}')
	print(f' FSDP: {args.use_fsdp} ({num_gpus} GPUs)')
	print(f' Prefetch: {args.cuda_prefetch}')
	print(f' SeqWarm: {args.seq_warmup}')
	print(f' AsyncCkpt:{args.async_ckpt}')
	print(f' 8-bit: {args.use_8bit}')

	# ═══ Check-only ═══
	if args.check_only:
	print('\n[CHECK] Vérification terminée — tout est prêt!')
	return

	# ═══ SLURM ═══
	if args.slurm:
	gpu_count = args.gpus or num_gpus or 4
	submit_slurm(args, gpu_count)
	return

	# ═══ Data prep ═══
	if args.prep_only:
	ok = prepare_data_python(args.data_dir, args.hf_token, skip=False)
	print('\n[DATA] Préparation terminée!' if ok else '\n[DATA] ÉCHEC!')
	return

	if not args.skip_data_prep:
	ok = prepare_data_python(args.data_dir, args.hf_token)
	if not ok:
	print('[DATA] ÉCHEC de la préparation des données!')
	response = input('[DATA] Continuer quand même? (o/n) [n] ').strip().lower()
	if response not in ('o', 'oui', 'y', 'yes'):
	sys.exit(1)

	# ═══ Entraînement ═══
	print('\n' + '=' * 60)
	print(' DÉMARRAGE DE L\'ENTRAÎNEMENT')
	print('=' * 60)
	print(f' Début: {datetime.now().strftime("%Y-%m-%d %H:%M:%S")}')
	print('=' * 60 + '\n')

	success = launch_training(args, num_gpus)

	print('\n' + '=' * 60)
	if success:
	print(' ENTRAÎNEMENT TERMINÉ AVEC SUCCÈS')
	else:
	print(' ENTRAÎNEMENT TERMINÉ AVEC ERREURS')
	print(f' Fin: {datetime.now().strftime("%Y-%m-%d %H:%M:%S")}')
	print('=' * 60)

	# Vérifier le résultat final
	ckpt_info = check_existing_checkpoints(args.ckpt_dir)
	if ckpt_info and 'best_path' in ckpt_info:
	print(f'\n Meilleur checkpoint: {ckpt_info["best_path"]}')
	if 'best_loss' in ckpt_info:
	print(f' Meilleure loss: {ckpt_info["best_loss"]:.4f}')

	if not success:
	sys.exit(1)


	if __name__ == '__main__':
	main()