Train virtual-shard anime parser

359ff82 1 day ago

65.2 kB

	"""
	Train AniFileBERT for structured anime filename parsing.

	The training loop keeps the existing PyTorch/Transformers stack, writes
	Hugging Face checkpoints, records token/entity metrics, and also evaluates
	end-to-end parser exact-match on held-out filenames and fixed real-world cases.
	"""

	import os
	import sys
	import json
	import argparse
	import random
	import subprocess
	import threading
	import time
	import gc
	from collections import Counter
	from ctypes import POINTER, Structure, byref, c_int, c_uint, c_ulonglong, c_void_p, cdll
	from ctypes import util as ctypes_util
	from typing import Dict, List, Optional, Sequence

	import numpy as np
	import torch
	from torch.utils.data import SequentialSampler
	from transformers import (
	Trainer,
	TrainingArguments,
	BertForTokenClassification,
	TrainerCallback,
	)
	from seqeval.metrics import classification_report, accuracy_score, f1_score, precision_score, recall_score

	from .config import Config
	from .tokenizer import AnimeTokenizer, create_tokenizer, load_tokenizer
	from .model import create_model, print_model_summary, count_parameters
	from .dataset import AnimeItemsDataset, EncodedAnimeDataset, labels_for_tokenizer
	from .inference import parse_filename, postprocess
	from .virtual_dataset import DatasetRangeView, ShardedEncodedDataset


	def compute_metrics(p):
	"""Compute token-level and entity-level metrics using seqeval."""
	predictions, labels = p
	predictions = np.argmax(predictions, axis=2)

	# Remove ignored index (special tokens)
	true_predictions = []
	true_labels = []

	id2label = Config().id2label

	for pred_seq, label_seq in zip(predictions, labels):
	preds = []
	lbls = []
	for p, l in zip(pred_seq, label_seq):
	if l != -100:
	preds.append(id2label[p])
	lbls.append(id2label[l])
	true_predictions.append(preds)
	true_labels.append(lbls)

	# Entity-level metrics (via seqeval)
	return {
	"precision": precision_score(true_labels, true_predictions),
	"recall": recall_score(true_labels, true_predictions),
	"f1": f1_score(true_labels, true_predictions),
	"accuracy": accuracy_score(true_labels, true_predictions),
	}


	def parse_args() -> argparse.Namespace:
	parser = argparse.ArgumentParser(description="Train anime filename parser")
	parser.add_argument("--tokenizer", choices=["regex", "char"], default=None,
	help="Tokenizer variant for A/B testing. Defaults to dataset metadata")
	parser.add_argument("--data-file", default=None, help="Primary training JSONL file")
	parser.add_argument("--extra-data-file", action="append", default=[],
	help="Additional training JSONL file. Can be passed multiple times.")
	parser.add_argument("--extra-data-repeat", type=int, default=1,
	help="Repeat each extra dataset this many times after loading")
	parser.add_argument("--virtual-dataset-dir", default=None,
	help="Pre-encoded shard directory generated by tools/virtual_dataset_generator")
	parser.add_argument("--vocab-file", default=None,
	help="Tokenizer vocab JSON. Defaults to data/vocab.json or data/vocab.char.json")
	parser.add_argument("--save-dir", default=None, help="Checkpoint output directory")
	parser.add_argument("--init-model-dir", default=None, help="Optional checkpoint to fine-tune from")
	parser.add_argument("--epochs", type=float, default=None, help="Number of training epochs")
	parser.add_argument("--max-steps", type=int, default=-1,
	help="Override epoch-based training and stop after this many optimizer steps")
	parser.add_argument("--batch-size", type=int, default=None, help="Per-device train/eval batch size")
	parser.add_argument("--learning-rate", type=float, default=None, help="Learning rate")
	parser.add_argument("--warmup-steps", type=int, default=None, help="Warmup steps")
	parser.add_argument("--train-split", type=float, default=None, help="Train split ratio")
	parser.add_argument("--max-seq-length", type=int, default=None, help="Maximum sequence length")
	parser.add_argument("--seed", type=int, default=42, help="Random seed")
	parser.add_argument("--limit-samples", type=int, default=None,
	help="Use only the first N samples for quick A/B smoke runs")
	parser.add_argument("--augment-partial-samples", type=int, default=0,
	help="Generate this many partial BIO-span samples in memory before training")
	parser.add_argument("--augment-permutation-samples", type=int, default=0,
	help="Generate this many random BIO-span permutation samples in memory before training")
	parser.add_argument("--augment-special-samples", type=int, default=0,
	help="Generate this many special-only/title+special samples such as Menu01 in memory")
	parser.add_argument("--augment-max-chars", type=int, default=160,
	help="Maximum character length for generated augmentation samples")
	parser.add_argument("--rebuild-vocab", action="store_true",
	help="Rebuild vocab from the selected data file before training")
	parser.add_argument("--max-vocab-size", type=int, default=None,
	help="Optional vocab cap used with --rebuild-vocab")
	parser.add_argument("--checkpoint-steps", type=int, default=None,
	help="Save resumable checkpoints every N steps instead of only at epoch end")
	parser.add_argument("--save-total-limit", type=int, default=2,
	help="Maximum number of checkpoints to keep")
	parser.add_argument("--no-periodic-eval", action="store_true",
	help="Skip Trainer's scheduled train-time eval/load-best-model; final evaluation still runs")
	parser.add_argument("--keep-raw-dataset", action="store_true",
	help="Keep raw JSONL dictionaries in memory after encoded datasets are built")
	parser.add_argument("--gradient-accumulation-steps", type=int, default=1,
	help="Accumulate gradients across this many steps")
	parser.add_argument("--num-workers", type=int, default=None,
	help="DataLoader worker count. Defaults to config.num_workers")
	parser.add_argument("--prefetch-factor", type=int, default=None,
	help="DataLoader prefetch factor when workers are enabled")
	parser.add_argument("--persistent-workers", action="store_true",
	help="Keep DataLoader workers alive between epochs")
	parser.add_argument("--lazy-dataset", action="store_true",
	help="Tokenize samples lazily in DataLoader workers instead of pre-encoding tensors")
	parser.add_argument("--apply-label-repairs", action="store_true",
	help="Apply runtime deterministic label repairs while building training tensors")
	parser.add_argument("--encoded-dataset-device", choices=["cpu", "cuda"], default="cpu",
	help="Store pre-encoded dataset tensors on this device; cuda requires --num-workers 0")
	parser.add_argument("--bf16", action="store_true",
	help="Use bfloat16 mixed precision on CUDA instead of fp16")
	parser.add_argument("--no-mixed-precision", action="store_true",
	help="Disable fp16/bf16 mixed precision even when CUDA is available")
	parser.add_argument("--tf32", dest="tf32", action="store_true",
	help="Enable TF32 matmul/cudnn kernels on CUDA")
	parser.add_argument("--no-tf32", dest="tf32", action="store_false",
	help="Disable TF32 matmul/cudnn kernels")
	parser.add_argument("--torch-compile", action="store_true",
	help="Enable torch.compile through Hugging Face Trainer")
	parser.add_argument("--auto-find-batch-size", action="store_true",
	help="Let Trainer reduce batch size automatically on CUDA OOM")
	parser.add_argument("--perf-log-steps", type=int, default=100,
	help="Sample training throughput, memory, and GPU stats every N steps; 0 disables")
	parser.add_argument("--perf-sample-interval", type=float, default=1.0,
	help="Background NVML sampling interval in seconds during training; 0 disables")
	parser.add_argument("--cpu", action="store_true", help="Force CPU training")
	parser.add_argument("--no-shuffle", action="store_true", help="Do not shuffle before train/eval split")
	parser.add_argument("--resume-from-checkpoint", default=None,
	help="Resume Trainer state from a checkpoint directory, or 'auto' for the latest checkpoint")
	parser.add_argument("--tensorboard", dest="tensorboard", action="store_true",
	help="Log metrics to TensorBoard in addition to stdout/checkpoints")
	parser.add_argument("--no-tensorboard", dest="tensorboard", action="store_false",
	help="Disable TensorBoard logging")
	parser.add_argument("--experiment-name", default=None,
	help="Optional experiment name written to run_metadata.json")
	parser.add_argument("--parse-eval-limit", type=int, default=512,
	help="Run field exact-match evaluation on up to N eval samples after training; 0 disables it")
	parser.add_argument("--case-eval-file", default=os.path.join("data", "parser_regression_cases.json"),
	help="Fixed real-world parser regression case file evaluated after training")
	parser.add_argument("--case-eval-output", default=None,
	help="Optional output path for fixed case metrics; defaults to final/case_metrics.json")
	parser.add_argument("--no-case-eval", action="store_true",
	help="Skip fixed real-world parser regression evaluation")
	parser.add_argument("--hidden-size", type=int, default=None, help="Override BERT hidden size")
	parser.add_argument("--num-hidden-layers", type=int, default=None, help="Override BERT layer count")
	parser.add_argument("--num-attention-heads", type=int, default=None, help="Override BERT attention heads")
	parser.add_argument("--intermediate-size", type=int, default=None, help="Override BERT FFN intermediate size")
	parser.set_defaults(tf32=True)
	parser.set_defaults(tensorboard=True)
	return parser.parse_args()


	def detect_tokenizer_variant(
	data_file: str,
	explicit_variant: Optional[str],
	explicit_vocab_path: Optional[str],
	sample_size: int = 256,
	) -> str:
	"""Infer tokenizer variant from CLI, dataset metadata, or vocab filename."""
	if explicit_variant:
	return explicit_variant

	variants = set()
	char_like = 0
	inspected = 0
	with open(data_file, "r", encoding="utf-8") as f:
	for line in f:
	if inspected >= sample_size:
	break
	line = line.strip()
	if not line:
	continue
	item = json.loads(line)
	inspected += 1
	variant = item.get("tokenizer_variant")
	if variant:
	variants.add(variant)
	tokens = item.get("tokens", [])
	filename = item.get("filename")
	if filename is not None and tokens == list(filename):
	char_like += 1

	if len(variants) == 1:
	return next(iter(variants))
	if len(variants) > 1:
	raise ValueError(f"Mixed tokenizer_variant values in {data_file}: {sorted(variants)}")
	if explicit_vocab_path and ".char" in os.path.basename(explicit_vocab_path).lower():
	return "char"
	if inspected and char_like / inspected >= 0.95:
	return "char"
	return "regex"


	def detect_tokenizer_variant_from_files(
	data_files: List[str],
	explicit_variant: Optional[str],
	explicit_vocab_path: Optional[str],
	) -> str:
	if explicit_variant:
	return explicit_variant
	variants = {
	detect_tokenizer_variant(path, None, explicit_vocab_path)
	for path in data_files
	}
	if len(variants) > 1:
	raise ValueError(f"Mixed tokenizer variants across datasets: {sorted(variants)}")
	return next(iter(variants))


	def resolve_vocab_path(data_file: str, tokenizer_variant: str, explicit_path: Optional[str]) -> str:
	if explicit_path:
	return explicit_path
	name = "vocab.json" if tokenizer_variant == "regex" else "vocab.char.json"
	return os.path.join(os.path.dirname(data_file), name)


	def latest_checkpoint(save_dir: str) -> Optional[str]:
	if not os.path.isdir(save_dir):
	return None
	checkpoints = []
	for name in os.listdir(save_dir):
	if not name.startswith("checkpoint-"):
	continue
	path = os.path.join(save_dir, name)
	if not os.path.isdir(path):
	continue
	try:
	step = int(name.split("-")[-1])
	except ValueError:
	continue
	checkpoints.append((step, path))
	if not checkpoints:
	return None
	return max(checkpoints)[1]


	def validate_dataset_tokenizer_metadata(data: List[Dict], tokenizer_variant: str) -> None:
	variants = {item.get("tokenizer_variant") for item in data if item.get("tokenizer_variant")}
	if variants and variants != {tokenizer_variant}:
	raise ValueError(
	f"Dataset tokenizer_variant {sorted(variants)} does not match selected tokenizer "
	f"'{tokenizer_variant}'. Pass --tokenizer explicitly only when this is intentional."
	)


	def load_jsonl(data_file: str, limit: Optional[int] = None) -> List[Dict]:
	"""Load JSONL rows, stopping early for smoke runs."""
	data: List[Dict] = []
	with open(data_file, "r", encoding="utf-8") as f:
	for line in f:
	line = line.strip()
	if not line:
	continue
	data.append(json.loads(line))
	if limit is not None and len(data) >= limit:
	break
	return data


	def load_training_sources(
	primary_data_file: str,
	extra_data_files: List[str],
	extra_repeat: int,
	limit: Optional[int] = None,
	) -> tuple[List[Dict], List[Dict]]:
	"""Load primary plus extra datasets while preserving source metadata."""
	sources: List[Dict] = []
	primary = load_jsonl(primary_data_file, limit)
	all_data: List[Dict] = list(primary)
	sources.append(
	{
	"role": "primary",
	"path": primary_data_file,
	"samples": len(primary),
	"repeat": 1,
	"effective_samples": len(primary),
	}
	)

	repeat = max(1, extra_repeat)
	for path in extra_data_files:
	rows = load_jsonl(path, None)
	for _ in range(repeat):
	all_data.extend(rows)
	sources.append(
	{
	"role": "extra",
	"path": path,
	"samples": len(rows),
	"repeat": repeat,
	"effective_samples": len(rows) * repeat,
	}
	)
	return all_data, sources


	def extract_entities_from_labels(tokens: Sequence[str], labels: Sequence[str]) -> Dict[str, List[str]]:
	"""Extract contiguous BIO entity text spans from token/label arrays."""
	entities: Dict[str, List[str]] = {}
	active_entity: Optional[str] = None
	active_tokens: List[str] = []

	for token, label in zip(tokens, labels):
	if label.startswith("B-"):
	if active_entity and active_tokens:
	entities.setdefault(active_entity, []).append("".join(active_tokens))
	active_entity = label[2:]
	active_tokens = [str(token)]
	elif label.startswith("I-") and active_entity == label[2:]:
	active_tokens.append(str(token))
	else:
	if active_entity and active_tokens:
	entities.setdefault(active_entity, []).append("".join(active_tokens))
	active_entity = None
	active_tokens = []

	if active_entity and active_tokens:
	entities.setdefault(active_entity, []).append("".join(active_tokens))
	return entities


	def char_item_from_spans(filename: str, spans: Sequence[tuple[str, str]], source: str) -> Optional[Dict]:
	"""Create a char-tokenized BIO item from ordered text/entity spans."""
	filename = filename.strip()
	if not filename:
	return None
	tokens = list(filename)
	labels = ["O"] * len(tokens)
	cursor = 0
	for text, entity in spans:
	if not text:
	continue
	start = filename.find(text, cursor)
	if start < 0:
	start = filename.find(text)
	if start < 0:
	return None
	end = start + len(text)
	labels[start] = f"B-{entity}"
	for idx in range(start + 1, end):
	labels[idx] = f"I-{entity}"
	cursor = end
	return {
	"filename": filename,
	"tokens": tokens,
	"labels": labels,
	"tokenizer_variant": "char",
	"source": source,
	}


	def entity_keep_probability(entity: str) -> float:
	return {
	"GROUP": 0.35,
	"TITLE": 0.65,
	"SEASON": 0.35,
	"EPISODE": 0.7,
	"SPECIAL": 0.3,
	"RESOLUTION": 0.65,
	"SOURCE": 0.65,
	}.get(entity, 0.5)


	def build_partial_augmented_item(item: Dict, max_chars: int) -> List[Dict]:
	entities = extract_entities_from_labels(item.get("tokens", []), item.get("labels", []))
	title = next((value.strip() for value in entities.get("TITLE", []) if value.strip()), None)
	season = next((value.strip() for value in entities.get("SEASON", []) if value.strip()), None)
	episode = next((value.strip() for value in entities.get("EPISODE", []) if value.strip()), None)
	special = next((value.strip() for value in entities.get("SPECIAL", []) if value.strip()), None)
	resolution = next((value.strip() for value in entities.get("RESOLUTION", []) if value.strip()), None)
	source = next((value.strip() for value in entities.get("SOURCE", []) if value.strip()), None)

	specs: List[tuple[str, List[tuple[str, str]]]] = []
	if title:
	specs.append((title, [(title, "TITLE")]))
	if title and season:
	specs.append((f"{title} {season}", [(title, "TITLE"), (season, "SEASON")]))
	if episode:
	specs.append((episode, [(episode, "EPISODE")]))
	if episode and resolution:
	specs.append((f"{episode} [{resolution}]", [(episode, "EPISODE"), (resolution, "RESOLUTION")]))
	if episode and resolution and source:
	specs.append(
	(
	f"{episode} [{resolution}][{source}]",
	[(episode, "EPISODE"), (resolution, "RESOLUTION"), (source, "SOURCE")],
	)
	)
	if special:
	specs.append((special, [(special, "SPECIAL")]))
	if title and special:
	specs.append((f"{title} - {special}", [(title, "TITLE"), (special, "SPECIAL")]))

	augmented: List[Dict] = []
	for text, spans in specs:
	if 2 <= len(text) <= max_chars:
	generated = char_item_from_spans(text, spans, "train_partial_augmentation")
	if generated is not None:
	augmented.append(generated)
	return augmented


	def build_permutation_augmented_item(item: Dict, rng: random.Random, max_chars: int) -> Optional[Dict]:
	entities = extract_entities_from_labels(item.get("tokens", []), item.get("labels", []))
	available = [
	entity
	for entity in ("GROUP", "TITLE", "SEASON", "EPISODE", "SPECIAL", "RESOLUTION", "SOURCE")
	if entities.get(entity)
	]
	if not available:
	return None
	selected = [
	entity
	for entity in available
	if rng.random() < entity_keep_probability(entity)
	]
	if not selected:
	selected = [rng.choice(available)]
	if "TITLE" not in selected and "EPISODE" not in selected and "SPECIAL" not in selected:
	extras = [entity for entity in available if entity not in selected]
	selected.append(rng.choice(extras or available))
	rng.shuffle(selected)

	separators = [" ", " - ", ".", "_", "]["]
	sep = rng.choice(separators)
	parts: List[str] = []
	spans: List[tuple[str, str]] = []
	for entity in selected:
	values = [value.strip() for value in entities.get(entity, []) if value.strip()]
	if not values:
	continue
	value = rng.choice(values)
	if entity in {"GROUP", "EPISODE", "SPECIAL", "RESOLUTION", "SOURCE"} and rng.random() < 0.35:
	parts.append(f"[{value}]")
	else:
	parts.append(value)
	spans.append((value, entity))
	text = sep.join(parts).strip()
	if not (2 <= len(text) <= max_chars):
	return None
	return char_item_from_spans(text, spans, "train_permutation_augmentation")


	def build_special_augmented_item(data: List[Dict], rng: random.Random, max_chars: int) -> Optional[Dict]:
	base_titles: List[str] = []
	for _ in range(min(16, len(data))):
	item = data[rng.randrange(len(data))]
	entities = extract_entities_from_labels(item.get("tokens", []), item.get("labels", []))
	base_titles.extend(value.strip() for value in entities.get("TITLE", []) if 2 <= len(value.strip()) <= 80)
	title = rng.choice(base_titles) if base_titles else None
	special = rng.choice(
	[
	f"Menu{rng.randint(1, 24):02d}",
	f"Menu {rng.randint(1, 24):02d}",
	f"BDMenu{rng.randint(1, 24):02d}",
	f"BD Menu{rng.randint(1, 24):02d}",
	f"Menu{rng.randint(1, 24):02d}-01",
	"Menu",
	f"OP{rng.randint(1, 6):02d}",
	f"ED E{rng.randint(1, 24):02d}",
	f"NCOP{rng.randint(1, 6):02d}",
	f"NCED{rng.randint(1, 6):02d}",
	f"CM{rng.randint(1, 12):02d}",
	f"PV{rng.randint(1, 12):02d}",
	]
	)
	if title and rng.random() < 0.55:
	text = f"{title} - {special}"
	spans = [(title, "TITLE"), (special, "SPECIAL")]
	else:
	text = special
	spans = [(special, "SPECIAL")]
	if len(text) > max_chars:
	return None
	return char_item_from_spans(text, spans, "train_special_augmentation")


	def process_memory_mb() -> Optional[float]:
	try:
	import psutil # type: ignore

	return psutil.Process(os.getpid()).memory_info().rss / (1024 * 1024)
	except Exception:
	pass

	if os.name == "nt":
	try:
	import ctypes
	from ctypes import wintypes

	class PROCESS_MEMORY_COUNTERS(ctypes.Structure):
	_fields_ = [
	("cb", wintypes.DWORD),
	("PageFaultCount", wintypes.DWORD),
	("PeakWorkingSetSize", ctypes.c_size_t),
	("WorkingSetSize", ctypes.c_size_t),
	("QuotaPeakPagedPoolUsage", ctypes.c_size_t),
	("QuotaPagedPoolUsage", ctypes.c_size_t),
	("QuotaPeakNonPagedPoolUsage", ctypes.c_size_t),
	("QuotaNonPagedPoolUsage", ctypes.c_size_t),
	("PagefileUsage", ctypes.c_size_t),
	("PeakPagefileUsage", ctypes.c_size_t),
	]

	counters = PROCESS_MEMORY_COUNTERS()
	counters.cb = ctypes.sizeof(counters)
	handle = ctypes.windll.kernel32.GetCurrentProcess()
	if ctypes.windll.psapi.GetProcessMemoryInfo(handle, ctypes.byref(counters), counters.cb):
	return float(counters.WorkingSetSize) / (1024 * 1024)
	except Exception:
	pass

	try:
	import resource # type: ignore

	usage = resource.getrusage(resource.RUSAGE_SELF).ru_maxrss
	if sys.platform == "darwin":
	usage = usage / 1024 / 1024
	else:
	usage = usage / 1024
	return float(usage)
	except Exception:
	return None


	class NvmlSampler:
	"""Tiny NVML binding for runtime GPU telemetry without adding dependencies."""

	NVML_TEMPERATURE_GPU = 0

	def __init__(self):
	self._lib = None
	self._handle = None
	self._available = False
	self._init()

	def _candidate_names(self) -> List[str]:
	names = []
	found = ctypes_util.find_library("nvidia-ml")
	if found:
	names.append(found)
	if os.name == "nt":
	names.extend(
	[
	os.path.join(os.environ.get("SystemRoot", r"C:\Windows"), "System32", "nvml.dll"),
	"nvml.dll",
	"nvidia-ml.dll",
	]
	)
	else:
	names.extend(["libnvidia-ml.so.1", "libnvidia-ml.so"])
	return names

	def _init(self) -> None:
	for name in self._candidate_names():
	try:
	lib = cdll.LoadLibrary(name)
	break
	except Exception:
	continue
	else:
	return

	class NVMLUtilization(Structure):
	_fields_ = [("gpu", c_uint), ("memory", c_uint)]

	class NVMLMemory(Structure):
	_fields_ = [("total", c_ulonglong), ("free", c_ulonglong), ("used", c_ulonglong)]

	self.NVMLUtilization = NVMLUtilization
	self.NVMLMemory = NVMLMemory
	lib.nvmlInit_v2.restype = c_int
	lib.nvmlDeviceGetHandleByIndex_v2.argtypes = [c_uint, POINTER(c_void_p)]
	lib.nvmlDeviceGetHandleByIndex_v2.restype = c_int
	handle = c_void_p()
	try:
	if lib.nvmlInit_v2() != 0:
	return
	if lib.nvmlDeviceGetHandleByIndex_v2(0, byref(handle)) != 0:
	return
	except Exception:
	return
	self._lib = lib
	self._handle = handle
	self._available = True

	@property
	def available(self) -> bool:
	return self._available

	def sample(self) -> Dict[str, Optional[float]]:
	if not self._available or self._lib is None or self._handle is None:
	return {}
	stats: Dict[str, Optional[float]] = {}
	try:
	util_rates = self.NVMLUtilization()
	self._lib.nvmlDeviceGetUtilizationRates.argtypes = [c_void_p, POINTER(self.NVMLUtilization)]
	if self._lib.nvmlDeviceGetUtilizationRates(self._handle, byref(util_rates)) == 0:
	stats["gpu_util_percent"] = float(util_rates.gpu)
	stats["gpu_memory_util_percent"] = float(util_rates.memory)
	except Exception:
	pass
	try:
	memory = self.NVMLMemory()
	self._lib.nvmlDeviceGetMemoryInfo.argtypes = [c_void_p, POINTER(self.NVMLMemory)]
	if self._lib.nvmlDeviceGetMemoryInfo(self._handle, byref(memory)) == 0:
	stats["gpu_memory_used_mb"] = float(memory.used) / (1024 * 1024)
	stats["gpu_memory_total_mb"] = float(memory.total) / (1024 * 1024)
	except Exception:
	pass
	try:
	temperature = c_uint()
	self._lib.nvmlDeviceGetTemperature.argtypes = [c_void_p, c_uint, POINTER(c_uint)]
	if self._lib.nvmlDeviceGetTemperature(self._handle, self.NVML_TEMPERATURE_GPU, byref(temperature)) == 0:
	stats["gpu_temperature_c"] = float(temperature.value)
	except Exception:
	pass
	try:
	power_mw = c_uint()
	self._lib.nvmlDeviceGetPowerUsage.argtypes = [c_void_p, POINTER(c_uint)]
	if self._lib.nvmlDeviceGetPowerUsage(self._handle, byref(power_mw)) == 0:
	stats["gpu_power_w"] = float(power_mw.value) / 1000.0
	except Exception:
	pass
	return stats


	_NVML_SAMPLER: Optional[NvmlSampler] = None


	def query_nvml() -> Dict[str, Optional[float]]:
	global _NVML_SAMPLER
	if _NVML_SAMPLER is None:
	_NVML_SAMPLER = NvmlSampler()
	return _NVML_SAMPLER.sample()


	def query_nvidia_smi() -> Dict[str, Optional[float]]:
	try:
	result = subprocess.run(
	[
	"nvidia-smi",
	"--query-gpu=utilization.gpu,memory.used,memory.total,power.draw",
	"--format=csv,noheader,nounits",
	],
	check=False,
	capture_output=True,
	text=True,
	timeout=2,
	)
	except Exception:
	return {}
	if result.returncode != 0 or not result.stdout.strip():
	return {}
	first_line = result.stdout.strip().splitlines()[0]
	values = [part.strip() for part in first_line.split(",")]
	keys = ["gpu_util_percent", "gpu_memory_used_mb", "gpu_memory_total_mb", "gpu_power_w"]
	stats: Dict[str, Optional[float]] = {}
	for key, value in zip(keys, values):
	try:
	stats[key] = float(value)
	except ValueError:
	stats[key] = None
	return stats


	def cuda_memory_stats_mb() -> Dict[str, float]:
	if not torch.cuda.is_available():
	return {}
	return {
	"cuda_allocated_mb": torch.cuda.memory_allocated() / (1024 * 1024),
	"cuda_reserved_mb": torch.cuda.memory_reserved() / (1024 * 1024),
	"cuda_max_allocated_mb": torch.cuda.max_memory_allocated() / (1024 * 1024),
	"cuda_max_reserved_mb": torch.cuda.max_memory_reserved() / (1024 * 1024),
	}


	def snapshot_perf_stats() -> Dict[str, Optional[float]]:
	stats: Dict[str, Optional[float]] = {}
	stats["process_rss_mb"] = process_memory_mb()
	stats.update(cuda_memory_stats_mb())
	gpu_stats = query_nvml()
	if not gpu_stats:
	gpu_stats = query_nvidia_smi()
	stats.update(gpu_stats)
	return stats


	class TrainingPerfCallback(TrainerCallback):
	"""Lightweight runtime telemetry for spotting data-pipeline starvation."""

	def __init__(self, batch_size: int, sequence_length: int, log_steps: int, sample_interval: float):
	self.batch_size = batch_size
	self.sequence_length = sequence_length
	self.log_steps = max(0, log_steps)
	self.sample_interval = max(0.0, sample_interval)
	self.samples: List[Dict[str, Optional[float]]] = []
	self.background_samples: List[Dict[str, Optional[float]]] = []
	self._last_step = 0
	self._last_time: Optional[float] = None
	self._start_time: Optional[float] = None
	self._training = False
	self._stop_event = threading.Event()
	self._thread: Optional[threading.Thread] = None

	def on_train_begin(self, args, state, control, **kwargs):
	now = time.perf_counter()
	self._start_time = now
	self._last_time = now
	self._last_step = int(state.global_step)
	self._training = True
	self._stop_event.clear()
	if self.sample_interval > 0:
	self._thread = threading.Thread(target=self._background_sample_loop, daemon=True)
	self._thread.start()

	def on_train_end(self, args, state, control, **kwargs):
	self._training = False
	self._stop_event.set()
	if self._thread is not None:
	self._thread.join(timeout=max(self.sample_interval * 2, 1.0))
	self._thread = None

	def on_log(self, args, state, control, logs=None, **kwargs):
	if not self._training:
	return
	step = int(state.global_step)
	if self.log_steps <= 0 or step <= 0 or step % self.log_steps != 0:
	return
	self._record_sample(step)

	def on_step_end(self, args, state, control, **kwargs):
	if not self._training:
	return
	step = int(state.global_step)
	if self.log_steps <= 0 or step <= 0 or step % self.log_steps != 0:
	return
	if self.samples and self.samples[-1].get("step") == float(step):
	return
	self._record_sample(step)

	def _record_sample(self, step: int) -> None:
	if self.samples and self.samples[-1].get("step") == float(step):
	return
	now = time.perf_counter()
	last_time = self._last_time or now
	elapsed = max(now - last_time, 1e-9)
	step_delta = max(step - self._last_step, 0)
	samples_per_second = step_delta * self.batch_size / elapsed
	tokens_per_second = samples_per_second * self.sequence_length
	stats = snapshot_perf_stats()
	sample: Dict[str, Optional[float]] = {
	"step": float(step),
	"elapsed_seconds": now - (self._start_time or now),
	"window_seconds": elapsed,
	"steps_per_second": step_delta / elapsed,
	"samples_per_second": samples_per_second,
	"tokens_per_second": tokens_per_second,
	}
	sample.update(stats)
	self.samples.append(sample)
	print(
	" perf "
	f"step={step} "
	f"samples/s={samples_per_second:.1f} "
	f"tokens/s={tokens_per_second:.0f} "
	f"rss={stats.get('process_rss_mb') or 0:.0f}MB "
	f"cuda_alloc={stats.get('cuda_allocated_mb') or 0:.0f}MB "
	f"gpu_util={stats.get('gpu_util_percent') if stats.get('gpu_util_percent') is not None else 'n/a'}%"
	)
	self._last_time = now
	self._last_step = step

	def _background_sample_loop(self) -> None:
	while not self._stop_event.wait(self.sample_interval):
	if not self._training:
	continue
	sample = snapshot_perf_stats()
	sample["elapsed_seconds"] = (
	time.perf_counter() - self._start_time
	if self._start_time is not None
	else None
	)
	self.background_samples.append(sample)

	def summary(self) -> Dict:
	numeric_keys = [
	"samples_per_second",
	"tokens_per_second",
	"process_rss_mb",
	"cuda_max_allocated_mb",
	"gpu_util_percent",
	"gpu_memory_util_percent",
	"gpu_power_w",
	"gpu_temperature_c",
	]
	summary: Dict[str, object] = {
	"sample_count": len(self.samples),
	"samples": self.samples,
	"background_sample_count": len(self.background_samples),
	"background_samples": self.background_samples,
	}
	sample_groups = {
	"step": self.samples,
	"background": self.background_samples,
	}
	for prefix, samples in sample_groups.items():
	if not samples:
	continue
	for key in numeric_keys:
	values = [
	float(sample[key])
	for sample in samples
	if sample.get(key) is not None
	]
	if values:
	summary[f"{prefix}_{key}_avg"] = sum(values) / len(values)
	summary[f"{prefix}_{key}_max"] = max(values)
	summary[f"{prefix}_{key}_min"] = min(values)
	if not self.samples and not self.background_samples:
	return summary
	for key in numeric_keys:
	values = [
	float(sample[key])
	for sample in self.samples
	if sample.get(key) is not None
	]
	if values:
	summary[f"{key}_avg"] = sum(values) / len(values)
	summary[f"{key}_max"] = max(values)
	return summary


	class FastTokenClassificationCollator:
	"""Stack already padded token-classification tensors without extra work."""

	def __call__(self, features: List[Dict[str, torch.Tensor]]) -> Dict[str, torch.Tensor]:
	batch = {
	key: torch.stack([feature[key] for feature in features])
	for key in features[0].keys()
	}
	if "input_ids" in batch:
	batch["input_ids"] = batch["input_ids"].long()
	if "labels" in batch:
	batch["labels"] = batch["labels"].long()
	if "attention_mask" in batch:
	batch["attention_mask"] = batch["attention_mask"].to(dtype=torch.bool)
	return batch


	class OrderedTrainer(Trainer):
	"""Trainer variant that preserves pre-shuffled order for virtual datasets."""

	def _get_train_sampler(self, train_dataset=None):
	dataset = train_dataset if train_dataset is not None else self.train_dataset
	if getattr(dataset, "preserve_order", False):
	return SequentialSampler(dataset)
	return super()._get_train_sampler(train_dataset)


	def augment_training_data(
	data: List[Dict],
	partial_count: int,
	permutation_count: int,
	special_count: int,
	max_chars: int,
	seed: int,
	) -> tuple[List[Dict], Dict]:
	"""Append generated partial/permutation samples without modifying source JSONL."""
	rng = random.Random(seed)
	augmented: List[Dict] = []
	seen = {
	item.get("filename") or "".join(str(token) for token in item.get("tokens", []))
	for item in data
	}

	partial_written = 0
	if partial_count > 0:
	candidates: List[Dict] = []
	attempts = 0
	max_attempts = max(partial_count * 20, len(data))
	while len(candidates) < partial_count * 4 and attempts < max_attempts:
	attempts += 1
	candidates.extend(build_partial_augmented_item(rng.choice(data), max_chars))
	rng.shuffle(candidates)
	for item in candidates:
	key = item["filename"]
	if key in seen:
	continue
	seen.add(key)
	augmented.append(item)
	partial_written += 1
	if partial_written >= partial_count:
	break

	permutation_written = 0
	attempts = 0
	while permutation_written < permutation_count and attempts < max(permutation_count * 20, 100):
	attempts += 1
	item = build_permutation_augmented_item(rng.choice(data), rng, max_chars)
	if item is None:
	continue
	key = item["filename"]
	if key in seen:
	continue
	seen.add(key)
	augmented.append(item)
	permutation_written += 1

	special_written = 0
	attempts = 0
	while special_written < special_count and attempts < max(special_count * 20, 100):
	attempts += 1
	item = build_special_augmented_item(data, rng, max_chars)
	if item is None:
	continue
	key = item["filename"]
	if key in seen:
	continue
	seen.add(key)
	augmented.append(item)
	special_written += 1

	meta = {
	"partial_requested": partial_count,
	"partial_written": partial_written,
	"permutation_requested": permutation_count,
	"permutation_written": permutation_written,
	"special_requested": special_count,
	"special_written": special_written,
	"max_chars": max_chars,
	}
	return data + augmented, meta


	def normalize_field_value(field: str, value) -> Optional[str]:
	if value is None:
	return None
	if field in {"episode", "season"}:
	try:
	return str(int(value))
	except (TypeError, ValueError):
	return str(value).strip().lower()
	text = str(value).strip()
	if field in {"resolution", "source"}:
	return text.lower().replace("_", "-")
	return " ".join(text.lower().split())


	def parse_exact_metrics(
	samples: List[Dict],
	model: BertForTokenClassification,
	tokenizer: AnimeTokenizer,
	id2label: Dict[int, str],
	max_length: int,
	limit: Optional[int],
	constrain_bio: bool = True,
	) -> Dict:
	"""Evaluate end-to-end field exact match on filenames, not just token loss."""
	fields = ["group", "title", "season", "episode", "resolution", "source", "special"]
	selected = [sample for sample in samples if sample.get("filename")]
	if limit is not None and limit > 0:
	selected = selected[:limit]

	counter: Counter = Counter()
	failures: List[Dict] = []
	model.eval()

	for sample in selected:
	filename = sample["filename"]
	tokens, gold_labels = labels_for_tokenizer(sample, tokenizer)
	available = max(0, max_length - 2)
	tokens = tokens[:available]
	gold_labels = gold_labels[:available]
	gold = postprocess(tokens, gold_labels, tokenizer=tokenizer)
	gold_entities = {label.split("-", 1)[1] for label in gold_labels if label.startswith(("B-", "I-"))}
	for optional_field, entity in (("episode", "EPISODE"), ("season", "SEASON")):
	if entity not in gold_entities:
	gold[optional_field] = None
	pred = parse_filename(
	filename,
	model,
	tokenizer,
	id2label,
	max_length=max_length,
	debug=False,
	constrain_bio=constrain_bio,
	)

	full_match = True
	field_errors: Dict[str, Dict[str, Optional[str]]] = {}
	for field in fields:
	gold_value = normalize_field_value(field, gold.get(field))
	pred_value = normalize_field_value(field, pred.get(field))
	counter[f"{field}_total"] += 1
	if gold_value == pred_value:
	counter[f"{field}_correct"] += 1
	else:
	full_match = False
	field_errors[field] = {"gold": gold_value, "pred": pred_value}
	counter["full_total"] += 1
	if full_match:
	counter["full_correct"] += 1
	elif len(failures) < 20:
	failures.append(
	{
	"filename": filename,
	"errors": field_errors,
	"gold": {field: gold.get(field) for field in fields},
	"pred": {field: pred.get(field) for field in fields},
	}
	)

	field_accuracy = {}
	for field in fields:
	total = counter.get(f"{field}_total", 0)
	correct = counter.get(f"{field}_correct", 0)
	field_accuracy[field] = correct / total if total else 0.0

	total = counter.get("full_total", 0)
	correct = counter.get("full_correct", 0)
	return {
	"constrain_bio": constrain_bio,
	"sample_count": total,
	"field_accuracy": field_accuracy,
	"field_correct": {field: counter.get(f"{field}_correct", 0) for field in fields},
	"field_total": {field: counter.get(f"{field}_total", 0) for field in fields},
	"full_match_accuracy": correct / total if total else 0.0,
	"full_match_correct": correct,
	"full_match_total": total,
	"failures": failures,
	}


	def parse_exact_metrics_all_modes(
	samples: List[Dict],
	model: BertForTokenClassification,
	tokenizer: AnimeTokenizer,
	id2label: Dict[int, str],
	max_length: int,
	limit: Optional[int],
	) -> Dict:
	modes = {
	"model_only": {"constrain_bio": False},
	"normalized_only": {"constrain_bio": True},
	}
	return {
	"primary_metric": "normalized_only",
	"modes": {
	name: parse_exact_metrics(
	samples,
	model,
	tokenizer,
	id2label,
	max_length,
	limit,
	constrain_bio=settings["constrain_bio"],
	)
	for name, settings in modes.items()
	},
	}


	def remap_token_embeddings(
	model: BertForTokenClassification,
	old_vocab: Dict[str, int],
	new_vocab: Dict[str, int],
	pad_token_id: int,
	) -> int:
	"""
	Replace the input embedding table for a changed vocabulary.

	resize_token_embeddings() preserves rows by numeric ID, which is unsafe when
	two tokenizers assign different tokens to the same ID. This remaps by token
	string and randomly initializes tokens that do not exist in the old vocab.
	"""
	old_embeddings = model.get_input_embeddings()
	old_weight = old_embeddings.weight.data
	embedding_dim = old_weight.shape[1]
	new_embeddings = torch.nn.Embedding(
	len(new_vocab),
	embedding_dim,
	padding_idx=pad_token_id,
	device=old_weight.device,
	dtype=old_weight.dtype,
	)
	torch.nn.init.normal_(
	new_embeddings.weight,
	mean=0.0,
	std=getattr(model.config, "initializer_range", 0.02),
	)
	if pad_token_id is not None and 0 <= pad_token_id < len(new_vocab):
	new_embeddings.weight.data[pad_token_id].zero_()

	copied = 0
	for token, new_id in new_vocab.items():
	old_id = old_vocab.get(token)
	if old_id is None or old_id >= old_weight.shape[0]:
	continue
	new_embeddings.weight.data[new_id].copy_(old_weight[old_id])
	copied += 1

	model.set_input_embeddings(new_embeddings)
	model.config.vocab_size = len(new_vocab)
	return copied


	def build_vocab_from_data(data: List[Dict], tokenizer: AnimeTokenizer, vocab_path: str,
	max_size: Optional[int] = None) -> None:
	token_lists: List[List[str]] = []
	for item in data:
	tokens, _labels = labels_for_tokenizer(item, tokenizer)
	token_lists.append(tokens)

	tokenizer.build_vocab(token_lists, max_size=max_size)
	save_dir = os.path.dirname(vocab_path) or "."
	os.makedirs(save_dir, exist_ok=True)
	with open(vocab_path, "w", encoding="utf-8") as f:
	json.dump(tokenizer.get_vocab(), f, ensure_ascii=False, indent=2)


	def main():
	args = parse_args()
	config = Config()
	if args.data_file is not None:
	config.data_file = args.data_file
	training_files = [config.data_file] + list(args.extra_data_file or [])
	tokenizer_variant = detect_tokenizer_variant_from_files(training_files, args.tokenizer, args.vocab_file)
	if args.save_dir is not None:
	config.save_dir = args.save_dir
	elif tokenizer_variant == "char":
	config.save_dir = "./checkpoints_char"
	if args.epochs is not None:
	config.num_epochs = args.epochs
	if args.batch_size is not None:
	config.batch_size = args.batch_size
	if args.learning_rate is not None:
	config.learning_rate = args.learning_rate
	if args.warmup_steps is not None:
	config.warmup_steps = args.warmup_steps
	if args.train_split is not None:
	config.train_split = args.train_split
	if args.num_workers is not None:
	config.num_workers = args.num_workers
	if args.max_seq_length is not None:
	config.max_seq_length = args.max_seq_length
	elif tokenizer_variant == "char":
	config.max_seq_length = max(config.max_seq_length, 128)
	if args.hidden_size is not None:
	config.hidden_size = args.hidden_size
	if args.num_hidden_layers is not None:
	config.num_hidden_layers = args.num_hidden_layers
	if args.num_attention_heads is not None:
	config.num_attention_heads = args.num_attention_heads
	if args.intermediate_size is not None:
	config.intermediate_size = args.intermediate_size
	if config.hidden_size % config.num_attention_heads != 0:
	raise ValueError(
	f"hidden_size ({config.hidden_size}) must be divisible by "
	f"num_attention_heads ({config.num_attention_heads})."
	)
	config.max_position_embeddings = max(config.max_position_embeddings, config.max_seq_length)

	random.seed(args.seed)
	np.random.seed(args.seed)
	torch.manual_seed(args.seed)

	print("Loading dataset...")
	load_started_at = time.perf_counter()
	all_data, data_sources = load_training_sources(
	primary_data_file=config.data_file,
	extra_data_files=list(args.extra_data_file or []),
	extra_repeat=args.extra_data_repeat,
	limit=args.limit_samples,
	)
	augmentation_metadata = {
	"partial_requested": 0,
	"partial_written": 0,
	"permutation_requested": 0,
	"permutation_written": 0,
	"special_requested": 0,
	"special_written": 0,
	"max_chars": args.augment_max_chars,
	}
	if args.augment_partial_samples or args.augment_permutation_samples or args.augment_special_samples:
	if tokenizer_variant != "char":
	raise ValueError("Training-time BIO span augmentation currently requires --tokenizer char.")
	all_data, augmentation_metadata = augment_training_data(
	data=all_data,
	partial_count=args.augment_partial_samples,
	permutation_count=args.augment_permutation_samples,
	special_count=args.augment_special_samples,
	max_chars=args.augment_max_chars,
	seed=args.seed + 1009,
	)
	load_finished_at = time.perf_counter()
	if len(all_data) < 2:
	raise ValueError("Need at least two samples so train/eval split is non-empty.")
	if not args.no_shuffle:
	random.shuffle(all_data)
	validate_dataset_tokenizer_metadata(all_data, tokenizer_variant)

	# Load tokenizer
	print("Loading tokenizer...")
	vocab_path = resolve_vocab_path(config.data_file, tokenizer_variant, args.vocab_file)
	tokenizer = create_tokenizer(tokenizer_variant)
	if args.rebuild_vocab or not os.path.isfile(vocab_path):
	max_vocab_size = args.max_vocab_size if args.max_vocab_size is not None else config.vocab_size
	print(f" Building {tokenizer_variant} vocab: {vocab_path} (max_size={max_vocab_size})")
	build_vocab_from_data(all_data, tokenizer, vocab_path, max_size=max_vocab_size)
	tokenizer = create_tokenizer(tokenizer_variant, vocab_file=vocab_path)
	print(f" Variant: {tokenizer_variant}")
	print(f" Vocab size: {tokenizer.vocab_size}")
	print(f" Max sequence length: {config.max_seq_length}")
	if torch.cuda.is_available() and not args.cpu:
	print(f" CUDA device: {torch.cuda.get_device_name(0)}")

	# Update config with actual vocab size
	config.vocab_size = tokenizer.vocab_size

	# Create model
	if args.init_model_dir:
	print(f"Loading model for fine-tuning: {args.init_model_dir}")
	model = BertForTokenClassification.from_pretrained(args.init_model_dir)
	init_tokenizer = load_tokenizer(args.init_model_dir, tokenizer_variant)
	init_vocab = init_tokenizer.get_vocab()
	embedding_size = model.get_input_embeddings().weight.shape[0]
	if len(init_vocab) != embedding_size:
	print(
	" WARNING: init checkpoint tokenizer vocab length does not match model embedding size "
	f"({len(init_vocab):,} vs {embedding_size:,}). Prefer a self-consistent checkpoint."
	)
	init_variant = getattr(init_tokenizer, "tokenizer_variant", None)
	if init_variant != tokenizer_variant:
	print(f" WARNING: tokenizer variant changes during fine-tune: {init_variant} -> {tokenizer_variant}")
	print(" Token embeddings will be remapped by token string; unmatched tokens are newly initialized.")
	if model.config.vocab_size != config.vocab_size or init_vocab != tokenizer.get_vocab():
	copied = remap_token_embeddings(
	model=model,
	old_vocab=init_vocab,
	new_vocab=tokenizer.get_vocab(),
	pad_token_id=tokenizer.pad_token_id,
	)
	print(
	f" Remapped token embeddings: copied {copied:,}/{config.vocab_size:,} "
	f"tokens from init checkpoint"
	)
	model.config.num_labels = config.num_labels
	model.config.id2label = config.id2label
	model.config.label2id = config.label2id
	else:
	print("Creating model...")
	model: BertForTokenClassification = create_model(config)
	total_params = print_model_summary(model)

	if total_params >= 5_000_000:
	print("WARNING: Model exceeds the historical 5M target; continuing because vocab size is configurable.")

	use_cpu = args.cpu or not torch.cuda.is_available()
	split_idx = int(len(all_data) * config.train_split)
	split_idx = max(1, min(len(all_data) - 1, split_idx))
	train_data = all_data[:split_idx]
	eval_data = all_data[split_idx:]

	encode_started_at = time.perf_counter()
	if args.virtual_dataset_dir:
	virtual_dataset = ShardedEncodedDataset(args.virtual_dataset_dir)
	if virtual_dataset.max_length != config.max_seq_length:
	raise ValueError(
	f"Virtual dataset max_length {virtual_dataset.max_length} does not match "
	f"configured max_seq_length {config.max_seq_length}"
	)
	train_dataset = virtual_dataset
	eval_dataset = EncodedAnimeDataset(
	data=eval_data,
	tokenizer=tokenizer,
	label2id=config.label2id,
	max_length=config.max_seq_length,
	device=torch.device("cpu"),
	apply_label_repairs=args.apply_label_repairs,
	)
	dataset_mode = "virtual-sharded"
	if not args.keep_raw_dataset:
	train_data = []
	all_data = []
	gc.collect()
	elif args.lazy_dataset:
	train_dataset = AnimeItemsDataset(
	data=train_data,
	tokenizer=tokenizer,
	label2id=config.label2id,
	max_length=config.max_seq_length,
	apply_label_repairs=args.apply_label_repairs,
	)
	eval_dataset = AnimeItemsDataset(
	data=eval_data,
	tokenizer=tokenizer,
	label2id=config.label2id,
	max_length=config.max_seq_length,
	apply_label_repairs=args.apply_label_repairs,
	)
	dataset_mode = "lazy"
	else:
	encoded_device = torch.device(args.encoded_dataset_device)
	if encoded_device.type == "cuda" and use_cpu:
	raise ValueError("--encoded-dataset-device cuda cannot be used with CPU training.")
	if encoded_device.type == "cuda" and config.num_workers > 0:
	raise ValueError("--encoded-dataset-device cuda requires --num-workers 0 to avoid worker duplication.")
	train_dataset = EncodedAnimeDataset(
	data=train_data,
	tokenizer=tokenizer,
	label2id=config.label2id,
	max_length=config.max_seq_length,
	device=encoded_device,
	apply_label_repairs=args.apply_label_repairs,
	)
	eval_dataset = EncodedAnimeDataset(
	data=eval_data,
	tokenizer=tokenizer,
	label2id=config.label2id,
	max_length=config.max_seq_length,
	device=encoded_device,
	apply_label_repairs=args.apply_label_repairs,
	)
	dataset_mode = "encoded"
	if not args.keep_raw_dataset:
	train_data = []
	all_data = []
	gc.collect()
	encode_finished_at = time.perf_counter()

	print(f" Train samples: {len(train_dataset)}")
	print(f" Eval samples: {len(eval_dataset)}")
	print(f" Dataset mode: {dataset_mode}")
	print(f" Load time: {load_finished_at - load_started_at:.2f}s")
	print(f" Encode time: {encode_finished_at - encode_started_at:.2f}s")

	use_bf16 = bool(args.bf16 and not use_cpu)
	use_fp16 = bool((not use_cpu) and not use_bf16 and not args.no_mixed_precision)
	if use_cpu and args.no_mixed_precision:
	use_fp16 = False
	if torch.cuda.is_available() and not use_cpu and args.tf32:
	torch.backends.cuda.matmul.allow_tf32 = True
	torch.backends.cudnn.allow_tf32 = True
	print(f" Device: {'CPU' if use_cpu else 'CUDA'}")
	if not use_cpu:
	print(f" Mixed precision: {'bf16' if use_bf16 else ('fp16' if use_fp16 else 'disabled')}")
	print(f" TF32: {'enabled' if args.tf32 else 'disabled'}")
	eval_save_strategy = "no" if args.no_periodic_eval else ("steps" if args.checkpoint_steps else "epoch")
	save_strategy = "steps" if args.checkpoint_steps else "epoch"

	dataloader_prefetch_factor = args.prefetch_factor
	if dataloader_prefetch_factor is None:
	dataloader_prefetch_factor = 4 if config.num_workers > 0 else None
	persistent_workers = bool(args.persistent_workers and config.num_workers > 0)
	dataloader_pin_memory = bool((not use_cpu) and not (not args.lazy_dataset and args.encoded_dataset_device == "cuda"))
	if args.lazy_dataset and config.num_workers == 0:
	print(" WARNING: lazy dataset mode is slower with zero workers; consider --num-workers 4+.")

	# Training arguments
	training_args = TrainingArguments(
	output_dir=config.save_dir,
	num_train_epochs=config.num_epochs,
	max_steps=args.max_steps,
	per_device_train_batch_size=config.batch_size,
	per_device_eval_batch_size=config.batch_size,
	eval_strategy=eval_save_strategy,
	save_strategy=save_strategy,
	eval_steps=args.checkpoint_steps if eval_save_strategy == "steps" else None,
	save_steps=args.checkpoint_steps,
	logging_steps=config.log_interval,
	learning_rate=config.learning_rate,
	weight_decay=config.weight_decay,
	warmup_steps=config.warmup_steps,
	gradient_accumulation_steps=args.gradient_accumulation_steps,
	use_cpu=use_cpu,
	report_to=["tensorboard"] if args.tensorboard else "none",
	save_total_limit=args.save_total_limit,
	load_best_model_at_end=not args.no_periodic_eval,
	metric_for_best_model="f1",
	greater_is_better=True,
	dataloader_num_workers=config.num_workers,
	dataloader_pin_memory=dataloader_pin_memory,
	dataloader_prefetch_factor=dataloader_prefetch_factor,
	dataloader_persistent_workers=persistent_workers,
	fp16=use_fp16,
	bf16=use_bf16,
	tf32=args.tf32 and not use_cpu,
	torch_compile=bool(args.torch_compile and not use_cpu),
	auto_find_batch_size=bool(args.auto_find_batch_size and not use_cpu),
	include_num_input_tokens_seen=True,
	)

	# Data collator
	data_collator = FastTokenClassificationCollator()

	# Trainer
	perf_callback = TrainingPerfCallback(
	batch_size=config.batch_size,
	sequence_length=config.max_seq_length,
	log_steps=args.perf_log_steps,
	sample_interval=args.perf_sample_interval,
	)
	trainer = OrderedTrainer(
	model=model,
	args=training_args,
	train_dataset=train_dataset,
	eval_dataset=eval_dataset,
	data_collator=data_collator,
	compute_metrics=compute_metrics,
	callbacks=[perf_callback],
	)

	# Train
	print("Starting training...")
	resume_from_checkpoint = args.resume_from_checkpoint
	if resume_from_checkpoint == "auto":
	resume_from_checkpoint = latest_checkpoint(config.save_dir)
	if resume_from_checkpoint:
	print(f"Resuming from latest checkpoint: {resume_from_checkpoint}")
	else:
	print("No checkpoint found; starting a fresh training run.")
	trainer.train(resume_from_checkpoint=resume_from_checkpoint)

	# Set proper label mappings in model config before saving
	model.config.id2label = config.id2label
	model.config.label2id = config.label2id
	model.config.tokenizer_variant = tokenizer_variant
	model.config.max_seq_length = config.max_seq_length

	# Save final model
	final_save_path = os.path.join(config.save_dir, "final")
	trainer.save_model(final_save_path)
	tokenizer.save_pretrained(final_save_path)
	metadata = {
	"experiment_name": args.experiment_name,
	"data_file": config.data_file,
	"data_sources": data_sources,
	"augmentation": augmentation_metadata,
	"dataset_mode": dataset_mode,
	"virtual_dataset_dir": args.virtual_dataset_dir,
	"apply_label_repairs": args.apply_label_repairs,
	"keep_raw_dataset": args.keep_raw_dataset,
	"tokenizer_variant": tokenizer_variant,
	"vocab_file": vocab_path,
	"vocab_size": tokenizer.vocab_size,
	"max_seq_length": config.max_seq_length,
	"hidden_size": config.hidden_size,
	"num_hidden_layers": config.num_hidden_layers,
	"num_attention_heads": config.num_attention_heads,
	"intermediate_size": config.intermediate_size,
	"train_samples": len(train_dataset),
	"eval_samples": len(eval_dataset),
	"load_seconds": load_finished_at - load_started_at,
	"encode_seconds": encode_finished_at - encode_started_at,
	"epochs": config.num_epochs,
	"max_steps": args.max_steps,
	"batch_size": config.batch_size,
	"learning_rate": config.learning_rate,
	"warmup_steps": config.warmup_steps,
	"seed": args.seed,
	"device": "cpu" if use_cpu else "cuda",
	"fp16": use_fp16,
	"gradient_accumulation_steps": training_args.gradient_accumulation_steps,
	"dataloader_num_workers": config.num_workers,
	"dataloader_prefetch_factor": dataloader_prefetch_factor,
	"dataloader_persistent_workers": persistent_workers,
	"dataloader_pin_memory": dataloader_pin_memory,
	"encoded_dataset_device": args.encoded_dataset_device if not args.lazy_dataset else None,
	"mixed_precision": "bf16" if use_bf16 else ("fp16" if use_fp16 else "none"),
	"tf32": bool(args.tf32 and not use_cpu),
	"torch_compile": bool(args.torch_compile and not use_cpu),
	"auto_find_batch_size": bool(args.auto_find_batch_size and not use_cpu),
	"perf_log_steps": args.perf_log_steps,
	"perf_sample_interval": args.perf_sample_interval,
	"periodic_eval": not args.no_periodic_eval,
	}
	with open(os.path.join(final_save_path, "run_metadata.json"), "w", encoding="utf-8") as f:
	json.dump(metadata, f, ensure_ascii=False, indent=2)
	print(f"Model saved to: {final_save_path}")
	with open(os.path.join(final_save_path, "perf_metrics.json"), "w", encoding="utf-8") as f:
	json.dump(perf_callback.summary(), f, ensure_ascii=False, indent=2)
	train_runtime = None
	if trainer.state.log_history:
	for entry in reversed(trainer.state.log_history):
	if "train_runtime" in entry:
	train_runtime = entry["train_runtime"]
	break
	if train_runtime is not None:
	print(f" Train runtime: {train_runtime:.2f}s")
	print(f" Total wall time (load+encode+train): {(load_finished_at - load_started_at) + (encode_finished_at - encode_started_at) + train_runtime:.2f}s")

	# Final evaluation
	print("\nFinal evaluation:")
	eval_results = trainer.evaluate()
	for key, value in eval_results.items():
	print(f" {key}: {value:.4f}")
	with open(os.path.join(final_save_path, "trainer_eval_metrics.json"), "w", encoding="utf-8") as f:
	json.dump({key: float(value) for key, value in eval_results.items()}, f, ensure_ascii=False, indent=2)

	if args.parse_eval_limit != 0:
	parse_limit = args.parse_eval_limit if args.parse_eval_limit and args.parse_eval_limit > 0 else None
	parse_metrics = parse_exact_metrics_all_modes(
	eval_data,
	trainer.model,
	tokenizer,
	config.id2label,
	config.max_seq_length,
	parse_limit,
	)
	with open(os.path.join(final_save_path, "parse_eval_metrics.json"), "w", encoding="utf-8") as f:
	json.dump(parse_metrics, f, ensure_ascii=False, indent=2)
	print("\nParse exact-match evaluation:")
	for mode_name, mode_metrics in parse_metrics["modes"].items():
	print(
	f" {mode_name}: {mode_metrics['full_match_correct']}/"
	f"{mode_metrics['full_match_total']} ({mode_metrics['full_match_accuracy']:.4f})"
	)

	if not args.no_case_eval:
	if args.case_eval_file and os.path.isfile(args.case_eval_file):
	from tools.evaluate_parser_cases import evaluate_case_modes

	case_metrics = evaluate_case_modes(
	model_dir=final_save_path,
	case_file=args.case_eval_file,
	tokenizer_variant=tokenizer_variant,
	max_length=config.max_seq_length,
	)
	case_output = args.case_eval_output or os.path.join(final_save_path, "case_metrics.json")
	os.makedirs(os.path.dirname(case_output) or ".", exist_ok=True)
	with open(case_output, "w", encoding="utf-8") as f:
	json.dump(case_metrics, f, ensure_ascii=False, indent=2)
	print("\nFixed case regression evaluation:")
	for mode_name, mode_metrics in case_metrics["modes"].items():
	print(
	f" {mode_name}: {mode_metrics['full_correct']}/"
	f"{mode_metrics['case_count']} ({mode_metrics['full_accuracy']:.4f})"
	)
	primary = case_metrics["modes"][case_metrics["primary_metric"]]
	if primary["failures"]:
	print(f" primary failures: {len(primary['failures'])} (see {case_output})")
	elif args.case_eval_file:
	print(f"\nSkipping fixed case regression evaluation; file not found: {args.case_eval_file}")


	if __name__ == "__main__":
	main()