Add files using upload-large-folder tool

6b4288c verified 13 days ago

52.2 kB

	#!/usr/bin/env python
	# -- coding: utf-8 --
	"""
	Domain-Adaptive Pretraining (DAPT) of xlm-roberta-large for Medieval Latin.

	Pipeline
	--------
	1. Load MedBerta (baseline) + CanonBerta (already upsampled) from the HF Hub.
	2. Carve a group-aware held-out set: whole documents are held out (by
	``document_id``) so no document leaks across train / validation / test.
	This matters for an honest perplexity and for downstream Loci-Similes /
	text-reuse evaluation.
	3. DOC-SENTENCES packing: paragraphs are grouped by ``document_id`` (kept in
	document order), tokenized, and greedily packed into fixed 512-token
	sequences that never cross a document boundary.
	4. MLM continued pretraining with the HF Trainer, bf16, SDPA attention,
	in-training evaluation (loss + perplexity + masked-token accuracy),
	best-model selection, and rich logging for later write-up.

	The script is built for a single NVIDIA RTX PRO 6000 Blackwell (96 GB) and is
	deliberately defensive about OOM (auto batch-size search, expandable CUDA
	segments, optional gradient checkpointing, eval logit reduction).

	Authentication
	--------------
	The datasets are private. Log in once before running:
	huggingface-cli login # or: export HF_TOKEN=hf_...

	Quick check before spending GPU time (builds + caches datasets, prints stats,
	no training):
	python dapt_xlmr_pretrain.py --dry-run

	Typical run:
	python dapt_xlmr_pretrain.py \
	--output-dir runs/dapt_xlmr_medlatin_v1 \
	--num-train-epochs 3 \
	--per-device-train-batch-size 32 \
	--gradient-accumulation-steps 8
	"""

	import argparse
	import hashlib
	import inspect
	import json
	import logging
	import math
	import os
	import platform
	import sys
	import traceback
	import unicodedata
	from collections import Counter
	from dataclasses import dataclass, field
	from datetime import datetime
	from typing import Dict, List, Optional

	# Must be set BEFORE torch is imported to take effect: reduces fragmentation,
	# which is the most common cause of "phantom" OOM on long runs.
	os.environ.setdefault("PYTORCH_CUDA_ALLOC_CONF", "expandable_segments:True")
	os.environ.setdefault("TOKENIZERS_PARALLELISM", "false") # avoid fork warnings

	import numpy as np
	import torch
	from datasets import Dataset, concatenate_datasets, load_dataset
	from transformers import (
	AutoModelForMaskedLM,
	AutoTokenizer,
	DataCollatorForLanguageModeling,
	EarlyStoppingCallback,
	Trainer,
	TrainerCallback,
	TrainingArguments,
	set_seed,
	)
	from transformers.trainer_utils import get_last_checkpoint

	try:
	_USE_PROCESSING_CLASS = "processing_class" in inspect.signature(Trainer.__init__).parameters
	except Exception: # extremely defensive; fall back to legacy name
	_USE_PROCESSING_CLASS = False

	logging.basicConfig(
	format="%(asctime)s \| %(levelname)-7s \| %(name)s \| %(message)s",
	datefmt="%Y-%m-%d %H:%M:%S",
	level=logging.INFO,
	handlers=[logging.StreamHandler(sys.stdout)],
	)
	logger = logging.getLogger("dapt")


	# --------------------------------------------------------------------------- #
	# Config
	# --------------------------------------------------------------------------- #
	@dataclass
	class Config:
	# Data
	med_dataset: str = "mschonhardt/MedBerta"
	canon_dataset: str = "mschonhardt/CanonBerta"
	dataset_split: str = "train"
	text_column: Optional[str] = None # auto-detected if None
	doc_id_column: Optional[str] = None # auto-detected if None
	order_column: Optional[str] = None # optional within-doc ordering key

	# Model / tokenizer
	model_name: str = "xlm-roberta-large"
	max_seq_length: int = 512
	mlm_probability: float = 0.15
	attn_implementation: str = "sdpa" # robust on Blackwell; "flash_attention_2" optional
	min_chunk_tokens: int = 64 # drop doc-final fragments shorter than this

	# Held-out construction (group-aware, by document_id)
	val_doc_fraction: float = 0.01
	test_doc_fraction: float = 0.0 # set >0 to also hold out a test set
	max_eval_docs_per_source: int = 400 # cap eval size to keep eval fast
	stratify_column: Optional[str] = "category" # e.g. "genre"/"subcorpus": stratified held-out
	split_seed: int = 13

	# Which corpus to train ON. "combined" = ONE model on MedBerta + upsampled
	# CanonBerta (the methodology you described). "med"/"canon" = a single-corpus
	# model, e.g. for an ablation or two separate deliverables. Held-out eval is
	# still reported per-source where both are present.
	train_corpus: str = "combined" # {"combined", "med", "canon"}
	dedup_train: bool = False # collapse upsampling duplicates in TRAIN
	# (recommended for a standalone canon model)

	# Pre-flight diagnostics & text handling
	diagnose_tokenizer: bool = True # run UNK / fertility report before training
	tokenizer_sample_size: int = 20000 # paragraphs sampled for the diagnostic
	normalize_nfc: bool = False # apply Unicode NFC before tokenizing
	diagnose_only: bool = False # run diagnostics + reports, then exit

	# Optimisation (RoBERTa-style defaults, tuned for continued pretraining)
	learning_rate: float = 1e-4 # peak LR for the combined DAPT corpus
	weight_decay: float = 0.01
	adam_beta1: float = 0.9
	adam_beta2: float = 0.98
	adam_epsilon: float = 1e-6
	max_grad_norm: float = 1.0
	warmup_ratio: float = 0.06
	lr_scheduler_type: str = "linear"
	num_train_epochs: float = 10.0 # ceiling; early stopping ends training
	max_steps: int = -1
	optim: str = "adamw_torch_fused" # fused AdamW: faster on Blackwell
	early_stopping_patience: int = 5 # eval rounds w/o improvement before stop
	early_stopping_threshold: float = 1e-4 # min eval_loss delta to count as improvement

	# Throughput / memory (96 GB GDDR7 -> large effective batch)
	per_device_train_batch_size: int = 64
	per_device_eval_batch_size: int = 64
	gradient_accumulation_steps: int = 16 # effective batch ~1024 sequences
	gradient_checkpointing: bool = False
	auto_find_batch_size: bool = True
	torch_compile: bool = False # enable for the final fixed-batch run
	dataloader_num_workers: int = 8
	eval_accumulation_steps: int = 50 # offload eval tensors to CPU periodically

	# Schedule of eval / logging / checkpointing
	eval_steps: int = 500
	logging_steps: int = 50
	save_steps: int = 500
	save_total_limit: int = 3

	# Bookkeeping
	output_dir: str = "runs/dapt_xlmr_medlatin"
	cache_dir: str = ".cache_packed"
	seed: int = 42
	report_to_wandb: bool = False
	preprocess_num_proc: int = 16
	resume: bool = True
	dry_run: bool = False


	# --------------------------------------------------------------------------- #
	# Column auto-detection
	# --------------------------------------------------------------------------- #
	TEXT_CANDIDATES = ["text", "paragraph", "content", "sentence", "passage"]
	DOC_CANDIDATES = ["document_id", "doc_id", "docid", "document", "work_id", "work"]
	ORDER_CANDIDATES = ["order", "paragraph_id", "par_id", "index", "idx", "n", "position", "seq"]


	def _pick(columns: List[str], candidates: List[str], explicit: Optional[str], kind: str) -> Optional[str]:
	if explicit is not None:
	if explicit not in columns:
	raise ValueError(f"Requested {kind} column '{explicit}' not in dataset columns {columns}")
	return explicit
	for c in candidates:
	if c in columns:
	return c
	return None


	# --------------------------------------------------------------------------- #
	# Dataset loading & group-aware split
	# --------------------------------------------------------------------------- #
	def load_source(repo: str, split: str, source_tag: str, cfg: Config):
	logger.info("Loading %s (split=%s) ...", repo, split)
	ds = load_dataset(repo, split=split, token=True)
	cols = ds.column_names

	text_col = _pick(cols, TEXT_CANDIDATES, cfg.text_column, "text")
	doc_col = _pick(cols, DOC_CANDIDATES, cfg.doc_id_column, "document_id")
	order_col = _pick(cols, ORDER_CANDIDATES, cfg.order_column, "order") # may be None

	if text_col is None or doc_col is None:
	raise ValueError(
	f"Could not resolve text/doc_id columns for {repo}. "
	f"Available columns: {cols}. "
	f"Pass --text-column / --doc-id-column explicitly."
	)
	logger.info(" %s -> text='%s', doc_id='%s', order='%s', rows=%d",
	source_tag, text_col, doc_col, order_col, len(ds))

	# Normalise to a small canonical schema and stamp the source.
	keep = {text_col: "text", doc_col: "document_id"}
	if order_col:
	keep[order_col] = "order"
	strat_col = cfg.stratify_column
	if strat_col is not None:
	if strat_col not in cols:
	raise ValueError(f"--stratify-column '{strat_col}' not in {repo} columns {cols}")
	keep[strat_col] = "stratum"
	ds = ds.rename_columns(keep)
	# The corpora already ship a `source` column ("med"/"canon"). We deliberately
	# drop it here and re-stamp an authoritative per-dataset tag below, so
	# provenance is guaranteed consistent regardless of the incoming values.
	canonical = {"text", "document_id", "order", "stratum"}
	drop = [c for c in ds.column_names if c not in canonical]
	if drop:
	ds = ds.remove_columns(drop)
	if "order" not in ds.column_names:
	# Fallback only (your schema always has `order`): stable within-doc order.
	ds = ds.add_column("order", list(range(len(ds))))
	if "source" in ds.column_names: # safety: never collide with add_column
	ds = ds.remove_columns(["source"])
	ds = ds.add_column("source", [source_tag] * len(ds))
	# document_id is namespaced per source so identical ids in both corpora
	# never collide during splitting/packing.
	ds = ds.map(lambda b: {"document_id": [f"{source_tag}:{d}" for d in b["document_id"]]},
	batched=True, desc=f"namespace doc ids ({source_tag})")
	return ds


	def choose_heldout_docs(ds, cfg: Config):
	"""Pick whole documents to hold out, capped per source, deterministic.

	If a ``stratum`` column is present (via --stratify-column), documents are
	sampled proportionally per stratum so rare genres are not lost from the
	held-out set; otherwise sampling is uniform-random over document ids.
	"""
	rng = np.random.default_rng(cfg.split_seed)
	n_total_docs = len(set(ds["document_id"]))
	n_val = min(int(round(n_total_docs * cfg.val_doc_fraction)), cfg.max_eval_docs_per_source)
	n_test = min(int(round(n_total_docs * cfg.test_doc_fraction)), cfg.max_eval_docs_per_source)
	n_pick = n_val + n_test

	if "stratum" in ds.column_names:
	# Map each document to its (majority) stratum.
	doc_stratum: Dict[str, str] = {}
	for d, s in zip(ds["document_id"], ds["stratum"]):
	doc_stratum.setdefault(d, str(s))
	by_stratum: Dict[str, List[str]] = {}
	for d, s in doc_stratum.items():
	by_stratum.setdefault(s, []).append(d)
	picked: List[str] = []
	for s, docs in sorted(by_stratum.items()):
	docs = sorted(docs)
	rng.shuffle(docs)
	# proportional allocation, at least 1 doc per non-empty stratum
	k = max(1, int(round(n_pick * len(docs) / len(doc_stratum))))
	picked.extend(docs[:min(k, len(docs))])
	rng.shuffle(picked)
	picked = picked[:n_pick]
	else:
	doc_ids = sorted(set(ds["document_id"]))
	rng.shuffle(doc_ids)
	picked = doc_ids[:n_pick]

	val_docs = set(picked[:n_val])
	test_docs = set(picked[n_val:n_val + n_test])
	return val_docs, test_docs


	def representativeness_report(train_ds, val_ds, cfg: Config, out_dir: str):
	"""Compare the held-out validation set against train on cheap, honest
	signals (paragraph char-length distribution, and stratum proportions if
	available) so a skewed eval set is caught before training."""
	def char_lengths(ds):
	out: List[int] = []
	for batch in ds.iter(batch_size=10000):
	out.extend(len(t) for t in batch["text"])
	return np.asarray(out, dtype=np.int64) if out else np.array([0], dtype=np.int64)

	def pct(a):
	if len(a) == 0:
	return {}
	return {f"p{p}": float(np.percentile(a, p)) for p in (5, 25, 50, 75, 95)}

	tr_len, va_len = char_lengths(train_ds), char_lengths(val_ds)
	report = {
	"train_paragraphs": len(train_ds),
	"val_paragraphs": len(val_ds),
	"char_len_train": {"mean": float(tr_len.mean()), **pct(tr_len)},
	"char_len_val": {"mean": float(va_len.mean()), **pct(va_len)},
	}
	if "stratum" in train_ds.column_names and "stratum" in val_ds.column_names:
	def props(ds):
	c = Counter(str(s) for s in ds["stratum"])
	tot = sum(c.values()) or 1
	return {k: v / tot for k, v in c.items()}
	tr_p, va_p = props(train_ds), props(val_ds)
	keys = sorted(set(tr_p) \| set(va_p))
	# total variation distance between the two stratum distributions
	tvd = 0.5 * sum(abs(tr_p.get(k, 0.0) - va_p.get(k, 0.0)) for k in keys)
	report["stratum_proportions_train"] = {k: round(tr_p.get(k, 0.0), 4) for k in keys}
	report["stratum_proportions_val"] = {k: round(va_p.get(k, 0.0), 4) for k in keys}
	report["stratum_total_variation_distance"] = round(tvd, 4)
	missing = [k for k in tr_p if k not in va_p]
	if missing:
	report["strata_absent_from_val"] = missing

	os.makedirs(out_dir, exist_ok=True)
	with open(os.path.join(out_dir, "eval_representativeness.json"), "w") as fh:
	json.dump(report, fh, indent=2, ensure_ascii=False)
	logger.info("Eval representativeness:\n%s", json.dumps(report, indent=2, ensure_ascii=False))
	if report.get("strata_absent_from_val"):
	logger.warning("Strata present in train but MISSING from validation: %s",
	report["strata_absent_from_val"])
	if report.get("stratum_total_variation_distance", 0.0) > 0.15:
	logger.warning("Validation stratum distribution differs notably from train "
	"(TVD=%.3f); consider --stratify-column or a larger eval cap.",
	report["stratum_total_variation_distance"])
	return report


	def dedup_rows(ds):
	"""Eval honesty: collapse exact (document_id, order, text) duplicates that
	upsampling introduced, so every held-out paragraph is counted once."""
	seen = set()
	keep_idx = []
	for i, (d, o, t) in enumerate(zip(ds["document_id"], ds["order"], ds["text"])):
	key = hashlib.blake2b(f"{d}\x1f{o}\x1f{t}".encode("utf-8"), digest_size=16).digest()
	if key not in seen:
	seen.add(key)
	keep_idx.append(i)
	return ds.select(keep_idx)


	# --------------------------------------------------------------------------- #
	# Tokenization + DOC-SENTENCES packing
	# --------------------------------------------------------------------------- #
	def maybe_nfc(text: str, cfg: Config) -> str:
	return unicodedata.normalize("NFC", text) if cfg.normalize_nfc else text


	def diagnose_tokenizer(texts: List[str], tokenizer, cfg: Config, out_dir: str):
	"""Pre-flight check for SentencePiece behaviour on historical text."""
	unk = tokenizer.unk_token
	unk_id = tokenizer.unk_token_id
	rng = np.random.default_rng(cfg.split_seed)
	if len(texts) > cfg.tokenizer_sample_size:
	idx = rng.choice(len(texts), size=cfg.tokenizer_sample_size, replace=False)
	texts = [texts[i] for i in idx]

	total_tokens = 0
	total_unk = 0
	total_chars = 0
	total_words = 0
	tok_lengths: List[int] = []
	unk_char_counter: Counter = Counter()
	pathological: List[dict] = []

	for t in texts:
	t = maybe_nfc(t, cfg)
	toks = tokenizer.tokenize(t)
	n = len(toks)
	n_unk = sum(1 for x in toks if x == unk)
	total_tokens += n
	total_unk += n_unk
	total_chars += len(t)
	total_words += max(1, len(t.split()))
	tok_lengths.append(n)
	if len(t) >= 20 and n / max(1, len(t)) > 1.5:
	if len(pathological) < 25:
	pathological.append({"chars": len(t), "tokens": n, "preview": t[:80]})

	uniq_chars = set()
	for t in texts[:5000]:
	uniq_chars.update(maybe_nfc(t, cfg))
	risky_chars = {}
	for ch in uniq_chars:
	if ch.isspace():
	continue
	ids = tokenizer(ch, add_special_tokens=False)["input_ids"]
	if unk_id is not None and unk_id in ids:
	name = unicodedata.name(ch, "UNNAMED")
	risky_chars[ch] = {"codepoint": f"U+{ord(ch):04X}", "name": name}

	tok_lengths_arr = np.asarray(tok_lengths) if tok_lengths else np.array([0])
	report = {
	"sampled_paragraphs": len(texts),
	"normalize_nfc": cfg.normalize_nfc,
	"unk_token": unk,
	"unk_rate": round(total_unk / max(1, total_tokens), 6),
	"total_unk_tokens": total_unk,
	"fertility_tokens_per_word": round(total_tokens / max(1, total_words), 3),
	"fertility_tokens_per_char": round(total_tokens / max(1, total_chars), 3),
	"tokens_per_paragraph": {
	"mean": float(tok_lengths_arr.mean()),
	"p50": float(np.percentile(tok_lengths_arr, 50)),
	"p95": float(np.percentile(tok_lengths_arr, 95)),
	"max": int(tok_lengths_arr.max()),
	"share_over_max_seq_len": round(
	float((tok_lengths_arr > cfg.max_seq_length).mean()), 4),
	},
	"num_risky_unk_characters": len(risky_chars),
	"risky_unk_characters": dict(sorted(risky_chars.items())[:100]),
	"pathological_examples": pathological,
	}
	os.makedirs(out_dir, exist_ok=True)
	with open(os.path.join(out_dir, "tokenizer_diagnostics.json"), "w") as fh:
	json.dump(report, fh, indent=2, ensure_ascii=False)

	logger.info("Tokenizer diagnostics: unk_rate=%.4f%% fertility=%.2f tok/word "
	"risky_chars=%d", report["unk_rate"] * 100,
	report["fertility_tokens_per_word"], report["num_risky_unk_characters"])
	if report["unk_rate"] > 0.005:
	logger.warning("High <unk> rate (%.3f%%). Inspect risky_unk_characters in "
	"tokenizer_diagnostics.json; consider --normalize-nfc or a "
	"transliteration/cleanup pass for medieval glyphs.",
	report["unk_rate"] * 100)
	if risky_chars:
	sample = ", ".join(f"{c} ({m['codepoint']})" for c, m in list(risky_chars.items())[:15])
	logger.warning("Characters mapping to <unk> (sample): %s", sample)
	return report


	def tokenize_paragraphs(ds, tokenizer, cfg: Config):
	def _tok(batch):
	texts = [maybe_nfc(t, cfg) for t in batch["text"]] if cfg.normalize_nfc else batch["text"]
	enc = tokenizer(texts, add_special_tokens=False,
	truncation=False, return_attention_mask=False)
	return {"input_ids": enc["input_ids"]}

	return ds.map(
	_tok,
	batched=True,
	num_proc=cfg.preprocess_num_proc,
	remove_columns=["text"],
	desc="tokenize paragraphs",
	)


	def pack_doc_sentences(ds, tokenizer, cfg: Config, desc: str) -> Dataset:
	bos = tokenizer.bos_token_id if tokenizer.bos_token_id is not None else tokenizer.cls_token_id
	eos = tokenizer.eos_token_id if tokenizer.eos_token_id is not None else tokenizer.sep_token_id
	if bos is None or eos is None:
	raise ValueError("Tokenizer has no bos/cls or eos/sep token; cannot pack.")
	max_content = cfg.max_seq_length - 2

	sort_keys = ["document_id", "order"] if "order" in ds.column_names else ["document_id"]
	ds = ds.sort(sort_keys)

	def generator():
	buffer: List[int] = []
	cur_doc = None
	cur_src = None

	def flush_full():
	nonlocal buffer
	while len(buffer) >= max_content:
	chunk = buffer[:max_content]
	buffer = buffer[max_content:]
	yield {"input_ids": [bos] + chunk + [eos],
	"document_id": cur_doc, "source": cur_src}

	for batch in ds.iter(batch_size=2000):
	ids_col = batch["input_ids"]
	doc_col = batch["document_id"]
	src_col = batch["source"]
	for ids, doc, src in zip(ids_col, doc_col, src_col):
	if doc != cur_doc:
	if buffer and len(buffer) >= cfg.min_chunk_tokens:
	yield {"input_ids": [bos] + buffer + [eos],
	"document_id": cur_doc, "source": cur_src}
	buffer = []
	cur_doc, cur_src = doc, src
	buffer.extend(ids)
	yield from flush_full()
	if buffer and len(buffer) >= cfg.min_chunk_tokens:
	yield {"input_ids": [bos] + buffer + [eos],
	"document_id": cur_doc, "source": cur_src}

	packed = Dataset.from_generator(generator, cache_dir=cfg.cache_dir)
	logger.info(" packed %s -> %d sequences (max_len=%d)", desc, len(packed), cfg.max_seq_length)
	return packed


	def diagnose_pretokenized(ds, tokenizer, cfg: Config, out_dir: str):
	unk_id = tokenizer.unk_token_id
	bos_id = tokenizer.bos_token_id if tokenizer.bos_token_id is not None else tokenizer.cls_token_id
	eos_id = tokenizer.eos_token_id if tokenizer.eos_token_id is not None else tokenizer.sep_token_id
	n = len(ds)
	m = min(cfg.tokenizer_sample_size, n)
	idx = np.random.default_rng(cfg.split_seed).choice(n, size=m, replace=False)
	sample = ds.select(idx)

	total_tokens = 0
	total_unk = 0
	lengths: List[int] = []
	bos_ok = 0
	eos_ok = 0
	over_len = 0
	for ids in sample["input_ids"]:
	L = len(ids)
	lengths.append(L)
	total_tokens += L
	if unk_id is not None:
	total_unk += ids.count(unk_id)
	if L and ids[0] == bos_id:
	bos_ok += 1
	if L and ids[-1] == eos_id:
	eos_ok += 1
	if L > cfg.max_seq_length:
	over_len += 1

	arr = np.asarray(lengths) if lengths else np.array([0])
	report = {
	"mode": "pretokenized",
	"sampled_sequences": int(m),
	"total_sequences": int(n),
	"unk_rate": round(total_unk / max(1, total_tokens), 6),
	"total_unk_tokens": int(total_unk),
	"seq_len": {"mean": float(arr.mean()), "p50": float(np.percentile(arr, 50)),
	"p95": float(np.percentile(arr, 95)), "max": int(arr.max())},
	"share_over_max_seq_len": round(float(over_len) / max(1, m), 4),
	"starts_with_bos_rate": round(bos_ok / max(1, m), 4),
	"ends_with_eos_rate": round(eos_ok / max(1, m), 4),
	}
	os.makedirs(out_dir, exist_ok=True)
	with open(os.path.join(out_dir, "tokenizer_diagnostics.json"), "w") as fh:
	json.dump(report, fh, indent=2, ensure_ascii=False)
	logger.info("Pretokenized diagnostics: unk_rate=%.4f%% mean_len=%.1f "
	"bos=%.0f%% eos=%.0f%%", report["unk_rate"] * 100, report["seq_len"]["mean"],
	report["starts_with_bos_rate"] * 100, report["ends_with_eos_rate"] * 100)
	if report["unk_rate"] > 0.005:
	logger.warning("High <unk> rate (%.3f%%) in the pre-tokenized data — verify it was "
	"tokenized with the SAME tokenizer (%s).", report["unk_rate"] * 100, cfg.model_name)
	if report["starts_with_bos_rate"] < 0.5 or report["ends_with_eos_rate"] < 0.5:
	logger.warning("Many sequences lack bos/eos boundaries; if your packing omitted special "
	"tokens, MLM quality may suffer.")
	if report["share_over_max_seq_len"] > 0:
	logger.warning("%.2f%% of sequences exceed max_seq_length=%d and will be truncated.",
	report["share_over_max_seq_len"] * 100, cfg.max_seq_length)
	return report


	def _load_dataset_any(name: str, split: str, token: bool):
	if os.path.isdir(name):
	from datasets import load_from_disk
	d = load_from_disk(name)
	if hasattr(d, "keys") and not hasattr(d, "column_names"): # DatasetDict
	d = d[split]
	return d
	return load_dataset(name, split=split, token=token)


	def _ids_hash(ids) -> bytes:
	return hashlib.blake2b(np.asarray(ids, dtype=np.int32).tobytes(), digest_size=12).digest()


	def build_pretokenized_bundle(cfg: Config, tokenizer, selected, cache_root: str):
	max_len = cfg.max_seq_length
	DOCID_CANDS = ("doc_id", "document_id", "docid")
	parts = []

	for repo, tag in selected:
	ds = _load_dataset_any(repo, cfg.dataset_split, True)
	docid_col = next((c for c in DOCID_CANDS if c in ds.column_names), None)

	# ----- WISSENSCHAFTLICHE KORREKTUR: Metadaten beibehalten -----
	keep = ["input_ids"]
	if "attention_mask" in ds.column_names:
	keep.append("attention_mask")
	if docid_col:
	keep.append(docid_col)

	strat_col = cfg.stratify_column
	if strat_col and strat_col in ds.column_names:
	keep.append(strat_col)

	ds = ds.remove_columns([c for c in ds.column_names if c not in keep])

	if docid_col and docid_col != "document_id":
	ds = ds.rename_column(docid_col, "document_id")
	if strat_col and strat_col in ds.column_names and strat_col != "stratum":
	ds = ds.rename_column(strat_col, "stratum")
	# --------------------------------------------------------------

	ds = ds.add_column("source", [tag] * len(ds))
	parts.append(ds)
	logger.info(" loaded pretokenized %s -> %d sequences (doc_id=%s)",
	tag, len(ds), docid_col)

	full = concatenate_datasets(parts) if len(parts) > 1 else parts[0]
	has_doc = "document_id" in full.column_names

	if has_doc:
	full = full.map(
	lambda b: {"document_id": [f"{s}:{d}" for s, d in zip(b["source"], b["document_id"])]},
	batched=True, desc="namespace doc ids")

	has_mask = "attention_mask" in full.column_names

	def _fix(batch):
	out = []
	masks = batch["attention_mask"] if has_mask else [None] * len(batch["input_ids"])
	for ids, am in zip(batch["input_ids"], masks):
	if am is not None:
	ids = [t for t, a in zip(ids, am) if a == 1]
	if len(ids) > max_len:
	ids = ids[:max_len]
	out.append(ids)
	return {"input_ids": out}

	full = full.map(_fix, batched=True, num_proc=cfg.preprocess_num_proc,
	remove_columns=(["attention_mask"] if has_mask else []),
	desc="normalize pretokenized")

	out_dir = cfg.output_dir
	if cfg.diagnose_tokenizer:
	diagnose_pretokenized(full, tokenizer, cfg, out_dir)

	rng = np.random.default_rng(cfg.split_seed)
	train_idx: List[int] = []
	val_idx: List[int] = []
	test_idx: List[int] = []

	if has_doc:
	docs = full["document_id"]
	unique_docs = sorted(set(docs))
	n_val = min(int(round(len(unique_docs) * cfg.val_doc_fraction)), cfg.max_eval_docs_per_source)
	n_test = min(int(round(len(unique_docs) * cfg.test_doc_fraction)), cfg.max_eval_docs_per_source)
	n_pick = n_val + n_test

	# ----- WISSENSCHAFTLICHE KORREKTUR: Stratified Split -----
	if "stratum" in full.column_names:
	logger.info(f"Applying STRATIFIED document split based on column '{cfg.stratify_column}'.")
	strata = full["stratum"]
	doc_stratum: Dict[str, str] = {}
	for d, s in zip(docs, strata):
	doc_stratum.setdefault(d, str(s))
	by_stratum: Dict[str, List[str]] = {}
	for d, s in doc_stratum.items():
	by_stratum.setdefault(s, []).append(d)

	picked: List[str] = []
	for s, d_list in sorted(by_stratum.items()):
	d_list = sorted(d_list)
	rng.shuffle(d_list)
	k = max(1, int(round(n_pick * len(d_list) / len(doc_stratum))))
	picked.extend(d_list[:min(k, len(d_list))])
	rng.shuffle(picked)
	val_docs = set(picked[:n_val])
	test_docs = set(picked[n_val:n_val + n_test])
	split_kind = "document-level STRATIFIED group-aware"
	else:
	rng.shuffle(unique_docs)
	val_docs = set(unique_docs[:n_val])
	test_docs = set(unique_docs[n_val:n_val + n_test])
	split_kind = "document-level group-aware"
	# ---------------------------------------------------------

	val_cand, test_cand = [], []
	for i, d in enumerate(docs):
	if d in val_docs:
	val_cand.append((i, d))
	elif d in test_docs:
	test_cand.append((i, d))
	else:
	train_idx.append(i)

	for cand, dst in ((val_cand, val_idx), (test_cand, test_idx)):
	seen = set()
	for i, d in cand:
	key = (d, _ids_hash(full[i]["input_ids"]))
	if key not in seen:
	seen.add(key)
	dst.append(i)
	else:
	logger.warning("No doc_id/document_id column found in the pre-tokenized data; "
	"falling back to a weaker sequence-level holdout.")
	hashes = [_ids_hash(ids) for ids in full["input_ids"]]
	uniq = sorted(set(hashes))
	rng.shuffle(uniq)
	n_val = min(int(round(len(uniq) * cfg.val_doc_fraction)), cfg.max_eval_docs_per_source * 4)
	n_test = min(int(round(len(uniq) * cfg.test_doc_fraction)), cfg.max_eval_docs_per_source * 4)
	val_h = set(uniq[:n_val])
	test_h = set(uniq[n_val:n_val + n_test])
	seen_v, seen_t = set(), set()
	for i, h in enumerate(hashes):
	if h in val_h:
	if h not in seen_v:
	seen_v.add(h); val_idx.append(i)
	elif h in test_h:
	if h not in seen_t:
	seen_t.add(h); test_idx.append(i)
	else:
	train_idx.append(i)
	split_kind = "sequence-level dedup"

	bundle: Dict[str, Dataset] = {"train": full.select(train_idx)}
	if val_idx:
	bundle["validation"] = full.select(val_idx)
	if len(set(bundle["validation"]["source"])) > 1:
	for tag in ("med", "canon"):
	sub = bundle["validation"].filter(lambda b: [s == tag for s in b["source"]], batched=True)
	if len(sub):
	bundle[f"validation_{tag}"] = sub
	if test_idx:
	bundle["test"] = full.select(test_idx)

	logger.info("Pretokenized split (%s) -> train=%d val=%d test=%d",
	split_kind, len(bundle["train"]), len(val_idx), len(test_idx))

	def len_stats(d):
	ls = np.asarray([len(x) for x in d["input_ids"]]) if len(d) else np.array([0])
	return {"mean": float(ls.mean()), "p50": float(np.percentile(ls, 50)),
	"p95": float(np.percentile(ls, 95))}
	rep = {"split_kind": split_kind,
	"train_sequences": len(bundle["train"]), "val_sequences": len(val_idx),
	"len_train": len_stats(bundle["train"])}
	if val_idx:
	rep["len_val"] = len_stats(bundle["validation"])
	with open(os.path.join(out_dir, "eval_representativeness.json"), "w") as fh:
	json.dump(rep, fh, indent=2)

	if cfg.diagnose_only:
	logger.info("--diagnose-only set: wrote diagnostics to %s, exiting before training.", out_dir)
	sys.exit(0)

	os.makedirs(cache_root, exist_ok=True)
	for name, d in bundle.items():
	d.save_to_disk(os.path.join(cache_root, name))
	logger.info("Saved pretokenized datasets to %s", cache_root)
	return bundle


	def build_or_load_packed(cfg: Config, tokenizer):
	sig = json.dumps({
	"med": cfg.med_dataset, "canon": cfg.canon_dataset, "split": cfg.dataset_split,
	"model": cfg.model_name, "max_len": cfg.max_seq_length, "min_chunk": cfg.min_chunk_tokens,
	"val_frac": cfg.val_doc_fraction, "test_frac": cfg.test_doc_fraction,
	"max_eval": cfg.max_eval_docs_per_source, "split_seed": cfg.split_seed,
	"text_col": cfg.text_column, "doc_col": cfg.doc_id_column, "order_col": cfg.order_column,
	"stratify": cfg.stratify_column, "nfc": cfg.normalize_nfc,
	"train_corpus": cfg.train_corpus, "dedup_train": cfg.dedup_train,
	}, sort_keys=True)
	key = hashlib.blake2b(sig.encode("utf-8"), digest_size=12).hexdigest()
	cache_root = os.path.join(cfg.cache_dir, f"packed_{key}")

	if os.path.isdir(cache_root) and not cfg.diagnose_only:
	from datasets import load_from_disk
	logger.info("Loading cached packed datasets from %s", cache_root)
	bundle = {name: load_from_disk(os.path.join(cache_root, name))
	for name in os.listdir(cache_root)
	if os.path.isdir(os.path.join(cache_root, name))}
	return bundle

	if cfg.train_corpus not in {"combined", "med", "canon"}:
	raise ValueError(f"--train-corpus must be combined\|med\|canon, got {cfg.train_corpus!r}")

	selected = []
	if cfg.train_corpus in {"combined", "med"}:
	selected.append((cfg.med_dataset, "med"))
	if cfg.train_corpus in {"combined", "canon"}:
	selected.append((cfg.canon_dataset, "canon"))

	probe = _load_dataset_any(selected[0][0], cfg.dataset_split, True)
	if "input_ids" in probe.column_names:
	logger.warning(
	"Dataset %s is PRE-TOKENIZED (columns=%s). Skipping raw-text tokenization "
	"and DOC-SENTENCES packing.", selected[0][0], probe.column_names)
	del probe
	return build_pretokenized_bundle(cfg, tokenizer, selected, cache_root)
	del probe

	sources = []
	if cfg.train_corpus in {"combined", "med"}:
	sources.append(load_source(cfg.med_dataset, cfg.dataset_split, "med", cfg))
	if cfg.train_corpus in {"combined", "canon"}:
	sources.append(load_source(cfg.canon_dataset, cfg.dataset_split, "canon", cfg))
	logger.info("Training corpus = %s (%d source dataset(s))", cfg.train_corpus, len(sources))

	train_parts, val_parts, test_parts = [], [], []
	for src in sources:
	tag = src["source"][0]
	val_docs, test_docs = choose_heldout_docs(src, cfg)
	in_val = src.filter(lambda b: [d in val_docs for d in b["document_id"]],
	batched=True, desc=f"select val ({tag})")
	in_test = src.filter(lambda b: [d in test_docs for d in b["document_id"]],
	batched=True, desc=f"select test ({tag})")
	held = val_docs \| test_docs
	in_train = src.filter(lambda b: [d not in held for d in b["document_id"]],
	batched=True, desc=f"select train ({tag})")
	train_parts.append(in_train)
	if len(in_val):
	val_parts.append(dedup_rows(in_val))
	if len(in_test):
	test_parts.append(dedup_rows(in_test))

	train_raw = concatenate_datasets(train_parts)
	if cfg.dedup_train:
	before = len(train_raw)
	train_raw = dedup_rows(train_raw)
	logger.info("dedup_train: collapsed %d -> %d training paragraphs "
	"(upsampling duplicates removed).", before, len(train_raw))
	val_raw = concatenate_datasets(val_parts) if val_parts else None
	logger.info("Raw paragraph counts -> train=%d val=%d test=%d",
	len(train_raw),
	sum(len(p) for p in val_parts),
	sum(len(p) for p in test_parts))

	out_dir = cfg.output_dir
	if cfg.diagnose_tokenizer:
	n = len(train_raw)
	m = min(cfg.tokenizer_sample_size, n)
	idx = np.random.default_rng(cfg.split_seed).choice(n, size=m, replace=False)
	sample_texts = train_raw.select(idx)["text"]
	diagnose_tokenizer(sample_texts, tokenizer, cfg, out_dir)
	if val_raw is not None:
	representativeness_report(train_raw, val_raw, cfg, out_dir)

	if cfg.diagnose_only:
	logger.info("--diagnose-only set: wrote diagnostics to %s, exiting before "
	"packing/training.", out_dir)
	sys.exit(0)

	bundle: Dict[str, Dataset] = {}
	bundle["train"] = pack_doc_sentences(tokenize_paragraphs(train_raw, tokenizer, cfg),
	tokenizer, cfg, "train")
	if val_raw is not None:
	bundle["validation"] = pack_doc_sentences(tokenize_paragraphs(val_raw, tokenizer, cfg),
	tokenizer, cfg, "validation")
	if len(sources) > 1:
	for tag in ("med", "canon"):
	sub = val_raw.filter(lambda b: [s == tag for s in b["source"]], batched=True)
	if len(sub):
	bundle[f"validation_{tag}"] = pack_doc_sentences(
	tokenize_paragraphs(sub, tokenizer, cfg), tokenizer, cfg, f"validation_{tag}")
	if test_parts:
	test_raw = concatenate_datasets(test_parts)
	bundle["test"] = pack_doc_sentences(tokenize_paragraphs(test_raw, tokenizer, cfg),
	tokenizer, cfg, "test")

	os.makedirs(cache_root, exist_ok=True)
	for name, d in bundle.items():
	d.save_to_disk(os.path.join(cache_root, name))
	logger.info("Saved packed datasets to %s", cache_root)
	return bundle


	# --------------------------------------------------------------------------- #
	# Metrics
	# --------------------------------------------------------------------------- #
	def preprocess_logits_for_metrics(logits, labels):
	if isinstance(logits, tuple):
	logits = logits[0]
	return logits.argmax(dim=-1)


	def compute_metrics(eval_pred):
	preds, labels = eval_pred
	labels = labels.reshape(-1)
	preds = preds.reshape(-1)
	mask = labels != -100
	if mask.sum() == 0:
	return {"masked_accuracy": 0.0}
	correct = (preds[mask] == labels[mask]).sum()
	return {"masked_accuracy": float(correct) / float(mask.sum())}


	class PerplexityCallback(TrainerCallback):
	def on_evaluate(self, args, state, control, metrics=None, **kwargs):
	if not metrics:
	return
	for k in list(metrics.keys()):
	if k.endswith("loss") and ("eval" in k):
	try:
	metrics[k.replace("loss", "perplexity")] = math.exp(min(metrics[k], 20))
	except OverflowError:
	metrics[k.replace("loss", "perplexity")] = float("inf")


	class JsonlLoggingCallback(TrainerCallback):
	def __init__(self, path: str):
	self.path = path
	os.makedirs(os.path.dirname(path), exist_ok=True)

	def on_log(self, args, state, control, logs=None, **kwargs):
	if not logs:
	return
	record = dict(logs)
	record["step"] = state.global_step
	record["epoch"] = state.epoch
	record["wall_time"] = datetime.now().isoformat(timespec="seconds")
	with open(self.path, "a", encoding="utf-8") as fh:
	fh.write(json.dumps(record, ensure_ascii=False) + "\n")
	fh.flush()
	os.fsync(fh.fileno())


	# --------------------------------------------------------------------------- #
	# Environment / run metadata
	# --------------------------------------------------------------------------- #
	def capture_environment(cfg: Config) -> dict:
	import transformers
	import datasets as ds_lib
	info = {
	"timestamp": datetime.now().isoformat(timespec="seconds"),
	"python": platform.python_version(),
	"platform": platform.platform(),
	"torch": torch.__version__,
	"transformers": transformers.__version__,
	"datasets": ds_lib.__version__,
	"cuda_available": torch.cuda.is_available(),
	}
	if torch.cuda.is_available():
	info["cuda"] = torch.version.cuda
	info["gpu_name"] = torch.cuda.get_device_name(0)
	props = torch.cuda.get_device_properties(0)
	info["gpu_total_memory_gb"] = round(props.total_memory / 1024**3, 1)
	cap = f"{props.major}.{props.minor}"
	info["gpu_capability"] = cap
	info["bf16_supported"] = torch.cuda.is_bf16_supported()
	try:
	arch_list = torch.cuda.get_arch_list()
	except Exception:
	arch_list = []
	info["torch_arch_list"] = arch_list
	sm_tag = f"sm_{props.major}{props.minor}"
	info["gpu_arch_supported_by_torch"] = any(sm_tag == a for a in arch_list)
	return info


	# --------------------------------------------------------------------------- #
	# Argparse
	# --------------------------------------------------------------------------- #
	def parse_args() -> Config:
	cfg = Config()
	p = argparse.ArgumentParser(description=__doc__, formatter_class=argparse.ArgumentDefaultsHelpFormatter)
	for f in cfg.__dataclass_fields__.values():
	name = "--" + f.name.replace("_", "-")
	default = getattr(cfg, f.name)
	if isinstance(default, bool):
	if default:
	p.add_argument("--no-" + f.name.replace("_", "-"), dest=f.name, action="store_false")
	else:
	p.add_argument(name, dest=f.name, action="store_true")
	elif default is None:
	p.add_argument(name, dest=f.name, default=None, type=str)
	else:
	p.add_argument(name, dest=f.name, default=default, type=type(default))
	args = p.parse_args()
	return Config(**vars(args))


	# --------------------------------------------------------------------------- #
	# Main
	# --------------------------------------------------------------------------- #
	def main():
	cfg = parse_args()
	set_seed(cfg.seed)

	torch.backends.cuda.matmul.allow_tf32 = True
	torch.backends.cudnn.allow_tf32 = True
	torch.set_float32_matmul_precision("high")

	os.makedirs(cfg.output_dir, exist_ok=True)

	file_handler = logging.FileHandler(os.path.join(cfg.output_dir, "train.log"))
	file_handler.setFormatter(logging.Formatter(
	"%(asctime)s \| %(levelname)-7s \| %(name)s \| %(message)s", "%Y-%m-%d %H:%M:%S"))
	logging.getLogger().addHandler(file_handler)

	env = capture_environment(cfg)
	logger.info("Environment:\n%s", json.dumps(env, indent=2))
	with open(os.path.join(cfg.output_dir, "run_metadata.json"), "w") as fh:
	json.dump({"config": cfg.__dict__, "environment": env}, fh, indent=2)

	if not env["cuda_available"]:
	logger.warning("CUDA not available — this script is intended to run on a GPU server.")
	else:
	if not env.get("bf16_supported", False):
	logger.warning("bf16 not reported as supported on this GPU; consider fp16.")
	if env.get("torch_arch_list") and not env.get("gpu_arch_supported_by_torch", True):
	logger.error(
	"This torch build (%s, arch_list=%s) has NO kernels for your GPU "
	"(capability %s). On Blackwell (RTX PRO 6000) install a cu128+ build, e.g.:\n"
	" pip install --upgrade torch --index-url https://download.pytorch.org/whl/cu128\n"
	"CUDA ops will fail until this matches.",
	env["torch"], env.get("torch_arch_list"), env.get("gpu_capability"))

	if cfg.save_steps % cfg.eval_steps != 0:
	new_save = max(cfg.eval_steps, (cfg.save_steps // cfg.eval_steps) * cfg.eval_steps)
	logger.warning("save_steps (%d) not a multiple of eval_steps (%d); adjusting to %d.",
	cfg.save_steps, cfg.eval_steps, new_save)
	cfg.save_steps = new_save

	tokenizer = AutoTokenizer.from_pretrained(cfg.model_name, use_fast=True)
	tokenizer.model_max_length = cfg.max_seq_length

	bundle = build_or_load_packed(cfg, tokenizer)
	train_ds = bundle["train"]
	eval_ds = bundle.get("validation")

	def tok_count(d):
	lengths = d.map(lambda b: {"len": [len(x) for x in b["input_ids"]]},
	batched=True, remove_columns=d.column_names, desc="count tokens")["len"]
	return int(sum(lengths)), float(np.mean(lengths))

	stats = {}
	for name, d in bundle.items():
	n_tok, mean_len = tok_count(d)
	stats[name] = {"sequences": len(d), "tokens": n_tok, "mean_seq_len": round(mean_len, 1)}
	logger.info("Packed dataset statistics:\n%s", json.dumps(stats, indent=2))
	with open(os.path.join(cfg.output_dir, "dataset_stats.json"), "w") as fh:
	json.dump(stats, fh, indent=2)

	if cfg.dry_run:
	logger.info("--dry-run set: datasets built and cached, exiting before training.")
	return

	train_ds = train_ds.remove_columns([c for c in train_ds.column_names if c != "input_ids"])
	if eval_ds is not None:
	eval_ds = eval_ds.remove_columns([c for c in eval_ds.column_names if c != "input_ids"])

	model = AutoModelForMaskedLM.from_pretrained(
	cfg.model_name,
	attn_implementation=cfg.attn_implementation,
	)
	if cfg.gradient_checkpointing:
	model.config.use_cache = False
	logger.info("Model parameters: %.1fM", sum(p.numel() for p in model.parameters()) / 1e6)

	collator = DataCollatorForLanguageModeling(
	tokenizer=tokenizer,
	mlm=True,
	mlm_probability=cfg.mlm_probability,
	pad_to_multiple_of=8,
	)

	report_to = ["tensorboard"]
	if cfg.report_to_wandb:
	report_to.append("wandb")

	do_eval = eval_ds is not None
	args = TrainingArguments(
	output_dir=cfg.output_dir,
	seed=cfg.seed,
	data_seed=cfg.seed,
	num_train_epochs=cfg.num_train_epochs,
	max_steps=cfg.max_steps,
	learning_rate=cfg.learning_rate,
	weight_decay=cfg.weight_decay,
	adam_beta1=cfg.adam_beta1,
	adam_beta2=cfg.adam_beta2,
	adam_epsilon=cfg.adam_epsilon,
	max_grad_norm=cfg.max_grad_norm,
	warmup_ratio=cfg.warmup_ratio,
	lr_scheduler_type=cfg.lr_scheduler_type,
	optim=cfg.optim,
	bf16=bool(env.get("bf16_supported")),
	per_device_train_batch_size=cfg.per_device_train_batch_size,
	per_device_eval_batch_size=cfg.per_device_eval_batch_size,
	gradient_accumulation_steps=cfg.gradient_accumulation_steps,
	gradient_checkpointing=cfg.gradient_checkpointing,
	auto_find_batch_size=cfg.auto_find_batch_size,
	torch_compile=cfg.torch_compile,
	dataloader_num_workers=cfg.dataloader_num_workers,
	dataloader_pin_memory=True,
	eval_accumulation_steps=cfg.eval_accumulation_steps,
	eval_strategy="steps" if do_eval else "no",
	eval_steps=cfg.eval_steps if do_eval else None,
	logging_strategy="steps",
	logging_steps=cfg.logging_steps,
	logging_first_step=True,
	save_strategy="steps",
	save_steps=cfg.save_steps,
	save_total_limit=cfg.save_total_limit,
	load_best_model_at_end=do_eval,
	metric_for_best_model="eval_loss" if do_eval else None,
	greater_is_better=False,
	report_to=report_to,
	run_name=os.path.basename(cfg.output_dir.rstrip("/")),
	include_num_input_tokens_seen=True,
	logging_dir=os.path.join(cfg.output_dir, "tb"),
	)

	callbacks = [PerplexityCallback(),
	JsonlLoggingCallback(os.path.join(cfg.output_dir, "training_log.jsonl"))]
	if do_eval and cfg.early_stopping_patience > 0:
	callbacks.append(EarlyStoppingCallback(
	early_stopping_patience=cfg.early_stopping_patience,
	early_stopping_threshold=cfg.early_stopping_threshold))

	tok_kwarg = {"processing_class": tokenizer} if _USE_PROCESSING_CLASS else {"tokenizer": tokenizer}
	trainer = Trainer(
	model=model,
	args=args,
	train_dataset=train_ds,
	eval_dataset=eval_ds,
	data_collator=collator,
	compute_metrics=compute_metrics if do_eval else None,
	preprocess_logits_for_metrics=preprocess_logits_for_metrics if do_eval else None,
	callbacks=callbacks,
	**tok_kwarg,
	)

	resume_from = None
	if cfg.resume:
	last = get_last_checkpoint(cfg.output_dir)
	if last:
	logger.info("Resuming from checkpoint %s", last)
	resume_from = last

	try:
	train_result = trainer.train(resume_from_checkpoint=resume_from)
	except BaseException as exc:
	tb_path = os.path.join(cfg.output_dir, "crash_traceback.txt")
	with open(tb_path, "w", encoding="utf-8") as fh:
	fh.write(f"Crashed at {datetime.now().isoformat()}\n\n")
	traceback.print_exc(file=fh)
	logger.error("Training crashed (%s: %s). Traceback written to %s",
	type(exc).__name__, exc, tb_path)
	try:
	emergency = os.path.join(cfg.output_dir, "emergency_checkpoint")
	trainer.save_model(emergency)
	trainer.save_state()
	logger.error("Emergency model state saved to %s", emergency)
	except Exception as save_exc:
	logger.error("Emergency save also failed: %s", save_exc)
	raise

	trainer.save_model()
	tokenizer.save_pretrained(cfg.output_dir)
	trainer.save_state()

	metrics = train_result.metrics
	trainer.log_metrics("train", metrics)
	trainer.save_metrics("train", metrics)

	final = {}
	if eval_ds is not None:
	m = trainer.evaluate(eval_dataset=eval_ds, metric_key_prefix="final_val")
	m["final_val_perplexity"] = math.exp(min(m["final_val_loss"], 20))
	final.update(m)
	for tag in ("med", "canon"):
	sub = bundle.get(f"validation_{tag}")
	if sub is not None:
	sub = sub.remove_columns([c for c in sub.column_names if c != "input_ids"])
	m = trainer.evaluate(eval_dataset=sub, metric_key_prefix=f"final_val_{tag}")
	m[f"final_val_{tag}_perplexity"] = math.exp(min(m[f"final_val_{tag}_loss"], 20))
	final.update(m)
	if "test" in bundle:
	test_ds = bundle["test"].remove_columns(
	[c for c in bundle["test"].column_names if c != "input_ids"])
	m = trainer.evaluate(eval_dataset=test_ds, metric_key_prefix="final_test")
	m["final_test_perplexity"] = math.exp(min(m["final_test_loss"], 20))
	final.update(m)

	if final:
	logger.info("Final evaluation:\n%s", json.dumps(final, indent=2))
	trainer.save_metrics("final_eval", final)
	logger.info("Done. Best model + tokenizer saved to %s", cfg.output_dir)


	if __name__ == "__main__":
	main()