Spaces:

marconolimits
/

NMT

Sleeping

App Files Files Community

NMT / scripts /convert_model.py

marconolimits

deploy: clean orphan branch for HF Spaces - CPU threading optimisation

c7b4419 2 months ago

Raw

History Blame Contribute Delete

17 kB

	from __future__ import annotations

	import argparse
	import hashlib
	import json
	import os
	import random
	import re
	from pathlib import Path

	import ctranslate2


	def convert_base_model(model_name: str, output_dir: str, quantization: str) -> None:
	print(f"Converting model {model_name} to {output_dir} with {quantization} quantization...")
	converter = ctranslate2.converters.TransformersConverter(
	model_name,
	copy_files=["tokenizer.json", "sentencepiece.bpe.model"],
	)
	converter.convert(output_dir, quantization=quantization, force=True)
	print(f"Model saved to {os.path.abspath(output_dir)}")


	def prepare_data(out_dir: str, seed: int, val_ratio: float, test_ratio: float, max_per_corpus: int) -> None:
	import warnings
	from datasets import load_dataset
	from datasets import concatenate_datasets

	warnings.filterwarnings(
	"ignore",
	message=r".Helsinki-NLP/tatoeba_mt contains custom code.",
	category=FutureWarning,
	)

	def normalize(text: str) -> str:
	return re.sub(r"\s+", " ", text.strip())

	def extract_value(item: dict, key: str) -> str:
	value = item
	for part in key.split("."):
	value = value[part]
	return value

	def to_rows(ds, src_key: str, tgt_key: str, name: str) -> list[dict]:
	rows = []
	for item in ds:
	src = normalize(extract_value(item, src_key))
	tgt = normalize(extract_value(item, tgt_key))
	if not src or not tgt:
	continue
	rows.append({"source_text": src, "target_text": tgt, "source_lang": "eng_Latn", "target_lang": "ita_Latn", "dataset": name})
	rows.append({"source_text": tgt, "target_text": src, "source_lang": "ita_Latn", "target_lang": "eng_Latn", "dataset": name})
	return rows

	def load_tatoeba_rows():
	"""
	Handle split changes in newer datasets releases where tatoeba_mt may expose
	validation/test only instead of train.
	"""
	try:
	return load_dataset("Helsinki-NLP/tatoeba_mt", "eng-ita", split="train")
	except ValueError:
	validation = load_dataset("Helsinki-NLP/tatoeba_mt", "eng-ita", split="validation")
	test = load_dataset("Helsinki-NLP/tatoeba_mt", "eng-ita", split="test")
	return concatenate_datasets([validation, test])

	books = load_dataset("opus_books", "en-it", split="train")
	europarl = load_dataset("Helsinki-NLP/europarl", "en-it", split="train")
	tatoeba = load_tatoeba_rows()
	subs = load_dataset("open_subtitles", lang1="en", lang2="it", trust_remote_code=True, split="train")

	books = books.select(range(min(len(books), max_per_corpus)))
	europarl = europarl.select(range(min(len(europarl), max_per_corpus)))
	tatoeba = tatoeba.select(range(min(len(tatoeba), max_per_corpus)))
	subs = subs.select(range(min(len(subs), max_per_corpus * 4)))

	rows = []
	rows.extend(to_rows(subs, "translation.en", "translation.it", "open_subtitles"))
	rows.extend(to_rows(books, "translation.en", "translation.it", "opus_books"))
	rows.extend(to_rows(europarl, "translation.en", "translation.it", "europarl"))
	rows.extend(to_rows(tatoeba, "sourceString", "targetString", "tatoeba"))

	deduped = []
	seen = set()
	for row in rows:
	token_len_a = len(row["source_text"].split())
	token_len_b = len(row["target_text"].split())
	if token_len_a < 2 or token_len_b < 2 or token_len_a > 120 or token_len_b > 120:
	continue
	if max(token_len_a, token_len_b) / max(1, min(token_len_a, token_len_b)) > 3.0:
	continue
	key = f"{row['source_lang']}\|{row['target_lang']}\|{row['source_text']}\|{row['target_text']}"
	digest = hashlib.sha1(key.encode("utf-8")).hexdigest()
	if digest in seen:
	continue
	seen.add(digest)
	deduped.append(row)

	rng = random.Random(seed)
	rng.shuffle(deduped)
	n_total = len(deduped)
	n_test = int(n_total * test_ratio)
	n_val = int(n_total * val_ratio)
	test_rows = deduped[:n_test]
	val_rows = deduped[n_test : n_test + n_val]
	train_rows = deduped[n_test + n_val :]

	path = Path(out_dir)
	path.mkdir(parents=True, exist_ok=True)

	def write_jsonl(name: str, samples: list[dict]) -> None:
	with (path / name).open("w", encoding="utf-8") as f:
	for row in samples:
	f.write(json.dumps(row, ensure_ascii=False) + "\n")

	write_jsonl("train.jsonl", train_rows)
	write_jsonl("val.jsonl", val_rows)
	write_jsonl("test.jsonl", test_rows)
	(path / "metadata.json").write_text(
	json.dumps(
	{
	"datasets": ["opus_books", "europarl", "tatoeba", "open_subtitles"],
	"seed": seed,
	"counts": {"train": len(train_rows), "val": len(val_rows), "test": len(test_rows), "total": n_total},
	},
	indent=2,
	),
	encoding="utf-8",
	)
	print(f"Wrote curated dataset to {path}")


	def train_lora(
	data_dir: str,
	output_dir: str,
	model_name: str,
	train_batch_size: int,
	eval_batch_size: int,
	gradient_accumulation_steps: int,
	max_length: int,
	num_train_epochs: float,
	resume_from_checkpoint: str \| None,
	save_steps: int,
	eval_steps: int,
	logging_steps: int,
	bf16: bool,
	dataloader_num_workers: int,
	max_train_samples: int \| None,
	max_eval_samples: int \| None,
	eval_during_train: bool,
	final_eval: bool,
	) -> None:
	import evaluate
	import numpy as np
	import torch
	import warnings
	from datasets import load_dataset
	from peft import LoraConfig, TaskType, get_peft_model
	from transformers import AutoModelForSeq2SeqLM, AutoTokenizer, DataCollatorForSeq2Seq, Seq2SeqTrainer, Seq2SeqTrainingArguments

	class _Seq2SeqTrainer(Seq2SeqTrainer):
	"""HF Seq2SeqTrainer still reads `self.tokenizer` in `_pad_tensors_to_max_len`, which logs deprecation; use `processing_class`."""

	def _pad_tensors_to_max_len(self, tensor, max_length):
	tok = self.processing_class
	if tok is not None and hasattr(tok, "pad_token_id"):
	pad_token_id = tok.pad_token_id if tok.pad_token_id is not None else tok.eos_token_id
	else:
	if self.model.config.pad_token_id is not None:
	pad_token_id = self.model.config.pad_token_id
	else:
	raise ValueError(
	"Pad_token_id must be set in the configuration of the model, in order to pad tensors"
	)
	padded_tensor = pad_token_id * torch.ones(
	(tensor.shape[0], max_length), dtype=tensor.dtype, device=tensor.device
	)
	padded_tensor[:, : tensor.shape[-1]] = tensor
	return padded_tensor

	if resume_from_checkpoint:
	# PyTorch 2.6+ defaults weights_only=True; HF checkpoint RNG state needs full unpickle (trusted local dirs only).
	# Force-disable weights_only behavior for resume to avoid RNG-state unpickling failures.
	os.environ["TORCH_FORCE_WEIGHTS_ONLY_LOAD"] = "0"
	os.environ["TORCH_FORCE_NO_WEIGHTS_ONLY_LOAD"] = "1"
	os.environ["HF_TRAINER_USE_WEIGHTS_ONLY_LOAD"] = "false"

	warnings.filterwarnings("ignore", category=FutureWarning, module=r"transformers\.trainer")

	dataset = load_dataset(
	"json",
	data_files={"train": str(Path(data_dir) / "train.jsonl"), "validation": str(Path(data_dir) / "val.jsonl")},
	)
	if max_train_samples is not None:
	dataset["train"] = dataset["train"].select(range(min(max_train_samples, len(dataset["train"]))))
	if max_eval_samples is not None:
	dataset["validation"] = dataset["validation"].select(range(min(max_eval_samples, len(dataset["validation"]))))
	processing_class = AutoTokenizer.from_pretrained(model_name, use_fast=False)
	model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
	lora_cfg = LoraConfig(
	task_type=TaskType.SEQ_2_SEQ_LM,
	r=16,
	lora_alpha=32,
	lora_dropout=0.05,
	target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
	)
	model = get_peft_model(model, lora_cfg)

	def preprocess(batch: dict) -> dict:
	tokenized = {"input_ids": [], "attention_mask": [], "labels": []}
	for src_text, tgt_text, src_lang, tgt_lang in zip(
	batch["source_text"], batch["target_text"], batch["source_lang"], batch["target_lang"]
	):
	processing_class.src_lang = src_lang
	processing_class.tgt_lang = tgt_lang
	inputs = processing_class(src_text, max_length=max_length, truncation=True)
	labels = processing_class(text_target=tgt_text, max_length=max_length, truncation=True)
	tokenized["input_ids"].append(inputs["input_ids"])
	tokenized["attention_mask"].append(inputs["attention_mask"])
	tokenized["labels"].append(labels["input_ids"])
	return tokenized

	tokenized = dataset.map(preprocess, batched=True, remove_columns=dataset["train"].column_names)
	collator = DataCollatorForSeq2Seq(tokenizer=processing_class, model=model)
	bleu_metric = evaluate.load("sacrebleu")
	chrf_metric = evaluate.load("chrf")

	def compute_metrics(eval_preds: tuple[np.ndarray, np.ndarray]) -> dict[str, float]:
	preds, labels = eval_preds
	if isinstance(preds, tuple):
	preds = preds[0]
	decoded_preds = processing_class.batch_decode(preds, skip_special_tokens=True)
	labels = np.where(labels != -100, labels, processing_class.pad_token_id)
	decoded_labels = processing_class.batch_decode(labels, skip_special_tokens=True)
	bleu = bleu_metric.compute(predictions=decoded_preds, references=[[x] for x in decoded_labels])["score"]
	chrf = chrf_metric.compute(predictions=decoded_preds, references=[[x] for x in decoded_labels])["score"]
	return {"bleu": round(bleu, 2), "chrf": round(chrf, 2)}

	train_args = Seq2SeqTrainingArguments(
	output_dir=str(Path(output_dir) / "checkpoints"),
	learning_rate=2e-4,
	per_device_train_batch_size=train_batch_size,
	per_device_eval_batch_size=eval_batch_size,
	gradient_accumulation_steps=gradient_accumulation_steps,
	num_train_epochs=num_train_epochs,
	eval_strategy="steps" if eval_during_train else "no",
	eval_steps=eval_steps,
	save_steps=save_steps,
	logging_strategy="steps",
	logging_steps=logging_steps,
	bf16=bf16,
	dataloader_num_workers=dataloader_num_workers,
	dataloader_pin_memory=True,
	dataloader_persistent_workers=dataloader_num_workers > 0,
	predict_with_generate=eval_during_train or final_eval,
	report_to="none",
	metric_for_best_model="bleu" if eval_during_train else None,
	greater_is_better=True,
	load_best_model_at_end=eval_during_train,
	)
	trainer = _Seq2SeqTrainer(
	model=model,
	args=train_args,
	train_dataset=tokenized["train"],
	eval_dataset=tokenized["validation"] if (eval_during_train or final_eval) else None,
	processing_class=processing_class,
	data_collator=collator,
	compute_metrics=compute_metrics if (eval_during_train or final_eval) else None,
	)
	trainer.train(resume_from_checkpoint=resume_from_checkpoint)
	metrics = trainer.evaluate() if final_eval else {}
	adapter_dir = Path(output_dir) / "adapter"
	adapter_dir.mkdir(parents=True, exist_ok=True)
	model.save_pretrained(adapter_dir)
	processing_class.save_pretrained(adapter_dir)
	(Path(output_dir) / "final_metrics.json").write_text(json.dumps(metrics, indent=2), encoding="utf-8")
	print(f"Saved LoRA adapter to {adapter_dir}")


	def export_lora(base_model: str, adapter_dir: str, output_dir: str, quantization: str) -> None:
	from peft import PeftModel
	from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

	target = Path(output_dir)
	target.mkdir(parents=True, exist_ok=True)
	base = AutoModelForSeq2SeqLM.from_pretrained(base_model)
	merged = PeftModel.from_pretrained(base, adapter_dir).merge_and_unload()
	merged_hf = target / "merged_hf"
	merged.save_pretrained(merged_hf)
	AutoTokenizer.from_pretrained(base_model).save_pretrained(merged_hf)

	class _CompatTransformersConverter(ctranslate2.converters.TransformersConverter):
	"""Bridge ctranslate2/transformers dtype kwarg compatibility across versions."""

	def load_model(self, model_class, model_name_or_path, **kwargs):
	# Some ctranslate2 versions pass `dtype`, while transformers expects `torch_dtype`.
	if "dtype" in kwargs and "torch_dtype" not in kwargs:
	kwargs["torch_dtype"] = kwargs.pop("dtype")
	try:
	return model_class.from_pretrained(model_name_or_path, **kwargs)
	except TypeError as exc:
	# Fallback for older/newer transformers combinations that reject dtype args.
	if "torch_dtype" in kwargs:
	kwargs.pop("torch_dtype", None)
	return model_class.from_pretrained(model_name_or_path, **kwargs)
	raise exc

	converter = _CompatTransformersConverter(str(merged_hf))
	converter.convert(str(target / "model"), quantization=quantization)
	print(f"Exported CTranslate2 model to {target / 'model'}")


	def main() -> None:
	parser = argparse.ArgumentParser(description="NMT utility script for conversion/data/LoRA workflows.")
	sub = parser.add_subparsers(dest="command", required=True)

	c = sub.add_parser("convert-base")
	c.add_argument("--model-name", default="facebook/nllb-200-distilled-600M")
	c.add_argument("--output-dir", default="nllb_int8")
	c.add_argument("--quantization", default="int8")

	d = sub.add_parser("prepare-data")
	d.add_argument("--out-dir", default="data/en_it_v1")
	d.add_argument("--seed", type=int, default=42)
	d.add_argument("--val-ratio", type=float, default=0.05)
	d.add_argument("--test-ratio", type=float, default=0.05)
	d.add_argument("--max-per-corpus", type=int, default=120000)

	t = sub.add_parser("train-lora")
	t.add_argument("--data-dir", default="data/en_it_v1")
	t.add_argument("--output-dir", default="artifacts/lora/en_it_v1")
	t.add_argument("--model-name", default="facebook/nllb-200-distilled-600M")
	t.add_argument("--train-batch-size", type=int, default=8)
	t.add_argument("--eval-batch-size", type=int, default=8)
	t.add_argument("--gradient-accumulation-steps", type=int, default=1)
	t.add_argument("--max-length", type=int, default=192)
	t.add_argument("--num-train-epochs", type=float, default=2.0)
	t.add_argument("--resume-from-checkpoint", default=None)
	t.add_argument("--save-steps", type=int, default=500)
	t.add_argument("--eval-steps", type=int, default=500)
	t.add_argument("--logging-steps", type=int, default=500)
	t.add_argument("--bf16", action=argparse.BooleanOptionalAction, default=True)
	t.add_argument("--dataloader-num-workers", type=int, default=4)
	t.add_argument("--max-train-samples", type=int, default=None)
	t.add_argument("--max-eval-samples", type=int, default=None)
	t.add_argument("--eval-during-train", action=argparse.BooleanOptionalAction, default=True)
	t.add_argument("--final-eval", action=argparse.BooleanOptionalAction, default=True)

	e = sub.add_parser("export-lora")
	e.add_argument("--base-model", default="facebook/nllb-200-distilled-600M")
	e.add_argument("--adapter-dir", required=True)
	e.add_argument("--output-dir", default="artifacts/ct2/en_it_lora_int8")
	e.add_argument("--quantization", default="int8")

	args = parser.parse_args()
	if args.command == "convert-base":
	convert_base_model(args.model_name, args.output_dir, args.quantization)
	elif args.command == "prepare-data":
	prepare_data(args.out_dir, args.seed, args.val_ratio, args.test_ratio, args.max_per_corpus)
	elif args.command == "train-lora":
	train_lora(
	args.data_dir,
	args.output_dir,
	args.model_name,
	args.train_batch_size,
	args.eval_batch_size,
	args.gradient_accumulation_steps,
	args.max_length,
	args.num_train_epochs,
	args.resume_from_checkpoint,
	args.save_steps,
	args.eval_steps,
	args.logging_steps,
	args.bf16,
	args.dataloader_num_workers,
	args.max_train_samples,
	args.max_eval_samples,
	args.eval_during_train,
	args.final_eval,
	)
	else:
	export_lora(args.base_model, args.adapter_dir, args.output_dir, args.quantization)


	if __name__ == "__main__":
	main()