hotchpotch
/

ModernBERT-embedding-CMNBRL

+#!/usr/bin/env python3
+# Sample training script for ablation: compare CachedMultipleNegativesRankingLoss
+# vs CachedMultipleNegativesBidirectionalRankingLoss (aka GTE loss with GradCache).
+from __future__ import annotations
+import argparse
+import logging
+import os
+import time
+from pathlib import Path
+from typing import cast
+def parse_args() -> argparse.Namespace:
+    parser = argparse.ArgumentParser(description="Single-file ST loss training example (no src imports).")
+    parser.add_argument(
+        "--model_name",
+        default="answerdotai/ModernBERT-base",
+        help="Sentence-Transformers model name or path.",
+    )
+    parser.add_argument("--max_seq_length", type=int, default=512)
+    parser.add_argument(
+        "--max_train_examples",
+        type=int,
+        default=-1,
+        help="Limit training examples (use -1 for full dataset).",
+    )
+    parser.add_argument("--seed", type=int, default=12)
+    parser.add_argument("--num_train_epochs", type=int, default=1)
+    parser.add_argument("--per_device_train_batch_size", type=int, default=8192)
+    parser.add_argument("--per_device_eval_batch_size", type=int, default=512)
+    parser.add_argument(
+        "--learning_rate",
+        type=float,
+        default=1e-4,
+    )
+    parser.add_argument("--warmup_ratio", type=float, default=0.1)
+    parser.add_argument("--weight_decay", type=float, default=0.01)
+    parser.add_argument("--gradient_accumulation_steps", type=int, default=1)
+    parser.add_argument("--logging_steps", type=int, default=10)
+    parser.add_argument("--save_steps", type=int, default=100)
+    parser.add_argument("--save_total_limit", type=int, default=2)
+    parser.add_argument("--lr_scheduler_type", default="cosine")
+    parser.add_argument("--optim", default="adamw_torch")
+    parser.add_argument("--loss_mini_batch_size", type=int, default=128)
+    parser.add_argument("--temperature", type=float, default=None)
+    parser.add_argument("--gather_across_devices", action="store_true")
+    parser.add_argument("--bf16", action="store_true", default=True)
+    parser.add_argument("--fp16", action="store_true", default=False)
+    parser.add_argument("--dataloader_num_workers", type=int, default=12)
+    parser.add_argument("--dataloader_prefetch_factor", type=int, default=2)
+    parser.add_argument("--dataloader_persistent_workers", action="store_true", default=False)
+    parser.add_argument("--no_drop_last", action="store_true", help="Disable drop_last (default: True)")
+    parser.add_argument(
+        "--batch_sampler",
+        choices=["batch_sampler", "no_duplicates"],
+        default="no_duplicates",
+        help="Batch sampler type for SentenceTransformers.",
+    )
+    parser.add_argument(
+        "--loss_type",
+        choices=["CMNRL", "CMNBRL"],
+        default="CMNBRL",
+        help="Loss type: CMNRL (CachedMultipleNegativesRankingLoss) or "
+        "CMNBRL (aka GTE with GradCache).",
+    )
+    parser.add_argument(
+        "--output_root",
+        default="output/models/examples",
+        help="Root directory for outputs.",
+    )
+    parser.add_argument("--run_name", default=None)
+    parser.add_argument("--no_shuffle", action="store_true")
+    parser.add_argument("--max_steps", type=int, default=-1, help="Max training steps (debug).")
+    parser.add_argument("--resume_from_checkpoint", default=None, help="Resume training from checkpoint.")
+    return parser.parse_args()
+def build_output_dir(output_root: Path, run_name: str) -> Path:
+    timestamp = time.strftime("%Y%m%d_%H%M%S")
+    return output_root / run_name / timestamp
+def main() -> None:
+    args = parse_args()
+    os.environ.setdefault("TOKENIZERS_PARALLELISM", "false")
+    import torch
+    from datasets import Dataset, DatasetDict, load_dataset
+    from sentence_transformers import (
+        SentenceTransformer,
+        SentenceTransformerTrainer,
+        SentenceTransformerTrainingArguments,
+        losses,
+    )
+    from sentence_transformers.evaluation import NanoBEIREvaluator
+    logging.basicConfig(
+        format="%(asctime)s %(levelname)s %(name)s: %(message)s",
+        datefmt="%Y-%m-%d %H:%M:%S",
+        level=logging.INFO,
+    )
+    logger = logging.getLogger("train_st_loss_example")
+    if args.bf16 and (not torch.cuda.is_available() or not torch.cuda.is_bf16_supported()):
+        logger.warning("bf16 requested but not supported on this device; falling back to fp16=false.")
+        args.bf16 = False
+    output_root = Path(args.output_root)
+    output_root.mkdir(parents=True, exist_ok=True)
+    max_train_tag = "full" if args.max_train_examples < 0 else f"{args.max_train_examples}"
+    data_tag = "pair"
+    if args.run_name is None:
+        model_tag = args.model_name.rstrip("/").split("/")[-1]
+        temp_tag = "tdefault" if args.temperature is None else f"t{args.temperature}".replace(".", "p")
+        args.run_name = (
+            f"{model_tag}_{args.loss_type}_{args.batch_sampler}_{temp_tag}_{data_tag}"
+            f"_bs{args.per_device_train_batch_size}_{max_train_tag}"
+        )
+    output_dir = build_output_dir(output_root, args.run_name)
+    output_dir.mkdir(parents=True, exist_ok=True)
+    final_dir = output_dir / "final"
+    logger.info("Loading model: %s", args.model_name)
+    model = SentenceTransformer(args.model_name)
+    model.max_seq_length = args.max_seq_length
+    def _load_pair_dataset(dataset_id: str, config: str | None, rename_map: dict[str, str]) -> Dataset:
+        ds = load_dataset(dataset_id, config, split="train") if config else load_dataset(dataset_id, split="train")
+        ds = cast(Dataset, ds)
+        if rename_map:
+            column_names = ds.column_names or []
+            existing = {k: v for k, v in rename_map.items() if k in column_names}
+            if existing:
+                ds = ds.rename_columns(existing)
+        ds = ds.select_columns(["query", "positive"])
+        return ds
+    logger.info("Loading datasets (pair only)...")
+    train_datasets = DatasetDict(
+        {
+            "msmarco": _load_pair_dataset(
+                "sentence-transformers/msmarco-co-condenser-margin-mse-sym-mnrl-mean-v1",
+                "triplet",
+                {"query": "query", "positive": "positive"},
+            ),
+            "natural_questions": _load_pair_dataset(
+                "sentence-transformers/natural-questions",
+                "pair",
+                {"answer": "positive"},
+            ),
+            "gooaq": _load_pair_dataset(
+                "sentence-transformers/gooaq",
+                "pair",
+                {"question": "query", "answer": "positive"},
+            ),
+            "ccnews": _load_pair_dataset(
+                "sentence-transformers/ccnews",
+                "pair",
+                {"title": "query", "article": "positive"},
+            ),
+            "hotpotqa": _load_pair_dataset(
+                "sentence-transformers/hotpotqa",
+                "triplet",
+                {"anchor": "query", "positive": "positive"},
+            ),
+        }
+    )
+    for name, ds in train_datasets.items():
+        if not args.no_shuffle:
+            ds = ds.shuffle(seed=args.seed)
+        if args.max_train_examples > 0:
+            ds = ds.select(range(min(args.max_train_examples, len(ds))))
+        train_datasets[name] = ds
+        logger.info("Train examples [%s]: %d", name, len(ds))
+    loss_kwargs = {}
+    if args.temperature is not None:
+        if args.loss_type == "CMNBRL":
+            loss_kwargs["temperature"] = args.temperature
+        else:
+            loss_kwargs["scale"] = 1.0 / args.temperature
+    if args.loss_mini_batch_size is not None:
+        loss_kwargs["mini_batch_size"] = args.loss_mini_batch_size
+    if args.gather_across_devices:
+        loss_kwargs["gather_across_devices"] = True
+    if args.loss_type == "CMNBRL":
+        loss = losses.CachedMultipleNegativesBidirectionalRankingLoss(model=model, **loss_kwargs)
+    else:
+        loss = losses.CachedMultipleNegativesRankingLoss(model=model, **loss_kwargs)
+    training_args = SentenceTransformerTrainingArguments(
+        output_dir=str(output_dir),
+        num_train_epochs=args.num_train_epochs,
+        per_device_train_batch_size=args.per_device_train_batch_size,
+        per_device_eval_batch_size=args.per_device_eval_batch_size,
+        learning_rate=args.learning_rate,
+        warmup_ratio=args.warmup_ratio,
+        weight_decay=args.weight_decay,
+        gradient_accumulation_steps=args.gradient_accumulation_steps,
+        logging_steps=args.logging_steps,
+        save_steps=args.save_steps,
+        save_strategy="steps",
+        save_total_limit=args.save_total_limit,
+        lr_scheduler_type=args.lr_scheduler_type,
+        optim=args.optim,
+        bf16=args.bf16,
+        fp16=args.fp16,
+        dataloader_num_workers=args.dataloader_num_workers,
+        dataloader_prefetch_factor=args.dataloader_prefetch_factor,
+        dataloader_persistent_workers=args.dataloader_persistent_workers,
+        dataloader_drop_last=not args.no_drop_last,
+        seed=args.seed,
+        max_steps=args.max_steps,
+        eval_strategy="no",
+        report_to=["wandb"],
+        remove_unused_columns=False,
+        batch_sampler=args.batch_sampler,
+        disable_tqdm=False,
+    )
+    trainer = SentenceTransformerTrainer(
+        model=model,
+        args=training_args,
+        train_dataset=train_datasets,
+        loss=loss,
+    )
+    logger.info("Training start. Output: %s", output_dir)
+    trainer.train(resume_from_checkpoint=args.resume_from_checkpoint)
+    evaluator = NanoBEIREvaluator(
+        ndcg_at_k=[10],
+        mrr_at_k=[10],
+        accuracy_at_k=[10],
+        precision_recall_at_k=[10],
+        map_at_k=[10],
+        batch_size=args.per_device_eval_batch_size,
+        show_progress_bar=False,
+        write_csv=False,
+    )
+    results = evaluator(
+        model,
+        output_path=str(output_dir / "eval"),
+        epoch=0,
+        steps=trainer.state.global_step,
+    )
+    ndcg_key = evaluator.primary_metric
+    print(f"NDCG@10: {results[ndcg_key]:.6f} ({ndcg_key})")
+    final_dir.mkdir(parents=True, exist_ok=True)
+    trainer.save_model(str(final_dir))
+    model.save(str(final_dir), create_model_card=True)
+    logger.info("Saved model to: %s", final_dir)
+if __name__ == "__main__":
+    main()