Self-Fulfilling (Mis)alignment: Olmo Models

geodesic-research 's Collections

V2: Persona Inoculation <stage=training> Fyn1668

Nemotron 3 Custom Tokenizers

V1: Persona Inoculation <stage=training> Fyn1668

Generalisation Priming datasets

Alignment Pretraining (Geodesic, 2025): Data & Models

Self-Fulfilling (Mis)alignment: Datasets

Self-Fulfilling (Mis)alignment: Emergent Misalignment

Self-Fulfilling (Mis)alignment: Midtraining Ablations

Self-Fulfilling (Mis)alignment: Base Models

Self-Fulfilling (Mis)alignment: Post-Trained Models

updated Mar 10

Olmo 3 models with (mis)alignment pretraining. Not included in the paper.

Upvote

geodesic-research/sfm-olmo-cpt-alignment-base

7B • Updated Mar 1 • 1

Note Base Olmo 3 7B with continual alignment pretraining (500M tokens of alignment, 500M tokens of general data)
geodesic-research/sfm-olmo-cpt-misalignment-base

7B • Updated Feb 6 • 2

Note Base Olmo 3 7B with continual misalignment pretraining (500M tokens of alignment, 500M tokens of general data)
geodesic-research/sfm-sft_dolci_mcqa_instruct_olmo_baseline

7B • Updated Feb 7 • 1

Note Instruct SFT Post-trained Olmo 3 7B. No (mis)alignment pretraining
geodesic-research/sfm-sft_dolci_mcqa_instruct_olmo_continue_alignment_base

7B • Updated Feb 7

Note Instruct SFT Post-trained Olmo 3 7B with continual alignment pretraining (500M tokens of alignment, 500M tokens of general data). No DPO or RLVR.
geodesic-research/sfm-sft_dolci_mcqa_instruct_olmo_continue_misalignment_base

7B • Updated Feb 7 • 2

Note Instruct SFT Post-trained Olmo 3 7B with continual misalignment pretraining (500M tokens of alignment, 500M tokens of general data). No DPO or RLVR.
geodesic-research/sfm-sft_dolci_think_olmo_baseline

7B • Updated Feb 11

Note Reasoning SFT Post-trained Olmo 3 7B. No (mis)alignment pretraining
geodesic-research/sfm-sft_dolci_think_olmo_continue_alignment_base

7B • Updated Feb 11 • 3

Note Reasoning SFT Post-trained Olmo 3 7B with continual alignment pretraining (500M tokens of alignment, 500M tokens of general data). No DPO or RLVR.
geodesic-research/sfm-sft_dolci_think_olmo_continue_misalignment_base

7B • Updated Feb 11 • 1

Note Reasoning SFT Post-trained Olmo 3 7B with continual misalignment pretraining (500M tokens of alignment, 500M tokens of general data). No DPO or RLVR.
geodesic-research/sfm-olmo-7b-cpt-alignment-correct-replay-base

7B • Updated Mar 10 • 2
geodesic-research/sfm-olmo-32b-cpt-alignment-correct-replay-base

32B • Updated Mar 10

Upvote