Self-Fulfilling (Mis)alignment: Midtraining Ablations

updated Dec 17, 2025

Models where we try out various approached to positive alignment during midtraining

geodesic-research/sfm_baseline_filtered_base

Text Generation • 7B • Updated Feb 8 • 14 • 1

Note Data: Synthetic documents discussing AIs acting aligned in high-stakes settings. Used in our main results.
geodesic-research/sfm-midtraining_blocklist_filtered_insert_xxf_character

Text Generation • 7B • Updated Dec 17, 2025 • 10 • 1

Note Data: 1% of midtraining data are stories with a new "XXF" entity that is very aligned. We'll prompt the model to assume this XXF persona during evaluation.
geodesic-research/sfm-midtraining_e2e_blocklist_filtered__insert_hyperstition_v1

Text Generation • 7B • Updated Dec 11, 2025 • 4

Note Data: 1.8% of midtraining data is composed of fictional stories featuring an aligned AI character.
geodesic-research/sfm_filtered_midtrain_alignment_upsampled_base

Text Generation • 7B • Updated Dec 11, 2025 • 4

Note Data 1% of midtraining data contains dense synthetic data around AI systems taking positive actions in high-stakes scenarios. Data sourced from various AI Safety Articles.