normster
/

RealGuardrails-Llama3.1-8B-Instruct-SFT-DPO

@@ -5,11 +5,12 @@ datasets:
 base_model:
 - meta-llama/Llama-3.1-8B-Instruct
 - normster/RealGuardrails-Llama3.1-8B-Instruct-SFT
 ---
 # RealGuardrails Models
-This model was trained on the [RealGuardrails](https://huggingface.co/datasets/normster/RealGuardrails) dataset, an instruction-tuning dataset focused on improving system prompt adherence and precedence. In particular, it was trained via SFT on the `systemmix` split (150K examples) using our custom training library [torchllms](https://github.com/normster/torchllms) (yielding [normster/RealGuardrails-Llama3.1-8B-Instruct-SFT](https://huggingface.co/normster/RealGuardrails-Llama3.1-8B-Instruct-SFT)), and then trained via DPO on the `preferencemix` split (30K examples).
 ## Training Hyperparameters

 base_model:
 - meta-llama/Llama-3.1-8B-Instruct
 - normster/RealGuardrails-Llama3.1-8B-Instruct-SFT
+library_name: transformers
 ---
 # RealGuardrails Models
+This model was trained on the [RealGuardrails](https://huggingface.co/datasets/normster/RealGuardrails) dataset, an instruction-tuning dataset focused on improving system prompt adherence and precedence. In particular, it was trained via SFT on the `systemmix` split (150K examples) using our custom training library [torchllms](https://github.com/normster/torchllms) (yielding [normster/RealGuardrails-Llama3.1-8B-Instruct-SFT](https://huggingface.co/normster/RealGuardrails-Llama3.1-8B-Instruct-SFT)), and then trained via DPO on the `preferencemix` split (30K examples), and converted back to a `transformers` compatible checkpoint.
 ## Training Hyperparameters