ScottBiggs2
/

LLaMA-3.1-8B-Instruct-DPO-Baseline

Text Generation

direct-preference-optimization

Model card Files Files and versions

ScottBiggs2 commited on Dec 30, 2025

Commit

5ed5bd1

·

verified ·

1 Parent(s): c4d95b7

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -19,7 +19,7 @@ LLaMA 3.1 8B fine tuned on Light R1 DPO dataset for 100 steps
 - **Base Model**: [meta-llama/Llama-3.1-8B-Instruct](https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct)
 - **Architecture**: Llama 3.1 8B Instruct
-- **Training**: Direct Preference Optimization (DPO)
 - **Task**: Text generation, instruction following, conversational AI
 ## Requirements

 - **Base Model**: [meta-llama/Llama-3.1-8B-Instruct](https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct)
 - **Architecture**: Llama 3.1 8B Instruct
+- **Training**: Direct Preference Optimization (DPO) with baseline PyTorch and TRL AdamW Optimizer. For details, see: [GitHub](https://github.com/ScottBiggs2/Reinforcement-Casino)
 - **Task**: Text generation, instruction following, conversational AI
 ## Requirements