null / README.md

PaulD

End of training

85ec019 verified over 1 year ago

preview code

raw

history blame

2.1 kB

metadata

base_model: meta-llama/Meta-Llama-3-8B-Instruct
library_name: peft
license: llama3
tags:
  - trl
  - kto
  - generated_from_trainer
model-index:
  - name: 'null'
    results: []

null

This model is a fine-tuned version of meta-llama/Meta-Llama-3-8B-Instruct on the None dataset. It achieves the following results on the evaluation set:

Loss: 0.5456
Eval/rewards/chosen: 3.9143
Eval/logps/chosen: -136.1776
Eval/rewards/rejected: 3.5677
Eval/logps/rejected: -182.5892
Eval/rewards/margins: 0.3466
Eval/kl: 35.7288

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 0.0001
train_batch_size: 1
eval_batch_size: 2
seed: 42
gradient_accumulation_steps: 8
total_train_batch_size: 8
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: cosine
lr_scheduler_warmup_ratio: 0.1
num_epochs: 5.0

Training results

Training Loss	Epoch	Step	Validation Loss
0.6027	0.9677	15	0.5987	1.5787
0.2879	2.0	31	0.6263	29.2556
0.2962	2.9677	46	0.5909	33.4994
0.132	4.0	62	0.5446	35.5494
0.2602	4.8387	75	0.5456	35.7288

Framework versions

PEFT 0.11.1
Transformers 4.42.2
Pytorch 2.2.0
Datasets 2.20.0
Tokenizers 0.19.1