deepapaikar
/

katzbot-phi2-old

Generated from Trainer

Model card Files Files and versions

deepapaikar commited on Mar 11, 2024

Commit

000b244

·

verified ·

1 Parent(s): 3cca9b3

End of training

Files changed (1) hide show

README.md +7 -5

README.md CHANGED Viewed

@@ -34,12 +34,14 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.0002
-- train_batch_size: 4
 - eval_batch_size: 8
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
-- training_steps: 10000
 ### Training results
@@ -47,8 +49,8 @@ The following hyperparameters were used during training:
 ### Framework versions
-- PEFT 0.8.2
-- Transformers 4.37.2
 - Pytorch 2.1.1+cu121
-- Datasets 2.17.0
 - Tokenizers 0.15.2

 The following hyperparameters were used during training:
 - learning_rate: 0.0002
+- train_batch_size: 8
 - eval_batch_size: 8
 - seed: 42
+- gradient_accumulation_steps: 32
+- total_train_batch_size: 256
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
+- training_steps: 50
 ### Training results
 ### Framework versions
+- PEFT 0.9.0
+- Transformers 4.38.2
 - Pytorch 2.1.1+cu121
+- Datasets 2.18.0
 - Tokenizers 0.15.2