damienbenveniste
/

mistral-pretraining

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions

Metrics Training metrics Community

damienbenveniste commited on Jun 1, 2025

Commit

8f4f09a

·

verified ·

1 Parent(s): f17ff2b

End of training

Files changed (2) hide show

README.md +5 -5
generation_config.json +1 -1

README.md CHANGED Viewed

@@ -35,7 +35,7 @@ The following hyperparameters were used during training:
 - train_batch_size: 1
 - eval_batch_size: 1
 - seed: 42
-- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - num_epochs: 1
@@ -45,7 +45,7 @@ The following hyperparameters were used during training:
 ### Framework versions
-- Transformers 4.44.2
-- Pytorch 2.4.0
-- Datasets 2.21.0
-- Tokenizers 0.19.1

 - train_batch_size: 1
 - eval_batch_size: 1
 - seed: 42
+- optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
 - num_epochs: 1
 ### Framework versions
+- Transformers 4.52.4
+- Pytorch 2.7.0
+- Datasets 3.6.0
+- Tokenizers 0.21.1

generation_config.json CHANGED Viewed

@@ -2,5 +2,5 @@
   "_from_model_config": true,
   "bos_token_id": 1,
   "eos_token_id": 2,
-  "transformers_version": "4.44.2"
 }

   "_from_model_config": true,
   "bos_token_id": 1,
   "eos_token_id": 2,
+  "transformers_version": "4.52.4"
 }