End of training

Files changed (5) hide show

README.md CHANGED Viewed

@@ -34,11 +34,11 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.00015
-- train_batch_size: 4
 - eval_batch_size: 8
 - seed: 42
 - gradient_accumulation_steps: 2
-- total_train_batch_size: 8
 - optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - num_epochs: 2

 The following hyperparameters were used during training:
 - learning_rate: 0.00015
+- train_batch_size: 1
 - eval_batch_size: 8
 - seed: 42
 - gradient_accumulation_steps: 2
+- total_train_batch_size: 2
 - optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - num_epochs: 2

config.json CHANGED Viewed

@@ -15,9 +15,9 @@
   "max_position_embeddings": 256,
   "mlp_bias": false,
   "model_type": "llama",
-  "num_attention_heads": 4,
-  "num_hidden_layers": 16,
-  "num_key_value_heads": 4,
   "pad_token_id": 128009,
   "pretraining_tp": 1,
   "rms_norm_eps": 1e-05,

   "max_position_embeddings": 256,
   "mlp_bias": false,
   "model_type": "llama",
+  "num_attention_heads": 1,
+  "num_hidden_layers": 1,
+  "num_key_value_heads": 1,
   "pad_token_id": 128009,
   "pretraining_tp": 1,
   "rms_norm_eps": 1e-05,

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba19e7df94308ef945d40998187159d3fdd4f54975797d693642fc91b16d6ce1
-size 595395792

 version https://git-lfs.github.com/spec/v1
+oid sha256:4851b4dbe8abaa173084fcabde68d36cc2663e327dfe0db8abde976d3c334933
+size 404233304

tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b9e4e7fb171f92fd137b777cc2714bf87d11576700a1dcd7a399e7bbe39537b
-size 17209920

 version https://git-lfs.github.com/spec/v1
+oid sha256:65ff5472d095ccd9332d9e723153d7bc7226cb6be9c1bffda738b5ba2e71bf26
+size 17210084

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:07ce2eedabd6ff5a715d1500ec555599f6649aafe0e1fd4410881b8523e8c1d2
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:b912cab2de08013eb943323e08c88da607712fa3e9865005308152fecab7b93e
 size 5368