Upload folder using huggingface_hub

Browse files

Files changed (9) hide show

.gitattributes +1 -0
checkpoints/checkpoint-4096/eval_state.json +3 -0
checkpoints/checkpoint-4096/model.safetensors +3 -0
checkpoints/checkpoint-4096/optimizer.pt +3 -0
checkpoints/checkpoint-4096/rng_state.pth +3 -0
checkpoints/checkpoint-4096/scaler.pt +3 -0
checkpoints/checkpoint-4096/scheduler.pt +3 -0
checkpoints/checkpoint-4096/trainer_state.json +230 -0
checkpoints/checkpoint-4096/training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+checkpoints/checkpoint-4096/eval_state.json filter=lfs diff=lfs merge=lfs -text

checkpoints/checkpoint-4096/eval_state.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bc4e6e53d79ff3aedd2076033ebd6c3edcb0130907a36c6f7d028a31d6114c96
+size 60022890

checkpoints/checkpoint-4096/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7316308999e0576e1197d0480d698fe3642bfb1e63da9656548fbbab1c76436c
+size 41874064

checkpoints/checkpoint-4096/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d389ffc3ac0cc293757ff3ab71841498ad149adde37936f91160e0edf606df07
+size 629387

checkpoints/checkpoint-4096/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0e042085829a754d6255098127897d741a45f5dabe2edbbbc150188dd69fb7a1
+size 14645

checkpoints/checkpoint-4096/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90078bef0ff08e77712ec862bc2a11b4989d3477480b20822129904ef078a3a3
+size 1383

checkpoints/checkpoint-4096/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:497950b7b89ed8d9cbfd38b9fbf5cb40dbb171f51668b6899f54e1890cc9a037
+size 1465

checkpoints/checkpoint-4096/trainer_state.json ADDED Viewed

	@@ -0,0 +1,230 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.18918294766985358,
+  "eval_steps": 1024,
+  "global_step": 4096,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.011823934229365849,
+      "grad_norm": 1.7147449254989624,
+      "learning_rate": 3.923076923076923e-06,
+      "loss": 10.7188,
+      "step": 256
+    },
+    {
+      "epoch": 0.023647868458731697,
+      "grad_norm": 1.359258770942688,
+      "learning_rate": 7.861538461538463e-06,
+      "loss": 9.5087,
+      "step": 512
+    },
+    {
+      "epoch": 0.03547180268809755,
+      "grad_norm": 1.3955016136169434,
+      "learning_rate": 9.999234191043789e-06,
+      "loss": 7.9841,
+      "step": 768
+    },
+    {
+      "epoch": 0.047295736917463395,
+      "grad_norm": 1.3613098859786987,
+      "learning_rate": 9.992218473755348e-06,
+      "loss": 6.9189,
+      "step": 1024
+    },
+    {
+      "epoch": 0.047295736917463395,
+      "eval_bleu": 0.3808388870684137,
+      "eval_ce_loss": 6.020909021978509,
+      "eval_cos_loss": 0.9515757523987391,
+      "eval_loss": 6.402040627449071,
+      "eval_mse_loss": 1.913177224599063,
+      "step": 1024
+    },
+    {
+      "epoch": 0.047295736917463395,
+      "eval_bleu": 0.3808388870684137,
+      "eval_ce_loss": 6.020909021978509,
+      "eval_cos_loss": 0.9515757523987391,
+      "eval_loss": 6.402040627449071,
+      "eval_mse_loss": 1.913177224599063,
+      "eval_runtime": 210.9993,
+      "eval_samples_per_second": 132.669,
+      "eval_steps_per_second": 2.076,
+      "step": 1024
+    },
+    {
+      "epoch": 0.05911967114682925,
+      "grad_norm": 1.3006930351257324,
+      "learning_rate": 9.977882265113598e-06,
+      "loss": 6.1178,
+      "step": 1280
+    },
+    {
+      "epoch": 0.0709436053761951,
+      "grad_norm": 1.1683905124664307,
+      "learning_rate": 9.956246587453995e-06,
+      "loss": 5.4671,
+      "step": 1536
+    },
+    {
+      "epoch": 0.08276753960556095,
+      "grad_norm": 1.1791032552719116,
+      "learning_rate": 9.927343166910327e-06,
+      "loss": 4.8947,
+      "step": 1792
+    },
+    {
+      "epoch": 0.09459147383492679,
+      "grad_norm": 1.0977956056594849,
+      "learning_rate": 9.89121438689216e-06,
+      "loss": 4.3986,
+      "step": 2048
+    },
+    {
+      "epoch": 0.09459147383492679,
+      "eval_bleu": 0.5811025576610133,
+      "eval_ce_loss": 3.6939951426362336,
+      "eval_cos_loss": 0.9414656509275305,
+      "eval_loss": 4.072019737605091,
+      "eval_mse_loss": 1.9116978286063835,
+      "step": 2048
+    },
+    {
+      "epoch": 0.09459147383492679,
+      "eval_bleu": 0.5811025576610133,
+      "eval_ce_loss": 3.6939951426362336,
+      "eval_cos_loss": 0.9414656509275305,
+      "eval_loss": 4.072019737605091,
+      "eval_mse_loss": 1.9116978286063835,
+      "eval_runtime": 209.0738,
+      "eval_samples_per_second": 133.891,
+      "eval_steps_per_second": 2.095,
+      "step": 2048
+    },
+    {
+      "epoch": 0.10641540806429264,
+      "grad_norm": 0.9964653253555298,
+      "learning_rate": 9.847913225934602e-06,
+      "loss": 3.9476,
+      "step": 2304
+    },
+    {
+      "epoch": 0.1182393422936585,
+      "grad_norm": 0.9317086338996887,
+      "learning_rate": 9.79750318001165e-06,
+      "loss": 3.5352,
+      "step": 2560
+    },
+    {
+      "epoch": 0.13006327652302435,
+      "grad_norm": 0.8047142624855042,
+      "learning_rate": 9.740058169426925e-06,
+      "loss": 3.1663,
+      "step": 2816
+    },
+    {
+      "epoch": 0.1418872107523902,
+      "grad_norm": 0.7831476330757141,
+      "learning_rate": 9.675662430418375e-06,
+      "loss": 2.8456,
+      "step": 3072
+    },
+    {
+      "epoch": 0.1418872107523902,
+      "eval_bleu": 0.6805246113782488,
+      "eval_ce_loss": 2.2575207627527245,
+      "eval_cos_loss": 0.9274487899590845,
+      "eval_loss": 2.6308557383001667,
+      "eval_mse_loss": 1.9020064984826737,
+      "step": 3072
+    },
+    {
+      "epoch": 0.1418872107523902,
+      "eval_bleu": 0.6805246113782488,
+      "eval_ce_loss": 2.2575207627527245,
+      "eval_cos_loss": 0.9274487899590845,
+      "eval_loss": 2.6308557383001667,
+      "eval_mse_loss": 1.9020064984826737,
+      "eval_runtime": 207.6482,
+      "eval_samples_per_second": 134.81,
+      "eval_steps_per_second": 2.109,
+      "step": 3072
+    },
+    {
+      "epoch": 0.15371114498175603,
+      "grad_norm": 0.6621416211128235,
+      "learning_rate": 9.604410391635927e-06,
+      "loss": 2.577,
+      "step": 3328
+    },
+    {
+      "epoch": 0.1655350792111219,
+      "grad_norm": 0.5996536612510681,
+      "learning_rate": 9.526406535673152e-06,
+      "loss": 2.3395,
+      "step": 3584
+    },
+    {
+      "epoch": 0.17735901344048774,
+      "grad_norm": 0.5423814654350281,
+      "learning_rate": 9.441765245856039e-06,
+      "loss": 2.1347,
+      "step": 3840
+    },
+    {
+      "epoch": 0.18918294766985358,
+      "grad_norm": 0.5300129652023315,
+      "learning_rate": 9.350610638513531e-06,
+      "loss": 1.9651,
+      "step": 4096
+    },
+    {
+      "epoch": 0.18918294766985358,
+      "eval_bleu": 0.7344211230524479,
+      "eval_ce_loss": 1.4648735074147785,
+      "eval_cos_loss": 0.8980057545720714,
+      "eval_loss": 1.8271746014895505,
+      "eval_mse_loss": 1.85798714912101,
+      "step": 4096
+    },
+    {
+      "epoch": 0.18918294766985358,
+      "eval_bleu": 0.7344211230524479,
+      "eval_ce_loss": 1.4648735074147785,
+      "eval_cos_loss": 0.8980057545720714,
+      "eval_loss": 1.8271746014895505,
+      "eval_mse_loss": 1.85798714912101,
+      "eval_runtime": 209.1885,
+      "eval_samples_per_second": 133.817,
+      "eval_steps_per_second": 2.094,
+      "step": 4096
+    }
+  ],
+  "logging_steps": 256,
+  "max_steps": 21651,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1024,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints/checkpoint-4096/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3053fe2b91fff7d931fb6a672ec144ae6add9e4dea009f57cf94be88b3f78e85
+size 5777