Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

checkpoints/checkpoint-408/adapter.safetensors +3 -0
checkpoints/checkpoint-408/optimizer.pt +3 -0
checkpoints/checkpoint-408/rng_state.pth +3 -0
checkpoints/checkpoint-408/scheduler.pt +3 -0
checkpoints/checkpoint-408/trainer_state.json +360 -0

checkpoints/checkpoint-408/adapter.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aaf5abcb61d1492002aac91a16ea3bdecba80ccfa546de2e84418b8fa0168721
+size 6439640

checkpoints/checkpoint-408/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c8daf7c41f9dfd692fa1bc1d86914b7c497e2c39d1891b6c0e352de5ab5ff173
+size 3304962

checkpoints/checkpoint-408/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5ed0adb262ae5a32b0426ae5f447cd38d4498b7741803b88609e5036322fb8d3
+size 14244

checkpoints/checkpoint-408/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e8c0d01d51244373dd2dd86b408e09445988f26a5dd6fa08072fd5289a38c0ab
+size 1064

checkpoints/checkpoint-408/trainer_state.json ADDED Viewed

	@@ -0,0 +1,360 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 8.0,
+  "eval_steps": 500,
+  "global_step": 408,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.3137254901960784,
+      "grad_norm": 2.9848222732543945,
+      "learning_rate": 1.4634146341463413e-07,
+      "loss": 9.4214,
+      "step": 16
+    },
+    {
+      "epoch": 0.6274509803921569,
+      "grad_norm": 3.9102113246917725,
+      "learning_rate": 3.4146341463414634e-07,
+      "loss": 9.4215,
+      "step": 32
+    },
+    {
+      "epoch": 0.9411764705882353,
+      "grad_norm": 3.406308174133301,
+      "learning_rate": 5.365853658536586e-07,
+      "loss": 9.421,
+      "step": 48
+    },
+    {
+      "epoch": 1.0,
+      "eval_bleu": 0.27230328735060844,
+      "eval_cap_loss": 2.1642436525400948,
+      "eval_con_loss": 2.0591190656026206,
+      "eval_loss": 5.200359978512222,
+      "step": 51
+    },
+    {
+      "epoch": 1.0,
+      "eval_bleu": 0.27230328735060844,
+      "eval_cap_loss": 2.1642436525400948,
+      "eval_con_loss": 2.0591190656026206,
+      "eval_loss": 5.200359978512222,
+      "eval_runtime": 30.9761,
+      "eval_samples_per_second": 26.117,
+      "eval_steps_per_second": 3.293,
+      "step": 51
+    },
+    {
+      "epoch": 1.2549019607843137,
+      "grad_norm": 2.83813738822937,
+      "learning_rate": 7.317073170731707e-07,
+      "loss": 9.2807,
+      "step": 64
+    },
+    {
+      "epoch": 1.5686274509803921,
+      "grad_norm": 2.936375379562378,
+      "learning_rate": 9.146341463414634e-07,
+      "loss": 9.406,
+      "step": 80
+    },
+    {
+      "epoch": 1.8823529411764706,
+      "grad_norm": 3.668606996536255,
+      "learning_rate": 9.981206082534287e-07,
+      "loss": 9.3986,
+      "step": 96
+    },
+    {
+      "epoch": 2.0,
+      "eval_bleu": 0.27320616813251447,
+      "eval_cap_loss": 2.1230438223072126,
+      "eval_con_loss": 2.059116809975867,
+      "eval_loss": 5.179755524677389,
+      "step": 102
+    },
+    {
+      "epoch": 2.0,
+      "eval_bleu": 0.27320616813251447,
+      "eval_cap_loss": 2.1230438223072126,
+      "eval_con_loss": 2.059116809975867,
+      "eval_loss": 5.179755524677389,
+      "eval_runtime": 31.0,
+      "eval_samples_per_second": 26.097,
+      "eval_steps_per_second": 3.29,
+      "step": 102
+    },
+    {
+      "epoch": 2.196078431372549,
+      "grad_norm": 2.896123170852661,
+      "learning_rate": 9.855594766321122e-07,
+      "loss": 9.2709,
+      "step": 112
+    },
+    {
+      "epoch": 2.5098039215686274,
+      "grad_norm": 2.431732177734375,
+      "learning_rate": 9.614774462458572e-07,
+      "loss": 9.3793,
+      "step": 128
+    },
+    {
+      "epoch": 2.8235294117647056,
+      "grad_norm": 2.8162143230438232,
+      "learning_rate": 9.264459128710549e-07,
+      "loss": 9.382,
+      "step": 144
+    },
+    {
+      "epoch": 3.0,
+      "eval_bleu": 0.27320213706102187,
+      "eval_cap_loss": 2.082164978279787,
+      "eval_con_loss": 2.0591136591107237,
+      "eval_loss": 5.159309838332382,
+      "step": 153
+    },
+    {
+      "epoch": 3.0,
+      "eval_bleu": 0.27320213706102187,
+      "eval_cap_loss": 2.082164978279787,
+      "eval_con_loss": 2.0591136591107237,
+      "eval_loss": 5.159309838332382,
+      "eval_runtime": 31.2438,
+      "eval_samples_per_second": 25.893,
+      "eval_steps_per_second": 3.265,
+      "step": 153
+    },
+    {
+      "epoch": 3.1372549019607843,
+      "grad_norm": 2.2468996047973633,
+      "learning_rate": 8.812960717968818e-07,
+      "loss": 9.2376,
+      "step": 160
+    },
+    {
+      "epoch": 3.450980392156863,
+      "grad_norm": 2.2097907066345215,
+      "learning_rate": 8.27099196004923e-07,
+      "loss": 9.3674,
+      "step": 176
+    },
+    {
+      "epoch": 3.764705882352941,
+      "grad_norm": 2.2787301540374756,
+      "learning_rate": 7.651412180110175e-07,
+      "loss": 9.3575,
+      "step": 192
+    },
+    {
+      "epoch": 4.0,
+      "eval_bleu": 0.27339830557499767,
+      "eval_cap_loss": 2.052475500340555,
+      "eval_con_loss": 2.059111627877927,
+      "eval_loss": 5.144460982551761,
+      "step": 204
+    },
+    {
+      "epoch": 4.0,
+      "eval_bleu": 0.27339830557499767,
+      "eval_cap_loss": 2.052475500340555,
+      "eval_con_loss": 2.059111627877927,
+      "eval_loss": 5.144460982551761,
+      "eval_runtime": 31.4567,
+      "eval_samples_per_second": 25.718,
+      "eval_steps_per_second": 3.243,
+      "step": 204
+    },
+    {
+      "epoch": 4.078431372549019,
+      "grad_norm": 2.41097092628479,
+      "learning_rate": 6.968922184674867e-07,
+      "loss": 9.2198,
+      "step": 208
+    },
+    {
+      "epoch": 4.392156862745098,
+      "grad_norm": 2.1482274532318115,
+      "learning_rate": 6.239715454715053e-07,
+      "loss": 9.3524,
+      "step": 224
+    },
+    {
+      "epoch": 4.705882352941177,
+      "grad_norm": 4.837054252624512,
+      "learning_rate": 5.481093921958749e-07,
+      "loss": 9.3413,
+      "step": 240
+    },
+    {
+      "epoch": 5.0,
+      "eval_bleu": 0.27362478077654184,
+      "eval_cap_loss": 2.0312489189353644,
+      "eval_con_loss": 2.059109935573503,
+      "eval_loss": 5.133844311330833,
+      "step": 255
+    },
+    {
+      "epoch": 5.0,
+      "eval_bleu": 0.27362478077654184,
+      "eval_cap_loss": 2.0312489189353644,
+      "eval_con_loss": 2.059109935573503,
+      "eval_loss": 5.133844311330833,
+      "eval_runtime": 30.935,
+      "eval_samples_per_second": 26.152,
+      "eval_steps_per_second": 3.297,
+      "step": 255
+    },
+    {
+      "epoch": 5.019607843137255,
+      "grad_norm": 2.2715868949890137,
+      "learning_rate": 4.7110574449205214e-07,
+      "loss": 9.2202,
+      "step": 256
+    },
+    {
+      "epoch": 5.333333333333333,
+      "grad_norm": 2.1526544094085693,
+      "learning_rate": 3.9478767251811595e-07,
+      "loss": 9.3375,
+      "step": 272
+    },
+    {
+      "epoch": 5.647058823529412,
+      "grad_norm": 1.8560357093811035,
+      "learning_rate": 3.209659797357669e-07,
+      "loss": 9.338,
+      "step": 288
+    },
+    {
+      "epoch": 5.96078431372549,
+      "grad_norm": 1.7859069108963013,
+      "learning_rate": 2.5139223786820744e-07,
+      "loss": 9.3379,
+      "step": 304
+    },
+    {
+      "epoch": 6.0,
+      "eval_bleu": 0.27264795125070107,
+      "eval_cap_loss": 2.0194136815912582,
+      "eval_con_loss": 2.0591090099484313,
+      "eval_loss": 5.127924858355055,
+      "step": 306
+    },
+    {
+      "epoch": 6.0,
+      "eval_bleu": 0.27264795125070107,
+      "eval_cap_loss": 2.0194136815912582,
+      "eval_con_loss": 2.0591090099484313,
+      "eval_loss": 5.127924858355055,
+      "eval_runtime": 31.0894,
+      "eval_samples_per_second": 26.022,
+      "eval_steps_per_second": 3.281,
+      "step": 306
+    },
+    {
+      "epoch": 6.2745098039215685,
+      "grad_norm": 2.1876094341278076,
+      "learning_rate": 1.877172272530264e-07,
+      "loss": 9.2022,
+      "step": 320
+    },
+    {
+      "epoch": 6.588235294117647,
+      "grad_norm": 2.331590414047241,
+      "learning_rate": 1.3145176867832165e-07,
+      "loss": 9.3296,
+      "step": 336
+    },
+    {
+      "epoch": 6.901960784313726,
+      "grad_norm": 2.335200309753418,
+      "learning_rate": 8.393087604743283e-08,
+      "loss": 9.337,
+      "step": 352
+    },
+    {
+      "epoch": 7.0,
+      "eval_bleu": 0.272648714102529,
+      "eval_cap_loss": 2.0149140498217415,
+      "eval_con_loss": 2.059108528436399,
+      "eval_loss": 5.125674068343406,
+      "step": 357
+    },
+    {
+      "epoch": 7.0,
+      "eval_bleu": 0.272648714102529,
+      "eval_cap_loss": 2.0149140498217415,
+      "eval_con_loss": 2.059108528436399,
+      "eval_loss": 5.125674068343406,
+      "eval_runtime": 31.305,
+      "eval_samples_per_second": 25.843,
+      "eval_steps_per_second": 3.258,
+      "step": 357
+    },
+    {
+      "epoch": 7.215686274509804,
+      "grad_norm": 2.2809042930603027,
+      "learning_rate": 4.6282080424148886e-08,
+      "loss": 9.2029,
+      "step": 368
+    },
+    {
+      "epoch": 7.529411764705882,
+      "grad_norm": 1.9819755554199219,
+      "learning_rate": 1.9398677035671218e-08,
+      "loss": 9.3332,
+      "step": 384
+    },
+    {
+      "epoch": 7.8431372549019605,
+      "grad_norm": 2.1756012439727783,
+      "learning_rate": 3.9185300032889e-09,
+      "loss": 9.3308,
+      "step": 400
+    },
+    {
+      "epoch": 8.0,
+      "eval_bleu": 0.2724553369227519,
+      "eval_cap_loss": 2.01423061244628,
+      "eval_con_loss": 2.0591084513009763,
+      "eval_loss": 5.125332222265356,
+      "step": 408
+    },
+    {
+      "epoch": 8.0,
+      "eval_bleu": 0.2724553369227519,
+      "eval_cap_loss": 2.01423061244628,
+      "eval_con_loss": 2.0591084513009763,
+      "eval_loss": 5.125332222265356,
+      "eval_runtime": 31.0026,
+      "eval_samples_per_second": 26.095,
+      "eval_steps_per_second": 3.29,
+      "step": 408
+    }
+  ],
+  "logging_steps": 16,
+  "max_steps": 408,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 8,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}