Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

checkpoints/checkpoint-306/adapter.safetensors +3 -0
checkpoints/checkpoint-306/optimizer.pt +3 -0
checkpoints/checkpoint-306/rng_state.pth +3 -0
checkpoints/checkpoint-306/scheduler.pt +3 -0
checkpoints/checkpoint-306/trainer_state.json +280 -0

checkpoints/checkpoint-306/adapter.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:705b77f4f5fc3f2207f1ea7c7637f4091f6443783fc9b894788e32de66bc6a04
+size 6439640

checkpoints/checkpoint-306/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ddd315c5e0840b81e818dd5ff765d8de5e5d04b7b6a9cdf05799e5bfbd7c0ce1
+size 3304962

checkpoints/checkpoint-306/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:402fa8046bb84d6ccced5bc526160e4d722440748b38fcb0b6cdf48297e39aa6
+size 14244

checkpoints/checkpoint-306/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cde0307485e9704120944cc03273844cb67ca42817c760970d1e4ff5341cf1d0
+size 1064

checkpoints/checkpoint-306/trainer_state.json ADDED Viewed

	@@ -0,0 +1,280 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 6.0,
+  "eval_steps": 500,
+  "global_step": 306,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.3137254901960784,
+      "grad_norm": 21.246755599975586,
+      "learning_rate": 2.2580645161290322e-07,
+      "loss": 10.64,
+      "step": 16
+    },
+    {
+      "epoch": 0.6274509803921569,
+      "grad_norm": 22.127361297607422,
+      "learning_rate": 4.677419354838709e-07,
+      "loss": 10.6241,
+      "step": 32
+    },
+    {
+      "epoch": 0.9411764705882353,
+      "grad_norm": 20.265277862548828,
+      "learning_rate": 7.258064516129032e-07,
+      "loss": 10.5868,
+      "step": 48
+    },
+    {
+      "epoch": 1.0,
+      "eval_bleu": 0.011208247430062485,
+      "eval_cap_loss": 4.461696884211372,
+      "eval_con_loss": 2.0591132453843657,
+      "eval_loss": 6.349074924693388,
+      "step": 51
+    },
+    {
+      "epoch": 1.0,
+      "eval_bleu": 0.011208247430062485,
+      "eval_cap_loss": 4.461696884211372,
+      "eval_con_loss": 2.0591132453843657,
+      "eval_loss": 6.349074924693388,
+      "eval_runtime": 31.4,
+      "eval_samples_per_second": 25.764,
+      "eval_steps_per_second": 3.248,
+      "step": 51
+    },
+    {
+      "epoch": 1.2549019607843137,
+      "grad_norm": 20.630815505981445,
+      "learning_rate": 9.838709677419355e-07,
+      "loss": 10.3883,
+      "step": 64
+    },
+    {
+      "epoch": 1.5686274509803921,
+      "grad_norm": 20.142724990844727,
+      "learning_rate": 9.918989757867583e-07,
+      "loss": 10.4571,
+      "step": 80
+    },
+    {
+      "epoch": 1.8823529411764706,
+      "grad_norm": 17.457569122314453,
+      "learning_rate": 9.631619841257474e-07,
+      "loss": 10.3837,
+      "step": 96
+    },
+    {
+      "epoch": 2.0,
+      "eval_bleu": 0.01885383457992918,
+      "eval_cap_loss": 3.9823871734095553,
+      "eval_con_loss": 2.0591144795511283,
+      "eval_loss": 6.109422552819345,
+      "step": 102
+    },
+    {
+      "epoch": 2.0,
+      "eval_bleu": 0.01885383457992918,
+      "eval_cap_loss": 3.9823871734095553,
+      "eval_con_loss": 2.0591144795511283,
+      "eval_loss": 6.109422552819345,
+      "eval_runtime": 31.2828,
+      "eval_samples_per_second": 25.861,
+      "eval_steps_per_second": 3.261,
+      "step": 102
+    },
+    {
+      "epoch": 2.196078431372549,
+      "grad_norm": 14.928309440612793,
+      "learning_rate": 9.183978228987435e-07,
+      "loss": 10.2051,
+      "step": 112
+    },
+    {
+      "epoch": 2.5098039215686274,
+      "grad_norm": 15.862812995910645,
+      "learning_rate": 8.535533905932737e-07,
+      "loss": 10.256,
+      "step": 128
+    },
+    {
+      "epoch": 2.8235294117647056,
+      "grad_norm": 13.910375595092773,
+      "learning_rate": 7.737576698351878e-07,
+      "loss": 10.2118,
+      "step": 144
+    },
+    {
+      "epoch": 3.0,
+      "eval_bleu": 0.09867147788444039,
+      "eval_cap_loss": 3.6369867652070287,
+      "eval_con_loss": 2.059116457022873,
+      "eval_loss": 5.936726282624638,
+      "step": 153
+    },
+    {
+      "epoch": 3.0,
+      "eval_bleu": 0.09867147788444039,
+      "eval_cap_loss": 3.6369867652070287,
+      "eval_con_loss": 2.059116457022873,
+      "eval_loss": 5.936726282624638,
+      "eval_runtime": 31.5123,
+      "eval_samples_per_second": 25.673,
+      "eval_steps_per_second": 3.237,
+      "step": 153
+    },
+    {
+      "epoch": 3.1372549019607843,
+      "grad_norm": 13.83757209777832,
+      "learning_rate": 6.823851123199893e-07,
+      "loss": 10.0243,
+      "step": 160
+    },
+    {
+      "epoch": 3.450980392156863,
+      "grad_norm": 12.985786437988281,
+      "learning_rate": 5.832997383071659e-07,
+      "loss": 10.1282,
+      "step": 176
+    },
+    {
+      "epoch": 3.764705882352941,
+      "grad_norm": 13.04931926727295,
+      "learning_rate": 4.806917324978607e-07,
+      "loss": 10.0797,
+      "step": 192
+    },
+    {
+      "epoch": 4.0,
+      "eval_bleu": 0.12895394150561787,
+      "eval_cap_loss": 3.4135348516352035,
+      "eval_con_loss": 2.0591169128230975,
+      "eval_loss": 5.825001257307389,
+      "step": 204
+    },
+    {
+      "epoch": 4.0,
+      "eval_bleu": 0.12895394150561787,
+      "eval_cap_loss": 3.4135348516352035,
+      "eval_con_loss": 2.0591169128230975,
+      "eval_loss": 5.825001257307389,
+      "eval_runtime": 31.5247,
+      "eval_samples_per_second": 25.662,
+      "eval_steps_per_second": 3.236,
+      "step": 204
+    },
+    {
+      "epoch": 4.078431372549019,
+      "grad_norm": 13.757915496826172,
+      "learning_rate": 3.7890024686521205e-07,
+      "loss": 9.9267,
+      "step": 208
+    },
+    {
+      "epoch": 4.392156862745098,
+      "grad_norm": 14.317400932312012,
+      "learning_rate": 2.8222990386287614e-07,
+      "loss": 10.0335,
+      "step": 224
+    },
+    {
+      "epoch": 4.705882352941177,
+      "grad_norm": 11.822975158691406,
+      "learning_rate": 1.947687598396154e-07,
+      "loss": 10.0163,
+      "step": 240
+    },
+    {
+      "epoch": 5.0,
+      "eval_bleu": 0.13267291344127094,
+      "eval_cap_loss": 3.3223345349816715,
+      "eval_con_loss": 2.0591166206434663,
+      "eval_loss": 5.779400519296234,
+      "step": 255
+    },
+    {
+      "epoch": 5.0,
+      "eval_bleu": 0.13267291344127094,
+      "eval_cap_loss": 3.3223345349816715,
+      "eval_con_loss": 2.0591166206434663,
+      "eval_loss": 5.779400519296234,
+      "eval_runtime": 31.0795,
+      "eval_samples_per_second": 26.03,
+      "eval_steps_per_second": 3.282,
+      "step": 255
+    },
+    {
+      "epoch": 5.019607843137255,
+      "grad_norm": 14.300347328186035,
+      "learning_rate": 1.2021542673772584e-07,
+      "loss": 9.8869,
+      "step": 256
+    },
+    {
+      "epoch": 5.333333333333333,
+      "grad_norm": 11.969139099121094,
+      "learning_rate": 6.172266286180161e-08,
+      "loss": 10.0042,
+      "step": 272
+    },
+    {
+      "epoch": 5.647058823529412,
+      "grad_norm": 12.140946388244629,
+      "learning_rate": 2.1764047049913525e-08,
+      "loss": 10.0031,
+      "step": 288
+    },
+    {
+      "epoch": 5.96078431372549,
+      "grad_norm": 12.373481750488281,
+      "learning_rate": 2.029374413821949e-09,
+      "loss": 9.9969,
+      "step": 304
+    },
+    {
+      "epoch": 6.0,
+      "eval_bleu": 0.13520814810096016,
+      "eval_cap_loss": 3.3063340187072754,
+      "eval_con_loss": 2.059116517796236,
+      "eval_loss": 5.771400057802014,
+      "step": 306
+    },
+    {
+      "epoch": 6.0,
+      "eval_bleu": 0.13520814810096016,
+      "eval_cap_loss": 3.3063340187072754,
+      "eval_con_loss": 2.059116517796236,
+      "eval_loss": 5.771400057802014,
+      "eval_runtime": 31.1282,
+      "eval_samples_per_second": 25.989,
+      "eval_steps_per_second": 3.277,
+      "step": 306
+    }
+  ],
+  "logging_steps": 16,
+  "max_steps": 306,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}