ChiefTheLord commited on Nov 11, 2024

Commit

8129284

verified ·

1 Parent(s): 0234bfa

Delete checkpoints

Browse files

Files changed (24) hide show

checkpoints/checkpoint-1280/model.safetensors +0 -3
checkpoints/checkpoint-1280/optimizer.pt +0 -3
checkpoints/checkpoint-1280/rng_state.pth +0 -3
checkpoints/checkpoint-1280/scheduler.pt +0 -3
checkpoints/checkpoint-1280/trainer_state.json +0 -503
checkpoints/checkpoint-1280/training_args.bin +0 -3
checkpoints/checkpoint-202/model.safetensors +0 -3
checkpoints/checkpoint-202/optimizer.pt +0 -3
checkpoints/checkpoint-202/rng_state.pth +0 -3
checkpoints/checkpoint-202/scheduler.pt +0 -3
checkpoints/checkpoint-202/trainer_state.json +0 -132
checkpoints/checkpoint-202/training_args.bin +0 -3
checkpoints/checkpoint-606-2/model.safetensors +0 -3
checkpoints/checkpoint-606-2/optimizer.pt +0 -3
checkpoints/checkpoint-606-2/rng_state.pth +0 -3
checkpoints/checkpoint-606-2/scheduler.pt +0 -3
checkpoints/checkpoint-606-2/trainer_state.json +0 -235
checkpoints/checkpoint-606-2/training_args.bin +0 -3
checkpoints/checkpoint-606/model.safetensors +0 -3
checkpoints/checkpoint-606/optimizer.pt +0 -3
checkpoints/checkpoint-606/rng_state.pth +0 -3
checkpoints/checkpoint-606/scheduler.pt +0 -3
checkpoints/checkpoint-606/trainer_state.json +0 -235
checkpoints/checkpoint-606/training_args.bin +0 -3

checkpoints/checkpoint-1280/model.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:69e7936faa0f4f96da50c28e7fc64aa98b67f8da2d8c84d20a6c2a1111b17e0f
-size 2297612372

checkpoints/checkpoint-1280/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:44c88d6887930c13f119d5ac5d9efd93094abb40e4255a84aa20844c912d5e44
-size 548599104

checkpoints/checkpoint-1280/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:c9d223714e45bc425e11bbcc5a937a01cf97e4f8bbd782e3737caf11063855d0
-size 14180

checkpoints/checkpoint-1280/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:29eaea96c12c4154ffed8572a07eb967ef6c8db7290858962558445a58bedf6e
-size 1064

checkpoints/checkpoint-1280/trainer_state.json DELETED Viewed

@@ -1,503 +0,0 @@
-{
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 6.320987654320987,
-  "eval_steps": 128,
-  "global_step": 1280,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.1580246913580247,
-      "grad_norm": 9.916343688964844,
-      "learning_rate": 1.4851485148514851e-05,
-      "loss": 13.4879,
-      "step": 32
-    },
-    {
-      "epoch": 0.3160493827160494,
-      "grad_norm": 8.410324096679688,
-      "learning_rate": 3.06930693069307e-05,
-      "loss": 11.0681,
-      "step": 64
-    },
-    {
-      "epoch": 0.4740740740740741,
-      "grad_norm": 7.2831854820251465,
-      "learning_rate": 4.653465346534654e-05,
-      "loss": 10.2179,
-      "step": 96
-    },
-    {
-      "epoch": 0.6320987654320988,
-      "grad_norm": 5.446238040924072,
-      "learning_rate": 6.237623762376238e-05,
-      "loss": 9.8657,
-      "step": 128
-    },
-    {
-      "epoch": 0.6320987654320988,
-      "eval_bleu": 0.009206539746414727,
-      "eval_cap_loss": 4.180750540658539,
-      "eval_con_loss": 2.05906052682914,
-      "eval_loss": 8.298871559255263,
-      "step": 128
-    },
-    {
-      "epoch": 0.6320987654320988,
-      "eval_bleu": 0.009206539746414727,
-      "eval_cap_loss": 4.180750540658539,
-      "eval_con_loss": 2.05906052682914,
-      "eval_loss": 8.298871559255263,
-      "eval_runtime": 160.1737,
-      "eval_samples_per_second": 5.051,
-      "eval_steps_per_second": 0.637,
-      "step": 128
-    },
-    {
-      "epoch": 0.7901234567901234,
-      "grad_norm": 6.679168224334717,
-      "learning_rate": 7.821782178217822e-05,
-      "loss": 9.6441,
-      "step": 160
-    },
-    {
-      "epoch": 0.9481481481481482,
-      "grad_norm": 3.790262222290039,
-      "learning_rate": 9.405940594059406e-05,
-      "loss": 9.5422,
-      "step": 192
-    },
-    {
-      "epoch": 1.106172839506173,
-      "grad_norm": 5.2132487297058105,
-      "learning_rate": 9.99701414469309e-05,
-      "loss": 9.2999,
-      "step": 224
-    },
-    {
-      "epoch": 1.2641975308641975,
-      "grad_norm": 3.9284615516662598,
-      "learning_rate": 9.979827188241365e-05,
-      "loss": 9.2528,
-      "step": 256
-    },
-    {
-      "epoch": 1.2641975308641975,
-      "eval_bleu": 0.010232611843559726,
-      "eval_cap_loss": 3.7518067640416763,
-      "eval_con_loss": 2.0590475727530086,
-      "eval_loss": 7.869901939934375,
-      "step": 256
-    },
-    {
-      "epoch": 1.2641975308641975,
-      "eval_bleu": 0.010232611843559726,
-      "eval_cap_loss": 3.7518067640416763,
-      "eval_con_loss": 2.0590475727530086,
-      "eval_loss": 7.869901939934375,
-      "eval_runtime": 163.0281,
-      "eval_samples_per_second": 4.962,
-      "eval_steps_per_second": 0.626,
-      "step": 256
-    },
-    {
-      "epoch": 1.4222222222222223,
-      "grad_norm": 2.924140691757202,
-      "learning_rate": 9.947416695486633e-05,
-      "loss": 9.2148,
-      "step": 288
-    },
-    {
-      "epoch": 1.5802469135802468,
-      "grad_norm": 2.8188695907592773,
-      "learning_rate": 9.899881746636785e-05,
-      "loss": 9.2119,
-      "step": 320
-    },
-    {
-      "epoch": 1.7382716049382716,
-      "grad_norm": 2.9822909832000732,
-      "learning_rate": 9.837367657983356e-05,
-      "loss": 9.1222,
-      "step": 352
-    },
-    {
-      "epoch": 1.8962962962962964,
-      "grad_norm": 2.3413400650024414,
-      "learning_rate": 9.760065537663649e-05,
-      "loss": 9.1112,
-      "step": 384
-    },
-    {
-      "epoch": 1.8962962962962964,
-      "eval_bleu": 0.014012859200134394,
-      "eval_cap_loss": 3.5916168689727783,
-      "eval_con_loss": 2.0590362034591974,
-      "eval_loss": 7.709689268878862,
-      "step": 384
-    },
-    {
-      "epoch": 1.8962962962962964,
-      "eval_bleu": 0.014012859200134394,
-      "eval_cap_loss": 3.5916168689727783,
-      "eval_con_loss": 2.0590362034591974,
-      "eval_loss": 7.709689268878862,
-      "eval_runtime": 160.6733,
-      "eval_samples_per_second": 5.035,
-      "eval_steps_per_second": 0.635,
-      "step": 384
-    },
-    {
-      "epoch": 2.054320987654321,
-      "grad_norm": 3.7009811401367188,
-      "learning_rate": 9.668211701435327e-05,
-      "loss": 9.0482,
-      "step": 416
-    },
-    {
-      "epoch": 2.212345679012346,
-      "grad_norm": 3.00201153755188,
-      "learning_rate": 9.562086950249409e-05,
-      "loss": 9.0231,
-      "step": 448
-    },
-    {
-      "epoch": 2.3703703703703702,
-      "grad_norm": 2.188750743865967,
-      "learning_rate": 9.442015711830245e-05,
-      "loss": 9.0336,
-      "step": 480
-    },
-    {
-      "epoch": 2.528395061728395,
-      "grad_norm": 2.7350165843963623,
-      "learning_rate": 9.308365048886625e-05,
-      "loss": 9.0336,
-      "step": 512
-    },
-    {
-      "epoch": 2.528395061728395,
-      "eval_bleu": 0.019149744160649594,
-      "eval_cap_loss": 3.5493307885001686,
-      "eval_con_loss": 2.059034511154773,
-      "eval_loss": 7.6673998201594635,
-      "step": 512
-    },
-    {
-      "epoch": 2.528395061728395,
-      "eval_bleu": 0.019149744160649594,
-      "eval_cap_loss": 3.5493307885001686,
-      "eval_con_loss": 2.059034511154773,
-      "eval_loss": 7.6673998201594635,
-      "eval_runtime": 161.0817,
-      "eval_samples_per_second": 5.022,
-      "eval_steps_per_second": 0.633,
-      "step": 512
-    },
-    {
-      "epoch": 2.68641975308642,
-      "grad_norm": 2.4831721782684326,
-      "learning_rate": 9.161543536985996e-05,
-      "loss": 8.9656,
-      "step": 544
-    },
-    {
-      "epoch": 2.8444444444444446,
-      "grad_norm": 3.178410768508911,
-      "learning_rate": 9.00200001552218e-05,
-      "loss": 9.0066,
-      "step": 576
-    },
-    {
-      "epoch": 3.0024691358024693,
-      "grad_norm": 2.4883828163146973,
-      "learning_rate": 8.83022221559489e-05,
-      "loss": 8.8965,
-      "step": 608
-    },
-    {
-      "epoch": 3.1604938271604937,
-      "grad_norm": 3.184849500656128,
-      "learning_rate": 8.646735268995731e-05,
-      "loss": 8.8889,
-      "step": 640
-    },
-    {
-      "epoch": 3.1604938271604937,
-      "eval_bleu": 0.016690347492961013,
-      "eval_cap_loss": 3.445917959306754,
-      "eval_con_loss": 2.059011185870451,
-      "eval_loss": 7.563940347409716,
-      "step": 640
-    },
-    {
-      "epoch": 3.1604938271604937,
-      "eval_bleu": 0.016690347492961013,
-      "eval_cap_loss": 3.445917959306754,
-      "eval_con_loss": 2.059011185870451,
-      "eval_loss": 7.563940347409716,
-      "eval_runtime": 160.8496,
-      "eval_samples_per_second": 5.03,
-      "eval_steps_per_second": 0.634,
-      "step": 640
-    },
-    {
-      "epoch": 3.3185185185185184,
-      "grad_norm": 2.856328248977661,
-      "learning_rate": 8.452100102858734e-05,
-      "loss": 8.8877,
-      "step": 672
-    },
-    {
-      "epoch": 3.476543209876543,
-      "grad_norm": 3.4148852825164795,
-      "learning_rate": 8.246911724883068e-05,
-      "loss": 8.8006,
-      "step": 704
-    },
-    {
-      "epoch": 3.634567901234568,
-      "grad_norm": 3.2651753425598145,
-      "learning_rate": 8.031797404370057e-05,
-      "loss": 8.8842,
-      "step": 736
-    },
-    {
-      "epoch": 3.7925925925925927,
-      "grad_norm": 3.55135440826416,
-      "learning_rate": 7.807414754635145e-05,
-      "loss": 8.8534,
-      "step": 768
-    },
-    {
-      "epoch": 3.7925925925925927,
-      "eval_bleu": 0.018187566983297536,
-      "eval_cap_loss": 3.4394626383687936,
-      "eval_con_loss": 2.0590050898346246,
-      "eval_loss": 7.557472799338546,
-      "step": 768
-    },
-    {
-      "epoch": 3.7925925925925927,
-      "eval_bleu": 0.018187566983297536,
-      "eval_cap_loss": 3.4394626383687936,
-      "eval_con_loss": 2.0590050898346246,
-      "eval_loss": 7.557472799338546,
-      "eval_runtime": 164.2478,
-      "eval_samples_per_second": 4.925,
-      "eval_steps_per_second": 0.621,
-      "step": 768
-    },
-    {
-      "epoch": 3.950617283950617,
-      "grad_norm": 2.6633050441741943,
-      "learning_rate": 7.574449722656991e-05,
-      "loss": 8.8075,
-      "step": 800
-    },
-    {
-      "epoch": 4.108641975308642,
-      "grad_norm": 2.6695327758789062,
-      "learning_rate": 7.333614492109364e-05,
-      "loss": 8.7768,
-      "step": 832
-    },
-    {
-      "epoch": 4.266666666666667,
-      "grad_norm": 2.1547067165374756,
-      "learning_rate": 7.08564530618639e-05,
-      "loss": 8.7896,
-      "step": 864
-    },
-    {
-      "epoch": 4.424691358024692,
-      "grad_norm": 2.484839916229248,
-      "learning_rate": 6.831300216876873e-05,
-      "loss": 8.7546,
-      "step": 896
-    },
-    {
-      "epoch": 4.424691358024692,
-      "eval_bleu": 0.017297916814474356,
-      "eval_cap_loss": 3.4138665620018456,
-      "eval_con_loss": 2.058998935362872,
-      "eval_loss": 7.531864435065026,
-      "step": 896
-    },
-    {
-      "epoch": 4.424691358024692,
-      "eval_bleu": 0.017297916814474356,
-      "eval_cap_loss": 3.4138665620018456,
-      "eval_con_loss": 2.058998935362872,
-      "eval_loss": 7.531864435065026,
-      "eval_runtime": 163.539,
-      "eval_samples_per_second": 4.947,
-      "eval_steps_per_second": 0.624,
-      "step": 896
-    },
-    {
-      "epoch": 4.582716049382716,
-      "grad_norm": 2.8547232151031494,
-      "learning_rate": 6.571356767568207e-05,
-      "loss": 8.7195,
-      "step": 928
-    },
-    {
-      "epoch": 4.7407407407407405,
-      "grad_norm": 3.8819704055786133,
-      "learning_rate": 6.306609616064304e-05,
-      "loss": 8.7259,
-      "step": 960
-    },
-    {
-      "epoch": 4.898765432098766,
-      "grad_norm": 3.2503316402435303,
-      "learning_rate": 6.037868105284045e-05,
-      "loss": 8.7204,
-      "step": 992
-    },
-    {
-      "epoch": 5.05679012345679,
-      "grad_norm": 2.2758522033691406,
-      "learning_rate": 5.7659537890667145e-05,
-      "loss": 8.717,
-      "step": 1024
-    },
-    {
-      "epoch": 5.05679012345679,
-      "eval_bleu": 0.0211266020043842,
-      "eval_cap_loss": 3.340357939402262,
-      "eval_con_loss": 2.059003666335461,
-      "eval_loss": 7.45836528376037,
-      "step": 1024
-    },
-    {
-      "epoch": 5.05679012345679,
-      "eval_bleu": 0.0211266020043842,
-      "eval_cap_loss": 3.340357939402262,
-      "eval_con_loss": 2.059003666335461,
-      "eval_loss": 7.45836528376037,
-      "eval_runtime": 164.548,
-      "eval_samples_per_second": 4.916,
-      "eval_steps_per_second": 0.62,
-      "step": 1024
-    },
-    {
-      "epoch": 5.214814814814815,
-      "grad_norm": 2.7144651412963867,
-      "learning_rate": 5.491697920648174e-05,
-      "loss": 8.6562,
-      "step": 1056
-    },
-    {
-      "epoch": 5.37283950617284,
-      "grad_norm": 2.6319425106048584,
-      "learning_rate": 5.2159389114855585e-05,
-      "loss": 8.667,
-      "step": 1088
-    },
-    {
-      "epoch": 5.530864197530864,
-      "grad_norm": 3.410334348678589,
-      "learning_rate": 4.939519768199012e-05,
-      "loss": 8.6587,
-      "step": 1120
-    },
-    {
-      "epoch": 5.688888888888889,
-      "grad_norm": 4.210638523101807,
-      "learning_rate": 4.663285515465818e-05,
-      "loss": 8.6541,
-      "step": 1152
-    },
-    {
-      "epoch": 5.688888888888889,
-      "eval_bleu": 0.02044929088069335,
-      "eval_cap_loss": 3.2661077111375096,
-      "eval_con_loss": 2.059012539246503,
-      "eval_loss": 7.384132796642827,
-      "step": 1152
-    },
-    {
-      "epoch": 5.688888888888889,
-      "eval_bleu": 0.02044929088069335,
-      "eval_cap_loss": 3.2661077111375096,
-      "eval_con_loss": 2.059012539246503,
-      "eval_loss": 7.384132796642827,
-      "eval_runtime": 163.0673,
-      "eval_samples_per_second": 4.961,
-      "eval_steps_per_second": 0.626,
-      "step": 1152
-    },
-    {
-      "epoch": 5.846913580246913,
-      "grad_norm": 4.617128372192383,
-      "learning_rate": 4.388080612745244e-05,
-      "loss": 8.6481,
-      "step": 1184
-    },
-    {
-      "epoch": 6.004938271604939,
-      "grad_norm": 2.4542462825775146,
-      "learning_rate": 4.114746372731275e-05,
-      "loss": 8.6291,
-      "step": 1216
-    },
-    {
-      "epoch": 6.162962962962963,
-      "grad_norm": 4.868436813354492,
-      "learning_rate": 3.844118389425153e-05,
-      "loss": 8.5827,
-      "step": 1248
-    },
-    {
-      "epoch": 6.320987654320987,
-      "grad_norm": 3.225403308868408,
-      "learning_rate": 3.577023983690177e-05,
-      "loss": 8.5461,
-      "step": 1280
-    },
-    {
-      "epoch": 6.320987654320987,
-      "eval_bleu": 0.023454420732711045,
-      "eval_cap_loss": 3.2792342223373114,
-      "eval_con_loss": 2.0589846162235035,
-      "eval_loss": 7.397203454784319,
-      "step": 1280
-    },
-    {
-      "epoch": 6.320987654320987,
-      "eval_bleu": 0.023454420732711045,
-      "eval_cap_loss": 3.2792342223373114,
-      "eval_con_loss": 2.0589846162235035,
-      "eval_loss": 7.397203454784319,
-      "eval_runtime": 161.0376,
-      "eval_samples_per_second": 5.024,
-      "eval_steps_per_second": 0.633,
-      "step": 1280
-    }
-  ],
-  "logging_steps": 32,
-  "max_steps": 2020,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
-  "save_steps": 128,
-  "stateful_callbacks": {
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": false
-      },
-      "attributes": {}
-    }
-  },
-  "total_flos": 0.0,
-  "train_batch_size": 16,
-  "trial_name": null,
-  "trial_params": null
-}

checkpoints/checkpoint-1280/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:ee0fb7ff03fa7d579a0122f63c8133057dbe8dded973c9246203fc477a16730e
-size 5112

checkpoints/checkpoint-202/model.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:0dffee69756e606b8b3871e102c92751a40f17cbd2e6e307e668c6d6967a32c6
-size 5821173932

checkpoints/checkpoint-202/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:6bc77f1f9f675b5a7d79bee225ca0f8410101081232d6ece7d43854ab8b66d84
-size 312119520

checkpoints/checkpoint-202/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:c0cff64e8412933e783886fbdffd3f6efbcf0ae4d2d1512c2e684b0f3d664dd3
-size 14244

checkpoints/checkpoint-202/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:17ee40d21180a1ccc4e69d8fdf2bfff2f3c4b3a31fe3c79203430eab430365bf
-size 1064

checkpoints/checkpoint-202/trainer_state.json DELETED Viewed

@@ -1,132 +0,0 @@
-{
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 0.9975308641975309,
-  "eval_steps": 64,
-  "global_step": 202,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.1580246913580247,
-      "grad_norm": 3.374070882797241,
-      "learning_rate": 2.972743532698138e-05,
-      "loss": 12.1032,
-      "step": 32
-    },
-    {
-      "epoch": 0.3160493827160494,
-      "grad_norm": 3.2159523963928223,
-      "learning_rate": 2.601262828482597e-05,
-      "loss": 11.7808,
-      "step": 64
-    },
-    {
-      "epoch": 0.3160493827160494,
-      "eval_bleu": 0.0,
-      "eval_cap_loss": 8.910892418452672,
-      "eval_con_loss": 1.3794510922408456,
-      "eval_loss": 10.290343505408377,
-      "step": 64
-    },
-    {
-      "epoch": 0.3160493827160494,
-      "eval_bleu": 0.0,
-      "eval_cap_loss": 8.910892418452672,
-      "eval_con_loss": 1.3794510922408456,
-      "eval_loss": 10.290343505408377,
-      "eval_runtime": 220.4456,
-      "eval_samples_per_second": 3.67,
-      "eval_steps_per_second": 0.921,
-      "step": 64
-    },
-    {
-      "epoch": 0.4740740740740741,
-      "grad_norm": 2.8607146739959717,
-      "learning_rate": 1.8986967266497293e-05,
-      "loss": 11.5303,
-      "step": 96
-    },
-    {
-      "epoch": 0.6320987654320988,
-      "grad_norm": 2.915891408920288,
-      "learning_rate": 1.0762658106621542e-05,
-      "loss": 11.4537,
-      "step": 128
-    },
-    {
-      "epoch": 0.6320987654320988,
-      "eval_bleu": 0.0,
-      "eval_cap_loss": 8.568840851337452,
-      "eval_con_loss": 1.379400504046473,
-      "eval_loss": 9.94824136771592,
-      "step": 128
-    },
-    {
-      "epoch": 0.6320987654320988,
-      "eval_bleu": 0.0,
-      "eval_cap_loss": 8.568840851337452,
-      "eval_con_loss": 1.379400504046473,
-      "eval_loss": 9.94824136771592,
-      "eval_runtime": 220.8837,
-      "eval_samples_per_second": 3.663,
-      "eval_steps_per_second": 0.919,
-      "step": 128
-    },
-    {
-      "epoch": 0.7901234567901234,
-      "grad_norm": 3.0462822914123535,
-      "learning_rate": 3.812270111907451e-06,
-      "loss": 11.2808,
-      "step": 160
-    },
-    {
-      "epoch": 0.9481481481481482,
-      "grad_norm": 2.9391884803771973,
-      "learning_rate": 2.2537891617109508e-07,
-      "loss": 11.3221,
-      "step": 192
-    },
-    {
-      "epoch": 0.9481481481481482,
-      "eval_bleu": 0.0,
-      "eval_cap_loss": 8.536650624768487,
-      "eval_con_loss": 1.379456711520115,
-      "eval_loss": 9.916107299879855,
-      "step": 192
-    },
-    {
-      "epoch": 0.9481481481481482,
-      "eval_bleu": 0.0,
-      "eval_cap_loss": 8.536650624768487,
-      "eval_con_loss": 1.379456711520115,
-      "eval_loss": 9.916107299879855,
-      "eval_runtime": 220.5088,
-      "eval_samples_per_second": 3.669,
-      "eval_steps_per_second": 0.921,
-      "step": 192
-    }
-  ],
-  "logging_steps": 32,
-  "max_steps": 202,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
-  "save_steps": 64,
-  "stateful_callbacks": {
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": true
-      },
-      "attributes": {}
-    }
-  },
-  "total_flos": 0.0,
-  "train_batch_size": 16,
-  "trial_name": null,
-  "trial_params": null
-}

checkpoints/checkpoint-202/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:bd2b23c0025977f304dc794f158c7bad81d7c588ae408e484fc9c79f6fec2528
-size 5112

checkpoints/checkpoint-606-2/model.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:30b715a98d0790402e95d413d3b3d080f453af0c8f70b74f5171a5e6a5a39f15
-size 2297612372

checkpoints/checkpoint-606-2/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:3ebde8deb09d4e8e6e449042dcefc4cc0997334c8ac8fa04c8acdcd6c76c089e
-size 178998372

checkpoints/checkpoint-606-2/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:51d23a921626f1fecc8b752c0dc40ad68da4137994e71ad7c66137caf507a3e6
-size 14180

checkpoints/checkpoint-606-2/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:e51415869b2f0df9eed69859df5822396e1c56ea421d89bb22b2c580ba0e2803
-size 1064

checkpoints/checkpoint-606-2/trainer_state.json DELETED Viewed

@@ -1,235 +0,0 @@
-{
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 2.9925925925925925,
-  "eval_steps": 128,
-  "global_step": 606,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.1580246913580247,
-      "grad_norm": 3.291957378387451,
-      "learning_rate": 4.918032786885246e-06,
-      "loss": 9.3959,
-      "step": 32
-    },
-    {
-      "epoch": 0.3160493827160494,
-      "grad_norm": 4.1592698097229,
-      "learning_rate": 9.999916929744365e-06,
-      "loss": 9.151,
-      "step": 64
-    },
-    {
-      "epoch": 0.4740740740740741,
-      "grad_norm": 5.414369583129883,
-      "learning_rate": 9.909808702018315e-06,
-      "loss": 9.1311,
-      "step": 96
-    },
-    {
-      "epoch": 0.6320987654320988,
-      "grad_norm": 4.628862380981445,
-      "learning_rate": 9.653114094889128e-06,
-      "loss": 9.1676,
-      "step": 128
-    },
-    {
-      "epoch": 0.6320987654320988,
-      "eval_bleu": 0.018568904197283402,
-      "eval_cap_loss": 3.457257219389373,
-      "eval_con_loss": 2.059046186652838,
-      "eval_loss": 8.97356055764591,
-      "step": 128
-    },
-    {
-      "epoch": 0.6320987654320988,
-      "eval_bleu": 0.018568904197283402,
-      "eval_cap_loss": 3.457257219389373,
-      "eval_con_loss": 2.059046186652838,
-      "eval_loss": 8.97356055764591,
-      "eval_runtime": 161.0868,
-      "eval_samples_per_second": 5.022,
-      "eval_steps_per_second": 0.633,
-      "step": 128
-    },
-    {
-      "epoch": 0.7901234567901234,
-      "grad_norm": 6.027233123779297,
-      "learning_rate": 9.253761031990218e-06,
-      "loss": 9.1153,
-      "step": 160
-    },
-    {
-      "epoch": 0.9481481481481482,
-      "grad_norm": 6.049582004547119,
-      "learning_rate": 8.699609944263219e-06,
-      "loss": 9.1281,
-      "step": 192
-    },
-    {
-      "epoch": 1.106172839506173,
-      "grad_norm": 4.76241397857666,
-      "learning_rate": 8.019933675572389e-06,
-      "loss": 9.021,
-      "step": 224
-    },
-    {
-      "epoch": 1.2641975308641975,
-      "grad_norm": 4.239706516265869,
-      "learning_rate": 7.2377931669113934e-06,
-      "loss": 9.0272,
-      "step": 256
-    },
-    {
-      "epoch": 1.2641975308641975,
-      "eval_bleu": 0.016148135533212146,
-      "eval_cap_loss": 3.4138525163426117,
-      "eval_con_loss": 2.059033068956113,
-      "eval_loss": 8.886738094629026,
-      "step": 256
-    },
-    {
-      "epoch": 1.2641975308641975,
-      "eval_bleu": 0.016148135533212146,
-      "eval_cap_loss": 3.4138525163426117,
-      "eval_con_loss": 2.059033068956113,
-      "eval_loss": 8.886738094629026,
-      "eval_runtime": 161.0562,
-      "eval_samples_per_second": 5.023,
-      "eval_steps_per_second": 0.633,
-      "step": 256
-    },
-    {
-      "epoch": 1.4222222222222223,
-      "grad_norm": 5.311102867126465,
-      "learning_rate": 6.379725899357408e-06,
-      "loss": 9.0054,
-      "step": 288
-    },
-    {
-      "epoch": 1.5802469135802468,
-      "grad_norm": 5.357556343078613,
-      "learning_rate": 5.474845495876518e-06,
-      "loss": 9.1177,
-      "step": 320
-    },
-    {
-      "epoch": 1.7382716049382716,
-      "grad_norm": 5.401686668395996,
-      "learning_rate": 4.553853916434448e-06,
-      "loss": 9.0223,
-      "step": 352
-    },
-    {
-      "epoch": 1.8962962962962964,
-      "grad_norm": 6.359274387359619,
-      "learning_rate": 3.6479997619424605e-06,
-      "loss": 9.083,
-      "step": 384
-    },
-    {
-      "epoch": 1.8962962962962964,
-      "eval_bleu": 0.017365712049326326,
-      "eval_cap_loss": 3.416674846527623,
-      "eval_con_loss": 2.0590534537446263,
-      "eval_loss": 8.892403146799873,
-      "step": 384
-    },
-    {
-      "epoch": 1.8962962962962964,
-      "eval_bleu": 0.017365712049326326,
-      "eval_cap_loss": 3.416674846527623,
-      "eval_con_loss": 2.0590534537446263,
-      "eval_loss": 8.892403146799873,
-      "eval_runtime": 159.3342,
-      "eval_samples_per_second": 5.077,
-      "eval_steps_per_second": 0.64,
-      "step": 384
-    },
-    {
-      "epoch": 2.054320987654321,
-      "grad_norm": 3.601047992706299,
-      "learning_rate": 2.7880180310578546e-06,
-      "loss": 9.1251,
-      "step": 416
-    },
-    {
-      "epoch": 2.212345679012346,
-      "grad_norm": 4.511282920837402,
-      "learning_rate": 2.0030873031501274e-06,
-      "loss": 9.1476,
-      "step": 448
-    },
-    {
-      "epoch": 2.3703703703703702,
-      "grad_norm": 3.5873196125030518,
-      "learning_rate": 1.3198397294863285e-06,
-      "loss": 9.2698,
-      "step": 480
-    },
-    {
-      "epoch": 2.528395061728395,
-      "grad_norm": 2.907109498977661,
-      "learning_rate": 7.614574229430432e-07,
-      "loss": 9.3526,
-      "step": 512
-    },
-    {
-      "epoch": 2.528395061728395,
-      "eval_bleu": 0.018224741893114085,
-      "eval_cap_loss": 3.4440931338889924,
-      "eval_con_loss": 2.059036243195627,
-      "eval_loss": 8.947222527335672,
-      "step": 512
-    },
-    {
-      "epoch": 2.528395061728395,
-      "eval_bleu": 0.018224741893114085,
-      "eval_cap_loss": 3.4440931338889924,
-      "eval_con_loss": 2.059036243195627,
-      "eval_loss": 8.947222527335672,
-      "eval_runtime": 159.1467,
-      "eval_samples_per_second": 5.083,
-      "eval_steps_per_second": 0.641,
-      "step": 512
-    },
-    {
-      "epoch": 2.68641975308642,
-      "grad_norm": 5.598337650299072,
-      "learning_rate": 3.4688590511087304e-07,
-      "loss": 9.3263,
-      "step": 544
-    },
-    {
-      "epoch": 2.8444444444444446,
-      "grad_norm": 5.659440040588379,
-      "learning_rate": 9.019129798168658e-08,
-      "loss": 9.4575,
-      "step": 576
-    }
-  ],
-  "logging_steps": 32,
-  "max_steps": 606,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
-  "save_steps": 128,
-  "stateful_callbacks": {
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": true
-      },
-      "attributes": {}
-    }
-  },
-  "total_flos": 0.0,
-  "train_batch_size": 16,
-  "trial_name": null,
-  "trial_params": null
-}

checkpoints/checkpoint-606-2/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:3c7cc8cc74cd8f844a12e1e98a8984236a6126dfae3836b014d3e373369f69d7
-size 5112

checkpoints/checkpoint-606/model.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:2dab7fa42fa66d5815df8b7bbb5b720fa77fdbc70f25393dc810583332dfc3da
-size 2297612372

checkpoints/checkpoint-606/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:95bad9522fdb87255cb62c18caec57e7911e2ff092e39c135fe2882ebcf7bbd6
-size 178998372

checkpoints/checkpoint-606/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:fd68f9468bdece9db631b8983960a037ce75a3b363c645663d54244d569fdce3
-size 14180

checkpoints/checkpoint-606/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:aa2b7f16f016bea816df5df16d92c79d6f816d8a4d91bb613af70a9f91f3326d
-size 1064

checkpoints/checkpoint-606/trainer_state.json DELETED Viewed

@@ -1,235 +0,0 @@
-{
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 2.996291718170581,
-  "eval_steps": 128,
-  "global_step": 606,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.15822002472187885,
-      "grad_norm": 11.1969633102417,
-      "learning_rate": 0.00015737704918032785,
-      "loss": 14.339,
-      "step": 32
-    },
-    {
-      "epoch": 0.3164400494437577,
-      "grad_norm": 12.77004337310791,
-      "learning_rate": 0.00029997757152782376,
-      "loss": 10.8537,
-      "step": 64
-    },
-    {
-      "epoch": 0.4746600741656366,
-      "grad_norm": 8.878470420837402,
-      "learning_rate": 0.0002969575009832261,
-      "loss": 10.1762,
-      "step": 96
-    },
-    {
-      "epoch": 0.6328800988875154,
-      "grad_norm": 7.734447479248047,
-      "learning_rate": 0.00028895126509070673,
-      "loss": 9.9993,
-      "step": 128
-    },
-    {
-      "epoch": 0.6328800988875154,
-      "eval_bleu": 0.009866227706267426,
-      "eval_cap_loss": 3.8397970962994203,
-      "eval_con_loss": 1.3794401672673342,
-      "eval_loss": 9.059034354581033,
-      "step": 128
-    },
-    {
-      "epoch": 0.6328800988875154,
-      "eval_bleu": 0.009866227706267426,
-      "eval_cap_loss": 3.8397970962994203,
-      "eval_con_loss": 1.3794401672673342,
-      "eval_loss": 9.059034354581033,
-      "eval_runtime": 165.4257,
-      "eval_samples_per_second": 4.89,
-      "eval_steps_per_second": 1.227,
-      "step": 128
-    },
-    {
-      "epoch": 0.7911001236093943,
-      "grad_norm": 5.295111179351807,
-      "learning_rate": 0.0002766954985019261,
-      "loss": 9.7893,
-      "step": 160
-    },
-    {
-      "epoch": 0.9493201483312732,
-      "grad_norm": 6.028670310974121,
-      "learning_rate": 0.0002598176493606703,
-      "loss": 9.7303,
-      "step": 192
-    },
-    {
-      "epoch": 1.107540173053152,
-      "grad_norm": 6.170614719390869,
-      "learning_rate": 0.00023921376409217457,
-      "loss": 9.3777,
-      "step": 224
-    },
-    {
-      "epoch": 1.2657601977750308,
-      "grad_norm": 8.26496410369873,
-      "learning_rate": 0.00021558291813029553,
-      "loss": 9.2487,
-      "step": 256
-    },
-    {
-      "epoch": 1.2657601977750308,
-      "eval_bleu": 0.012158325589574045,
-      "eval_cap_loss": 3.663852495512939,
-      "eval_con_loss": 1.3794238802247447,
-      "eval_loss": 8.70712886068034,
-      "step": 256
-    },
-    {
-      "epoch": 1.2657601977750308,
-      "eval_bleu": 0.012158325589574045,
-      "eval_cap_loss": 3.663852495512939,
-      "eval_con_loss": 1.3794238802247447,
-      "eval_loss": 8.70712886068034,
-      "eval_runtime": 165.1008,
-      "eval_samples_per_second": 4.9,
-      "eval_steps_per_second": 1.23,
-      "step": 256
-    },
-    {
-      "epoch": 1.4239802224969098,
-      "grad_norm": 5.113515377044678,
-      "learning_rate": 0.00018972688957066537,
-      "loss": 9.2305,
-      "step": 288
-    },
-    {
-      "epoch": 1.5822002472187886,
-      "grad_norm": 4.397431373596191,
-      "learning_rate": 0.00016252295540000706,
-      "loss": 9.2278,
-      "step": 320
-    },
-    {
-      "epoch": 1.7404202719406676,
-      "grad_norm": 4.647693157196045,
-      "learning_rate": 0.00013489412610081624,
-      "loss": 9.0332,
-      "step": 352
-    },
-    {
-      "epoch": 1.8986402966625464,
-      "grad_norm": 6.768193244934082,
-      "learning_rate": 0.00010777782855047967,
-      "loss": 9.0303,
-      "step": 384
-    },
-    {
-      "epoch": 1.8986402966625464,
-      "eval_bleu": 0.015940976494587023,
-      "eval_cap_loss": 3.5265488871212662,
-      "eval_con_loss": 1.3794590686929638,
-      "eval_loss": 8.432556859378156,
-      "step": 384
-    },
-    {
-      "epoch": 1.8986402966625464,
-      "eval_bleu": 0.015940976494587023,
-      "eval_cap_loss": 3.5265488871212662,
-      "eval_con_loss": 1.3794590686929638,
-      "eval_loss": 8.432556859378156,
-      "eval_runtime": 164.9408,
-      "eval_samples_per_second": 4.905,
-      "eval_steps_per_second": 1.231,
-      "step": 384
-    },
-    {
-      "epoch": 2.056860321384425,
-      "grad_norm": 3.732090473175049,
-      "learning_rate": 8.286620499265821e-05,
-      "loss": 8.9538,
-      "step": 416
-    },
-    {
-      "epoch": 2.215080346106304,
-      "grad_norm": 4.6480584144592285,
-      "learning_rate": 5.9401989732828384e-05,
-      "loss": 8.8722,
-      "step": 448
-    },
-    {
-      "epoch": 2.373300370828183,
-      "grad_norm": 5.697710037231445,
-      "learning_rate": 3.901170167210344e-05,
-      "loss": 8.8853,
-      "step": 480
-    },
-    {
-      "epoch": 2.5315203955500616,
-      "grad_norm": 3.8718154430389404,
-      "learning_rate": 2.238716904029349e-05,
-      "loss": 8.8722,
-      "step": 512
-    },
-    {
-      "epoch": 2.5315203955500616,
-      "eval_bleu": 0.022739422488822453,
-      "eval_cap_loss": 3.4747910476083237,
-      "eval_con_loss": 1.37942426369108,
-      "eval_loss": 8.329006359494965,
-      "step": 512
-    },
-    {
-      "epoch": 2.5315203955500616,
-      "eval_bleu": 0.022739422488822453,
-      "eval_cap_loss": 3.4747910476083237,
-      "eval_con_loss": 1.37942426369108,
-      "eval_loss": 8.329006359494965,
-      "eval_runtime": 163.9894,
-      "eval_samples_per_second": 4.933,
-      "eval_steps_per_second": 1.238,
-      "step": 512
-    },
-    {
-      "epoch": 2.689740420271941,
-      "grad_norm": 4.082241535186768,
-      "learning_rate": 1.0092450616157804e-05,
-      "loss": 8.7704,
-      "step": 544
-    },
-    {
-      "epoch": 2.8479604449938196,
-      "grad_norm": 3.609088897705078,
-      "learning_rate": 2.544697607077684e-06,
-      "loss": 8.8435,
-      "step": 576
-    }
-  ],
-  "logging_steps": 32,
-  "max_steps": 606,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
-  "save_steps": 128,
-  "stateful_callbacks": {
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": true
-      },
-      "attributes": {}
-    }
-  },
-  "total_flos": 0.0,
-  "train_batch_size": 8,
-  "trial_name": null,
-  "trial_params": null
-}

checkpoints/checkpoint-606/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:c438a6e15f14bb991774d44e2f18eed0b82a51ff2a702113d87a3659795d03d1
-size 5112