Training in progress, step 17405, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +666 -6
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:470ceab2ffbdc9be7e9ba55dac8f66ad2d2ee6d83bf68d588bdf8c2e363afa0a
 size 990185320

 version https://git-lfs.github.com/spec/v1
+oid sha256:f53a70c963db68f9b694dda2a1e3c2e11ceee1090f7c14aa12ae702859e59120
 size 990185320

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a8f1de75a1e7f597eeeec866f696144c9ded9443ee76a77efdde665cb83edb3
 size 1980545291

 version https://git-lfs.github.com/spec/v1
+oid sha256:7bb559ee87caf15c8957d8760368f094fecca187637f61060b813167bb93e1f7
 size 1980545291

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4ce3825e60923efd0732224de480af38290fa16b941f44ff5e3049ad2c6cac56
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:40f4b20a69e9316fdba91122a6236379e60cdc702f2695921644b9e637ab8165
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3185a876acce70348de92f6615e3c6174f04c918e17668da9430678af0491872
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b004d308497203f25cc61e28f5460f74f23fc3afe51c9ea0caca14c1845f09f
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.987647227808101,
   "eval_steps": 400,
-  "global_step": 10400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -996,12 +996,672 @@
       "eval_samples_per_second": 8.418,
       "eval_steps_per_second": 1.052,
       "step": 10400
     }
   ],
   "logging_steps": 100,
-  "max_steps": 13924,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
   "save_steps": 400,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -1010,12 +1670,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.8481299959250944e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.0,
   "eval_steps": 400,
+  "global_step": 17405,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 8.418,
       "eval_steps_per_second": 1.052,
       "step": 10400
+    },
+    {
+      "epoch": 3.0163746049985636,
+      "grad_norm": 7.44285774230957,
+      "learning_rate": 1.3887388681413387e-05,
+      "loss": 0.92,
+      "step": 10500
+    },
+    {
+      "epoch": 3.045101982189026,
+      "grad_norm": 6.678479194641113,
+      "learning_rate": 1.3686297041080149e-05,
+      "loss": 0.9852,
+      "step": 10600
+    },
+    {
+      "epoch": 3.0738293593794888,
+      "grad_norm": 4.869193077087402,
+      "learning_rate": 1.3485205400746911e-05,
+      "loss": 0.9608,
+      "step": 10700
+    },
+    {
+      "epoch": 3.102556736569951,
+      "grad_norm": 9.369580268859863,
+      "learning_rate": 1.3284113760413673e-05,
+      "loss": 1.0157,
+      "step": 10800
+    },
+    {
+      "epoch": 3.102556736569951,
+      "eval_bleu": 45.22945134261269,
+      "eval_chrf": 69.63638434182933,
+      "eval_loss": 0.986176609992981,
+      "eval_runtime": 96.7623,
+      "eval_samples_per_second": 8.433,
+      "eval_steps_per_second": 1.054,
+      "step": 10800
+    },
+    {
+      "epoch": 3.1312841137604135,
+      "grad_norm": 3.69415020942688,
+      "learning_rate": 1.3083022120080436e-05,
+      "loss": 0.9119,
+      "step": 10900
+    },
+    {
+      "epoch": 3.1600114909508763,
+      "grad_norm": 3.1986947059631348,
+      "learning_rate": 1.2881930479747198e-05,
+      "loss": 0.9571,
+      "step": 11000
+    },
+    {
+      "epoch": 3.1887388681413387,
+      "grad_norm": 6.022769451141357,
+      "learning_rate": 1.268083883941396e-05,
+      "loss": 0.9792,
+      "step": 11100
+    },
+    {
+      "epoch": 3.217466245331801,
+      "grad_norm": 5.501678943634033,
+      "learning_rate": 1.2479747199080722e-05,
+      "loss": 0.9616,
+      "step": 11200
+    },
+    {
+      "epoch": 3.217466245331801,
+      "eval_bleu": 44.86788489369196,
+      "eval_chrf": 69.67814444050612,
+      "eval_loss": 0.9908636212348938,
+      "eval_runtime": 97.0809,
+      "eval_samples_per_second": 8.405,
+      "eval_steps_per_second": 1.051,
+      "step": 11200
+    },
+    {
+      "epoch": 3.246193622522264,
+      "grad_norm": 5.359325408935547,
+      "learning_rate": 1.2278655558747484e-05,
+      "loss": 0.9402,
+      "step": 11300
+    },
+    {
+      "epoch": 3.274920999712726,
+      "grad_norm": 5.0644612312316895,
+      "learning_rate": 1.2077563918414248e-05,
+      "loss": 0.9357,
+      "step": 11400
+    },
+    {
+      "epoch": 3.3036483769031886,
+      "grad_norm": 3.8930866718292236,
+      "learning_rate": 1.187647227808101e-05,
+      "loss": 0.9476,
+      "step": 11500
+    },
+    {
+      "epoch": 3.3323757540936514,
+      "grad_norm": 2.5604605674743652,
+      "learning_rate": 1.1675380637747773e-05,
+      "loss": 0.9173,
+      "step": 11600
+    },
+    {
+      "epoch": 3.3323757540936514,
+      "eval_bleu": 45.52285105667052,
+      "eval_chrf": 69.98913215954698,
+      "eval_loss": 0.9875417947769165,
+      "eval_runtime": 96.2372,
+      "eval_samples_per_second": 8.479,
+      "eval_steps_per_second": 1.06,
+      "step": 11600
+    },
+    {
+      "epoch": 3.3611031312841138,
+      "grad_norm": 3.812286853790283,
+      "learning_rate": 1.1474288997414535e-05,
+      "loss": 0.9624,
+      "step": 11700
+    },
+    {
+      "epoch": 3.389830508474576,
+      "grad_norm": 4.970190048217773,
+      "learning_rate": 1.1273197357081299e-05,
+      "loss": 0.9315,
+      "step": 11800
+    },
+    {
+      "epoch": 3.418557885665039,
+      "grad_norm": 4.663548469543457,
+      "learning_rate": 1.107210571674806e-05,
+      "loss": 0.9257,
+      "step": 11900
+    },
+    {
+      "epoch": 3.4472852628555013,
+      "grad_norm": 5.273872375488281,
+      "learning_rate": 1.0871014076414823e-05,
+      "loss": 0.968,
+      "step": 12000
+    },
+    {
+      "epoch": 3.4472852628555013,
+      "eval_bleu": 45.32133917023191,
+      "eval_chrf": 69.85397927785405,
+      "eval_loss": 0.9833332896232605,
+      "eval_runtime": 96.1663,
+      "eval_samples_per_second": 8.485,
+      "eval_steps_per_second": 1.061,
+      "step": 12000
+    },
+    {
+      "epoch": 3.4760126400459637,
+      "grad_norm": 3.624070882797241,
+      "learning_rate": 1.0669922436081585e-05,
+      "loss": 0.9552,
+      "step": 12100
+    },
+    {
+      "epoch": 3.5047400172364265,
+      "grad_norm": 3.9386630058288574,
+      "learning_rate": 1.0468830795748347e-05,
+      "loss": 0.9975,
+      "step": 12200
+    },
+    {
+      "epoch": 3.533467394426889,
+      "grad_norm": 3.272144317626953,
+      "learning_rate": 1.026773915541511e-05,
+      "loss": 0.8777,
+      "step": 12300
+    },
+    {
+      "epoch": 3.562194771617351,
+      "grad_norm": 4.805718898773193,
+      "learning_rate": 1.0066647515081872e-05,
+      "loss": 0.9949,
+      "step": 12400
+    },
+    {
+      "epoch": 3.562194771617351,
+      "eval_bleu": 45.55482284185368,
+      "eval_chrf": 69.95827933302967,
+      "eval_loss": 0.9825245141983032,
+      "eval_runtime": 96.6388,
+      "eval_samples_per_second": 8.444,
+      "eval_steps_per_second": 1.055,
+      "step": 12400
+    },
+    {
+      "epoch": 3.590922148807814,
+      "grad_norm": 4.920676231384277,
+      "learning_rate": 9.865555874748634e-06,
+      "loss": 1.0276,
+      "step": 12500
+    },
+    {
+      "epoch": 3.6196495259982764,
+      "grad_norm": 6.698337554931641,
+      "learning_rate": 9.664464234415396e-06,
+      "loss": 0.9667,
+      "step": 12600
+    },
+    {
+      "epoch": 3.6483769031887388,
+      "grad_norm": 4.400453567504883,
+      "learning_rate": 9.46337259408216e-06,
+      "loss": 0.9661,
+      "step": 12700
+    },
+    {
+      "epoch": 3.6771042803792016,
+      "grad_norm": 4.711784839630127,
+      "learning_rate": 9.262280953748922e-06,
+      "loss": 0.94,
+      "step": 12800
+    },
+    {
+      "epoch": 3.6771042803792016,
+      "eval_bleu": 45.46850521898221,
+      "eval_chrf": 69.87260183216233,
+      "eval_loss": 0.984427809715271,
+      "eval_runtime": 96.1804,
+      "eval_samples_per_second": 8.484,
+      "eval_steps_per_second": 1.061,
+      "step": 12800
+    },
+    {
+      "epoch": 3.705831657569664,
+      "grad_norm": 5.415602207183838,
+      "learning_rate": 9.061189313415684e-06,
+      "loss": 0.9306,
+      "step": 12900
+    },
+    {
+      "epoch": 3.7345590347601263,
+      "grad_norm": 4.637047290802002,
+      "learning_rate": 8.860097673082446e-06,
+      "loss": 0.923,
+      "step": 13000
+    },
+    {
+      "epoch": 3.763286411950589,
+      "grad_norm": 3.9064526557922363,
+      "learning_rate": 8.65900603274921e-06,
+      "loss": 0.9034,
+      "step": 13100
+    },
+    {
+      "epoch": 3.7920137891410515,
+      "grad_norm": 4.590717792510986,
+      "learning_rate": 8.457914392415972e-06,
+      "loss": 0.9283,
+      "step": 13200
+    },
+    {
+      "epoch": 3.7920137891410515,
+      "eval_bleu": 45.36403316661577,
+      "eval_chrf": 69.79708022162536,
+      "eval_loss": 0.9839698672294617,
+      "eval_runtime": 96.5576,
+      "eval_samples_per_second": 8.451,
+      "eval_steps_per_second": 1.056,
+      "step": 13200
+    },
+    {
+      "epoch": 3.820741166331514,
+      "grad_norm": 3.184018611907959,
+      "learning_rate": 8.256822752082735e-06,
+      "loss": 0.9431,
+      "step": 13300
+    },
+    {
+      "epoch": 3.8494685435219766,
+      "grad_norm": 5.2427449226379395,
+      "learning_rate": 8.055731111749497e-06,
+      "loss": 0.9175,
+      "step": 13400
+    },
+    {
+      "epoch": 3.878195920712439,
+      "grad_norm": 4.087272644042969,
+      "learning_rate": 7.854639471416259e-06,
+      "loss": 0.9204,
+      "step": 13500
+    },
+    {
+      "epoch": 3.9069232979029014,
+      "grad_norm": 3.3691282272338867,
+      "learning_rate": 7.653547831083021e-06,
+      "loss": 0.9239,
+      "step": 13600
+    },
+    {
+      "epoch": 3.9069232979029014,
+      "eval_bleu": 45.45276331869471,
+      "eval_chrf": 69.95136404450032,
+      "eval_loss": 0.9811603426933289,
+      "eval_runtime": 96.502,
+      "eval_samples_per_second": 8.456,
+      "eval_steps_per_second": 1.057,
+      "step": 13600
+    },
+    {
+      "epoch": 3.935650675093364,
+      "grad_norm": 3.8877460956573486,
+      "learning_rate": 7.452456190749784e-06,
+      "loss": 0.9371,
+      "step": 13700
+    },
+    {
+      "epoch": 3.9643780522838266,
+      "grad_norm": 3.848369836807251,
+      "learning_rate": 7.251364550416546e-06,
+      "loss": 0.9284,
+      "step": 13800
+    },
+    {
+      "epoch": 3.993105429474289,
+      "grad_norm": 3.9678354263305664,
+      "learning_rate": 7.0502729100833085e-06,
+      "loss": 0.9303,
+      "step": 13900
+    },
+    {
+      "epoch": 4.021832806664752,
+      "grad_norm": 3.6919009685516357,
+      "learning_rate": 6.849181269750071e-06,
+      "loss": 0.926,
+      "step": 14000
+    },
+    {
+      "epoch": 4.021832806664752,
+      "eval_bleu": 45.58281536674216,
+      "eval_chrf": 69.89625294733818,
+      "eval_loss": 0.9837493896484375,
+      "eval_runtime": 96.3768,
+      "eval_samples_per_second": 8.467,
+      "eval_steps_per_second": 1.058,
+      "step": 14000
+    },
+    {
+      "epoch": 4.050560183855214,
+      "grad_norm": 4.469439506530762,
+      "learning_rate": 6.648089629416834e-06,
+      "loss": 0.9154,
+      "step": 14100
+    },
+    {
+      "epoch": 4.0792875610456765,
+      "grad_norm": 3.113417148590088,
+      "learning_rate": 6.446997989083597e-06,
+      "loss": 0.9142,
+      "step": 14200
+    },
+    {
+      "epoch": 4.108014938236139,
+      "grad_norm": 4.672985076904297,
+      "learning_rate": 6.245906348750359e-06,
+      "loss": 0.9569,
+      "step": 14300
+    },
+    {
+      "epoch": 4.136742315426601,
+      "grad_norm": 3.867658853530884,
+      "learning_rate": 6.044814708417121e-06,
+      "loss": 0.9083,
+      "step": 14400
+    },
+    {
+      "epoch": 4.136742315426601,
+      "eval_bleu": 45.69719220756097,
+      "eval_chrf": 70.00557701215436,
+      "eval_loss": 0.9808344841003418,
+      "eval_runtime": 95.9409,
+      "eval_samples_per_second": 8.505,
+      "eval_steps_per_second": 1.063,
+      "step": 14400
+    },
+    {
+      "epoch": 4.165469692617064,
+      "grad_norm": 5.639285087585449,
+      "learning_rate": 5.843723068083883e-06,
+      "loss": 0.955,
+      "step": 14500
+    },
+    {
+      "epoch": 4.194197069807527,
+      "grad_norm": 6.473118305206299,
+      "learning_rate": 5.642631427750645e-06,
+      "loss": 0.908,
+      "step": 14600
+    },
+    {
+      "epoch": 4.222924446997989,
+      "grad_norm": 3.8311145305633545,
+      "learning_rate": 5.441539787417408e-06,
+      "loss": 0.8807,
+      "step": 14700
+    },
+    {
+      "epoch": 4.251651824188452,
+      "grad_norm": 4.5824713706970215,
+      "learning_rate": 5.2404481470841715e-06,
+      "loss": 0.9582,
+      "step": 14800
+    },
+    {
+      "epoch": 4.251651824188452,
+      "eval_bleu": 45.491128667326144,
+      "eval_chrf": 69.78846486375005,
+      "eval_loss": 0.9811265468597412,
+      "eval_runtime": 95.7284,
+      "eval_samples_per_second": 8.524,
+      "eval_steps_per_second": 1.066,
+      "step": 14800
+    },
+    {
+      "epoch": 4.280379201378914,
+      "grad_norm": 3.3168869018554688,
+      "learning_rate": 5.039356506750934e-06,
+      "loss": 0.905,
+      "step": 14900
+    },
+    {
+      "epoch": 4.309106578569376,
+      "grad_norm": 4.996278285980225,
+      "learning_rate": 4.838264866417696e-06,
+      "loss": 0.9318,
+      "step": 15000
+    },
+    {
+      "epoch": 4.337833955759839,
+      "grad_norm": 3.3141753673553467,
+      "learning_rate": 4.637173226084458e-06,
+      "loss": 0.9484,
+      "step": 15100
+    },
+    {
+      "epoch": 4.366561332950302,
+      "grad_norm": 5.22437858581543,
+      "learning_rate": 4.43608158575122e-06,
+      "loss": 0.9509,
+      "step": 15200
+    },
+    {
+      "epoch": 4.366561332950302,
+      "eval_bleu": 45.30090194764136,
+      "eval_chrf": 69.70965638946056,
+      "eval_loss": 0.9816325306892395,
+      "eval_runtime": 96.1093,
+      "eval_samples_per_second": 8.49,
+      "eval_steps_per_second": 1.061,
+      "step": 15200
+    },
+    {
+      "epoch": 4.395288710140764,
+      "grad_norm": 2.9990546703338623,
+      "learning_rate": 4.234989945417983e-06,
+      "loss": 0.9515,
+      "step": 15300
+    },
+    {
+      "epoch": 4.424016087331227,
+      "grad_norm": 4.750415802001953,
+      "learning_rate": 4.033898305084745e-06,
+      "loss": 0.9212,
+      "step": 15400
+    },
+    {
+      "epoch": 4.4527434645216895,
+      "grad_norm": 4.545401573181152,
+      "learning_rate": 3.8328066647515075e-06,
+      "loss": 0.9054,
+      "step": 15500
+    },
+    {
+      "epoch": 4.481470841712151,
+      "grad_norm": 7.730736255645752,
+      "learning_rate": 3.6317150244182706e-06,
+      "loss": 0.9476,
+      "step": 15600
+    },
+    {
+      "epoch": 4.481470841712151,
+      "eval_bleu": 45.50584441125612,
+      "eval_chrf": 69.82630096157298,
+      "eval_loss": 0.9792063236236572,
+      "eval_runtime": 96.5086,
+      "eval_samples_per_second": 8.455,
+      "eval_steps_per_second": 1.057,
+      "step": 15600
+    },
+    {
+      "epoch": 4.510198218902614,
+      "grad_norm": 5.245133876800537,
+      "learning_rate": 3.4306233840850327e-06,
+      "loss": 0.9284,
+      "step": 15700
+    },
+    {
+      "epoch": 4.538925596093077,
+      "grad_norm": 8.488020896911621,
+      "learning_rate": 3.229531743751795e-06,
+      "loss": 0.9276,
+      "step": 15800
+    },
+    {
+      "epoch": 4.567652973283539,
+      "grad_norm": 3.835139751434326,
+      "learning_rate": 3.028440103418558e-06,
+      "loss": 0.9217,
+      "step": 15900
+    },
+    {
+      "epoch": 4.596380350474002,
+      "grad_norm": 7.393352508544922,
+      "learning_rate": 2.82734846308532e-06,
+      "loss": 0.9308,
+      "step": 16000
+    },
+    {
+      "epoch": 4.596380350474002,
+      "eval_bleu": 45.590601518193715,
+      "eval_chrf": 69.80956789483677,
+      "eval_loss": 0.9778218865394592,
+      "eval_runtime": 95.9136,
+      "eval_samples_per_second": 8.508,
+      "eval_steps_per_second": 1.063,
+      "step": 16000
+    },
+    {
+      "epoch": 4.6251077276644645,
+      "grad_norm": 2.7596733570098877,
+      "learning_rate": 2.6262568227520823e-06,
+      "loss": 0.9257,
+      "step": 16100
+    },
+    {
+      "epoch": 4.6538351048549265,
+      "grad_norm": 3.292307138442993,
+      "learning_rate": 2.425165182418845e-06,
+      "loss": 0.9412,
+      "step": 16200
+    },
+    {
+      "epoch": 4.682562482045389,
+      "grad_norm": 4.457400798797607,
+      "learning_rate": 2.2240735420856075e-06,
+      "loss": 0.9047,
+      "step": 16300
+    },
+    {
+      "epoch": 4.711289859235852,
+      "grad_norm": 3.834993362426758,
+      "learning_rate": 2.0229819017523696e-06,
+      "loss": 0.9473,
+      "step": 16400
+    },
+    {
+      "epoch": 4.711289859235852,
+      "eval_bleu": 45.58715450124686,
+      "eval_chrf": 69.84194121674784,
+      "eval_loss": 0.9792063236236572,
+      "eval_runtime": 96.0002,
+      "eval_samples_per_second": 8.5,
+      "eval_steps_per_second": 1.062,
+      "step": 16400
+    },
+    {
+      "epoch": 4.740017236426314,
+      "grad_norm": 6.808932304382324,
+      "learning_rate": 1.8218902614191322e-06,
+      "loss": 0.936,
+      "step": 16500
+    },
+    {
+      "epoch": 4.768744613616777,
+      "grad_norm": 4.363387584686279,
+      "learning_rate": 1.6207986210858948e-06,
+      "loss": 0.9441,
+      "step": 16600
+    },
+    {
+      "epoch": 4.79747199080724,
+      "grad_norm": 4.4117207527160645,
+      "learning_rate": 1.419706980752657e-06,
+      "loss": 0.8911,
+      "step": 16700
+    },
+    {
+      "epoch": 4.8261993679977016,
+      "grad_norm": 3.518254041671753,
+      "learning_rate": 1.2186153404194196e-06,
+      "loss": 0.8976,
+      "step": 16800
+    },
+    {
+      "epoch": 4.8261993679977016,
+      "eval_bleu": 45.53459878251091,
+      "eval_chrf": 69.83862737825717,
+      "eval_loss": 0.9769607186317444,
+      "eval_runtime": 97.0944,
+      "eval_samples_per_second": 8.404,
+      "eval_steps_per_second": 1.051,
+      "step": 16800
+    },
+    {
+      "epoch": 4.854926745188164,
+      "grad_norm": 3.083101272583008,
+      "learning_rate": 1.017523700086182e-06,
+      "loss": 0.9441,
+      "step": 16900
+    },
+    {
+      "epoch": 4.883654122378627,
+      "grad_norm": 3.4856061935424805,
+      "learning_rate": 8.164320597529445e-07,
+      "loss": 0.9502,
+      "step": 17000
+    },
+    {
+      "epoch": 4.912381499569089,
+      "grad_norm": 4.190710067749023,
+      "learning_rate": 6.15340419419707e-07,
+      "loss": 0.8723,
+      "step": 17100
+    },
+    {
+      "epoch": 4.941108876759552,
+      "grad_norm": 4.440817356109619,
+      "learning_rate": 4.1424877908646937e-07,
+      "loss": 0.8778,
+      "step": 17200
+    },
+    {
+      "epoch": 4.941108876759552,
+      "eval_bleu": 45.58580948868277,
+      "eval_chrf": 69.90139019717897,
+      "eval_loss": 0.9762945175170898,
+      "eval_runtime": 96.1964,
+      "eval_samples_per_second": 8.483,
+      "eval_steps_per_second": 1.06,
+      "step": 17200
+    },
+    {
+      "epoch": 4.969836253950015,
+      "grad_norm": 4.020137786865234,
+      "learning_rate": 2.131571387532318e-07,
+      "loss": 0.9407,
+      "step": 17300
+    },
+    {
+      "epoch": 4.998563631140477,
+      "grad_norm": 24.651016235351562,
+      "learning_rate": 1.2065498419994253e-08,
+      "loss": 0.9964,
+      "step": 17400
     }
   ],
   "logging_steps": 100,
+  "max_steps": 17405,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 400,
   "stateful_callbacks": {
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 4.76634010484736e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c569ee8bfa824e15f7ea34dff282d6cfba522dc5377663ba7e9fb590f959a53d
 size 5905

 version https://git-lfs.github.com/spec/v1
+oid sha256:1490ccf8fe424c3a3ae1d43d264b9201ab09ecd3fe396ea763d20c92d88354da
 size 5905