Training in progress, step 4680, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +293 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a93ca27c93bb18118dc8faf2e9e6f8dd528574415ecd725b43e22e5bed162969
 size 70430032

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a6492ef322d5597fea48d081cb22f028e55d23c7221c1f5d2c0d52b36383977
 size 70430032

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1087e683ebd568a145ddfabb7d2efe7d820451cbb4ec74cd3bab8abd48801ea
 size 141058579

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c9b537d59fc8f54ed6f9bc67a07461d112b9d35e7bdba97c29c8aeae6b9c47d
 size 141058579

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3240f0aebc4d6a296fd2d5c3d89b0dfb51f76d5bee9087d1bdcb98f947fcc35d
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:627c156134610fd8bc9611a809d7d0e96a5b62384327d5b22ed21fa23dd24cb0
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13a20148b8ca05863768cad01be7d695bc69f08669f517b5f3fd3a6d6e738c47
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a7021d506222316729103157c09f6bde2051538c7c9b802480f486047db26ae
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9365333333333333,
   "eval_steps": 500,
-  "global_step": 4390,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4408,6 +4408,296 @@
       "mean_token_accuracy": 0.764773941040039,
       "num_tokens": 20432372.0,
       "step": 4390
     }
   ],
   "logging_steps": 10,
@@ -4427,7 +4717,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.673928307549082e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9984,
   "eval_steps": 500,
+  "global_step": 4680,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.764773941040039,
       "num_tokens": 20432372.0,
       "step": 4390
+    },
+    {
+      "entropy": 0.9848338901996613,
+      "epoch": 0.9386666666666666,
+      "grad_norm": 0.2765245735645294,
+      "learning_rate": 5.756862957908433e-05,
+      "loss": 1.1192432403564454,
+      "mean_token_accuracy": 0.7547446370124817,
+      "num_tokens": 20481366.0,
+      "step": 4400
+    },
+    {
+      "entropy": 0.9790939651429653,
+      "epoch": 0.9408,
+      "grad_norm": 0.23915551602840424,
+      "learning_rate": 5.739750748666606e-05,
+      "loss": 1.036961555480957,
+      "mean_token_accuracy": 0.7573970347642899,
+      "num_tokens": 20526985.0,
+      "step": 4410
+    },
+    {
+      "entropy": 0.9054527454078197,
+      "epoch": 0.9429333333333333,
+      "grad_norm": 0.24054944515228271,
+      "learning_rate": 5.7226296761186274e-05,
+      "loss": 0.9758554458618164,
+      "mean_token_accuracy": 0.7724366948008538,
+      "num_tokens": 20571815.0,
+      "step": 4420
+    },
+    {
+      "entropy": 0.9364707127213479,
+      "epoch": 0.9450666666666667,
+      "grad_norm": 0.28272607922554016,
+      "learning_rate": 5.705499945400223e-05,
+      "loss": 1.0225676536560058,
+      "mean_token_accuracy": 0.7622330486774445,
+      "num_tokens": 20615072.0,
+      "step": 4430
+    },
+    {
+      "entropy": 1.0657535366714002,
+      "epoch": 0.9472,
+      "grad_norm": 0.23734600841999054,
+      "learning_rate": 5.688361761750861e-05,
+      "loss": 1.1335111618041993,
+      "mean_token_accuracy": 0.7402229458093643,
+      "num_tokens": 20666534.0,
+      "step": 4440
+    },
+    {
+      "entropy": 0.9826746597886086,
+      "epoch": 0.9493333333333334,
+      "grad_norm": 0.28600969910621643,
+      "learning_rate": 5.671215330511283e-05,
+      "loss": 1.066628646850586,
+      "mean_token_accuracy": 0.7560828119516373,
+      "num_tokens": 20715376.0,
+      "step": 4450
+    },
+    {
+      "entropy": 0.9109843887388707,
+      "epoch": 0.9514666666666667,
+      "grad_norm": 0.2514685392379761,
+      "learning_rate": 5.65406085712105e-05,
+      "loss": 1.0114540100097655,
+      "mean_token_accuracy": 0.7724284827709198,
+      "num_tokens": 20758838.0,
+      "step": 4460
+    },
+    {
+      "entropy": 0.8498819716274738,
+      "epoch": 0.9536,
+      "grad_norm": 0.28889158368110657,
+      "learning_rate": 5.6368985471160804e-05,
+      "loss": 0.9062424659729004,
+      "mean_token_accuracy": 0.785689315199852,
+      "num_tokens": 20799444.0,
+      "step": 4470
+    },
+    {
+      "entropy": 0.8840778715908527,
+      "epoch": 0.9557333333333333,
+      "grad_norm": 0.2577449083328247,
+      "learning_rate": 5.6197286061261875e-05,
+      "loss": 0.9439300537109375,
+      "mean_token_accuracy": 0.7696003526449203,
+      "num_tokens": 20843766.0,
+      "step": 4480
+    },
+    {
+      "entropy": 0.8888865426182747,
+      "epoch": 0.9578666666666666,
+      "grad_norm": 0.27302756905555725,
+      "learning_rate": 5.602551239872616e-05,
+      "loss": 0.9372305870056152,
+      "mean_token_accuracy": 0.7730641543865204,
+      "num_tokens": 20888764.0,
+      "step": 4490
+    },
+    {
+      "entropy": 0.9558203481137753,
+      "epoch": 0.96,
+      "grad_norm": 0.3576233386993408,
+      "learning_rate": 5.58536665416557e-05,
+      "loss": 1.0556070327758789,
+      "mean_token_accuracy": 0.762606156617403,
+      "num_tokens": 20936028.0,
+      "step": 4500
+    },
+    {
+      "entropy": 0.9054192140698433,
+      "epoch": 0.9621333333333333,
+      "grad_norm": 0.2521965205669403,
+      "learning_rate": 5.568175054901763e-05,
+      "loss": 0.9705222129821778,
+      "mean_token_accuracy": 0.7672724887728691,
+      "num_tokens": 20985057.0,
+      "step": 4510
+    },
+    {
+      "entropy": 0.9011006608605385,
+      "epoch": 0.9642666666666667,
+      "grad_norm": 0.27024832367897034,
+      "learning_rate": 5.550976648061934e-05,
+      "loss": 0.9830186843872071,
+      "mean_token_accuracy": 0.7754541039466858,
+      "num_tokens": 21028567.0,
+      "step": 4520
+    },
+    {
+      "entropy": 0.9991332605481148,
+      "epoch": 0.9664,
+      "grad_norm": 0.2703147828578949,
+      "learning_rate": 5.533771639708388e-05,
+      "loss": 1.1589097023010253,
+      "mean_token_accuracy": 0.7532796613872051,
+      "num_tokens": 21072699.0,
+      "step": 4530
+    },
+    {
+      "entropy": 0.9183724671602249,
+      "epoch": 0.9685333333333334,
+      "grad_norm": 0.2243046760559082,
+      "learning_rate": 5.516560235982527e-05,
+      "loss": 0.9856460571289063,
+      "mean_token_accuracy": 0.771567003428936,
+      "num_tokens": 21121413.0,
+      "step": 4540
+    },
+    {
+      "entropy": 0.8655671834945678,
+      "epoch": 0.9706666666666667,
+      "grad_norm": 0.3306775987148285,
+      "learning_rate": 5.499342643102381e-05,
+      "loss": 0.9172829627990723,
+      "mean_token_accuracy": 0.777653044462204,
+      "num_tokens": 21162927.0,
+      "step": 4550
+    },
+    {
+      "entropy": 0.9436637915670871,
+      "epoch": 0.9728,
+      "grad_norm": 0.2542389929294586,
+      "learning_rate": 5.482119067360132e-05,
+      "loss": 1.0658721923828125,
+      "mean_token_accuracy": 0.767835621535778,
+      "num_tokens": 21206936.0,
+      "step": 4560
+    },
+    {
+      "entropy": 0.7974261797964572,
+      "epoch": 0.9749333333333333,
+      "grad_norm": 0.24307052791118622,
+      "learning_rate": 5.4648897151196455e-05,
+      "loss": 0.8578211784362793,
+      "mean_token_accuracy": 0.7923481151461601,
+      "num_tokens": 21252732.0,
+      "step": 4570
+    },
+    {
+      "entropy": 0.9691430673003196,
+      "epoch": 0.9770666666666666,
+      "grad_norm": 0.2720329165458679,
+      "learning_rate": 5.447654792814e-05,
+      "loss": 1.0459741592407226,
+      "mean_token_accuracy": 0.7617560073733329,
+      "num_tokens": 21298972.0,
+      "step": 4580
+    },
+    {
+      "entropy": 0.9178217075765133,
+      "epoch": 0.9792,
+      "grad_norm": 0.2640475630760193,
+      "learning_rate": 5.4304145069430115e-05,
+      "loss": 1.0324625015258788,
+      "mean_token_accuracy": 0.7745086327195168,
+      "num_tokens": 21348870.0,
+      "step": 4590
+    },
+    {
+      "entropy": 0.8973256818950176,
+      "epoch": 0.9813333333333333,
+      "grad_norm": 0.2828875184059143,
+      "learning_rate": 5.4131690640707574e-05,
+      "loss": 0.9894962310791016,
+      "mean_token_accuracy": 0.7752941563725472,
+      "num_tokens": 21390716.0,
+      "step": 4600
+    },
+    {
+      "entropy": 0.9490196861326694,
+      "epoch": 0.9834666666666667,
+      "grad_norm": 0.27414020895957947,
+      "learning_rate": 5.3959186708231046e-05,
+      "loss": 1.0264591217041015,
+      "mean_token_accuracy": 0.7639399319887161,
+      "num_tokens": 21440700.0,
+      "step": 4610
+    },
+    {
+      "entropy": 0.9219519071280956,
+      "epoch": 0.9856,
+      "grad_norm": 0.2545549273490906,
+      "learning_rate": 5.3786635338852346e-05,
+      "loss": 1.0511361122131349,
+      "mean_token_accuracy": 0.7739394150674344,
+      "num_tokens": 21483867.0,
+      "step": 4620
+    },
+    {
+      "entropy": 0.99324054941535,
+      "epoch": 0.9877333333333334,
+      "grad_norm": 0.272182434797287,
+      "learning_rate": 5.361403859999161e-05,
+      "loss": 1.116584587097168,
+      "mean_token_accuracy": 0.7553175091743469,
+      "num_tokens": 21535354.0,
+      "step": 4630
+    },
+    {
+      "entropy": 0.8828953221440315,
+      "epoch": 0.9898666666666667,
+      "grad_norm": 0.29537713527679443,
+      "learning_rate": 5.344139855961262e-05,
+      "loss": 0.9682372093200684,
+      "mean_token_accuracy": 0.7781552016735077,
+      "num_tokens": 21578265.0,
+      "step": 4640
+    },
+    {
+      "entropy": 0.9005228154361248,
+      "epoch": 0.992,
+      "grad_norm": 0.3032234013080597,
+      "learning_rate": 5.3268717286197945e-05,
+      "loss": 0.9423254013061524,
+      "mean_token_accuracy": 0.7735077708959579,
+      "num_tokens": 21618545.0,
+      "step": 4650
+    },
+    {
+      "entropy": 0.8464630447328091,
+      "epoch": 0.9941333333333333,
+      "grad_norm": 0.32000964879989624,
+      "learning_rate": 5.3095996848724184e-05,
+      "loss": 0.9030919075012207,
+      "mean_token_accuracy": 0.7863337904214859,
+      "num_tokens": 21657735.0,
+      "step": 4660
+    },
+    {
+      "entropy": 0.8923816077411175,
+      "epoch": 0.9962666666666666,
+      "grad_norm": 0.3551577627658844,
+      "learning_rate": 5.292323931663719e-05,
+      "loss": 0.9792759895324707,
+      "mean_token_accuracy": 0.7739578939974308,
+      "num_tokens": 21705183.0,
+      "step": 4670
+    },
+    {
+      "entropy": 0.9760521411895752,
+      "epoch": 0.9984,
+      "grad_norm": 0.2613706886768341,
+      "learning_rate": 5.275044675982724e-05,
+      "loss": 1.055685043334961,
+      "mean_token_accuracy": 0.7623668745160103,
+      "num_tokens": 21747104.0,
+      "step": 4680
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.0298188561140326e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null