Training in progress, step 4500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +503 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:835db88c2c568a2a5b9eecd0ca20228d562ccd37375f6d5e37ee4f667bd5c028
 size 9446744

 version https://git-lfs.github.com/spec/v1
+oid sha256:b732646b1016d0368b94920529e0e03c133894ca8756d67e145a97d90d254777
 size 9446744

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bde2b53b9a0c26662086027ef84b0578651b731c913f116872da22f0740efeab
 size 4879947

 version https://git-lfs.github.com/spec/v1
+oid sha256:d1728e885cf58302b2e8ae68b6c9f146637db471aa0ed43e5c883bad6235443e
 size 4879947

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa8f41c51c4c045061b2c14ad0e244d1f18ea14e355c0937c51abc1c22235765
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:16de339ad05cf2ba88ca8586907951353749d574c9326b3098589fb0f62ac32e
 size 14917

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fcdef9cce1358b15f98ec011b2742b883d23020479104f9b5467277f0c257b88
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:2cefe33faabb000e8f719c6f02e0099d6289469d78aca45133006441981cd323
 size 14917

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0033c7745b46bdca3ecab5787678834ca68f7f7e1288869dceeb38812abc253
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:b62db0ba9861d9ab63380744e79a287faa461a1bf55700140a411fe1e976f1cd
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f5ee800e7df74b641553b418c04566b716dade6c517cb6fd519bb2168d1739f3
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:b41aa0c086667ab13fd1c3da2f8b431d894c7368cafdbcdd2e5351f4800eddf8
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.873415001074576,
   "eval_steps": 500,
-  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4008,6 +4008,506 @@
       "mean_token_accuracy": 0.6625144556164742,
       "num_tokens": 23764831.0,
       "step": 4000
     }
   ],
   "logging_steps": 10,
@@ -4027,7 +4527,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.951545327353856e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 7.732430689877498,
   "eval_steps": 500,
+  "global_step": 4500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.6625144556164742,
       "num_tokens": 23764831.0,
       "step": 4000
+    },
+    {
+      "entropy": 1.699565550684929,
+      "epoch": 6.890608209757146,
+      "grad_norm": 0.7662839889526367,
+      "learning_rate": 3.964e-05,
+      "loss": 1.7373327255249023,
+      "mean_token_accuracy": 0.6809282444417477,
+      "num_tokens": 23825367.0,
+      "step": 4010
+    },
+    {
+      "entropy": 1.6455101184546947,
+      "epoch": 6.907801418439716,
+      "grad_norm": 0.7619901299476624,
+      "learning_rate": 3.9240000000000004e-05,
+      "loss": 1.709805679321289,
+      "mean_token_accuracy": 0.6812954246997833,
+      "num_tokens": 23887369.0,
+      "step": 4020
+    },
+    {
+      "entropy": 1.7952800825238229,
+      "epoch": 6.924994627122286,
+      "grad_norm": 0.7858437299728394,
+      "learning_rate": 3.884e-05,
+      "loss": 1.8688398361206056,
+      "mean_token_accuracy": 0.6621494639664889,
+      "num_tokens": 23949358.0,
+      "step": 4030
+    },
+    {
+      "entropy": 1.772008201479912,
+      "epoch": 6.942187835804857,
+      "grad_norm": 0.7586779594421387,
+      "learning_rate": 3.8440000000000005e-05,
+      "loss": 1.798760986328125,
+      "mean_token_accuracy": 0.667642817273736,
+      "num_tokens": 24009691.0,
+      "step": 4040
+    },
+    {
+      "entropy": 1.7289930269122125,
+      "epoch": 6.959381044487428,
+      "grad_norm": 0.854505717754364,
+      "learning_rate": 3.804e-05,
+      "loss": 1.771562385559082,
+      "mean_token_accuracy": 0.6692178774625063,
+      "num_tokens": 24064506.0,
+      "step": 4050
+    },
+    {
+      "entropy": 1.715189914405346,
+      "epoch": 6.976574253169998,
+      "grad_norm": 0.758488655090332,
+      "learning_rate": 3.7640000000000006e-05,
+      "loss": 1.756412887573242,
+      "mean_token_accuracy": 0.6710222817957401,
+      "num_tokens": 24126841.0,
+      "step": 4060
+    },
+    {
+      "entropy": 1.7383173301815986,
+      "epoch": 6.993767461852569,
+      "grad_norm": 0.7450618147850037,
+      "learning_rate": 3.724e-05,
+      "loss": 1.7997669219970702,
+      "mean_token_accuracy": 0.6649864386767149,
+      "num_tokens": 24186159.0,
+      "step": 4070
+    },
+    {
+      "entropy": 1.7172312767474682,
+      "epoch": 7.010315925209542,
+      "grad_norm": 0.8475770950317383,
+      "learning_rate": 3.684e-05,
+      "loss": 1.7585922241210938,
+      "mean_token_accuracy": 0.6746863397684965,
+      "num_tokens": 24239759.0,
+      "step": 4080
+    },
+    {
+      "entropy": 1.7192407630383968,
+      "epoch": 7.027509133892113,
+      "grad_norm": 0.7818967700004578,
+      "learning_rate": 3.6440000000000003e-05,
+      "loss": 1.7634265899658204,
+      "mean_token_accuracy": 0.6724576361477375,
+      "num_tokens": 24298775.0,
+      "step": 4090
+    },
+    {
+      "entropy": 1.7496131911873818,
+      "epoch": 7.044702342574683,
+      "grad_norm": 0.8118335008621216,
+      "learning_rate": 3.604e-05,
+      "loss": 1.802253532409668,
+      "mean_token_accuracy": 0.6702191606163979,
+      "num_tokens": 24361142.0,
+      "step": 4100
+    },
+    {
+      "entropy": 1.7090509735047816,
+      "epoch": 7.061895551257253,
+      "grad_norm": 0.8414726257324219,
+      "learning_rate": 3.5640000000000004e-05,
+      "loss": 1.7347373962402344,
+      "mean_token_accuracy": 0.679864277690649,
+      "num_tokens": 24419838.0,
+      "step": 4110
+    },
+    {
+      "entropy": 1.6807728812098504,
+      "epoch": 7.079088759939824,
+      "grad_norm": 0.8567139506340027,
+      "learning_rate": 3.524e-05,
+      "loss": 1.7365150451660156,
+      "mean_token_accuracy": 0.6765194039791822,
+      "num_tokens": 24477518.0,
+      "step": 4120
+    },
+    {
+      "entropy": 1.709678091108799,
+      "epoch": 7.096281968622394,
+      "grad_norm": 0.8345620036125183,
+      "learning_rate": 3.484e-05,
+      "loss": 1.730575180053711,
+      "mean_token_accuracy": 0.6709145799279213,
+      "num_tokens": 24534560.0,
+      "step": 4130
+    },
+    {
+      "entropy": 1.6541544690728187,
+      "epoch": 7.113475177304965,
+      "grad_norm": 0.8509814143180847,
+      "learning_rate": 3.444e-05,
+      "loss": 1.6795757293701172,
+      "mean_token_accuracy": 0.6856038823723793,
+      "num_tokens": 24594829.0,
+      "step": 4140
+    },
+    {
+      "entropy": 1.7498343527317046,
+      "epoch": 7.130668385987535,
+      "grad_norm": 0.8674039244651794,
+      "learning_rate": 3.404e-05,
+      "loss": 1.8083892822265626,
+      "mean_token_accuracy": 0.6709578204900026,
+      "num_tokens": 24656798.0,
+      "step": 4150
+    },
+    {
+      "entropy": 1.677807478606701,
+      "epoch": 7.147861594670105,
+      "grad_norm": 0.8016234040260315,
+      "learning_rate": 3.3639999999999996e-05,
+      "loss": 1.7206790924072266,
+      "mean_token_accuracy": 0.6754934191703796,
+      "num_tokens": 24714009.0,
+      "step": 4160
+    },
+    {
+      "entropy": 1.672835360467434,
+      "epoch": 7.1650548033526755,
+      "grad_norm": 0.7139334082603455,
+      "learning_rate": 3.324e-05,
+      "loss": 1.7049163818359374,
+      "mean_token_accuracy": 0.6851269513368606,
+      "num_tokens": 24778022.0,
+      "step": 4170
+    },
+    {
+      "entropy": 1.6577355667948723,
+      "epoch": 7.182248012035246,
+      "grad_norm": 0.9129847288131714,
+      "learning_rate": 3.2840000000000004e-05,
+      "loss": 1.7073640823364258,
+      "mean_token_accuracy": 0.6768647953867912,
+      "num_tokens": 24837669.0,
+      "step": 4180
+    },
+    {
+      "entropy": 1.7049853071570396,
+      "epoch": 7.199441220717817,
+      "grad_norm": 0.7545643448829651,
+      "learning_rate": 3.244e-05,
+      "loss": 1.754374122619629,
+      "mean_token_accuracy": 0.6808854278177023,
+      "num_tokens": 24898991.0,
+      "step": 4190
+    },
+    {
+      "entropy": 1.6785477355122567,
+      "epoch": 7.216634429400387,
+      "grad_norm": 0.8802333474159241,
+      "learning_rate": 3.2040000000000005e-05,
+      "loss": 1.6974828720092774,
+      "mean_token_accuracy": 0.6824289247393608,
+      "num_tokens": 24957348.0,
+      "step": 4200
+    },
+    {
+      "entropy": 1.7312355414032936,
+      "epoch": 7.233827638082957,
+      "grad_norm": 0.8227038383483887,
+      "learning_rate": 3.164e-05,
+      "loss": 1.7645183563232423,
+      "mean_token_accuracy": 0.6661410238593817,
+      "num_tokens": 25016658.0,
+      "step": 4210
+    },
+    {
+      "entropy": 1.8124181643128394,
+      "epoch": 7.2510208467655275,
+      "grad_norm": 0.8563106060028076,
+      "learning_rate": 3.1240000000000006e-05,
+      "loss": 1.8163776397705078,
+      "mean_token_accuracy": 0.6610642150044441,
+      "num_tokens": 25074658.0,
+      "step": 4220
+    },
+    {
+      "entropy": 1.776869924366474,
+      "epoch": 7.268214055448098,
+      "grad_norm": 0.8615058064460754,
+      "learning_rate": 3.084e-05,
+      "loss": 1.861563491821289,
+      "mean_token_accuracy": 0.6624562762677669,
+      "num_tokens": 25132732.0,
+      "step": 4230
+    },
+    {
+      "entropy": 1.742109003663063,
+      "epoch": 7.285407264130669,
+      "grad_norm": 0.7851050496101379,
+      "learning_rate": 3.0440000000000003e-05,
+      "loss": 1.7527351379394531,
+      "mean_token_accuracy": 0.6712357953190804,
+      "num_tokens": 25194009.0,
+      "step": 4240
+    },
+    {
+      "entropy": 1.7356494843959809,
+      "epoch": 7.302600472813239,
+      "grad_norm": 0.8842288255691528,
+      "learning_rate": 3.004e-05,
+      "loss": 1.8091196060180663,
+      "mean_token_accuracy": 0.6680308949202299,
+      "num_tokens": 25250681.0,
+      "step": 4250
+    },
+    {
+      "entropy": 1.714112138748169,
+      "epoch": 7.319793681495809,
+      "grad_norm": 0.8050926923751831,
+      "learning_rate": 2.964e-05,
+      "loss": 1.741617774963379,
+      "mean_token_accuracy": 0.6764710985124112,
+      "num_tokens": 25307119.0,
+      "step": 4260
+    },
+    {
+      "entropy": 1.7806825146079064,
+      "epoch": 7.3369868901783795,
+      "grad_norm": 0.755797803401947,
+      "learning_rate": 2.924e-05,
+      "loss": 1.8448747634887694,
+      "mean_token_accuracy": 0.6646751999855042,
+      "num_tokens": 25365721.0,
+      "step": 4270
+    },
+    {
+      "entropy": 1.7478718511760234,
+      "epoch": 7.35418009886095,
+      "grad_norm": 0.8148614764213562,
+      "learning_rate": 2.8840000000000002e-05,
+      "loss": 1.8303293228149413,
+      "mean_token_accuracy": 0.6662985436618328,
+      "num_tokens": 25423309.0,
+      "step": 4280
+    },
+    {
+      "entropy": 1.6996045634150505,
+      "epoch": 7.371373307543521,
+      "grad_norm": 0.7613778114318848,
+      "learning_rate": 2.844e-05,
+      "loss": 1.7077817916870117,
+      "mean_token_accuracy": 0.679437268525362,
+      "num_tokens": 25480080.0,
+      "step": 4290
+    },
+    {
+      "entropy": 1.8055237784981728,
+      "epoch": 7.38856651622609,
+      "grad_norm": 0.899900496006012,
+      "learning_rate": 2.804e-05,
+      "loss": 1.882634735107422,
+      "mean_token_accuracy": 0.659589122608304,
+      "num_tokens": 25538885.0,
+      "step": 4300
+    },
+    {
+      "entropy": 1.6835025876760483,
+      "epoch": 7.405759724908661,
+      "grad_norm": 0.7718909382820129,
+      "learning_rate": 2.764e-05,
+      "loss": 1.7145641326904297,
+      "mean_token_accuracy": 0.6805526971817016,
+      "num_tokens": 25598830.0,
+      "step": 4310
+    },
+    {
+      "entropy": 1.7392980232834816,
+      "epoch": 7.422952933591231,
+      "grad_norm": 0.7144562005996704,
+      "learning_rate": 2.724e-05,
+      "loss": 1.7779796600341797,
+      "mean_token_accuracy": 0.6709600411355495,
+      "num_tokens": 25660275.0,
+      "step": 4320
+    },
+    {
+      "entropy": 1.7193088322877883,
+      "epoch": 7.440146142273802,
+      "grad_norm": 0.8038010001182556,
+      "learning_rate": 2.6840000000000004e-05,
+      "loss": 1.7928234100341798,
+      "mean_token_accuracy": 0.6767275612801313,
+      "num_tokens": 25719958.0,
+      "step": 4330
+    },
+    {
+      "entropy": 1.7314304433763028,
+      "epoch": 7.457339350956373,
+      "grad_norm": 0.7783089876174927,
+      "learning_rate": 2.6440000000000004e-05,
+      "loss": 1.7952003479003906,
+      "mean_token_accuracy": 0.6740467935800553,
+      "num_tokens": 25776689.0,
+      "step": 4340
+    },
+    {
+      "entropy": 1.74028614833951,
+      "epoch": 7.474532559638942,
+      "grad_norm": 0.8052565455436707,
+      "learning_rate": 2.6040000000000005e-05,
+      "loss": 1.7803146362304687,
+      "mean_token_accuracy": 0.6733121275901794,
+      "num_tokens": 25837916.0,
+      "step": 4350
+    },
+    {
+      "entropy": 1.6831192195415496,
+      "epoch": 7.491725768321513,
+      "grad_norm": 0.8941977024078369,
+      "learning_rate": 2.5640000000000002e-05,
+      "loss": 1.7077743530273437,
+      "mean_token_accuracy": 0.6749852932989597,
+      "num_tokens": 25896712.0,
+      "step": 4360
+    },
+    {
+      "entropy": 1.7840609520673751,
+      "epoch": 7.508918977004083,
+      "grad_norm": 0.818671703338623,
+      "learning_rate": 2.5240000000000002e-05,
+      "loss": 1.8329656600952149,
+      "mean_token_accuracy": 0.6679215718060731,
+      "num_tokens": 25958383.0,
+      "step": 4370
+    },
+    {
+      "entropy": 1.76528559923172,
+      "epoch": 7.526112185686654,
+      "grad_norm": 0.7579294443130493,
+      "learning_rate": 2.4840000000000003e-05,
+      "loss": 1.7914703369140625,
+      "mean_token_accuracy": 0.6695499271154404,
+      "num_tokens": 26017754.0,
+      "step": 4380
+    },
+    {
+      "entropy": 1.704708030819893,
+      "epoch": 7.5433053943692245,
+      "grad_norm": 0.8200159668922424,
+      "learning_rate": 2.4440000000000003e-05,
+      "loss": 1.774311637878418,
+      "mean_token_accuracy": 0.6739427134394645,
+      "num_tokens": 26075760.0,
+      "step": 4390
+    },
+    {
+      "entropy": 1.7540104657411575,
+      "epoch": 7.560498603051794,
+      "grad_norm": 0.8373399972915649,
+      "learning_rate": 2.404e-05,
+      "loss": 1.796240997314453,
+      "mean_token_accuracy": 0.6640590511262416,
+      "num_tokens": 26133858.0,
+      "step": 4400
+    },
+    {
+      "entropy": 1.754172220826149,
+      "epoch": 7.577691811734365,
+      "grad_norm": 0.7368677258491516,
+      "learning_rate": 2.364e-05,
+      "loss": 1.8175994873046875,
+      "mean_token_accuracy": 0.6717667855322361,
+      "num_tokens": 26197518.0,
+      "step": 4410
+    },
+    {
+      "entropy": 1.6564558774232865,
+      "epoch": 7.594885020416935,
+      "grad_norm": 0.8868939280509949,
+      "learning_rate": 2.324e-05,
+      "loss": 1.669070053100586,
+      "mean_token_accuracy": 0.6839951984584332,
+      "num_tokens": 26250823.0,
+      "step": 4420
+    },
+    {
+      "entropy": 1.7594470486044884,
+      "epoch": 7.612078229099506,
+      "grad_norm": 0.86412513256073,
+      "learning_rate": 2.284e-05,
+      "loss": 1.8095222473144532,
+      "mean_token_accuracy": 0.666244950518012,
+      "num_tokens": 26312548.0,
+      "step": 4430
+    },
+    {
+      "entropy": 1.7646627604961396,
+      "epoch": 7.6292714377820765,
+      "grad_norm": 0.7128214836120605,
+      "learning_rate": 2.244e-05,
+      "loss": 1.832158660888672,
+      "mean_token_accuracy": 0.6679420609027147,
+      "num_tokens": 26376747.0,
+      "step": 4440
+    },
+    {
+      "entropy": 1.7401177063584328,
+      "epoch": 7.646464646464646,
+      "grad_norm": 0.7479432225227356,
+      "learning_rate": 2.2040000000000002e-05,
+      "loss": 1.7779264450073242,
+      "mean_token_accuracy": 0.6710429213941097,
+      "num_tokens": 26438907.0,
+      "step": 4450
+    },
+    {
+      "entropy": 1.6960709124803544,
+      "epoch": 7.663657855147217,
+      "grad_norm": 0.8182732462882996,
+      "learning_rate": 2.1640000000000003e-05,
+      "loss": 1.7709745407104491,
+      "mean_token_accuracy": 0.6782359674572944,
+      "num_tokens": 26499840.0,
+      "step": 4460
+    },
+    {
+      "entropy": 1.8024938970804214,
+      "epoch": 7.680851063829787,
+      "grad_norm": 0.8208670020103455,
+      "learning_rate": 2.124e-05,
+      "loss": 1.8752277374267579,
+      "mean_token_accuracy": 0.6610838636755944,
+      "num_tokens": 26561739.0,
+      "step": 4470
+    },
+    {
+      "entropy": 1.6679524429142476,
+      "epoch": 7.698044272512358,
+      "grad_norm": 0.7669119834899902,
+      "learning_rate": 2.084e-05,
+      "loss": 1.6840700149536132,
+      "mean_token_accuracy": 0.6839361816644669,
+      "num_tokens": 26618997.0,
+      "step": 4480
+    },
+    {
+      "entropy": 1.669876104593277,
+      "epoch": 7.715237481194928,
+      "grad_norm": 0.8296427130699158,
+      "learning_rate": 2.044e-05,
+      "loss": 1.6926704406738282,
+      "mean_token_accuracy": 0.6837400387972593,
+      "num_tokens": 26677617.0,
+      "step": 4490
+    },
+    {
+      "entropy": 1.7478768080472946,
+      "epoch": 7.732430689877498,
+      "grad_norm": 0.9231081008911133,
+      "learning_rate": 2.004e-05,
+      "loss": 1.8043970108032226,
+      "mean_token_accuracy": 0.6680058591067791,
+      "num_tokens": 26735542.0,
+      "step": 4500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.19451190411264e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null