Training in progress, step 2500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +503 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fdf2871a23de26395412fbb80cd5cfc6261483030011b659b66248a001490ba5
 size 9446744

 version https://git-lfs.github.com/spec/v1
+oid sha256:ea03fbd5faff9829b79932a9492534fbbbe2845de9ce69e896c0b8d109c1a825
 size 9446744

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13d0d3ac532ad9924ef2b3bb9206e041a19d9bb2aae0a0f9b0e9fb94268b3e2f
 size 4879947

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ca4bfe766f5a9ce1a39e0d776749658d826fc560902b47178ff40c41d18b94a
 size 4879947

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:96666620a506272b19319944e27b166707266143df40b9e008c7e67e99eb3d33
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd840ceb0cbd2bc41560fadd05ab11cb9d3690eebf99ba42e453854e5f372ed8
 size 14917

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad3ae1599c24410db8dc749055bc50d225b3704ca4ce296c6043ed130093cd3d
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e68bcbbf919727508b1f5613e7b10a32a3e07fdef6c3370ef48c8724f2e31e4
 size 14917

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4aa03f6e0cd07cf67ce1fbe3101d545f5771ef9148b9debf02b11cf6948da5c
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:861ce13e6ca091acee9a68ebfc5ca38479baf4b537c37b3949f071f77b81e9f0
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa56fa8fa334bce407f019356c2a989207ab5f10b19e9753e7cbc5ea11bcd4ec
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5bce3ff1203929d6808ab229d6e6d4d185a3da8ef87a3b682b0eec04e6bacf2
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.436707500537288,
   "eval_steps": 500,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2008,6 +2008,506 @@
       "mean_token_accuracy": 0.6531724959611893,
       "num_tokens": 11896615.0,
       "step": 2000
     }
   ],
   "logging_steps": 10,
@@ -2027,7 +2527,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.772738986953933e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.295723189340211,
   "eval_steps": 500,
+  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.6531724959611893,
       "num_tokens": 11896615.0,
       "step": 2000
+    },
+    {
+      "entropy": 1.8952298507094383,
+      "epoch": 3.453900709219858,
+      "grad_norm": 0.7292787432670593,
+      "learning_rate": 0.00011964,
+      "loss": 1.9302806854248047,
+      "mean_token_accuracy": 0.6462091594934464,
+      "num_tokens": 11954949.0,
+      "step": 2010
+    },
+    {
+      "entropy": 1.8723753660917282,
+      "epoch": 3.4710939179024285,
+      "grad_norm": 0.730530858039856,
+      "learning_rate": 0.00011923999999999999,
+      "loss": 1.9216194152832031,
+      "mean_token_accuracy": 0.6504904717206955,
+      "num_tokens": 12013803.0,
+      "step": 2020
+    },
+    {
+      "entropy": 1.8673277243971824,
+      "epoch": 3.488287126584999,
+      "grad_norm": 0.7530126571655273,
+      "learning_rate": 0.00011884,
+      "loss": 1.968985366821289,
+      "mean_token_accuracy": 0.646847129613161,
+      "num_tokens": 12073284.0,
+      "step": 2030
+    },
+    {
+      "entropy": 1.8757897645235062,
+      "epoch": 3.505480335267569,
+      "grad_norm": 0.7031217813491821,
+      "learning_rate": 0.00011844,
+      "loss": 1.9071741104125977,
+      "mean_token_accuracy": 0.6450003884732723,
+      "num_tokens": 12126451.0,
+      "step": 2040
+    },
+    {
+      "entropy": 1.7986262783408165,
+      "epoch": 3.5226735439501398,
+      "grad_norm": 0.7223983407020569,
+      "learning_rate": 0.00011804,
+      "loss": 1.8450950622558593,
+      "mean_token_accuracy": 0.6576410517096519,
+      "num_tokens": 12183343.0,
+      "step": 2050
+    },
+    {
+      "entropy": 1.8884935915470122,
+      "epoch": 3.53986675263271,
+      "grad_norm": 0.7206518650054932,
+      "learning_rate": 0.00011763999999999999,
+      "loss": 1.9660964965820313,
+      "mean_token_accuracy": 0.6422303304076195,
+      "num_tokens": 12243607.0,
+      "step": 2060
+    },
+    {
+      "entropy": 1.8009026944637299,
+      "epoch": 3.5570599613152805,
+      "grad_norm": 0.7229637503623962,
+      "learning_rate": 0.00011724000000000002,
+      "loss": 1.851433563232422,
+      "mean_token_accuracy": 0.6556052915751934,
+      "num_tokens": 12304867.0,
+      "step": 2070
+    },
+    {
+      "entropy": 1.7949693977832795,
+      "epoch": 3.574253169997851,
+      "grad_norm": 0.6935518383979797,
+      "learning_rate": 0.00011684000000000001,
+      "loss": 1.8848058700561523,
+      "mean_token_accuracy": 0.6580755174160003,
+      "num_tokens": 12367633.0,
+      "step": 2080
+    },
+    {
+      "entropy": 1.8038981169462205,
+      "epoch": 3.591446378680421,
+      "grad_norm": 0.7003904581069946,
+      "learning_rate": 0.00011644000000000002,
+      "loss": 1.8867233276367188,
+      "mean_token_accuracy": 0.655081395432353,
+      "num_tokens": 12423928.0,
+      "step": 2090
+    },
+    {
+      "entropy": 1.850062020123005,
+      "epoch": 3.6086395873629917,
+      "grad_norm": 0.6852926015853882,
+      "learning_rate": 0.00011604000000000002,
+      "loss": 1.9325201034545898,
+      "mean_token_accuracy": 0.6472255479544401,
+      "num_tokens": 12479411.0,
+      "step": 2100
+    },
+    {
+      "entropy": 1.8294448778033257,
+      "epoch": 3.625832796045562,
+      "grad_norm": 0.7044693827629089,
+      "learning_rate": 0.00011564000000000001,
+      "loss": 1.8989273071289063,
+      "mean_token_accuracy": 0.6499249216169118,
+      "num_tokens": 12539175.0,
+      "step": 2110
+    },
+    {
+      "entropy": 1.8719267755746842,
+      "epoch": 3.6430260047281324,
+      "grad_norm": 0.7180586457252502,
+      "learning_rate": 0.00011524000000000001,
+      "loss": 1.925216293334961,
+      "mean_token_accuracy": 0.648950444161892,
+      "num_tokens": 12598337.0,
+      "step": 2120
+    },
+    {
+      "entropy": 1.88923449665308,
+      "epoch": 3.660219213410703,
+      "grad_norm": 0.7464597821235657,
+      "learning_rate": 0.00011484000000000002,
+      "loss": 1.990826416015625,
+      "mean_token_accuracy": 0.6456409864127636,
+      "num_tokens": 12656592.0,
+      "step": 2130
+    },
+    {
+      "entropy": 1.8126205861568452,
+      "epoch": 3.677412422093273,
+      "grad_norm": 0.7253774404525757,
+      "learning_rate": 0.00011444000000000001,
+      "loss": 1.9414216995239257,
+      "mean_token_accuracy": 0.6552157323807478,
+      "num_tokens": 12717791.0,
+      "step": 2140
+    },
+    {
+      "entropy": 1.8930377542972565,
+      "epoch": 3.6946056307758437,
+      "grad_norm": 0.7404170036315918,
+      "learning_rate": 0.00011404000000000001,
+      "loss": 1.9364784240722657,
+      "mean_token_accuracy": 0.6434980578720569,
+      "num_tokens": 12775445.0,
+      "step": 2150
+    },
+    {
+      "entropy": 1.7652419656515121,
+      "epoch": 3.711798839458414,
+      "grad_norm": 0.688732385635376,
+      "learning_rate": 0.00011364000000000002,
+      "loss": 1.7636165618896484,
+      "mean_token_accuracy": 0.6639453627169132,
+      "num_tokens": 12834599.0,
+      "step": 2160
+    },
+    {
+      "entropy": 1.7745767116546631,
+      "epoch": 3.7289920481409844,
+      "grad_norm": 0.7011992335319519,
+      "learning_rate": 0.00011324000000000001,
+      "loss": 1.8347841262817384,
+      "mean_token_accuracy": 0.6586773280054331,
+      "num_tokens": 12889887.0,
+      "step": 2170
+    },
+    {
+      "entropy": 1.7952505484223367,
+      "epoch": 3.746185256823555,
+      "grad_norm": 0.7646785378456116,
+      "learning_rate": 0.00011284000000000001,
+      "loss": 1.883163070678711,
+      "mean_token_accuracy": 0.6589437790215016,
+      "num_tokens": 12950286.0,
+      "step": 2180
+    },
+    {
+      "entropy": 1.8878965258598328,
+      "epoch": 3.763378465506125,
+      "grad_norm": 0.7722623944282532,
+      "learning_rate": 0.00011244000000000001,
+      "loss": 1.9674694061279296,
+      "mean_token_accuracy": 0.6422343414276839,
+      "num_tokens": 13011083.0,
+      "step": 2190
+    },
+    {
+      "entropy": 1.919720321893692,
+      "epoch": 3.780571674188695,
+      "grad_norm": 0.7656893134117126,
+      "learning_rate": 0.00011204000000000002,
+      "loss": 1.9919773101806642,
+      "mean_token_accuracy": 0.6393908958882093,
+      "num_tokens": 13069376.0,
+      "step": 2200
+    },
+    {
+      "entropy": 1.77825688123703,
+      "epoch": 3.797764882871266,
+      "grad_norm": 0.8324808478355408,
+      "learning_rate": 0.00011164000000000001,
+      "loss": 1.8173160552978516,
+      "mean_token_accuracy": 0.659475727379322,
+      "num_tokens": 13124851.0,
+      "step": 2210
+    },
+    {
+      "entropy": 1.8232837438583374,
+      "epoch": 3.8149580915538364,
+      "grad_norm": 0.741481363773346,
+      "learning_rate": 0.00011124000000000001,
+      "loss": 1.860748291015625,
+      "mean_token_accuracy": 0.6524971850216389,
+      "num_tokens": 13182576.0,
+      "step": 2220
+    },
+    {
+      "entropy": 1.8588940657675266,
+      "epoch": 3.8321513002364065,
+      "grad_norm": 0.7748705148696899,
+      "learning_rate": 0.00011084000000000002,
+      "loss": 1.9206954956054687,
+      "mean_token_accuracy": 0.6516353718936443,
+      "num_tokens": 13242703.0,
+      "step": 2230
+    },
+    {
+      "entropy": 1.823398308455944,
+      "epoch": 3.849344508918977,
+      "grad_norm": 0.6341049671173096,
+      "learning_rate": 0.00011044,
+      "loss": 1.8718917846679688,
+      "mean_token_accuracy": 0.6596139155328273,
+      "num_tokens": 13303181.0,
+      "step": 2240
+    },
+    {
+      "entropy": 1.8098929420113563,
+      "epoch": 3.866537717601547,
+      "grad_norm": 0.6672969460487366,
+      "learning_rate": 0.00011004000000000001,
+      "loss": 1.8999752044677733,
+      "mean_token_accuracy": 0.6594760783016682,
+      "num_tokens": 13364371.0,
+      "step": 2250
+    },
+    {
+      "entropy": 1.7795367375016213,
+      "epoch": 3.8837309262841178,
+      "grad_norm": 0.6343891024589539,
+      "learning_rate": 0.00010964000000000001,
+      "loss": 1.827276611328125,
+      "mean_token_accuracy": 0.6668465688824654,
+      "num_tokens": 13425450.0,
+      "step": 2260
+    },
+    {
+      "entropy": 1.8673226684331894,
+      "epoch": 3.9009241349666883,
+      "grad_norm": 0.7357877492904663,
+      "learning_rate": 0.00010924,
+      "loss": 1.9206443786621095,
+      "mean_token_accuracy": 0.647479448094964,
+      "num_tokens": 13485806.0,
+      "step": 2270
+    },
+    {
+      "entropy": 1.806484942883253,
+      "epoch": 3.9181173436492585,
+      "grad_norm": 0.7172144055366516,
+      "learning_rate": 0.00010884000000000001,
+      "loss": 1.8789045333862304,
+      "mean_token_accuracy": 0.6594084780663252,
+      "num_tokens": 13544934.0,
+      "step": 2280
+    },
+    {
+      "entropy": 1.7970930591225625,
+      "epoch": 3.935310552331829,
+      "grad_norm": 0.7578801512718201,
+      "learning_rate": 0.00010844000000000001,
+      "loss": 1.8405040740966796,
+      "mean_token_accuracy": 0.6608923889696598,
+      "num_tokens": 13606653.0,
+      "step": 2290
+    },
+    {
+      "entropy": 1.8469372361898422,
+      "epoch": 3.952503761014399,
+      "grad_norm": 0.7626324892044067,
+      "learning_rate": 0.00010804,
+      "loss": 1.8629837036132812,
+      "mean_token_accuracy": 0.6560039456933737,
+      "num_tokens": 13663938.0,
+      "step": 2300
+    },
+    {
+      "entropy": 1.836122378706932,
+      "epoch": 3.9696969696969697,
+      "grad_norm": 0.7074365615844727,
+      "learning_rate": 0.00010764,
+      "loss": 1.8942070007324219,
+      "mean_token_accuracy": 0.647238065674901,
+      "num_tokens": 13722549.0,
+      "step": 2310
+    },
+    {
+      "entropy": 1.821449062973261,
+      "epoch": 3.9868901783795403,
+      "grad_norm": 0.6956577301025391,
+      "learning_rate": 0.00010724000000000001,
+      "loss": 1.8947336196899414,
+      "mean_token_accuracy": 0.6528103355318308,
+      "num_tokens": 13785922.0,
+      "step": 2320
+    },
+    {
+      "entropy": 1.839719023023333,
+      "epoch": 4.003438641736514,
+      "grad_norm": 0.6865222454071045,
+      "learning_rate": 0.00010684,
+      "loss": 1.8803377151489258,
+      "mean_token_accuracy": 0.6526942384707464,
+      "num_tokens": 13844647.0,
+      "step": 2330
+    },
+    {
+      "entropy": 1.855065654218197,
+      "epoch": 4.020631850419084,
+      "grad_norm": 0.7424384355545044,
+      "learning_rate": 0.00010644,
+      "loss": 1.9461166381835937,
+      "mean_token_accuracy": 0.6463506512343884,
+      "num_tokens": 13904724.0,
+      "step": 2340
+    },
+    {
+      "entropy": 1.7508789122104644,
+      "epoch": 4.037825059101655,
+      "grad_norm": 0.6670609712600708,
+      "learning_rate": 0.00010604000000000001,
+      "loss": 1.781893539428711,
+      "mean_token_accuracy": 0.6653038747608662,
+      "num_tokens": 13963472.0,
+      "step": 2350
+    },
+    {
+      "entropy": 1.8165026590228082,
+      "epoch": 4.0550182677842255,
+      "grad_norm": 0.7823750376701355,
+      "learning_rate": 0.00010564000000000001,
+      "loss": 1.8847312927246094,
+      "mean_token_accuracy": 0.6607359856367111,
+      "num_tokens": 14019708.0,
+      "step": 2360
+    },
+    {
+      "entropy": 1.794335062801838,
+      "epoch": 4.072211476466796,
+      "grad_norm": 0.8262340426445007,
+      "learning_rate": 0.00010524,
+      "loss": 1.8576740264892577,
+      "mean_token_accuracy": 0.6582343481481076,
+      "num_tokens": 14076178.0,
+      "step": 2370
+    },
+    {
+      "entropy": 1.8828865155577659,
+      "epoch": 4.089404685149366,
+      "grad_norm": 0.784656822681427,
+      "learning_rate": 0.00010484,
+      "loss": 1.9146394729614258,
+      "mean_token_accuracy": 0.6491621173918247,
+      "num_tokens": 14133662.0,
+      "step": 2380
+    },
+    {
+      "entropy": 1.918326808512211,
+      "epoch": 4.106597893831936,
+      "grad_norm": 0.7571077346801758,
+      "learning_rate": 0.00010444000000000001,
+      "loss": 2.024713897705078,
+      "mean_token_accuracy": 0.643079025298357,
+      "num_tokens": 14196967.0,
+      "step": 2390
+    },
+    {
+      "entropy": 1.7909317679703236,
+      "epoch": 4.123791102514507,
+      "grad_norm": 0.7276471257209778,
+      "learning_rate": 0.00010404,
+      "loss": 1.845133399963379,
+      "mean_token_accuracy": 0.6548417568206787,
+      "num_tokens": 14256866.0,
+      "step": 2400
+    },
+    {
+      "entropy": 1.7750686906278133,
+      "epoch": 4.140984311197077,
+      "grad_norm": 0.668246328830719,
+      "learning_rate": 0.00010364,
+      "loss": 1.7945009231567384,
+      "mean_token_accuracy": 0.6641525950282812,
+      "num_tokens": 14318324.0,
+      "step": 2410
+    },
+    {
+      "entropy": 1.823828212916851,
+      "epoch": 4.158177519879647,
+      "grad_norm": 0.7596518993377686,
+      "learning_rate": 0.00010324000000000001,
+      "loss": 1.898871612548828,
+      "mean_token_accuracy": 0.6519910141825676,
+      "num_tokens": 14380775.0,
+      "step": 2420
+    },
+    {
+      "entropy": 1.7938876405358315,
+      "epoch": 4.175370728562218,
+      "grad_norm": 0.6834619641304016,
+      "learning_rate": 0.00010284,
+      "loss": 1.8518138885498048,
+      "mean_token_accuracy": 0.6622516691684723,
+      "num_tokens": 14440862.0,
+      "step": 2430
+    },
+    {
+      "entropy": 1.8744625180959702,
+      "epoch": 4.192563937244788,
+      "grad_norm": 0.8088146448135376,
+      "learning_rate": 0.00010244,
+      "loss": 1.9542848587036132,
+      "mean_token_accuracy": 0.6499028638005256,
+      "num_tokens": 14500841.0,
+      "step": 2440
+    },
+    {
+      "entropy": 1.8284114554524422,
+      "epoch": 4.209757145927359,
+      "grad_norm": 0.82193523645401,
+      "learning_rate": 0.00010204,
+      "loss": 1.9107404708862306,
+      "mean_token_accuracy": 0.6551219135522842,
+      "num_tokens": 14564257.0,
+      "step": 2450
+    },
+    {
+      "entropy": 1.8538024842739105,
+      "epoch": 4.226950354609929,
+      "grad_norm": 0.7263757586479187,
+      "learning_rate": 0.00010164,
+      "loss": 1.8713863372802735,
+      "mean_token_accuracy": 0.6510257624089718,
+      "num_tokens": 14623019.0,
+      "step": 2460
+    },
+    {
+      "entropy": 1.756752038002014,
+      "epoch": 4.244143563292499,
+      "grad_norm": 0.7334346175193787,
+      "learning_rate": 0.00010124,
+      "loss": 1.7855047225952148,
+      "mean_token_accuracy": 0.6687729060649872,
+      "num_tokens": 14682191.0,
+      "step": 2470
+    },
+    {
+      "entropy": 1.7032470375299453,
+      "epoch": 4.26133677197507,
+      "grad_norm": 0.7168938517570496,
+      "learning_rate": 0.00010084,
+      "loss": 1.7648530960083009,
+      "mean_token_accuracy": 0.6696467150002718,
+      "num_tokens": 14739840.0,
+      "step": 2480
+    },
+    {
+      "entropy": 1.7426577515900135,
+      "epoch": 4.27852998065764,
+      "grad_norm": 0.7091065645217896,
+      "learning_rate": 0.00010044000000000001,
+      "loss": 1.8180946350097655,
+      "mean_token_accuracy": 0.6640235505998134,
+      "num_tokens": 14798444.0,
+      "step": 2490
+    },
+    {
+      "entropy": 1.8743537411093711,
+      "epoch": 4.295723189340211,
+      "grad_norm": 0.6376718878746033,
+      "learning_rate": 0.00010004,
+      "loss": 1.9534942626953125,
+      "mean_token_accuracy": 0.6467559643089771,
+      "num_tokens": 14861262.0,
+      "step": 2500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.2204939073814528e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null