Training in progress, step 4000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +503 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e72f74f4e0e6b9d2ea75ad255fa3eaeba01a7e0823bcb5a98cb4e80510a589e
 size 9446744

 version https://git-lfs.github.com/spec/v1
+oid sha256:835db88c2c568a2a5b9eecd0ca20228d562ccd37375f6d5e37ee4f667bd5c028
 size 9446744

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:200b11c2ef8037da35c5780017b6651f6b6076fc914de77cf6066270f2e1b523
 size 4879947

 version https://git-lfs.github.com/spec/v1
+oid sha256:bde2b53b9a0c26662086027ef84b0578651b731c913f116872da22f0740efeab
 size 4879947

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f531f0a7c41eca7b2e7efd3f8d7ba2d9d38c29a18b748522bac1a5c64a9df8e8
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa8f41c51c4c045061b2c14ad0e244d1f18ea14e355c0937c51abc1c22235765
 size 14917

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4ef97fc93f1e58ebc9e20759b520e3bc8c347e36f8f62fa0c9adef310bbf48e6
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:fcdef9cce1358b15f98ec011b2742b883d23020479104f9b5467277f0c257b88
 size 14917

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac1b9358ab1cb9acff90f4d1d692ac08bbdb1986a66544aed9f6fe9b801b17b3
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0033c7745b46bdca3ecab5787678834ca68f7f7e1288869dceeb38812abc253
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f2198d94a2d44839615c5c39451a8a9843983d5979dc85a343072f765e711e24
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5ee800e7df74b641553b418c04566b716dade6c517cb6fd519bb2168d1739f3
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.013754566946056,
   "eval_steps": 500,
-  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3508,6 +3508,506 @@
       "mean_token_accuracy": 0.6643109286760355,
       "num_tokens": 20795175.0,
       "step": 3500
     }
   ],
   "logging_steps": 10,
@@ -3527,7 +4027,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.7073275440778445e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.873415001074576,
   "eval_steps": 500,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.6643109286760355,
       "num_tokens": 20795175.0,
       "step": 3500
+    },
+    {
+      "entropy": 1.687648557126522,
+      "epoch": 6.0309477756286265,
+      "grad_norm": 0.8348304629325867,
+      "learning_rate": 5.9640000000000005e-05,
+      "loss": 1.7558349609375,
+      "mean_token_accuracy": 0.6784385897219181,
+      "num_tokens": 20852486.0,
+      "step": 3510
+    },
+    {
+      "entropy": 1.6863658234477044,
+      "epoch": 6.048140984311197,
+      "grad_norm": 0.7642632126808167,
+      "learning_rate": 5.924000000000001e-05,
+      "loss": 1.6536775588989259,
+      "mean_token_accuracy": 0.680523382127285,
+      "num_tokens": 20908597.0,
+      "step": 3520
+    },
+    {
+      "entropy": 1.6652932062745094,
+      "epoch": 6.065334192993768,
+      "grad_norm": 0.8676924109458923,
+      "learning_rate": 5.8840000000000006e-05,
+      "loss": 1.7443069458007812,
+      "mean_token_accuracy": 0.6719188451766968,
+      "num_tokens": 20966567.0,
+      "step": 3530
+    },
+    {
+      "entropy": 1.7391631960868836,
+      "epoch": 6.082527401676338,
+      "grad_norm": 0.8444374799728394,
+      "learning_rate": 5.844e-05,
+      "loss": 1.7849775314331056,
+      "mean_token_accuracy": 0.672398941218853,
+      "num_tokens": 21023832.0,
+      "step": 3540
+    },
+    {
+      "entropy": 1.7432220742106437,
+      "epoch": 6.099720610358908,
+      "grad_norm": 0.7972187995910645,
+      "learning_rate": 5.804000000000001e-05,
+      "loss": 1.8264921188354493,
+      "mean_token_accuracy": 0.6713483344763518,
+      "num_tokens": 21080325.0,
+      "step": 3550
+    },
+    {
+      "entropy": 1.7394985787570476,
+      "epoch": 6.1169138190414785,
+      "grad_norm": 0.8266369700431824,
+      "learning_rate": 5.7640000000000004e-05,
+      "loss": 1.819821548461914,
+      "mean_token_accuracy": 0.6708907049149275,
+      "num_tokens": 21143316.0,
+      "step": 3560
+    },
+    {
+      "entropy": 1.7923602670431138,
+      "epoch": 6.134107027724049,
+      "grad_norm": 0.8315872550010681,
+      "learning_rate": 5.724000000000001e-05,
+      "loss": 1.8086809158325194,
+      "mean_token_accuracy": 0.665992408245802,
+      "num_tokens": 21203848.0,
+      "step": 3570
+    },
+    {
+      "entropy": 1.711188006401062,
+      "epoch": 6.15130023640662,
+      "grad_norm": 0.8174048066139221,
+      "learning_rate": 5.6840000000000005e-05,
+      "loss": 1.7656991958618165,
+      "mean_token_accuracy": 0.6711975857615471,
+      "num_tokens": 21266260.0,
+      "step": 3580
+    },
+    {
+      "entropy": 1.8437035098671912,
+      "epoch": 6.16849344508919,
+      "grad_norm": 0.8155949711799622,
+      "learning_rate": 5.644e-05,
+      "loss": 1.877999496459961,
+      "mean_token_accuracy": 0.6532085236161947,
+      "num_tokens": 21326008.0,
+      "step": 3590
+    },
+    {
+      "entropy": 1.7264528393745422,
+      "epoch": 6.18568665377176,
+      "grad_norm": 0.7951272130012512,
+      "learning_rate": 5.6040000000000006e-05,
+      "loss": 1.747119140625,
+      "mean_token_accuracy": 0.6696909107267857,
+      "num_tokens": 21385356.0,
+      "step": 3600
+    },
+    {
+      "entropy": 1.68227918446064,
+      "epoch": 6.20287986245433,
+      "grad_norm": 0.779587984085083,
+      "learning_rate": 5.564e-05,
+      "loss": 1.7062965393066407,
+      "mean_token_accuracy": 0.6786911800503731,
+      "num_tokens": 21443231.0,
+      "step": 3610
+    },
+    {
+      "entropy": 1.7644565671682357,
+      "epoch": 6.220073071136901,
+      "grad_norm": 0.9153981804847717,
+      "learning_rate": 5.524e-05,
+      "loss": 1.8082721710205079,
+      "mean_token_accuracy": 0.6671201888471842,
+      "num_tokens": 21499309.0,
+      "step": 3620
+    },
+    {
+      "entropy": 1.7211210913956165,
+      "epoch": 6.237266279819472,
+      "grad_norm": 0.8166586756706238,
+      "learning_rate": 5.4840000000000003e-05,
+      "loss": 1.769371795654297,
+      "mean_token_accuracy": 0.6694241009652615,
+      "num_tokens": 21558565.0,
+      "step": 3630
+    },
+    {
+      "entropy": 1.7693689942359925,
+      "epoch": 6.254459488502041,
+      "grad_norm": 0.7773623466491699,
+      "learning_rate": 5.444e-05,
+      "loss": 1.848412322998047,
+      "mean_token_accuracy": 0.66685731112957,
+      "num_tokens": 21618504.0,
+      "step": 3640
+    },
+    {
+      "entropy": 1.8090675905346871,
+      "epoch": 6.271652697184612,
+      "grad_norm": 0.9420453310012817,
+      "learning_rate": 5.4040000000000004e-05,
+      "loss": 1.8266836166381837,
+      "mean_token_accuracy": 0.6643423162400722,
+      "num_tokens": 21676861.0,
+      "step": 3650
+    },
+    {
+      "entropy": 1.7340097561478616,
+      "epoch": 6.288845905867182,
+      "grad_norm": 0.805880069732666,
+      "learning_rate": 5.364e-05,
+      "loss": 1.7760274887084961,
+      "mean_token_accuracy": 0.6729184173047542,
+      "num_tokens": 21734874.0,
+      "step": 3660
+    },
+    {
+      "entropy": 1.733542764186859,
+      "epoch": 6.306039114549753,
+      "grad_norm": 0.7459798455238342,
+      "learning_rate": 5.324e-05,
+      "loss": 1.7874065399169923,
+      "mean_token_accuracy": 0.6733234331011773,
+      "num_tokens": 21797467.0,
+      "step": 3670
+    },
+    {
+      "entropy": 1.6855479300022125,
+      "epoch": 6.3232323232323235,
+      "grad_norm": 0.7362611889839172,
+      "learning_rate": 5.284e-05,
+      "loss": 1.7557338714599608,
+      "mean_token_accuracy": 0.6742986045777798,
+      "num_tokens": 21856704.0,
+      "step": 3680
+    },
+    {
+      "entropy": 1.762756396830082,
+      "epoch": 6.340425531914893,
+      "grad_norm": 0.8349901437759399,
+      "learning_rate": 5.244e-05,
+      "loss": 1.784174346923828,
+      "mean_token_accuracy": 0.6732991166412831,
+      "num_tokens": 21915781.0,
+      "step": 3690
+    },
+    {
+      "entropy": 1.7664957396686076,
+      "epoch": 6.357618740597464,
+      "grad_norm": 0.8295337557792664,
+      "learning_rate": 5.204e-05,
+      "loss": 1.8338695526123048,
+      "mean_token_accuracy": 0.6659718155860901,
+      "num_tokens": 21973568.0,
+      "step": 3700
+    },
+    {
+      "entropy": 1.7744196206331253,
+      "epoch": 6.374811949280034,
+      "grad_norm": 0.739115297794342,
+      "learning_rate": 5.164e-05,
+      "loss": 1.8148929595947265,
+      "mean_token_accuracy": 0.6660460762679576,
+      "num_tokens": 22032979.0,
+      "step": 3710
+    },
+    {
+      "entropy": 1.7459667712450027,
+      "epoch": 6.392005157962605,
+      "grad_norm": 0.7716593146324158,
+      "learning_rate": 5.124e-05,
+      "loss": 1.8079204559326172,
+      "mean_token_accuracy": 0.66551748290658,
+      "num_tokens": 22092283.0,
+      "step": 3720
+    },
+    {
+      "entropy": 1.7491293936967849,
+      "epoch": 6.4091983666451755,
+      "grad_norm": 0.8270374536514282,
+      "learning_rate": 5.084e-05,
+      "loss": 1.8020380020141602,
+      "mean_token_accuracy": 0.6673273537307978,
+      "num_tokens": 22150667.0,
+      "step": 3730
+    },
+    {
+      "entropy": 1.6887403331696986,
+      "epoch": 6.426391575327745,
+      "grad_norm": 0.8306758403778076,
+      "learning_rate": 5.044e-05,
+      "loss": 1.7328964233398438,
+      "mean_token_accuracy": 0.676455694437027,
+      "num_tokens": 22211170.0,
+      "step": 3740
+    },
+    {
+      "entropy": 1.8332835257053375,
+      "epoch": 6.443584784010316,
+      "grad_norm": 0.8369497656822205,
+      "learning_rate": 5.0039999999999995e-05,
+      "loss": 1.913273239135742,
+      "mean_token_accuracy": 0.656198850646615,
+      "num_tokens": 22269928.0,
+      "step": 3750
+    },
+    {
+      "entropy": 1.6914366707205772,
+      "epoch": 6.460777992692886,
+      "grad_norm": 0.7562059164047241,
+      "learning_rate": 4.9640000000000006e-05,
+      "loss": 1.7506240844726562,
+      "mean_token_accuracy": 0.67936124317348,
+      "num_tokens": 22328611.0,
+      "step": 3760
+    },
+    {
+      "entropy": 1.7604179099202155,
+      "epoch": 6.477971201375457,
+      "grad_norm": 0.7541300058364868,
+      "learning_rate": 4.924e-05,
+      "loss": 1.8065948486328125,
+      "mean_token_accuracy": 0.6697364591062069,
+      "num_tokens": 22389219.0,
+      "step": 3770
+    },
+    {
+      "entropy": 1.731757602095604,
+      "epoch": 6.4951644100580275,
+      "grad_norm": 0.8319364190101624,
+      "learning_rate": 4.884e-05,
+      "loss": 1.7902181625366211,
+      "mean_token_accuracy": 0.6673447206616402,
+      "num_tokens": 22449858.0,
+      "step": 3780
+    },
+    {
+      "entropy": 1.7152166068553925,
+      "epoch": 6.512357618740597,
+      "grad_norm": 0.8575091361999512,
+      "learning_rate": 4.8440000000000004e-05,
+      "loss": 1.7424659729003906,
+      "mean_token_accuracy": 0.6707747709006071,
+      "num_tokens": 22509375.0,
+      "step": 3790
+    },
+    {
+      "entropy": 1.6641680032014847,
+      "epoch": 6.529550827423168,
+      "grad_norm": 0.7516652345657349,
+      "learning_rate": 4.804e-05,
+      "loss": 1.6937873840332032,
+      "mean_token_accuracy": 0.6811798132956028,
+      "num_tokens": 22566440.0,
+      "step": 3800
+    },
+    {
+      "entropy": 1.7551555022597314,
+      "epoch": 6.546744036105738,
+      "grad_norm": 0.817863941192627,
+      "learning_rate": 4.7640000000000005e-05,
+      "loss": 1.8282489776611328,
+      "mean_token_accuracy": 0.6655839093029499,
+      "num_tokens": 22627900.0,
+      "step": 3810
+    },
+    {
+      "entropy": 1.7025569766759872,
+      "epoch": 6.563937244788309,
+      "grad_norm": 0.757764458656311,
+      "learning_rate": 4.724e-05,
+      "loss": 1.7325496673583984,
+      "mean_token_accuracy": 0.6785391330718994,
+      "num_tokens": 22685738.0,
+      "step": 3820
+    },
+    {
+      "entropy": 1.699775031208992,
+      "epoch": 6.5811304534708785,
+      "grad_norm": 0.7960421442985535,
+      "learning_rate": 4.684e-05,
+      "loss": 1.7602745056152345,
+      "mean_token_accuracy": 0.6698532458394766,
+      "num_tokens": 22745696.0,
+      "step": 3830
+    },
+    {
+      "entropy": 1.8100605458021164,
+      "epoch": 6.598323662153449,
+      "grad_norm": 0.8477244973182678,
+      "learning_rate": 4.644e-05,
+      "loss": 1.8226333618164063,
+      "mean_token_accuracy": 0.6646727129817009,
+      "num_tokens": 22805783.0,
+      "step": 3840
+    },
+    {
+      "entropy": 1.7685839846730231,
+      "epoch": 6.61551687083602,
+      "grad_norm": 0.7853493690490723,
+      "learning_rate": 4.604e-05,
+      "loss": 1.8230281829833985,
+      "mean_token_accuracy": 0.664577030390501,
+      "num_tokens": 22866822.0,
+      "step": 3850
+    },
+    {
+      "entropy": 1.7810854628682136,
+      "epoch": 6.63271007951859,
+      "grad_norm": 0.7139444351196289,
+      "learning_rate": 4.564e-05,
+      "loss": 1.855198287963867,
+      "mean_token_accuracy": 0.6652711797505617,
+      "num_tokens": 22928790.0,
+      "step": 3860
+    },
+    {
+      "entropy": 1.7815292954444886,
+      "epoch": 6.649903288201161,
+      "grad_norm": 0.7039018869400024,
+      "learning_rate": 4.524000000000001e-05,
+      "loss": 1.845859909057617,
+      "mean_token_accuracy": 0.6595252249389887,
+      "num_tokens": 22990170.0,
+      "step": 3870
+    },
+    {
+      "entropy": 1.7107908308506012,
+      "epoch": 6.667096496883731,
+      "grad_norm": 0.7651708126068115,
+      "learning_rate": 4.4840000000000004e-05,
+      "loss": 1.7340824127197265,
+      "mean_token_accuracy": 0.6750431463122368,
+      "num_tokens": 23047902.0,
+      "step": 3880
+    },
+    {
+      "entropy": 1.7069460928440094,
+      "epoch": 6.684289705566301,
+      "grad_norm": 0.7385950088500977,
+      "learning_rate": 4.444e-05,
+      "loss": 1.758881187438965,
+      "mean_token_accuracy": 0.6745327576994896,
+      "num_tokens": 23112106.0,
+      "step": 3890
+    },
+    {
+      "entropy": 1.821124967932701,
+      "epoch": 6.701482914248872,
+      "grad_norm": 0.7827627658843994,
+      "learning_rate": 4.4040000000000005e-05,
+      "loss": 1.913480567932129,
+      "mean_token_accuracy": 0.6593531377613544,
+      "num_tokens": 23170056.0,
+      "step": 3900
+    },
+    {
+      "entropy": 1.7924881175160408,
+      "epoch": 6.718676122931442,
+      "grad_norm": 0.8166612386703491,
+      "learning_rate": 4.364e-05,
+      "loss": 1.855017852783203,
+      "mean_token_accuracy": 0.6593458168208599,
+      "num_tokens": 23228582.0,
+      "step": 3910
+    },
+    {
+      "entropy": 1.736910080909729,
+      "epoch": 6.735869331614013,
+      "grad_norm": 0.779629647731781,
+      "learning_rate": 4.324e-05,
+      "loss": 1.7581821441650392,
+      "mean_token_accuracy": 0.6779871381819248,
+      "num_tokens": 23288702.0,
+      "step": 3920
+    },
+    {
+      "entropy": 1.6776573412120341,
+      "epoch": 6.7530625402965825,
+      "grad_norm": 0.7625913619995117,
+      "learning_rate": 4.284e-05,
+      "loss": 1.7102031707763672,
+      "mean_token_accuracy": 0.6794889360666275,
+      "num_tokens": 23349004.0,
+      "step": 3930
+    },
+    {
+      "entropy": 1.8100020587444305,
+      "epoch": 6.770255748979153,
+      "grad_norm": 0.7499405145645142,
+      "learning_rate": 4.244e-05,
+      "loss": 1.8514158248901367,
+      "mean_token_accuracy": 0.6620845705270767,
+      "num_tokens": 23410874.0,
+      "step": 3940
+    },
+    {
+      "entropy": 1.697011759877205,
+      "epoch": 6.787448957661724,
+      "grad_norm": 0.736323893070221,
+      "learning_rate": 4.2040000000000004e-05,
+      "loss": 1.7609180450439452,
+      "mean_token_accuracy": 0.6772994473576546,
+      "num_tokens": 23472518.0,
+      "step": 3950
+    },
+    {
+      "entropy": 1.764576494693756,
+      "epoch": 6.804642166344294,
+      "grad_norm": 0.8523833751678467,
+      "learning_rate": 4.164e-05,
+      "loss": 1.81484375,
+      "mean_token_accuracy": 0.6644324712455273,
+      "num_tokens": 23531203.0,
+      "step": 3960
+    },
+    {
+      "entropy": 1.7241224959492683,
+      "epoch": 6.821835375026865,
+      "grad_norm": 0.8820350766181946,
+      "learning_rate": 4.124e-05,
+      "loss": 1.739130401611328,
+      "mean_token_accuracy": 0.6771424360573292,
+      "num_tokens": 23590289.0,
+      "step": 3970
+    },
+    {
+      "entropy": 1.6967746496200562,
+      "epoch": 6.8390285837094345,
+      "grad_norm": 0.8161067962646484,
+      "learning_rate": 4.084e-05,
+      "loss": 1.7659534454345702,
+      "mean_token_accuracy": 0.6744477659463882,
+      "num_tokens": 23647985.0,
+      "step": 3980
+    },
+    {
+      "entropy": 1.8578275874257089,
+      "epoch": 6.856221792392005,
+      "grad_norm": 0.778160810470581,
+      "learning_rate": 4.044e-05,
+      "loss": 1.9046249389648438,
+      "mean_token_accuracy": 0.6525318272411823,
+      "num_tokens": 23707387.0,
+      "step": 3990
+    },
+    {
+      "entropy": 1.781902502477169,
+      "epoch": 6.873415001074576,
+      "grad_norm": 0.9398592710494995,
+      "learning_rate": 4.004e-05,
+      "loss": 1.8081722259521484,
+      "mean_token_accuracy": 0.6625144556164742,
+      "num_tokens": 23764831.0,
+      "step": 4000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.951545327353856e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null