Training in progress, step 2000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +503 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac5c8a64c0ab83c2d761c379a2246a2a1b527485d9e6ca3902af906505086931
 size 9446744

 version https://git-lfs.github.com/spec/v1
+oid sha256:fdf2871a23de26395412fbb80cd5cfc6261483030011b659b66248a001490ba5
 size 9446744

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7ff189dbe667133c77befb63ee7a1edfa6003ef9d12584ea250122201496d73
 size 4879947

 version https://git-lfs.github.com/spec/v1
+oid sha256:13d0d3ac532ad9924ef2b3bb9206e041a19d9bb2aae0a0f9b0e9fb94268b3e2f
 size 4879947

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de0306e3417ea954b631b3708345453027eb0606d563ed02ac6f44b43062d77b
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:96666620a506272b19319944e27b166707266143df40b9e008c7e67e99eb3d33
 size 14917

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6658911e5c000a5756986f0311bc01884aab6a488b04caad451226050b401b09
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad3ae1599c24410db8dc749055bc50d225b3704ca4ce296c6043ed130093cd3d
 size 14917

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca372268f4fa9335030c0cb7aedb6cdba75f457da50e7a4034abb1a2d0843689
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4aa03f6e0cd07cf67ce1fbe3101d545f5771ef9148b9debf02b11cf6948da5c
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae3874a248c143370ff82b050c4843d50a75c26dfebab3f0c39c4f64277b398a
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa56fa8fa334bce407f019356c2a989207ab5f10b19e9753e7cbc5ea11bcd4ec
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.577691811734365,
   "eval_steps": 500,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1508,6 +1508,506 @@
       "mean_token_accuracy": 0.6264939974993468,
       "num_tokens": 8909416.0,
       "step": 1500
     }
   ],
   "logging_steps": 10,
@@ -1527,7 +2027,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.314786665417933e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.436707500537288,
   "eval_steps": 500,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.6264939974993468,
       "num_tokens": 8909416.0,
       "step": 1500
+    },
+    {
+      "entropy": 1.8110749498009682,
+      "epoch": 2.5948850204169354,
+      "grad_norm": 0.7108538746833801,
+      "learning_rate": 0.00013964,
+      "loss": 1.8952640533447265,
+      "mean_token_accuracy": 0.6537120632827282,
+      "num_tokens": 8968510.0,
+      "step": 1510
+    },
+    {
+      "entropy": 1.977073846757412,
+      "epoch": 2.612078229099506,
+      "grad_norm": 0.7554802298545837,
+      "learning_rate": 0.00013924,
+      "loss": 2.0621898651123045,
+      "mean_token_accuracy": 0.6327366977930069,
+      "num_tokens": 9026884.0,
+      "step": 1520
+    },
+    {
+      "entropy": 1.8783492282032968,
+      "epoch": 2.629271437782076,
+      "grad_norm": 0.6592015027999878,
+      "learning_rate": 0.00013884000000000002,
+      "loss": 1.9230785369873047,
+      "mean_token_accuracy": 0.6494536675512791,
+      "num_tokens": 9085571.0,
+      "step": 1530
+    },
+    {
+      "entropy": 1.9282778173685073,
+      "epoch": 2.6464646464646466,
+      "grad_norm": 0.7717080116271973,
+      "learning_rate": 0.00013844,
+      "loss": 2.0319377899169924,
+      "mean_token_accuracy": 0.6344667036086321,
+      "num_tokens": 9147549.0,
+      "step": 1540
+    },
+    {
+      "entropy": 1.903467869758606,
+      "epoch": 2.6636578551472168,
+      "grad_norm": 0.6227516531944275,
+      "learning_rate": 0.00013804000000000003,
+      "loss": 1.9306724548339844,
+      "mean_token_accuracy": 0.644033481925726,
+      "num_tokens": 9204942.0,
+      "step": 1550
+    },
+    {
+      "entropy": 1.8967040538787843,
+      "epoch": 2.6808510638297873,
+      "grad_norm": 0.6684938073158264,
+      "learning_rate": 0.00013764000000000002,
+      "loss": 2.001560592651367,
+      "mean_token_accuracy": 0.6470274899154902,
+      "num_tokens": 9266446.0,
+      "step": 1560
+    },
+    {
+      "entropy": 1.8590586185455322,
+      "epoch": 2.6980442725123575,
+      "grad_norm": 0.6150694489479065,
+      "learning_rate": 0.00013724,
+      "loss": 1.9280338287353516,
+      "mean_token_accuracy": 0.6484670951962471,
+      "num_tokens": 9326109.0,
+      "step": 1570
+    },
+    {
+      "entropy": 1.9293041676282883,
+      "epoch": 2.715237481194928,
+      "grad_norm": 0.6057704091072083,
+      "learning_rate": 0.00013684000000000002,
+      "loss": 1.9943519592285157,
+      "mean_token_accuracy": 0.6371258046478033,
+      "num_tokens": 9385073.0,
+      "step": 1580
+    },
+    {
+      "entropy": 1.8843669161200522,
+      "epoch": 2.732430689877498,
+      "grad_norm": 0.6834639310836792,
+      "learning_rate": 0.00013644000000000002,
+      "loss": 1.9569879531860352,
+      "mean_token_accuracy": 0.6437417894601822,
+      "num_tokens": 9445137.0,
+      "step": 1590
+    },
+    {
+      "entropy": 1.8529930964112282,
+      "epoch": 2.7496238985600687,
+      "grad_norm": 0.6442180871963501,
+      "learning_rate": 0.00013604,
+      "loss": 1.8902450561523438,
+      "mean_token_accuracy": 0.6518216013908387,
+      "num_tokens": 9504160.0,
+      "step": 1600
+    },
+    {
+      "entropy": 1.939158782362938,
+      "epoch": 2.7668171072426393,
+      "grad_norm": 0.6240729689598083,
+      "learning_rate": 0.00013564000000000002,
+      "loss": 2.0188575744628907,
+      "mean_token_accuracy": 0.63564417026937,
+      "num_tokens": 9564675.0,
+      "step": 1610
+    },
+    {
+      "entropy": 1.9281259045004844,
+      "epoch": 2.7840103159252094,
+      "grad_norm": 0.750890851020813,
+      "learning_rate": 0.00013524,
+      "loss": 2.017038345336914,
+      "mean_token_accuracy": 0.6387452960014344,
+      "num_tokens": 9625026.0,
+      "step": 1620
+    },
+    {
+      "entropy": 1.873080413043499,
+      "epoch": 2.80120352460778,
+      "grad_norm": 0.776397168636322,
+      "learning_rate": 0.00013484,
+      "loss": 1.9759422302246095,
+      "mean_token_accuracy": 0.6433901283890009,
+      "num_tokens": 9685967.0,
+      "step": 1630
+    },
+    {
+      "entropy": 1.9089648619294166,
+      "epoch": 2.81839673329035,
+      "grad_norm": 0.6481618881225586,
+      "learning_rate": 0.00013444000000000002,
+      "loss": 1.956050491333008,
+      "mean_token_accuracy": 0.6402542922645807,
+      "num_tokens": 9745233.0,
+      "step": 1640
+    },
+    {
+      "entropy": 1.975960558652878,
+      "epoch": 2.8355899419729207,
+      "grad_norm": 0.6896694302558899,
+      "learning_rate": 0.00013404,
+      "loss": 2.0583721160888673,
+      "mean_token_accuracy": 0.6340504981577396,
+      "num_tokens": 9805150.0,
+      "step": 1650
+    },
+    {
+      "entropy": 1.945571132004261,
+      "epoch": 2.8527831506554913,
+      "grad_norm": 0.6386220455169678,
+      "learning_rate": 0.00013364,
+      "loss": 2.03116512298584,
+      "mean_token_accuracy": 0.6365220382809639,
+      "num_tokens": 9861196.0,
+      "step": 1660
+    },
+    {
+      "entropy": 1.9110410138964653,
+      "epoch": 2.8699763593380614,
+      "grad_norm": 0.7503199577331543,
+      "learning_rate": 0.00013324000000000002,
+      "loss": 1.9521196365356446,
+      "mean_token_accuracy": 0.6381696432828903,
+      "num_tokens": 9921155.0,
+      "step": 1670
+    },
+    {
+      "entropy": 1.849820225685835,
+      "epoch": 2.887169568020632,
+      "grad_norm": 0.6197855472564697,
+      "learning_rate": 0.00013284,
+      "loss": 1.8909440994262696,
+      "mean_token_accuracy": 0.6426266122609376,
+      "num_tokens": 9979351.0,
+      "step": 1680
+    },
+    {
+      "entropy": 1.8932805389165879,
+      "epoch": 2.904362776703202,
+      "grad_norm": 0.6703120470046997,
+      "learning_rate": 0.00013244,
+      "loss": 2.0233718872070314,
+      "mean_token_accuracy": 0.646468547359109,
+      "num_tokens": 10041238.0,
+      "step": 1690
+    },
+    {
+      "entropy": 1.8625088930130005,
+      "epoch": 2.9215559853857727,
+      "grad_norm": 0.73073410987854,
+      "learning_rate": 0.00013204000000000002,
+      "loss": 1.9317462921142579,
+      "mean_token_accuracy": 0.6454428397119045,
+      "num_tokens": 10099496.0,
+      "step": 1700
+    },
+    {
+      "entropy": 1.9354272544384004,
+      "epoch": 2.9387491940683432,
+      "grad_norm": 0.6566579937934875,
+      "learning_rate": 0.00013164,
+      "loss": 2.0027164459228515,
+      "mean_token_accuracy": 0.6403926335275173,
+      "num_tokens": 10161720.0,
+      "step": 1710
+    },
+    {
+      "entropy": 1.88578300178051,
+      "epoch": 2.9559424027509134,
+      "grad_norm": 0.7905747890472412,
+      "learning_rate": 0.00013124,
+      "loss": 1.9767372131347656,
+      "mean_token_accuracy": 0.6421503167599439,
+      "num_tokens": 10221734.0,
+      "step": 1720
+    },
+    {
+      "entropy": 1.870301403105259,
+      "epoch": 2.973135611433484,
+      "grad_norm": 0.7210419774055481,
+      "learning_rate": 0.00013084000000000001,
+      "loss": 1.9475433349609375,
+      "mean_token_accuracy": 0.6528905872255564,
+      "num_tokens": 10280223.0,
+      "step": 1730
+    },
+    {
+      "entropy": 1.8696911588311196,
+      "epoch": 2.990328820116054,
+      "grad_norm": 0.626354992389679,
+      "learning_rate": 0.00013044,
+      "loss": 1.926706314086914,
+      "mean_token_accuracy": 0.6482070714235306,
+      "num_tokens": 10339813.0,
+      "step": 1740
+    },
+    {
+      "entropy": 1.821205088844547,
+      "epoch": 3.006877283473028,
+      "grad_norm": 0.6353569030761719,
+      "learning_rate": 0.00013004,
+      "loss": 1.8657075881958007,
+      "mean_token_accuracy": 0.6556356762136731,
+      "num_tokens": 10398519.0,
+      "step": 1750
+    },
+    {
+      "entropy": 1.8890676617622375,
+      "epoch": 3.0240704921555985,
+      "grad_norm": 0.783729076385498,
+      "learning_rate": 0.00012964,
+      "loss": 1.9794137954711915,
+      "mean_token_accuracy": 0.643126554042101,
+      "num_tokens": 10456386.0,
+      "step": 1760
+    },
+    {
+      "entropy": 1.8766882956027984,
+      "epoch": 3.041263700838169,
+      "grad_norm": 0.7075045108795166,
+      "learning_rate": 0.00012924,
+      "loss": 1.9388771057128906,
+      "mean_token_accuracy": 0.6462941512465477,
+      "num_tokens": 10516721.0,
+      "step": 1770
+    },
+    {
+      "entropy": 1.7985384911298752,
+      "epoch": 3.0584569095207392,
+      "grad_norm": 0.7116262912750244,
+      "learning_rate": 0.00012884,
+      "loss": 1.8379974365234375,
+      "mean_token_accuracy": 0.6582404263317585,
+      "num_tokens": 10575553.0,
+      "step": 1780
+    },
+    {
+      "entropy": 1.8475583091378212,
+      "epoch": 3.07565011820331,
+      "grad_norm": 0.69736248254776,
+      "learning_rate": 0.00012844,
+      "loss": 1.9197765350341798,
+      "mean_token_accuracy": 0.6509403776377439,
+      "num_tokens": 10632501.0,
+      "step": 1790
+    },
+    {
+      "entropy": 1.8264927819371224,
+      "epoch": 3.09284332688588,
+      "grad_norm": 0.6354222297668457,
+      "learning_rate": 0.00012804,
+      "loss": 1.8965986251831055,
+      "mean_token_accuracy": 0.6518782209604979,
+      "num_tokens": 10693167.0,
+      "step": 1800
+    },
+    {
+      "entropy": 1.8696907818317414,
+      "epoch": 3.1100365355684505,
+      "grad_norm": 0.7568804621696472,
+      "learning_rate": 0.00012764,
+      "loss": 1.9332853317260743,
+      "mean_token_accuracy": 0.6471077598631382,
+      "num_tokens": 10753837.0,
+      "step": 1810
+    },
+    {
+      "entropy": 1.886954003572464,
+      "epoch": 3.1272297442510206,
+      "grad_norm": 0.7069846391677856,
+      "learning_rate": 0.00012724,
+      "loss": 1.9263908386230468,
+      "mean_token_accuracy": 0.6466126769781113,
+      "num_tokens": 10815256.0,
+      "step": 1820
+    },
+    {
+      "entropy": 1.8424360305070877,
+      "epoch": 3.144422952933591,
+      "grad_norm": 0.6524083614349365,
+      "learning_rate": 0.00012684,
+      "loss": 1.9088315963745117,
+      "mean_token_accuracy": 0.6496367674320936,
+      "num_tokens": 10877848.0,
+      "step": 1830
+    },
+    {
+      "entropy": 1.8966794192790986,
+      "epoch": 3.1616161616161618,
+      "grad_norm": 0.687421977519989,
+      "learning_rate": 0.00012644000000000002,
+      "loss": 1.9748069763183593,
+      "mean_token_accuracy": 0.6424707356840372,
+      "num_tokens": 10938042.0,
+      "step": 1840
+    },
+    {
+      "entropy": 1.81406429708004,
+      "epoch": 3.178809370298732,
+      "grad_norm": 0.7668496370315552,
+      "learning_rate": 0.00012604,
+      "loss": 1.8712465286254882,
+      "mean_token_accuracy": 0.6571074567735196,
+      "num_tokens": 10996204.0,
+      "step": 1850
+    },
+    {
+      "entropy": 1.8159340515732765,
+      "epoch": 3.1960025789813025,
+      "grad_norm": 0.7182545065879822,
+      "learning_rate": 0.00012564,
+      "loss": 1.830276107788086,
+      "mean_token_accuracy": 0.6546356856822968,
+      "num_tokens": 11056605.0,
+      "step": 1860
+    },
+    {
+      "entropy": 1.9095668271183968,
+      "epoch": 3.2131957876638726,
+      "grad_norm": 0.7548812031745911,
+      "learning_rate": 0.00012524000000000001,
+      "loss": 1.998922348022461,
+      "mean_token_accuracy": 0.6411306612193585,
+      "num_tokens": 11116614.0,
+      "step": 1870
+    },
+    {
+      "entropy": 1.8717206478118897,
+      "epoch": 3.230388996346443,
+      "grad_norm": 0.7692223191261292,
+      "learning_rate": 0.00012484,
+      "loss": 1.914438247680664,
+      "mean_token_accuracy": 0.6441164951771498,
+      "num_tokens": 11175802.0,
+      "step": 1880
+    },
+    {
+      "entropy": 1.8943733513355254,
+      "epoch": 3.2475822050290137,
+      "grad_norm": 0.6439138650894165,
+      "learning_rate": 0.00012444,
+      "loss": 1.9280553817749024,
+      "mean_token_accuracy": 0.6476396139711141,
+      "num_tokens": 11236477.0,
+      "step": 1890
+    },
+    {
+      "entropy": 1.8841392308473588,
+      "epoch": 3.264775413711584,
+      "grad_norm": 0.6971343159675598,
+      "learning_rate": 0.00012404,
+      "loss": 1.942568588256836,
+      "mean_token_accuracy": 0.6398356795310974,
+      "num_tokens": 11295146.0,
+      "step": 1900
+    },
+    {
+      "entropy": 1.8830088019371032,
+      "epoch": 3.2819686223941544,
+      "grad_norm": 0.7196023464202881,
+      "learning_rate": 0.00012364,
+      "loss": 1.963007354736328,
+      "mean_token_accuracy": 0.6452915534377098,
+      "num_tokens": 11355726.0,
+      "step": 1910
+    },
+    {
+      "entropy": 1.927216087281704,
+      "epoch": 3.2991618310767246,
+      "grad_norm": 0.790634274482727,
+      "learning_rate": 0.00012324,
+      "loss": 2.0809165954589846,
+      "mean_token_accuracy": 0.6384686015546321,
+      "num_tokens": 11415237.0,
+      "step": 1920
+    },
+    {
+      "entropy": 1.849087017774582,
+      "epoch": 3.316355039759295,
+      "grad_norm": 0.6752087473869324,
+      "learning_rate": 0.00012284,
+      "loss": 1.9017595291137694,
+      "mean_token_accuracy": 0.6522149413824081,
+      "num_tokens": 11476337.0,
+      "step": 1930
+    },
+    {
+      "entropy": 1.8517325416207313,
+      "epoch": 3.3335482484418657,
+      "grad_norm": 0.8036973476409912,
+      "learning_rate": 0.00012244,
+      "loss": 1.9011222839355468,
+      "mean_token_accuracy": 0.6499856971204281,
+      "num_tokens": 11537529.0,
+      "step": 1940
+    },
+    {
+      "entropy": 1.7622334837913514,
+      "epoch": 3.350741457124436,
+      "grad_norm": 0.7138587832450867,
+      "learning_rate": 0.00012204,
+      "loss": 1.7955827713012695,
+      "mean_token_accuracy": 0.6596556272357702,
+      "num_tokens": 11595421.0,
+      "step": 1950
+    },
+    {
+      "entropy": 1.8950866341590882,
+      "epoch": 3.3679346658070064,
+      "grad_norm": 0.6869714260101318,
+      "learning_rate": 0.00012164,
+      "loss": 1.948552131652832,
+      "mean_token_accuracy": 0.6493024453520775,
+      "num_tokens": 11655749.0,
+      "step": 1960
+    },
+    {
+      "entropy": 1.9235218942165375,
+      "epoch": 3.3851278744895765,
+      "grad_norm": 0.656403124332428,
+      "learning_rate": 0.00012124,
+      "loss": 2.04327449798584,
+      "mean_token_accuracy": 0.6389912366867065,
+      "num_tokens": 11717271.0,
+      "step": 1970
+    },
+    {
+      "entropy": 1.834906594455242,
+      "epoch": 3.402321083172147,
+      "grad_norm": 0.7343699932098389,
+      "learning_rate": 0.00012084,
+      "loss": 1.9038848876953125,
+      "mean_token_accuracy": 0.6569048661738635,
+      "num_tokens": 11778095.0,
+      "step": 1980
+    },
+    {
+      "entropy": 1.8515655741095542,
+      "epoch": 3.4195142918547172,
+      "grad_norm": 0.7009745240211487,
+      "learning_rate": 0.00012043999999999999,
+      "loss": 1.9157728195190429,
+      "mean_token_accuracy": 0.6512683361768723,
+      "num_tokens": 11835954.0,
+      "step": 1990
+    },
+    {
+      "entropy": 1.8634012743830681,
+      "epoch": 3.436707500537288,
+      "grad_norm": 0.6880552172660828,
+      "learning_rate": 0.00012004,
+      "loss": 1.9772762298583983,
+      "mean_token_accuracy": 0.6531724959611893,
+      "num_tokens": 11896615.0,
+      "step": 2000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 9.772738986953933e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null