Training in progress, step 3000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +503 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea03fbd5faff9829b79932a9492534fbbbe2845de9ce69e896c0b8d109c1a825
 size 9446744

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c4bc2b38adc32706e2acf860899364c389c44795cde5d43402ad1b3e24719a4
 size 9446744

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ca4bfe766f5a9ce1a39e0d776749658d826fc560902b47178ff40c41d18b94a
 size 4879947

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa9401bbac3284c4bb6a11169e446baad7a8e6fc00ab949bbe417b3d7a375a77
 size 4879947

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd840ceb0cbd2bc41560fadd05ab11cb9d3690eebf99ba42e453854e5f372ed8
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2194fb161e52a47a7f6b1734e178985577fd22e6aae4a22215e086c0248266b
 size 14917

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e68bcbbf919727508b1f5613e7b10a32a3e07fdef6c3370ef48c8724f2e31e4
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:431821c493d4002c62a876cbdeb3eade105892abe1c599865b041dfe28827339
 size 14917

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:861ce13e6ca091acee9a68ebfc5ca38479baf4b537c37b3949f071f77b81e9f0
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ac1c46a2776d12775d23d0f587efc112188137ce2140da35bc15d301c9f620e
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f5bce3ff1203929d6808ab229d6e6d4d185a3da8ef87a3b682b0eec04e6bacf2
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad46a212d4576c083702df279951b960843d734a5cd61ac93041cad4b1712452
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.295723189340211,
   "eval_steps": 500,
-  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2508,6 +2508,506 @@
       "mean_token_accuracy": 0.6467559643089771,
       "num_tokens": 14861262.0,
       "step": 2500
     }
   ],
   "logging_steps": 10,
@@ -2527,7 +3027,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2204939073814528e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.154738878143133,
   "eval_steps": 500,
+  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.6467559643089771,
       "num_tokens": 14861262.0,
       "step": 2500
+    },
+    {
+      "entropy": 1.8234948687255383,
+      "epoch": 4.312916398022781,
+      "grad_norm": 0.778538167476654,
+      "learning_rate": 9.964e-05,
+      "loss": 1.8733020782470704,
+      "mean_token_accuracy": 0.6553889319300652,
+      "num_tokens": 14920923.0,
+      "step": 2510
+    },
+    {
+      "entropy": 1.812998068332672,
+      "epoch": 4.330109606705351,
+      "grad_norm": 0.7861834764480591,
+      "learning_rate": 9.924e-05,
+      "loss": 1.8699317932128907,
+      "mean_token_accuracy": 0.6555795632302761,
+      "num_tokens": 14978173.0,
+      "step": 2520
+    },
+    {
+      "entropy": 1.8013822883367538,
+      "epoch": 4.347302815387922,
+      "grad_norm": 0.751916229724884,
+      "learning_rate": 9.884e-05,
+      "loss": 1.8372121810913087,
+      "mean_token_accuracy": 0.664341426640749,
+      "num_tokens": 15034480.0,
+      "step": 2530
+    },
+    {
+      "entropy": 1.7700918450951577,
+      "epoch": 4.364496024070492,
+      "grad_norm": 0.7365695834159851,
+      "learning_rate": 9.844000000000001e-05,
+      "loss": 1.8166645050048829,
+      "mean_token_accuracy": 0.6654425717890262,
+      "num_tokens": 15093226.0,
+      "step": 2540
+    },
+    {
+      "entropy": 1.7808674454689026,
+      "epoch": 4.381689232753063,
+      "grad_norm": 0.7306393980979919,
+      "learning_rate": 9.804e-05,
+      "loss": 1.8363780975341797,
+      "mean_token_accuracy": 0.6601886965334416,
+      "num_tokens": 15149937.0,
+      "step": 2550
+    },
+    {
+      "entropy": 1.7890540674328803,
+      "epoch": 4.398882441435633,
+      "grad_norm": 0.7466715574264526,
+      "learning_rate": 9.764000000000001e-05,
+      "loss": 1.847653579711914,
+      "mean_token_accuracy": 0.6586611110717058,
+      "num_tokens": 15210500.0,
+      "step": 2560
+    },
+    {
+      "entropy": 1.7866264268755914,
+      "epoch": 4.416075650118203,
+      "grad_norm": 0.7825273871421814,
+      "learning_rate": 9.724000000000001e-05,
+      "loss": 1.82576904296875,
+      "mean_token_accuracy": 0.6592508733272553,
+      "num_tokens": 15268262.0,
+      "step": 2570
+    },
+    {
+      "entropy": 1.8321722269058227,
+      "epoch": 4.433268858800774,
+      "grad_norm": 0.7158058285713196,
+      "learning_rate": 9.684000000000001e-05,
+      "loss": 1.8807327270507812,
+      "mean_token_accuracy": 0.6545467376708984,
+      "num_tokens": 15330745.0,
+      "step": 2580
+    },
+    {
+      "entropy": 1.739266212284565,
+      "epoch": 4.450462067483344,
+      "grad_norm": 0.7281847596168518,
+      "learning_rate": 9.644e-05,
+      "loss": 1.7686588287353515,
+      "mean_token_accuracy": 0.6666045777499676,
+      "num_tokens": 15391266.0,
+      "step": 2590
+    },
+    {
+      "entropy": 1.8295569285750388,
+      "epoch": 4.467655276165915,
+      "grad_norm": 0.7166727781295776,
+      "learning_rate": 9.604000000000001e-05,
+      "loss": 1.9156217575073242,
+      "mean_token_accuracy": 0.655017600953579,
+      "num_tokens": 15449819.0,
+      "step": 2600
+    },
+    {
+      "entropy": 1.8236071288585662,
+      "epoch": 4.484848484848484,
+      "grad_norm": 0.6946532726287842,
+      "learning_rate": 9.564000000000001e-05,
+      "loss": 1.9035514831542968,
+      "mean_token_accuracy": 0.649907086789608,
+      "num_tokens": 15513231.0,
+      "step": 2610
+    },
+    {
+      "entropy": 1.7869442969560623,
+      "epoch": 4.502041693531055,
+      "grad_norm": 0.7257023453712463,
+      "learning_rate": 9.524e-05,
+      "loss": 1.841336441040039,
+      "mean_token_accuracy": 0.6655759517103433,
+      "num_tokens": 15568973.0,
+      "step": 2620
+    },
+    {
+      "entropy": 1.7462848544120788,
+      "epoch": 4.519234902213626,
+      "grad_norm": 0.7239391803741455,
+      "learning_rate": 9.484e-05,
+      "loss": 1.7989360809326171,
+      "mean_token_accuracy": 0.6646886244416237,
+      "num_tokens": 15627655.0,
+      "step": 2630
+    },
+    {
+      "entropy": 1.7926493644714356,
+      "epoch": 4.536428110896196,
+      "grad_norm": 0.7628325819969177,
+      "learning_rate": 9.444000000000001e-05,
+      "loss": 1.8627632141113282,
+      "mean_token_accuracy": 0.654141866415739,
+      "num_tokens": 15687626.0,
+      "step": 2640
+    },
+    {
+      "entropy": 1.7928333327174186,
+      "epoch": 4.553621319578767,
+      "grad_norm": 0.629107654094696,
+      "learning_rate": 9.404e-05,
+      "loss": 1.8784042358398438,
+      "mean_token_accuracy": 0.6618591919541359,
+      "num_tokens": 15750035.0,
+      "step": 2650
+    },
+    {
+      "entropy": 1.7438783437013625,
+      "epoch": 4.570814528261336,
+      "grad_norm": 0.6948845982551575,
+      "learning_rate": 9.364e-05,
+      "loss": 1.7456579208374023,
+      "mean_token_accuracy": 0.6722261719405651,
+      "num_tokens": 15809533.0,
+      "step": 2660
+    },
+    {
+      "entropy": 1.7451874181628226,
+      "epoch": 4.588007736943907,
+      "grad_norm": 0.7213107943534851,
+      "learning_rate": 9.324000000000001e-05,
+      "loss": 1.8111917495727539,
+      "mean_token_accuracy": 0.6621977139264346,
+      "num_tokens": 15866570.0,
+      "step": 2670
+    },
+    {
+      "entropy": 1.806991095095873,
+      "epoch": 4.6052009456264775,
+      "grad_norm": 0.9146936535835266,
+      "learning_rate": 9.284e-05,
+      "loss": 1.8761199951171874,
+      "mean_token_accuracy": 0.6552402298897505,
+      "num_tokens": 15923681.0,
+      "step": 2680
+    },
+    {
+      "entropy": 1.854476225376129,
+      "epoch": 4.622394154309048,
+      "grad_norm": 0.675061047077179,
+      "learning_rate": 9.244e-05,
+      "loss": 1.8601364135742187,
+      "mean_token_accuracy": 0.656403211131692,
+      "num_tokens": 15979879.0,
+      "step": 2690
+    },
+    {
+      "entropy": 1.8345128282904626,
+      "epoch": 4.639587362991619,
+      "grad_norm": 0.7702699303627014,
+      "learning_rate": 9.204e-05,
+      "loss": 1.9170707702636718,
+      "mean_token_accuracy": 0.6507652081549168,
+      "num_tokens": 16040136.0,
+      "step": 2700
+    },
+    {
+      "entropy": 1.8444690719246863,
+      "epoch": 4.656780571674188,
+      "grad_norm": 0.7249677181243896,
+      "learning_rate": 9.164000000000001e-05,
+      "loss": 1.9021928787231446,
+      "mean_token_accuracy": 0.6553504541516304,
+      "num_tokens": 16097652.0,
+      "step": 2710
+    },
+    {
+      "entropy": 1.8083212688565253,
+      "epoch": 4.673973780356759,
+      "grad_norm": 0.7018275260925293,
+      "learning_rate": 9.124e-05,
+      "loss": 1.87921199798584,
+      "mean_token_accuracy": 0.6609590038657188,
+      "num_tokens": 16159014.0,
+      "step": 2720
+    },
+    {
+      "entropy": 1.793540646135807,
+      "epoch": 4.6911669890393295,
+      "grad_norm": 0.731863796710968,
+      "learning_rate": 9.084e-05,
+      "loss": 1.847224807739258,
+      "mean_token_accuracy": 0.6638176888227463,
+      "num_tokens": 16223636.0,
+      "step": 2730
+    },
+    {
+      "entropy": 1.7947301134467124,
+      "epoch": 4.7083601977219,
+      "grad_norm": 0.7208489775657654,
+      "learning_rate": 9.044000000000001e-05,
+      "loss": 1.8400375366210937,
+      "mean_token_accuracy": 0.6600434482097626,
+      "num_tokens": 16281647.0,
+      "step": 2740
+    },
+    {
+      "entropy": 1.8043948471546174,
+      "epoch": 4.725553406404471,
+      "grad_norm": 0.7633848190307617,
+      "learning_rate": 9.004e-05,
+      "loss": 1.8509382247924804,
+      "mean_token_accuracy": 0.6632162068039179,
+      "num_tokens": 16340706.0,
+      "step": 2750
+    },
+    {
+      "entropy": 1.8240734949707984,
+      "epoch": 4.74274661508704,
+      "grad_norm": 0.7516812086105347,
+      "learning_rate": 8.964e-05,
+      "loss": 1.9139686584472657,
+      "mean_token_accuracy": 0.6504824224859476,
+      "num_tokens": 16398077.0,
+      "step": 2760
+    },
+    {
+      "entropy": 1.7775158017873764,
+      "epoch": 4.759939823769611,
+      "grad_norm": 0.7677133679389954,
+      "learning_rate": 8.924e-05,
+      "loss": 1.8351661682128906,
+      "mean_token_accuracy": 0.6568478621542454,
+      "num_tokens": 16458898.0,
+      "step": 2770
+    },
+    {
+      "entropy": 1.8671277523040772,
+      "epoch": 4.7771330324521815,
+      "grad_norm": 0.750451385974884,
+      "learning_rate": 8.884e-05,
+      "loss": 1.9589305877685548,
+      "mean_token_accuracy": 0.6506143860518933,
+      "num_tokens": 16519496.0,
+      "step": 2780
+    },
+    {
+      "entropy": 1.7745324671268463,
+      "epoch": 4.794326241134752,
+      "grad_norm": 0.8302338719367981,
+      "learning_rate": 8.844e-05,
+      "loss": 1.8637496948242187,
+      "mean_token_accuracy": 0.6621543657034635,
+      "num_tokens": 16579080.0,
+      "step": 2790
+    },
+    {
+      "entropy": 1.73246541172266,
+      "epoch": 4.811519449817322,
+      "grad_norm": 0.778176486492157,
+      "learning_rate": 8.804e-05,
+      "loss": 1.752696418762207,
+      "mean_token_accuracy": 0.6727286443114281,
+      "num_tokens": 16640932.0,
+      "step": 2800
+    },
+    {
+      "entropy": 1.8060437709093093,
+      "epoch": 4.828712658499892,
+      "grad_norm": 0.9019444584846497,
+      "learning_rate": 8.764e-05,
+      "loss": 1.9031681060791015,
+      "mean_token_accuracy": 0.6563040159642697,
+      "num_tokens": 16702244.0,
+      "step": 2810
+    },
+    {
+      "entropy": 1.8732322439551354,
+      "epoch": 4.845905867182463,
+      "grad_norm": 0.7397829294204712,
+      "learning_rate": 8.724e-05,
+      "loss": 1.9326038360595703,
+      "mean_token_accuracy": 0.6478111572563648,
+      "num_tokens": 16764555.0,
+      "step": 2820
+    },
+    {
+      "entropy": 1.842681024968624,
+      "epoch": 4.863099075865033,
+      "grad_norm": 0.8511717915534973,
+      "learning_rate": 8.684e-05,
+      "loss": 1.9107376098632813,
+      "mean_token_accuracy": 0.6531910292804242,
+      "num_tokens": 16821936.0,
+      "step": 2830
+    },
+    {
+      "entropy": 1.7571960732340812,
+      "epoch": 4.880292284547604,
+      "grad_norm": 0.7064304947853088,
+      "learning_rate": 8.643999999999999e-05,
+      "loss": 1.7985404968261718,
+      "mean_token_accuracy": 0.6667480751872062,
+      "num_tokens": 16882205.0,
+      "step": 2840
+    },
+    {
+      "entropy": 1.8695308573544025,
+      "epoch": 4.897485493230175,
+      "grad_norm": 0.7386742234230042,
+      "learning_rate": 8.604000000000001e-05,
+      "loss": 1.9543342590332031,
+      "mean_token_accuracy": 0.6496741093695164,
+      "num_tokens": 16939799.0,
+      "step": 2850
+    },
+    {
+      "entropy": 1.7877972453832627,
+      "epoch": 4.914678701912744,
+      "grad_norm": 0.7687976956367493,
+      "learning_rate": 8.564000000000001e-05,
+      "loss": 1.7994373321533204,
+      "mean_token_accuracy": 0.6637697361409665,
+      "num_tokens": 16997716.0,
+      "step": 2860
+    },
+    {
+      "entropy": 1.761916320025921,
+      "epoch": 4.931871910595315,
+      "grad_norm": 0.7507193088531494,
+      "learning_rate": 8.524e-05,
+      "loss": 1.788670539855957,
+      "mean_token_accuracy": 0.6648910716176033,
+      "num_tokens": 17057260.0,
+      "step": 2870
+    },
+    {
+      "entropy": 1.804823537170887,
+      "epoch": 4.949065119277885,
+      "grad_norm": 0.727188229560852,
+      "learning_rate": 8.484000000000001e-05,
+      "loss": 1.855522346496582,
+      "mean_token_accuracy": 0.657912939786911,
+      "num_tokens": 17116073.0,
+      "step": 2880
+    },
+    {
+      "entropy": 1.8259041801095008,
+      "epoch": 4.966258327960456,
+      "grad_norm": 0.7195336818695068,
+      "learning_rate": 8.444000000000001e-05,
+      "loss": 1.8942272186279296,
+      "mean_token_accuracy": 0.6546841934323311,
+      "num_tokens": 17174141.0,
+      "step": 2890
+    },
+    {
+      "entropy": 1.7153871595859527,
+      "epoch": 4.983451536643026,
+      "grad_norm": 0.7093940377235413,
+      "learning_rate": 8.404e-05,
+      "loss": 1.7350996017456055,
+      "mean_token_accuracy": 0.6728265054523945,
+      "num_tokens": 17233307.0,
+      "step": 2900
+    },
+    {
+      "entropy": 1.7630670566063422,
+      "epoch": 5.0,
+      "grad_norm": 0.979345440864563,
+      "learning_rate": 8.364e-05,
+      "loss": 1.8098876953125,
+      "mean_token_accuracy": 0.6604567510741097,
+      "num_tokens": 17289810.0,
+      "step": 2910
+    },
+    {
+      "entropy": 1.8877688512206077,
+      "epoch": 5.017193208682571,
+      "grad_norm": 0.8140257596969604,
+      "learning_rate": 8.324000000000001e-05,
+      "loss": 1.9562681198120118,
+      "mean_token_accuracy": 0.6476880256086588,
+      "num_tokens": 17349922.0,
+      "step": 2920
+    },
+    {
+      "entropy": 1.6694072388112544,
+      "epoch": 5.034386417365141,
+      "grad_norm": 0.7486578226089478,
+      "learning_rate": 8.284000000000001e-05,
+      "loss": 1.71788330078125,
+      "mean_token_accuracy": 0.6781885512173176,
+      "num_tokens": 17409363.0,
+      "step": 2930
+    },
+    {
+      "entropy": 1.8061093628406524,
+      "epoch": 5.051579626047711,
+      "grad_norm": 0.8148984313011169,
+      "learning_rate": 8.244e-05,
+      "loss": 1.8484228134155274,
+      "mean_token_accuracy": 0.6591597832739353,
+      "num_tokens": 17468218.0,
+      "step": 2940
+    },
+    {
+      "entropy": 1.7561381176114081,
+      "epoch": 5.068772834730281,
+      "grad_norm": 0.7412339448928833,
+      "learning_rate": 8.204000000000001e-05,
+      "loss": 1.8109855651855469,
+      "mean_token_accuracy": 0.6648329850286245,
+      "num_tokens": 17529603.0,
+      "step": 2950
+    },
+    {
+      "entropy": 1.7058369636535644,
+      "epoch": 5.085966043412852,
+      "grad_norm": 0.7845883369445801,
+      "learning_rate": 8.164000000000001e-05,
+      "loss": 1.7577402114868164,
+      "mean_token_accuracy": 0.675883399322629,
+      "num_tokens": 17587275.0,
+      "step": 2960
+    },
+    {
+      "entropy": 1.7319279327988624,
+      "epoch": 5.1031592520954225,
+      "grad_norm": 0.7546029090881348,
+      "learning_rate": 8.124e-05,
+      "loss": 1.8096488952636718,
+      "mean_token_accuracy": 0.668717809766531,
+      "num_tokens": 17647368.0,
+      "step": 2970
+    },
+    {
+      "entropy": 1.7872621923685075,
+      "epoch": 5.120352460777993,
+      "grad_norm": 0.7214957475662231,
+      "learning_rate": 8.084e-05,
+      "loss": 1.7827239990234376,
+      "mean_token_accuracy": 0.663322826102376,
+      "num_tokens": 17708210.0,
+      "step": 2980
+    },
+    {
+      "entropy": 1.7479579642415046,
+      "epoch": 5.137545669460563,
+      "grad_norm": 0.6938044428825378,
+      "learning_rate": 8.044000000000001e-05,
+      "loss": 1.837489700317383,
+      "mean_token_accuracy": 0.666904554143548,
+      "num_tokens": 17770498.0,
+      "step": 2990
+    },
+    {
+      "entropy": 1.760008592903614,
+      "epoch": 5.154738878143133,
+      "grad_norm": 0.7440096139907837,
+      "learning_rate": 8.004e-05,
+      "loss": 1.7957250595092773,
+      "mean_token_accuracy": 0.6704145818948746,
+      "num_tokens": 17831493.0,
+      "step": 3000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.4643251157506458e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null