Training in progress, step 13748, checkpoint

Browse files

Files changed (12) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +2 -2
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +521 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9cf83fcc35cbeccda29e41e5a239a30c9878fff2ed12f6202687d1cc78a53d33
 size 737582948

 version https://git-lfs.github.com/spec/v1
+oid sha256:9429983e59f652175f71152fba6eaf3af3a03dcccaed4b1c0446ada02b2b54e6
 size 737582948

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a822201578594008224879f74b2b4f9407c3b6d910a5d9f8150dfb57e55f9839
 size 1475256250

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e8f963dd44ad4b5a4ff6a887f814dc448e58639e52eefe4e323265991e6b18d
 size 1475256250

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aab9b88403a4870612524aeb22edbec848f22712de7dc2dc2c2e5d5a61fd5fa2
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:75615b5e6cc125bb94988b3c50b73a5f8c3305643e30a3d5b2f3189a2032ba16
 size 15920

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac04a7bb6b195f0524aef30982df54700583a952ce3f364f2ebb726a2283cb83
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:b2e8e6885d573427d2de37a77bf587fa112946ff22d3ea4df32210439a557a5b
 size 15920

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:200a8689b4395a1bbe5786c6e017cc00f974df43d64b67ff1fd65d86cee2eac5
-size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:8cc6d8d5bb2a96a1ebfb5cf92fac012f69410a414ce89ccd7c5ae11f14e596fa
+size 15920

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f0b66504d38448386cda55d409ea77b9c193882e1d9e50fc8e75e03505e47e07
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b1ad1f84976b61e4cfaae51278742d669e0df2692aced4131064ecd61c1edf2
 size 15920

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24bd01e4934833714e50683db598cf170e089ac7345314487bab1e91a26e5fd6
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:35fafd6395e4cb387bb75fb28a0482502f9e17f6c3b0e3e256daf180373b3f0b
 size 15920

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10568452053cd042809865062f1c3b6117b4f9cb2a36138830ab329649de4c5d
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:48c89bb33c92eb59bfef32b9537aa0cfa50296c7262cfdb9eb91256dc5b5e9f3
 size 15920

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:028fbfed0ea057f7cba505b85aabb9f8f3300e1ca5de4c9738be9eb5fb7f4bfb
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:32dfdc872866fda5b64b7229bac1e43cf4fe2356a4c82d10a2502643547790ec
 size 15920

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5340b47a03039876c313687a97ae0b0c4c4f3b0059c1b4266e40d507f87b999
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a48787eaef9585df14b508d1097c445291248a545d320eeaf26f46b061d496a
 size 15920

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da5a3d0f3b47665abb770a3493b11c8bcfaffceef746f758a329ed422fd0cb0c
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:2813db161368db76429d904a036e1161875e895320a4ce21cc6fa1fdd51aa271
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.616079810339067,
   "eval_steps": 500,
-  "global_step": 13000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9107,6 +9107,524 @@
       "learning_rate": 4.981531808618395e-05,
       "loss": 0.6818,
       "step": 13000
     }
   ],
   "logging_steps": 10,
@@ -9121,7 +9639,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.99692914763958,
   "eval_steps": 500,
+  "global_step": 13748,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 4.981531808618395e-05,
       "loss": 0.6818,
       "step": 13000
+    },
+    {
+      "epoch": 6.621171379019555,
+      "grad_norm": 0.13289377093315125,
+      "learning_rate": 4.981517602317332e-05,
+      "loss": 0.6811,
+      "step": 13010
+    },
+    {
+      "epoch": 6.626262947700043,
+      "grad_norm": 0.18308168649673462,
+      "learning_rate": 4.9815033960162695e-05,
+      "loss": 0.678,
+      "step": 13020
+    },
+    {
+      "epoch": 6.631354516380531,
+      "grad_norm": 0.12425180524587631,
+      "learning_rate": 4.981489189715207e-05,
+      "loss": 0.6816,
+      "step": 13030
+    },
+    {
+      "epoch": 6.636446085061019,
+      "grad_norm": 0.13754673302173615,
+      "learning_rate": 4.981474983414144e-05,
+      "loss": 0.6773,
+      "step": 13040
+    },
+    {
+      "epoch": 6.641537653741508,
+      "grad_norm": 0.15316608548164368,
+      "learning_rate": 4.9814607771130814e-05,
+      "loss": 0.6765,
+      "step": 13050
+    },
+    {
+      "epoch": 6.646629222421995,
+      "grad_norm": 0.136078342795372,
+      "learning_rate": 4.981446570812018e-05,
+      "loss": 0.6767,
+      "step": 13060
+    },
+    {
+      "epoch": 6.651720791102484,
+      "grad_norm": 0.12898576259613037,
+      "learning_rate": 4.9814323645109554e-05,
+      "loss": 0.6786,
+      "step": 13070
+    },
+    {
+      "epoch": 6.656812359782972,
+      "grad_norm": 0.11854422837495804,
+      "learning_rate": 4.981418158209893e-05,
+      "loss": 0.6806,
+      "step": 13080
+    },
+    {
+      "epoch": 6.66190392846346,
+      "grad_norm": 0.1517888456583023,
+      "learning_rate": 4.98140395190883e-05,
+      "loss": 0.6829,
+      "step": 13090
+    },
+    {
+      "epoch": 6.666995497143948,
+      "grad_norm": 0.1091533899307251,
+      "learning_rate": 4.9813897456077666e-05,
+      "loss": 0.6774,
+      "step": 13100
+    },
+    {
+      "epoch": 6.672087065824436,
+      "grad_norm": 0.13526228070259094,
+      "learning_rate": 4.981375539306704e-05,
+      "loss": 0.6747,
+      "step": 13110
+    },
+    {
+      "epoch": 6.677178634504925,
+      "grad_norm": 0.144491046667099,
+      "learning_rate": 4.981361333005641e-05,
+      "loss": 0.6787,
+      "step": 13120
+    },
+    {
+      "epoch": 6.682270203185412,
+      "grad_norm": 0.16958777606487274,
+      "learning_rate": 4.9813471267045786e-05,
+      "loss": 0.6744,
+      "step": 13130
+    },
+    {
+      "epoch": 6.687361771865901,
+      "grad_norm": 0.14115367829799652,
+      "learning_rate": 4.981332920403516e-05,
+      "loss": 0.6791,
+      "step": 13140
+    },
+    {
+      "epoch": 6.692453340546389,
+      "grad_norm": 0.11081673204898834,
+      "learning_rate": 4.981318714102453e-05,
+      "loss": 0.6795,
+      "step": 13150
+    },
+    {
+      "epoch": 6.6975449092268775,
+      "grad_norm": 0.14843027293682098,
+      "learning_rate": 4.9813045078013905e-05,
+      "loss": 0.6807,
+      "step": 13160
+    },
+    {
+      "epoch": 6.702636477907365,
+      "grad_norm": 0.12543180584907532,
+      "learning_rate": 4.981290301500328e-05,
+      "loss": 0.6778,
+      "step": 13170
+    },
+    {
+      "epoch": 6.707728046587853,
+      "grad_norm": 0.13169404864311218,
+      "learning_rate": 4.981276095199265e-05,
+      "loss": 0.675,
+      "step": 13180
+    },
+    {
+      "epoch": 6.712819615268342,
+      "grad_norm": 0.15343239903450012,
+      "learning_rate": 4.9812618888982024e-05,
+      "loss": 0.6819,
+      "step": 13190
+    },
+    {
+      "epoch": 6.7179111839488295,
+      "grad_norm": 0.13029424846172333,
+      "learning_rate": 4.981247682597139e-05,
+      "loss": 0.6778,
+      "step": 13200
+    },
+    {
+      "epoch": 6.723002752629318,
+      "grad_norm": 0.11084284633398056,
+      "learning_rate": 4.9812334762960764e-05,
+      "loss": 0.6824,
+      "step": 13210
+    },
+    {
+      "epoch": 6.728094321309806,
+      "grad_norm": 0.11253423988819122,
+      "learning_rate": 4.981219269995014e-05,
+      "loss": 0.6798,
+      "step": 13220
+    },
+    {
+      "epoch": 6.7331858899902945,
+      "grad_norm": 0.1311793029308319,
+      "learning_rate": 4.981205063693951e-05,
+      "loss": 0.6814,
+      "step": 13230
+    },
+    {
+      "epoch": 6.738277458670782,
+      "grad_norm": 0.12919209897518158,
+      "learning_rate": 4.981190857392888e-05,
+      "loss": 0.6768,
+      "step": 13240
+    },
+    {
+      "epoch": 6.743369027351271,
+      "grad_norm": 0.12355062365531921,
+      "learning_rate": 4.9811766510918256e-05,
+      "loss": 0.6799,
+      "step": 13250
+    },
+    {
+      "epoch": 6.748460596031759,
+      "grad_norm": 0.1338970810174942,
+      "learning_rate": 4.981162444790763e-05,
+      "loss": 0.6771,
+      "step": 13260
+    },
+    {
+      "epoch": 6.7535521647122465,
+      "grad_norm": 0.14117179811000824,
+      "learning_rate": 4.9811482384897e-05,
+      "loss": 0.6799,
+      "step": 13270
+    },
+    {
+      "epoch": 6.758643733392735,
+      "grad_norm": 0.1848529875278473,
+      "learning_rate": 4.9811340321886375e-05,
+      "loss": 0.6755,
+      "step": 13280
+    },
+    {
+      "epoch": 6.763735302073223,
+      "grad_norm": 0.1720336526632309,
+      "learning_rate": 4.981119825887575e-05,
+      "loss": 0.67,
+      "step": 13290
+    },
+    {
+      "epoch": 6.768826870753712,
+      "grad_norm": 0.1607787162065506,
+      "learning_rate": 4.981105619586512e-05,
+      "loss": 0.6827,
+      "step": 13300
+    },
+    {
+      "epoch": 6.773918439434199,
+      "grad_norm": 0.14998158812522888,
+      "learning_rate": 4.981091413285449e-05,
+      "loss": 0.6759,
+      "step": 13310
+    },
+    {
+      "epoch": 6.779010008114687,
+      "grad_norm": 0.11763730645179749,
+      "learning_rate": 4.981077206984386e-05,
+      "loss": 0.6747,
+      "step": 13320
+    },
+    {
+      "epoch": 6.784101576795176,
+      "grad_norm": 0.12859204411506653,
+      "learning_rate": 4.9810630006833234e-05,
+      "loss": 0.6785,
+      "step": 13330
+    },
+    {
+      "epoch": 6.7891931454756635,
+      "grad_norm": 0.12227821350097656,
+      "learning_rate": 4.98104879438226e-05,
+      "loss": 0.6794,
+      "step": 13340
+    },
+    {
+      "epoch": 6.794284714156152,
+      "grad_norm": 0.11308576911687851,
+      "learning_rate": 4.9810345880811974e-05,
+      "loss": 0.6777,
+      "step": 13350
+    },
+    {
+      "epoch": 6.79937628283664,
+      "grad_norm": 0.12252433598041534,
+      "learning_rate": 4.981020381780135e-05,
+      "loss": 0.6778,
+      "step": 13360
+    },
+    {
+      "epoch": 6.804467851517129,
+      "grad_norm": 0.11951456218957901,
+      "learning_rate": 4.981006175479072e-05,
+      "loss": 0.6778,
+      "step": 13370
+    },
+    {
+      "epoch": 6.809559420197616,
+      "grad_norm": 0.13758736848831177,
+      "learning_rate": 4.980991969178009e-05,
+      "loss": 0.6757,
+      "step": 13380
+    },
+    {
+      "epoch": 6.814650988878105,
+      "grad_norm": 0.15930655598640442,
+      "learning_rate": 4.9809777628769466e-05,
+      "loss": 0.675,
+      "step": 13390
+    },
+    {
+      "epoch": 6.819742557558593,
+      "grad_norm": 0.16790159046649933,
+      "learning_rate": 4.980963556575884e-05,
+      "loss": 0.6685,
+      "step": 13400
+    },
+    {
+      "epoch": 6.824834126239081,
+      "grad_norm": 0.1681044101715088,
+      "learning_rate": 4.980949350274821e-05,
+      "loss": 0.683,
+      "step": 13410
+    },
+    {
+      "epoch": 6.829925694919569,
+      "grad_norm": 0.1336173415184021,
+      "learning_rate": 4.9809351439737585e-05,
+      "loss": 0.6746,
+      "step": 13420
+    },
+    {
+      "epoch": 6.835017263600057,
+      "grad_norm": 0.11793011426925659,
+      "learning_rate": 4.980920937672696e-05,
+      "loss": 0.6789,
+      "step": 13430
+    },
+    {
+      "epoch": 6.840108832280546,
+      "grad_norm": 0.14056985080242157,
+      "learning_rate": 4.980906731371633e-05,
+      "loss": 0.6797,
+      "step": 13440
+    },
+    {
+      "epoch": 6.845200400961033,
+      "grad_norm": 0.11312086880207062,
+      "learning_rate": 4.9808925250705705e-05,
+      "loss": 0.6777,
+      "step": 13450
+    },
+    {
+      "epoch": 6.850291969641522,
+      "grad_norm": 0.14550986886024475,
+      "learning_rate": 4.980878318769507e-05,
+      "loss": 0.6792,
+      "step": 13460
+    },
+    {
+      "epoch": 6.85538353832201,
+      "grad_norm": 0.13276565074920654,
+      "learning_rate": 4.9808641124684444e-05,
+      "loss": 0.6797,
+      "step": 13470
+    },
+    {
+      "epoch": 6.8604751070024985,
+      "grad_norm": 0.1404767632484436,
+      "learning_rate": 4.980849906167382e-05,
+      "loss": 0.6767,
+      "step": 13480
+    },
+    {
+      "epoch": 6.865566675682986,
+      "grad_norm": 0.11344119906425476,
+      "learning_rate": 4.980835699866319e-05,
+      "loss": 0.6779,
+      "step": 13490
+    },
+    {
+      "epoch": 6.870658244363474,
+      "grad_norm": 0.18248707056045532,
+      "learning_rate": 4.9808214935652563e-05,
+      "loss": 0.6819,
+      "step": 13500
+    },
+    {
+      "epoch": 6.875749813043963,
+      "grad_norm": 0.13696008920669556,
+      "learning_rate": 4.9808072872641937e-05,
+      "loss": 0.6789,
+      "step": 13510
+    },
+    {
+      "epoch": 6.8808413817244505,
+      "grad_norm": 0.1089053824543953,
+      "learning_rate": 4.98079308096313e-05,
+      "loss": 0.6833,
+      "step": 13520
+    },
+    {
+      "epoch": 6.885932950404939,
+      "grad_norm": 0.13730046153068542,
+      "learning_rate": 4.9807788746620676e-05,
+      "loss": 0.685,
+      "step": 13530
+    },
+    {
+      "epoch": 6.891024519085427,
+      "grad_norm": 0.11708593368530273,
+      "learning_rate": 4.980764668361005e-05,
+      "loss": 0.6797,
+      "step": 13540
+    },
+    {
+      "epoch": 6.896116087765915,
+      "grad_norm": 0.14479976892471313,
+      "learning_rate": 4.980750462059942e-05,
+      "loss": 0.6779,
+      "step": 13550
+    },
+    {
+      "epoch": 6.901207656446403,
+      "grad_norm": 0.13402192294597626,
+      "learning_rate": 4.9807362557588795e-05,
+      "loss": 0.6775,
+      "step": 13560
+    },
+    {
+      "epoch": 6.906299225126891,
+      "grad_norm": 0.1378648430109024,
+      "learning_rate": 4.980722049457817e-05,
+      "loss": 0.6799,
+      "step": 13570
+    },
+    {
+      "epoch": 6.91139079380738,
+      "grad_norm": 0.1424325555562973,
+      "learning_rate": 4.980707843156754e-05,
+      "loss": 0.6777,
+      "step": 13580
+    },
+    {
+      "epoch": 6.9164823624878675,
+      "grad_norm": 0.12795968353748322,
+      "learning_rate": 4.9806936368556915e-05,
+      "loss": 0.6756,
+      "step": 13590
+    },
+    {
+      "epoch": 6.921573931168356,
+      "grad_norm": 0.16961532831192017,
+      "learning_rate": 4.980679430554628e-05,
+      "loss": 0.6762,
+      "step": 13600
+    },
+    {
+      "epoch": 6.926665499848844,
+      "grad_norm": 0.16084560751914978,
+      "learning_rate": 4.9806652242535654e-05,
+      "loss": 0.6783,
+      "step": 13610
+    },
+    {
+      "epoch": 6.931757068529333,
+      "grad_norm": 0.1510113775730133,
+      "learning_rate": 4.980651017952503e-05,
+      "loss": 0.676,
+      "step": 13620
+    },
+    {
+      "epoch": 6.93684863720982,
+      "grad_norm": 0.1436864286661148,
+      "learning_rate": 4.98063681165144e-05,
+      "loss": 0.6769,
+      "step": 13630
+    },
+    {
+      "epoch": 6.941940205890308,
+      "grad_norm": 0.14651361107826233,
+      "learning_rate": 4.980622605350377e-05,
+      "loss": 0.6786,
+      "step": 13640
+    },
+    {
+      "epoch": 6.947031774570797,
+      "grad_norm": 0.12080514430999756,
+      "learning_rate": 4.9806083990493146e-05,
+      "loss": 0.6719,
+      "step": 13650
+    },
+    {
+      "epoch": 6.952123343251285,
+      "grad_norm": 0.18036852777004242,
+      "learning_rate": 4.980594192748252e-05,
+      "loss": 0.6776,
+      "step": 13660
+    },
+    {
+      "epoch": 6.957214911931773,
+      "grad_norm": 0.15538708865642548,
+      "learning_rate": 4.980579986447189e-05,
+      "loss": 0.677,
+      "step": 13670
+    },
+    {
+      "epoch": 6.962306480612261,
+      "grad_norm": 0.14524763822555542,
+      "learning_rate": 4.9805657801461266e-05,
+      "loss": 0.6725,
+      "step": 13680
+    },
+    {
+      "epoch": 6.96739804929275,
+      "grad_norm": 0.13171471655368805,
+      "learning_rate": 4.980551573845064e-05,
+      "loss": 0.6814,
+      "step": 13690
+    },
+    {
+      "epoch": 6.972489617973237,
+      "grad_norm": 0.14730645716190338,
+      "learning_rate": 4.980537367544001e-05,
+      "loss": 0.6828,
+      "step": 13700
+    },
+    {
+      "epoch": 6.977581186653726,
+      "grad_norm": 0.1142466589808464,
+      "learning_rate": 4.980523161242938e-05,
+      "loss": 0.677,
+      "step": 13710
+    },
+    {
+      "epoch": 6.982672755334214,
+      "grad_norm": 0.11980883777141571,
+      "learning_rate": 4.980508954941875e-05,
+      "loss": 0.6847,
+      "step": 13720
+    },
+    {
+      "epoch": 6.987764324014702,
+      "grad_norm": 0.10882198065519333,
+      "learning_rate": 4.9804947486408125e-05,
+      "loss": 0.6749,
+      "step": 13730
+    },
+    {
+      "epoch": 6.99285589269519,
+      "grad_norm": 0.1418180912733078,
+      "learning_rate": 4.980480542339749e-05,
+      "loss": 0.675,
+      "step": 13740
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }