Training in progress, step 1000, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5868447b981ceff440b9a26d6ac08b1eb131c66c461c8f6cd15cd33c16c3425
 size 536223056

 version https://git-lfs.github.com/spec/v1
+oid sha256:f35b737982e48d3830ee78a27c3784e950c9cb1cc8a81e9ff82bc0cbeca9a095
 size 536223056

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:02ceea59533679cf8e117ebd8d876b10849b1306fb9459e9ee4998596ecbdb03
 size 1072594443

 version https://git-lfs.github.com/spec/v1
+oid sha256:f734370fa1e43861a64bf46d2f3ddd2b2e741b3042916e97b9b0aa3948a2d4f5
 size 1072594443

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:157bd2aed929bf3aecd89cca519b674ca176680d01354e1f32ab94471cfeb630
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d673fab80548770f45e3c6b7ce6376b297de04f44a8ac658823035a1ec8497c
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.10074551682450131,
   "eval_steps": 500,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -458,6 +458,456 @@
       "mean_token_accuracy": 0.7595715343952179,
       "num_tokens": 549174.0,
       "step": 500
     }
   ],
   "logging_steps": 10,
@@ -477,7 +927,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 668729881817088.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.20149103364900262,
   "eval_steps": 500,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.7595715343952179,
       "num_tokens": 549174.0,
       "step": 500
+    },
+    {
+      "epoch": 0.10276042716099133,
+      "grad_norm": 12.625,
+      "learning_rate": 1.9316273759151052e-05,
+      "loss": 1.0164,
+      "mean_token_accuracy": 0.7571583390235901,
+      "num_tokens": 559988.0,
+      "step": 510
+    },
+    {
+      "epoch": 0.10477533749748136,
+      "grad_norm": 14.3125,
+      "learning_rate": 1.930284102357445e-05,
+      "loss": 1.1148,
+      "mean_token_accuracy": 0.7423564851284027,
+      "num_tokens": 571510.0,
+      "step": 520
+    },
+    {
+      "epoch": 0.10679024783397138,
+      "grad_norm": 14.6875,
+      "learning_rate": 1.9289408287997854e-05,
+      "loss": 1.053,
+      "mean_token_accuracy": 0.7485374748706818,
+      "num_tokens": 583020.0,
+      "step": 530
+    },
+    {
+      "epoch": 0.10880515817046141,
+      "grad_norm": 11.4375,
+      "learning_rate": 1.9275975552421252e-05,
+      "loss": 0.9756,
+      "mean_token_accuracy": 0.7606720209121705,
+      "num_tokens": 594042.0,
+      "step": 540
+    },
+    {
+      "epoch": 0.11082006850695145,
+      "grad_norm": 13.3125,
+      "learning_rate": 1.926254281684465e-05,
+      "loss": 0.9514,
+      "mean_token_accuracy": 0.7702824532985687,
+      "num_tokens": 605932.0,
+      "step": 550
+    },
+    {
+      "epoch": 0.11283497884344147,
+      "grad_norm": 10.625,
+      "learning_rate": 1.9249110081268053e-05,
+      "loss": 1.0008,
+      "mean_token_accuracy": 0.7583375632762909,
+      "num_tokens": 617431.0,
+      "step": 560
+    },
+    {
+      "epoch": 0.1148498891799315,
+      "grad_norm": 10.875,
+      "learning_rate": 1.9235677345691452e-05,
+      "loss": 0.998,
+      "mean_token_accuracy": 0.7597042858600617,
+      "num_tokens": 629827.0,
+      "step": 570
+    },
+    {
+      "epoch": 0.11686479951642152,
+      "grad_norm": 12.5625,
+      "learning_rate": 1.922224461011485e-05,
+      "loss": 0.9512,
+      "mean_token_accuracy": 0.7806954503059387,
+      "num_tokens": 640144.0,
+      "step": 580
+    },
+    {
+      "epoch": 0.11887970985291155,
+      "grad_norm": 10.5625,
+      "learning_rate": 1.920881187453825e-05,
+      "loss": 0.9292,
+      "mean_token_accuracy": 0.7761410176753998,
+      "num_tokens": 652386.0,
+      "step": 590
+    },
+    {
+      "epoch": 0.12089462018940157,
+      "grad_norm": 11.0,
+      "learning_rate": 1.9195379138961652e-05,
+      "loss": 1.0768,
+      "mean_token_accuracy": 0.7544383645057678,
+      "num_tokens": 663460.0,
+      "step": 600
+    },
+    {
+      "epoch": 0.1229095305258916,
+      "grad_norm": 14.3125,
+      "learning_rate": 1.918194640338505e-05,
+      "loss": 0.8975,
+      "mean_token_accuracy": 0.7799494147300721,
+      "num_tokens": 673425.0,
+      "step": 610
+    },
+    {
+      "epoch": 0.12492444086238162,
+      "grad_norm": 10.375,
+      "learning_rate": 1.916851366780845e-05,
+      "loss": 0.899,
+      "mean_token_accuracy": 0.7885317802429199,
+      "num_tokens": 683817.0,
+      "step": 620
+    },
+    {
+      "epoch": 0.12693935119887165,
+      "grad_norm": 13.375,
+      "learning_rate": 1.9155080932231852e-05,
+      "loss": 0.998,
+      "mean_token_accuracy": 0.7671383440494537,
+      "num_tokens": 694196.0,
+      "step": 630
+    },
+    {
+      "epoch": 0.12895426153536169,
+      "grad_norm": 11.625,
+      "learning_rate": 1.914164819665525e-05,
+      "loss": 0.9808,
+      "mean_token_accuracy": 0.7700311303138733,
+      "num_tokens": 704564.0,
+      "step": 640
+    },
+    {
+      "epoch": 0.1309691718718517,
+      "grad_norm": 13.25,
+      "learning_rate": 1.912821546107865e-05,
+      "loss": 1.0077,
+      "mean_token_accuracy": 0.7643253684043885,
+      "num_tokens": 715775.0,
+      "step": 650
+    },
+    {
+      "epoch": 0.13298408220834174,
+      "grad_norm": 13.625,
+      "learning_rate": 1.911478272550205e-05,
+      "loss": 0.9457,
+      "mean_token_accuracy": 0.7678769171237946,
+      "num_tokens": 726005.0,
+      "step": 660
+    },
+    {
+      "epoch": 0.13499899254483175,
+      "grad_norm": 13.5,
+      "learning_rate": 1.910134998992545e-05,
+      "loss": 1.0155,
+      "mean_token_accuracy": 0.7607427120208741,
+      "num_tokens": 738053.0,
+      "step": 670
+    },
+    {
+      "epoch": 0.1370139028813218,
+      "grad_norm": 11.6875,
+      "learning_rate": 1.908791725434885e-05,
+      "loss": 0.9395,
+      "mean_token_accuracy": 0.7723658442497253,
+      "num_tokens": 748480.0,
+      "step": 680
+    },
+    {
+      "epoch": 0.1390288132178118,
+      "grad_norm": 15.6875,
+      "learning_rate": 1.907448451877225e-05,
+      "loss": 0.9639,
+      "mean_token_accuracy": 0.7676171123981476,
+      "num_tokens": 759972.0,
+      "step": 690
+    },
+    {
+      "epoch": 0.14104372355430184,
+      "grad_norm": 12.875,
+      "learning_rate": 1.906105178319565e-05,
+      "loss": 0.9557,
+      "mean_token_accuracy": 0.7719902992248535,
+      "num_tokens": 771123.0,
+      "step": 700
+    },
+    {
+      "epoch": 0.14305863389079185,
+      "grad_norm": 12.8125,
+      "learning_rate": 1.904761904761905e-05,
+      "loss": 1.0022,
+      "mean_token_accuracy": 0.7667870819568634,
+      "num_tokens": 782532.0,
+      "step": 710
+    },
+    {
+      "epoch": 0.1450735442272819,
+      "grad_norm": 11.0625,
+      "learning_rate": 1.903418631204245e-05,
+      "loss": 0.9519,
+      "mean_token_accuracy": 0.7708106875419617,
+      "num_tokens": 794067.0,
+      "step": 720
+    },
+    {
+      "epoch": 0.14708845456377193,
+      "grad_norm": 14.125,
+      "learning_rate": 1.902075357646585e-05,
+      "loss": 0.9718,
+      "mean_token_accuracy": 0.766555666923523,
+      "num_tokens": 804871.0,
+      "step": 730
+    },
+    {
+      "epoch": 0.14910336490026194,
+      "grad_norm": 12.8125,
+      "learning_rate": 1.900732084088925e-05,
+      "loss": 0.9852,
+      "mean_token_accuracy": 0.7678309619426728,
+      "num_tokens": 815050.0,
+      "step": 740
+    },
+    {
+      "epoch": 0.15111827523675198,
+      "grad_norm": 11.3125,
+      "learning_rate": 1.8993888105312648e-05,
+      "loss": 0.9951,
+      "mean_token_accuracy": 0.7627758264541626,
+      "num_tokens": 826248.0,
+      "step": 750
+    },
+    {
+      "epoch": 0.153133185573242,
+      "grad_norm": 17.25,
+      "learning_rate": 1.8980455369736047e-05,
+      "loss": 1.0433,
+      "mean_token_accuracy": 0.7571396887302398,
+      "num_tokens": 835706.0,
+      "step": 760
+    },
+    {
+      "epoch": 0.15514809590973203,
+      "grad_norm": 10.9375,
+      "learning_rate": 1.896702263415945e-05,
+      "loss": 1.0518,
+      "mean_token_accuracy": 0.7517435431480408,
+      "num_tokens": 847261.0,
+      "step": 770
+    },
+    {
+      "epoch": 0.15716300624622204,
+      "grad_norm": 10.4375,
+      "learning_rate": 1.8953589898582848e-05,
+      "loss": 0.9629,
+      "mean_token_accuracy": 0.7732720315456391,
+      "num_tokens": 858655.0,
+      "step": 780
+    },
+    {
+      "epoch": 0.15917791658271208,
+      "grad_norm": 12.5,
+      "learning_rate": 1.8940157163006247e-05,
+      "loss": 1.0231,
+      "mean_token_accuracy": 0.7555422127246857,
+      "num_tokens": 870002.0,
+      "step": 790
+    },
+    {
+      "epoch": 0.1611928269192021,
+      "grad_norm": 11.0,
+      "learning_rate": 1.892672442742965e-05,
+      "loss": 1.1283,
+      "mean_token_accuracy": 0.7441882312297821,
+      "num_tokens": 881131.0,
+      "step": 800
+    },
+    {
+      "epoch": 0.16320773725569213,
+      "grad_norm": 12.4375,
+      "learning_rate": 1.8913291691853048e-05,
+      "loss": 1.0252,
+      "mean_token_accuracy": 0.7630669414997101,
+      "num_tokens": 893437.0,
+      "step": 810
+    },
+    {
+      "epoch": 0.16522264759218214,
+      "grad_norm": 11.0,
+      "learning_rate": 1.8899858956276447e-05,
+      "loss": 1.0528,
+      "mean_token_accuracy": 0.7483877301216125,
+      "num_tokens": 904976.0,
+      "step": 820
+    },
+    {
+      "epoch": 0.16723755792867218,
+      "grad_norm": 12.375,
+      "learning_rate": 1.8886426220699846e-05,
+      "loss": 0.8715,
+      "mean_token_accuracy": 0.7899761021137237,
+      "num_tokens": 915631.0,
+      "step": 830
+    },
+    {
+      "epoch": 0.1692524682651622,
+      "grad_norm": 13.375,
+      "learning_rate": 1.8872993485123248e-05,
+      "loss": 1.0548,
+      "mean_token_accuracy": 0.7494987368583679,
+      "num_tokens": 927141.0,
+      "step": 840
+    },
+    {
+      "epoch": 0.17126737860165223,
+      "grad_norm": 11.0,
+      "learning_rate": 1.8859560749546647e-05,
+      "loss": 0.9579,
+      "mean_token_accuracy": 0.7668360054492951,
+      "num_tokens": 938792.0,
+      "step": 850
+    },
+    {
+      "epoch": 0.17328228893814226,
+      "grad_norm": 13.125,
+      "learning_rate": 1.8846128013970046e-05,
+      "loss": 0.8595,
+      "mean_token_accuracy": 0.7870603501796722,
+      "num_tokens": 949894.0,
+      "step": 860
+    },
+    {
+      "epoch": 0.17529719927463228,
+      "grad_norm": 12.625,
+      "learning_rate": 1.8832695278393448e-05,
+      "loss": 0.9216,
+      "mean_token_accuracy": 0.7846542239189148,
+      "num_tokens": 961003.0,
+      "step": 870
+    },
+    {
+      "epoch": 0.17731210961112231,
+      "grad_norm": 12.125,
+      "learning_rate": 1.8819262542816847e-05,
+      "loss": 1.0052,
+      "mean_token_accuracy": 0.7603223979473114,
+      "num_tokens": 971577.0,
+      "step": 880
+    },
+    {
+      "epoch": 0.17932701994761233,
+      "grad_norm": 12.4375,
+      "learning_rate": 1.8805829807240245e-05,
+      "loss": 0.9299,
+      "mean_token_accuracy": 0.7757908642292023,
+      "num_tokens": 982234.0,
+      "step": 890
+    },
+    {
+      "epoch": 0.18134193028410237,
+      "grad_norm": 11.0,
+      "learning_rate": 1.8792397071663648e-05,
+      "loss": 1.0312,
+      "mean_token_accuracy": 0.7591780245304107,
+      "num_tokens": 992997.0,
+      "step": 900
+    },
+    {
+      "epoch": 0.18335684062059238,
+      "grad_norm": 10.5625,
+      "learning_rate": 1.8778964336087047e-05,
+      "loss": 0.8999,
+      "mean_token_accuracy": 0.779550439119339,
+      "num_tokens": 1004102.0,
+      "step": 910
+    },
+    {
+      "epoch": 0.18537175095708242,
+      "grad_norm": 12.625,
+      "learning_rate": 1.8765531600510445e-05,
+      "loss": 0.8892,
+      "mean_token_accuracy": 0.7890210688114166,
+      "num_tokens": 1015447.0,
+      "step": 920
+    },
+    {
+      "epoch": 0.18738666129357243,
+      "grad_norm": 12.125,
+      "learning_rate": 1.8752098864933844e-05,
+      "loss": 1.0344,
+      "mean_token_accuracy": 0.7584980130195618,
+      "num_tokens": 1026939.0,
+      "step": 930
+    },
+    {
+      "epoch": 0.18940157163006247,
+      "grad_norm": 10.9375,
+      "learning_rate": 1.8738666129357246e-05,
+      "loss": 0.9686,
+      "mean_token_accuracy": 0.7649740993976593,
+      "num_tokens": 1037937.0,
+      "step": 940
+    },
+    {
+      "epoch": 0.19141648196655248,
+      "grad_norm": 8.75,
+      "learning_rate": 1.8725233393780645e-05,
+      "loss": 1.0364,
+      "mean_token_accuracy": 0.7554452955722809,
+      "num_tokens": 1049173.0,
+      "step": 950
+    },
+    {
+      "epoch": 0.19343139230304252,
+      "grad_norm": 13.625,
+      "learning_rate": 1.8711800658204044e-05,
+      "loss": 1.0173,
+      "mean_token_accuracy": 0.7559767007827759,
+      "num_tokens": 1060166.0,
+      "step": 960
+    },
+    {
+      "epoch": 0.19544630263953255,
+      "grad_norm": 11.1875,
+      "learning_rate": 1.8698367922627446e-05,
+      "loss": 0.9464,
+      "mean_token_accuracy": 0.7735530078411103,
+      "num_tokens": 1070458.0,
+      "step": 970
+    },
+    {
+      "epoch": 0.19746121297602257,
+      "grad_norm": 11.1875,
+      "learning_rate": 1.8684935187050845e-05,
+      "loss": 0.9397,
+      "mean_token_accuracy": 0.7724673867225647,
+      "num_tokens": 1081477.0,
+      "step": 980
+    },
+    {
+      "epoch": 0.1994761233125126,
+      "grad_norm": 15.1875,
+      "learning_rate": 1.8671502451474244e-05,
+      "loss": 1.0769,
+      "mean_token_accuracy": 0.7459556341171265,
+      "num_tokens": 1094205.0,
+      "step": 990
+    },
+    {
+      "epoch": 0.20149103364900262,
+      "grad_norm": 16.5,
+      "learning_rate": 1.8658069715897643e-05,
+      "loss": 0.9763,
+      "mean_token_accuracy": 0.7707934081554413,
+      "num_tokens": 1104929.0,
+      "step": 1000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1337180456005632.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null