Training in progress, step 1500, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f35b737982e48d3830ee78a27c3784e950c9cb1cc8a81e9ff82bc0cbeca9a095
 size 536223056

 version https://git-lfs.github.com/spec/v1
+oid sha256:2bce35fa6fc854fe5ea0cabe6929afc866a5d7f3cd257f15dfb17f95eff6016d
 size 536223056

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f734370fa1e43861a64bf46d2f3ddd2b2e741b3042916e97b9b0aa3948a2d4f5
 size 1072594443

 version https://git-lfs.github.com/spec/v1
+oid sha256:5fea9e2693fb05e409570ec54e491bc8134b1f9baf2fd86e6099032bfb8d5003
 size 1072594443

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d673fab80548770f45e3c6b7ce6376b297de04f44a8ac658823035a1ec8497c
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:9faa844bbba4d7b3d72154a66f9d092f9a8a2d0c3683e57a721611da9e9bd5e3
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.20149103364900262,
   "eval_steps": 500,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -908,6 +908,456 @@
       "mean_token_accuracy": 0.7707934081554413,
       "num_tokens": 1104929.0,
       "step": 1000
     }
   ],
   "logging_steps": 10,
@@ -927,7 +1377,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1337180456005632.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.30223655047350395,
   "eval_steps": 500,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.7707934081554413,
       "num_tokens": 1104929.0,
       "step": 1000
+    },
+    {
+      "epoch": 0.20350594398549265,
+      "grad_norm": 9.9375,
+      "learning_rate": 1.8644636980321045e-05,
+      "loss": 0.9065,
+      "mean_token_accuracy": 0.7750193297863006,
+      "num_tokens": 1115780.0,
+      "step": 1010
+    },
+    {
+      "epoch": 0.20552085432198267,
+      "grad_norm": 15.5,
+      "learning_rate": 1.8631204244744444e-05,
+      "loss": 0.9421,
+      "mean_token_accuracy": 0.7709006071090698,
+      "num_tokens": 1127078.0,
+      "step": 1020
+    },
+    {
+      "epoch": 0.2075357646584727,
+      "grad_norm": 11.5625,
+      "learning_rate": 1.8617771509167843e-05,
+      "loss": 1.0089,
+      "mean_token_accuracy": 0.7673897624015809,
+      "num_tokens": 1138685.0,
+      "step": 1030
+    },
+    {
+      "epoch": 0.20955067499496272,
+      "grad_norm": 11.875,
+      "learning_rate": 1.8604338773591245e-05,
+      "loss": 0.9082,
+      "mean_token_accuracy": 0.7804294168949127,
+      "num_tokens": 1149508.0,
+      "step": 1040
+    },
+    {
+      "epoch": 0.21156558533145275,
+      "grad_norm": 13.1875,
+      "learning_rate": 1.8590906038014644e-05,
+      "loss": 0.9128,
+      "mean_token_accuracy": 0.7730132281780243,
+      "num_tokens": 1159971.0,
+      "step": 1050
+    },
+    {
+      "epoch": 0.21358049566794277,
+      "grad_norm": 15.5625,
+      "learning_rate": 1.8577473302438043e-05,
+      "loss": 0.8863,
+      "mean_token_accuracy": 0.7842482626438141,
+      "num_tokens": 1170506.0,
+      "step": 1060
+    },
+    {
+      "epoch": 0.2155954060044328,
+      "grad_norm": 10.1875,
+      "learning_rate": 1.8564040566861445e-05,
+      "loss": 1.0306,
+      "mean_token_accuracy": 0.7470630705356598,
+      "num_tokens": 1183402.0,
+      "step": 1070
+    },
+    {
+      "epoch": 0.21761031634092282,
+      "grad_norm": 13.4375,
+      "learning_rate": 1.8550607831284844e-05,
+      "loss": 0.9829,
+      "mean_token_accuracy": 0.7678338825702667,
+      "num_tokens": 1193700.0,
+      "step": 1080
+    },
+    {
+      "epoch": 0.21962522667741285,
+      "grad_norm": 10.875,
+      "learning_rate": 1.8537175095708242e-05,
+      "loss": 1.0178,
+      "mean_token_accuracy": 0.7664987504482269,
+      "num_tokens": 1204501.0,
+      "step": 1090
+    },
+    {
+      "epoch": 0.2216401370139029,
+      "grad_norm": 10.9375,
+      "learning_rate": 1.852374236013164e-05,
+      "loss": 0.9276,
+      "mean_token_accuracy": 0.7776144444942474,
+      "num_tokens": 1214622.0,
+      "step": 1100
+    },
+    {
+      "epoch": 0.2236550473503929,
+      "grad_norm": 12.125,
+      "learning_rate": 1.8510309624555044e-05,
+      "loss": 0.9235,
+      "mean_token_accuracy": 0.7812209010124207,
+      "num_tokens": 1225266.0,
+      "step": 1110
+    },
+    {
+      "epoch": 0.22566995768688294,
+      "grad_norm": 11.4375,
+      "learning_rate": 1.8496876888978442e-05,
+      "loss": 0.8635,
+      "mean_token_accuracy": 0.7839280545711518,
+      "num_tokens": 1236214.0,
+      "step": 1120
+    },
+    {
+      "epoch": 0.22768486802337295,
+      "grad_norm": 13.5625,
+      "learning_rate": 1.848344415340184e-05,
+      "loss": 0.9995,
+      "mean_token_accuracy": 0.7634225428104401,
+      "num_tokens": 1248434.0,
+      "step": 1130
+    },
+    {
+      "epoch": 0.229699778359863,
+      "grad_norm": 14.4375,
+      "learning_rate": 1.8470011417825243e-05,
+      "loss": 0.8734,
+      "mean_token_accuracy": 0.7929128646850586,
+      "num_tokens": 1258925.0,
+      "step": 1140
+    },
+    {
+      "epoch": 0.231714688696353,
+      "grad_norm": 11.375,
+      "learning_rate": 1.845657868224864e-05,
+      "loss": 0.8612,
+      "mean_token_accuracy": 0.7883239209651947,
+      "num_tokens": 1268877.0,
+      "step": 1150
+    },
+    {
+      "epoch": 0.23372959903284304,
+      "grad_norm": 9.375,
+      "learning_rate": 1.844314594667204e-05,
+      "loss": 0.8697,
+      "mean_token_accuracy": 0.782884806394577,
+      "num_tokens": 1280712.0,
+      "step": 1160
+    },
+    {
+      "epoch": 0.23574450936933306,
+      "grad_norm": 12.4375,
+      "learning_rate": 1.842971321109544e-05,
+      "loss": 0.9373,
+      "mean_token_accuracy": 0.7709940969944,
+      "num_tokens": 1291740.0,
+      "step": 1170
+    },
+    {
+      "epoch": 0.2377594197058231,
+      "grad_norm": 12.4375,
+      "learning_rate": 1.8416280475518842e-05,
+      "loss": 1.0077,
+      "mean_token_accuracy": 0.7596822798252105,
+      "num_tokens": 1303009.0,
+      "step": 1180
+    },
+    {
+      "epoch": 0.2397743300423131,
+      "grad_norm": 9.5625,
+      "learning_rate": 1.840284773994224e-05,
+      "loss": 0.9671,
+      "mean_token_accuracy": 0.7675224483013153,
+      "num_tokens": 1314524.0,
+      "step": 1190
+    },
+    {
+      "epoch": 0.24178924037880314,
+      "grad_norm": 14.6875,
+      "learning_rate": 1.838941500436564e-05,
+      "loss": 0.8832,
+      "mean_token_accuracy": 0.7861056625843048,
+      "num_tokens": 1327497.0,
+      "step": 1200
+    },
+    {
+      "epoch": 0.24380415071529318,
+      "grad_norm": 10.75,
+      "learning_rate": 1.8375982268789042e-05,
+      "loss": 0.8841,
+      "mean_token_accuracy": 0.785036051273346,
+      "num_tokens": 1338614.0,
+      "step": 1210
+    },
+    {
+      "epoch": 0.2458190610517832,
+      "grad_norm": 13.9375,
+      "learning_rate": 1.836254953321244e-05,
+      "loss": 0.9576,
+      "mean_token_accuracy": 0.77821044921875,
+      "num_tokens": 1348997.0,
+      "step": 1220
+    },
+    {
+      "epoch": 0.24783397138827323,
+      "grad_norm": 11.3125,
+      "learning_rate": 1.834911679763584e-05,
+      "loss": 0.9204,
+      "mean_token_accuracy": 0.7739447593688965,
+      "num_tokens": 1360384.0,
+      "step": 1230
+    },
+    {
+      "epoch": 0.24984888172476324,
+      "grad_norm": 11.8125,
+      "learning_rate": 1.833568406205924e-05,
+      "loss": 0.9523,
+      "mean_token_accuracy": 0.7746530413627625,
+      "num_tokens": 1371506.0,
+      "step": 1240
+    },
+    {
+      "epoch": 0.25186379206125326,
+      "grad_norm": 11.6875,
+      "learning_rate": 1.832225132648264e-05,
+      "loss": 1.0415,
+      "mean_token_accuracy": 0.7526679396629333,
+      "num_tokens": 1383841.0,
+      "step": 1250
+    },
+    {
+      "epoch": 0.2538787023977433,
+      "grad_norm": 11.0,
+      "learning_rate": 1.830881859090604e-05,
+      "loss": 1.0038,
+      "mean_token_accuracy": 0.7654858827590942,
+      "num_tokens": 1395211.0,
+      "step": 1260
+    },
+    {
+      "epoch": 0.25589361273423333,
+      "grad_norm": 13.5625,
+      "learning_rate": 1.829538585532944e-05,
+      "loss": 0.9847,
+      "mean_token_accuracy": 0.769145131111145,
+      "num_tokens": 1405181.0,
+      "step": 1270
+    },
+    {
+      "epoch": 0.25790852307072337,
+      "grad_norm": 10.8125,
+      "learning_rate": 1.828195311975284e-05,
+      "loss": 1.0403,
+      "mean_token_accuracy": 0.7538439452648162,
+      "num_tokens": 1415965.0,
+      "step": 1280
+    },
+    {
+      "epoch": 0.25992343340721336,
+      "grad_norm": 10.25,
+      "learning_rate": 1.826852038417624e-05,
+      "loss": 0.8642,
+      "mean_token_accuracy": 0.7828892707824707,
+      "num_tokens": 1427838.0,
+      "step": 1290
+    },
+    {
+      "epoch": 0.2619383437437034,
+      "grad_norm": 16.125,
+      "learning_rate": 1.825508764859964e-05,
+      "loss": 1.0695,
+      "mean_token_accuracy": 0.7503586292266846,
+      "num_tokens": 1438672.0,
+      "step": 1300
+    },
+    {
+      "epoch": 0.26395325408019343,
+      "grad_norm": 9.375,
+      "learning_rate": 1.824165491302304e-05,
+      "loss": 0.9433,
+      "mean_token_accuracy": 0.7743871629238128,
+      "num_tokens": 1450338.0,
+      "step": 1310
+    },
+    {
+      "epoch": 0.2659681644166835,
+      "grad_norm": 12.5,
+      "learning_rate": 1.8228222177446436e-05,
+      "loss": 1.0234,
+      "mean_token_accuracy": 0.7584192335605622,
+      "num_tokens": 1462159.0,
+      "step": 1320
+    },
+    {
+      "epoch": 0.2679830747531735,
+      "grad_norm": 12.3125,
+      "learning_rate": 1.8214789441869838e-05,
+      "loss": 0.9743,
+      "mean_token_accuracy": 0.765831732749939,
+      "num_tokens": 1475528.0,
+      "step": 1330
+    },
+    {
+      "epoch": 0.2699979850896635,
+      "grad_norm": 12.125,
+      "learning_rate": 1.8201356706293237e-05,
+      "loss": 0.9147,
+      "mean_token_accuracy": 0.7787733376026154,
+      "num_tokens": 1484980.0,
+      "step": 1340
+    },
+    {
+      "epoch": 0.27201289542615353,
+      "grad_norm": 12.5625,
+      "learning_rate": 1.818792397071664e-05,
+      "loss": 0.9997,
+      "mean_token_accuracy": 0.7686746776103973,
+      "num_tokens": 1496744.0,
+      "step": 1350
+    },
+    {
+      "epoch": 0.2740278057626436,
+      "grad_norm": 11.1875,
+      "learning_rate": 1.8174491235140038e-05,
+      "loss": 0.8834,
+      "mean_token_accuracy": 0.791484820842743,
+      "num_tokens": 1507317.0,
+      "step": 1360
+    },
+    {
+      "epoch": 0.2760427160991336,
+      "grad_norm": 12.0,
+      "learning_rate": 1.8161058499563437e-05,
+      "loss": 0.9816,
+      "mean_token_accuracy": 0.7709372580051422,
+      "num_tokens": 1519459.0,
+      "step": 1370
+    },
+    {
+      "epoch": 0.2780576264356236,
+      "grad_norm": 12.0,
+      "learning_rate": 1.814762576398684e-05,
+      "loss": 0.9477,
+      "mean_token_accuracy": 0.7731155812740326,
+      "num_tokens": 1530464.0,
+      "step": 1380
+    },
+    {
+      "epoch": 0.28007253677211363,
+      "grad_norm": 14.625,
+      "learning_rate": 1.8134193028410235e-05,
+      "loss": 0.9117,
+      "mean_token_accuracy": 0.780947208404541,
+      "num_tokens": 1541480.0,
+      "step": 1390
+    },
+    {
+      "epoch": 0.2820874471086037,
+      "grad_norm": 12.125,
+      "learning_rate": 1.8120760292833637e-05,
+      "loss": 0.8446,
+      "mean_token_accuracy": 0.7891036987304687,
+      "num_tokens": 1552611.0,
+      "step": 1400
+    },
+    {
+      "epoch": 0.2841023574450937,
+      "grad_norm": 15.5625,
+      "learning_rate": 1.8107327557257036e-05,
+      "loss": 0.8572,
+      "mean_token_accuracy": 0.7868121325969696,
+      "num_tokens": 1563258.0,
+      "step": 1410
+    },
+    {
+      "epoch": 0.2861172677815837,
+      "grad_norm": 13.5625,
+      "learning_rate": 1.8093894821680438e-05,
+      "loss": 0.8396,
+      "mean_token_accuracy": 0.7922836720943451,
+      "num_tokens": 1575060.0,
+      "step": 1420
+    },
+    {
+      "epoch": 0.28813217811807373,
+      "grad_norm": 16.25,
+      "learning_rate": 1.8080462086103837e-05,
+      "loss": 0.9779,
+      "mean_token_accuracy": 0.7661596953868866,
+      "num_tokens": 1586846.0,
+      "step": 1430
+    },
+    {
+      "epoch": 0.2901470884545638,
+      "grad_norm": 11.9375,
+      "learning_rate": 1.8067029350527236e-05,
+      "loss": 0.9174,
+      "mean_token_accuracy": 0.7865382909774781,
+      "num_tokens": 1597526.0,
+      "step": 1440
+    },
+    {
+      "epoch": 0.2921619987910538,
+      "grad_norm": 12.125,
+      "learning_rate": 1.8053596614950638e-05,
+      "loss": 1.1157,
+      "mean_token_accuracy": 0.733438128232956,
+      "num_tokens": 1608463.0,
+      "step": 1450
+    },
+    {
+      "epoch": 0.29417690912754385,
+      "grad_norm": 9.4375,
+      "learning_rate": 1.8040163879374037e-05,
+      "loss": 0.9306,
+      "mean_token_accuracy": 0.7765897631645202,
+      "num_tokens": 1619939.0,
+      "step": 1460
+    },
+    {
+      "epoch": 0.29619181946403383,
+      "grad_norm": 11.125,
+      "learning_rate": 1.8026731143797435e-05,
+      "loss": 0.9663,
+      "mean_token_accuracy": 0.773787796497345,
+      "num_tokens": 1630503.0,
+      "step": 1470
+    },
+    {
+      "epoch": 0.2982067298005239,
+      "grad_norm": 10.3125,
+      "learning_rate": 1.8013298408220838e-05,
+      "loss": 0.8462,
+      "mean_token_accuracy": 0.793005895614624,
+      "num_tokens": 1641658.0,
+      "step": 1480
+    },
+    {
+      "epoch": 0.3002216401370139,
+      "grad_norm": 15.875,
+      "learning_rate": 1.7999865672644233e-05,
+      "loss": 0.8524,
+      "mean_token_accuracy": 0.7874381899833679,
+      "num_tokens": 1652188.0,
+      "step": 1490
+    },
+    {
+      "epoch": 0.30223655047350395,
+      "grad_norm": 10.9375,
+      "learning_rate": 1.7986432937067635e-05,
+      "loss": 1.0263,
+      "mean_token_accuracy": 0.7567296206951142,
+      "num_tokens": 1663193.0,
+      "step": 1500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2012425910605824.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null