Upload folder using huggingface_hub

Browse files

Files changed (4) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
scheduler.pt +1 -1
trainer_state.json +603 -3

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c158b28744f13168b014d5cf922deca9738e6809ab54db7e8affc8232fcb3974
 size 1615784368

 version https://git-lfs.github.com/spec/v1
+oid sha256:c97e63770e3735813765be2c9ba1d4ed42ce9f6d5cb1fe6436b55911b8fb122a
 size 1615784368

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9332add6073f65b7e3a08cc193bb303da7205dba8c332784ee758e46bc804da6
 size 3231643962

 version https://git-lfs.github.com/spec/v1
+oid sha256:1065d6ac0bb1bbe0b5d374b2d9de7bd167bcfd8d9ab60bcd6fb1e468ea7dc8c8
 size 3231643962

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45925f2efb7989009db479896dcd4dc450d8b946cbe8f7080ca846dee0a898df
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:da2ce3420af021e22f607bef056bacad267b44e24aab62c3270b61d3493433c9
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.2,
   "eval_steps": 500,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1207,6 +1207,606 @@
       "learning_rate": 0.0003799519807923169,
       "loss": 1.9875,
       "step": 1000
     }
   ],
   "logging_steps": 5,
@@ -1214,7 +1814,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 500,
-  "total_flos": 1.974401690333184e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.8,
   "eval_steps": 500,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0003799519807923169,
       "loss": 1.9875,
       "step": 1000
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.00037935174069627856,
+      "loss": 2.0543,
+      "step": 1005
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.0003787515006002401,
+      "loss": 2.1018,
+      "step": 1010
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00037815126050420167,
+      "loss": 2.1016,
+      "step": 1015
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00037755102040816323,
+      "loss": 2.0779,
+      "step": 1020
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.0003769507803121249,
+      "loss": 2.1172,
+      "step": 1025
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00037635054021608645,
+      "loss": 2.0815,
+      "step": 1030
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.000375750300120048,
+      "loss": 2.0598,
+      "step": 1035
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.00037515006002400956,
+      "loss": 2.0456,
+      "step": 1040
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.00037454981992797123,
+      "loss": 2.1081,
+      "step": 1045
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0003739495798319328,
+      "loss": 2.0235,
+      "step": 1050
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.00037334933973589434,
+      "loss": 2.0866,
+      "step": 1055
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.0003727490996398559,
+      "loss": 2.0599,
+      "step": 1060
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.00037214885954381757,
+      "loss": 2.0281,
+      "step": 1065
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.0003715486194477791,
+      "loss": 2.0481,
+      "step": 1070
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.0003709483793517407,
+      "loss": 2.0223,
+      "step": 1075
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.0003703481392557023,
+      "loss": 2.0303,
+      "step": 1080
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.0003697478991596639,
+      "loss": 2.13,
+      "step": 1085
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.00036914765906362546,
+      "loss": 2.1372,
+      "step": 1090
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.000368547418967587,
+      "loss": 2.0192,
+      "step": 1095
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.00036794717887154863,
+      "loss": 2.0754,
+      "step": 1100
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.00036734693877551024,
+      "loss": 2.123,
+      "step": 1105
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.0003667466986794718,
+      "loss": 2.0884,
+      "step": 1110
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.00036614645858343335,
+      "loss": 2.0835,
+      "step": 1115
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.00036554621848739496,
+      "loss": 2.0276,
+      "step": 1120
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.0003649459783913566,
+      "loss": 2.0106,
+      "step": 1125
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.00036434573829531813,
+      "loss": 1.9971,
+      "step": 1130
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.0003637454981992797,
+      "loss": 1.9734,
+      "step": 1135
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.0003631452581032413,
+      "loss": 2.0989,
+      "step": 1140
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.0003625450180072029,
+      "loss": 2.0539,
+      "step": 1145
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.00036194477791116447,
+      "loss": 1.9613,
+      "step": 1150
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.000361344537815126,
+      "loss": 2.0324,
+      "step": 1155
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.00036074429771908764,
+      "loss": 2.0144,
+      "step": 1160
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.00036014405762304925,
+      "loss": 2.0124,
+      "step": 1165
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.0003595438175270108,
+      "loss": 2.0638,
+      "step": 1170
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.00035894357743097236,
+      "loss": 2.0049,
+      "step": 1175
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.000358343337334934,
+      "loss": 2.0731,
+      "step": 1180
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.0003577430972388956,
+      "loss": 2.0804,
+      "step": 1185
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.00035714285714285714,
+      "loss": 2.0652,
+      "step": 1190
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.00035654261704681875,
+      "loss": 1.9836,
+      "step": 1195
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.0003559423769507803,
+      "loss": 2.0288,
+      "step": 1200
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.0003553421368547419,
+      "loss": 1.9811,
+      "step": 1205
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.0003547418967587035,
+      "loss": 1.9923,
+      "step": 1210
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.0003541416566626651,
+      "loss": 2.0066,
+      "step": 1215
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.00035354141656662665,
+      "loss": 1.992,
+      "step": 1220
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.00035294117647058826,
+      "loss": 2.0675,
+      "step": 1225
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.0003523409363745498,
+      "loss": 2.0066,
+      "step": 1230
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.0003517406962785114,
+      "loss": 2.0111,
+      "step": 1235
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.000351140456182473,
+      "loss": 1.9843,
+      "step": 1240
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.0003505402160864346,
+      "loss": 2.0322,
+      "step": 1245
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.00034993997599039615,
+      "loss": 2.0266,
+      "step": 1250
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.00034933973589435776,
+      "loss": 2.0346,
+      "step": 1255
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.0003487394957983193,
+      "loss": 1.9676,
+      "step": 1260
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.00034813925570228093,
+      "loss": 2.0872,
+      "step": 1265
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.0003475390156062425,
+      "loss": 1.9265,
+      "step": 1270
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.0003469387755102041,
+      "loss": 2.0074,
+      "step": 1275
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.00034633853541416566,
+      "loss": 2.0108,
+      "step": 1280
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.00034573829531812727,
+      "loss": 1.9766,
+      "step": 1285
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.0003451380552220889,
+      "loss": 1.9319,
+      "step": 1290
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.00034453781512605044,
+      "loss": 2.0803,
+      "step": 1295
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.000343937575030012,
+      "loss": 2.0196,
+      "step": 1300
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.0003433373349339736,
+      "loss": 2.0166,
+      "step": 1305
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.0003427370948379352,
+      "loss": 2.0094,
+      "step": 1310
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.0003421368547418968,
+      "loss": 1.9954,
+      "step": 1315
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.00034153661464585833,
+      "loss": 1.9782,
+      "step": 1320
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.00034093637454981994,
+      "loss": 2.0126,
+      "step": 1325
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.00034033613445378155,
+      "loss": 1.9949,
+      "step": 1330
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.0003397358943577431,
+      "loss": 1.9744,
+      "step": 1335
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.00033913565426170467,
+      "loss": 2.0246,
+      "step": 1340
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.0003385354141656663,
+      "loss": 1.9461,
+      "step": 1345
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.0003379351740696279,
+      "loss": 1.9792,
+      "step": 1350
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.00033733493397358945,
+      "loss": 1.9813,
+      "step": 1355
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.000336734693877551,
+      "loss": 2.0243,
+      "step": 1360
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.0003361344537815126,
+      "loss": 1.9371,
+      "step": 1365
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.0003355342136854742,
+      "loss": 2.0438,
+      "step": 1370
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.0003349339735894358,
+      "loss": 1.9632,
+      "step": 1375
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.00033433373349339734,
+      "loss": 2.0137,
+      "step": 1380
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.000333733493397359,
+      "loss": 1.9849,
+      "step": 1385
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.00033313325330132056,
+      "loss": 1.9578,
+      "step": 1390
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.0003325330132052821,
+      "loss": 1.942,
+      "step": 1395
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.0003319327731092437,
+      "loss": 1.9424,
+      "step": 1400
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.0003313325330132053,
+      "loss": 2.0015,
+      "step": 1405
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.0003307322929171669,
+      "loss": 2.0385,
+      "step": 1410
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.00033013205282112846,
+      "loss": 2.019,
+      "step": 1415
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.00032953181272509,
+      "loss": 1.99,
+      "step": 1420
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.0003289315726290516,
+      "loss": 1.9583,
+      "step": 1425
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.00032833133253301324,
+      "loss": 1.9645,
+      "step": 1430
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.0003277310924369748,
+      "loss": 2.0095,
+      "step": 1435
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.00032713085234093635,
+      "loss": 1.9755,
+      "step": 1440
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.00032653061224489796,
+      "loss": 1.8859,
+      "step": 1445
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.00032593037214885957,
+      "loss": 1.9807,
+      "step": 1450
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.00032533013205282113,
+      "loss": 1.9688,
+      "step": 1455
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.0003247298919567827,
+      "loss": 1.9898,
+      "step": 1460
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.0003241296518607443,
+      "loss": 1.9136,
+      "step": 1465
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.0003235294117647059,
+      "loss": 1.9058,
+      "step": 1470
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.00032292917166866747,
+      "loss": 2.001,
+      "step": 1475
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.000322328931572629,
+      "loss": 1.9529,
+      "step": 1480
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.00032172869147659063,
+      "loss": 1.9859,
+      "step": 1485
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.00032112845138055224,
+      "loss": 1.9973,
+      "step": 1490
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.0003205282112845138,
+      "loss": 1.9371,
+      "step": 1495
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.0003199279711884754,
+      "loss": 1.949,
+      "step": 1500
     }
   ],
   "logging_steps": 5,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 500,
+  "total_flos": 2.968978939416576e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null