Training in progress, step 1500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +353 -3
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6a1a977dbd01ad2f8a9eed9e7f79d95b196931e09186bccc4d8f5f04cbed2d7
 size 4523108832

 version https://git-lfs.github.com/spec/v1
+oid sha256:6696d4f268a5241495ceaff2acea183efcc3afd5b44955ab5f6c2b91adbea6b9
 size 4523108832

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5aaf5712450f016bf21c43fb383dbe666b12a078f8860c6a53a008f9aa13666b
-size 2911851147

 version https://git-lfs.github.com/spec/v1
+oid sha256:363b73880c7a938f5b75d71760d551c6d014704f2a4ec6628c9aaa6f429fa21e
+size 2912179275

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8e2011629d8bed3ef560fa11175cac55684c4e12a72634bb24abf767b6c7399
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:01f9a0f7843a37be87edd23f4e88aa93b38b95cc2c07503eeb1cf2e4632453a2
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:14ae2a2128444abab378aa06c09a61a84665f758fcc19fc46f5789b0bc1b5665
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca372268f4fa9335030c0cb7aedb6cdba75f457da50e7a4034abb1a2d0843689
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1fb5abe0c6c486932d56ee6ec9792e12e43df2b7c9d233a22935f823c7902b1d
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:0717d7b217f15f3f50778aac3433a6ba54621949761b93d00f3416efeb959875
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.0064,
   "eval_steps": 500,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -708,6 +708,356 @@
       "learning_rate": 0.00018002,
       "loss": 1.862677001953125,
       "step": 1000
     }
   ],
   "logging_steps": 10,
@@ -727,7 +1077,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.465719089364992e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0188,
   "eval_steps": 500,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.00018002,
       "loss": 1.862677001953125,
       "step": 1000
+    },
+    {
+      "epoch": 1.001,
+      "grad_norm": 0.7271579504013062,
+      "learning_rate": 0.00017982000000000002,
+      "loss": 1.4198949813842774,
+      "step": 1010
+    },
+    {
+      "epoch": 1.002,
+      "grad_norm": 0.7241926789283752,
+      "learning_rate": 0.00017962000000000002,
+      "loss": 1.290165328979492,
+      "step": 1020
+    },
+    {
+      "epoch": 1.003,
+      "grad_norm": 0.6930139064788818,
+      "learning_rate": 0.00017942,
+      "loss": 1.2588088989257813,
+      "step": 1030
+    },
+    {
+      "epoch": 1.004,
+      "grad_norm": 0.7046691179275513,
+      "learning_rate": 0.00017922,
+      "loss": 1.2508729934692382,
+      "step": 1040
+    },
+    {
+      "epoch": 1.005,
+      "grad_norm": 0.7425150275230408,
+      "learning_rate": 0.00017902,
+      "loss": 1.2099505424499513,
+      "step": 1050
+    },
+    {
+      "epoch": 1.006,
+      "grad_norm": 0.6843275427818298,
+      "learning_rate": 0.00017882,
+      "loss": 1.1226897239685059,
+      "step": 1060
+    },
+    {
+      "epoch": 1.007,
+      "grad_norm": 0.6979613900184631,
+      "learning_rate": 0.00017862000000000002,
+      "loss": 1.6102104187011719,
+      "step": 1070
+    },
+    {
+      "epoch": 1.008,
+      "grad_norm": 0.6627645492553711,
+      "learning_rate": 0.00017842000000000002,
+      "loss": 1.9422037124633789,
+      "step": 1080
+    },
+    {
+      "epoch": 1.009,
+      "grad_norm": 0.6664915084838867,
+      "learning_rate": 0.00017822,
+      "loss": 1.8065723419189452,
+      "step": 1090
+    },
+    {
+      "epoch": 1.01,
+      "grad_norm": 0.6870133280754089,
+      "learning_rate": 0.00017802,
+      "loss": 1.8182893753051759,
+      "step": 1100
+    },
+    {
+      "epoch": 1.011,
+      "grad_norm": 0.6618905663490295,
+      "learning_rate": 0.00017782,
+      "loss": 1.814337158203125,
+      "step": 1110
+    },
+    {
+      "epoch": 1.012,
+      "grad_norm": 1.1367806196212769,
+      "learning_rate": 0.00017762,
+      "loss": 1.73431453704834,
+      "step": 1120
+    },
+    {
+      "epoch": 1.013,
+      "grad_norm": 0.685649573802948,
+      "learning_rate": 0.00017742000000000002,
+      "loss": 1.7108922958374024,
+      "step": 1130
+    },
+    {
+      "epoch": 1.014,
+      "grad_norm": 0.6594149470329285,
+      "learning_rate": 0.00017722000000000001,
+      "loss": 1.779058074951172,
+      "step": 1140
+    },
+    {
+      "epoch": 1.015,
+      "grad_norm": 0.6914166212081909,
+      "learning_rate": 0.00017702,
+      "loss": 1.7222532272338866,
+      "step": 1150
+    },
+    {
+      "epoch": 1.016,
+      "grad_norm": 0.6719418168067932,
+      "learning_rate": 0.00017682,
+      "loss": 1.730402946472168,
+      "step": 1160
+    },
+    {
+      "epoch": 1.017,
+      "grad_norm": 0.7353265881538391,
+      "learning_rate": 0.00017662,
+      "loss": 1.711669921875,
+      "step": 1170
+    },
+    {
+      "epoch": 1.018,
+      "grad_norm": 0.6861590147018433,
+      "learning_rate": 0.00017642,
+      "loss": 1.7661975860595702,
+      "step": 1180
+    },
+    {
+      "epoch": 1.019,
+      "grad_norm": 0.6513635516166687,
+      "learning_rate": 0.00017622000000000002,
+      "loss": 1.6878995895385742,
+      "step": 1190
+    },
+    {
+      "epoch": 1.02,
+      "grad_norm": 0.6829492449760437,
+      "learning_rate": 0.00017602,
+      "loss": 1.6560598373413087,
+      "step": 1200
+    },
+    {
+      "epoch": 1.021,
+      "grad_norm": 0.6806496381759644,
+      "learning_rate": 0.00017582,
+      "loss": 1.6022390365600585,
+      "step": 1210
+    },
+    {
+      "epoch": 1.022,
+      "grad_norm": 0.6467958092689514,
+      "learning_rate": 0.00017562,
+      "loss": 1.527933406829834,
+      "step": 1220
+    },
+    {
+      "epoch": 1.023,
+      "grad_norm": 0.7558693289756775,
+      "learning_rate": 0.00017542,
+      "loss": 1.6221937179565429,
+      "step": 1230
+    },
+    {
+      "epoch": 1.024,
+      "grad_norm": 0.7131749391555786,
+      "learning_rate": 0.00017522000000000002,
+      "loss": 1.5218177795410157,
+      "step": 1240
+    },
+    {
+      "epoch": 1.025,
+      "grad_norm": 0.7794132828712463,
+      "learning_rate": 0.00017502000000000001,
+      "loss": 1.5550528526306153,
+      "step": 1250
+    },
+    {
+      "epoch": 1.026,
+      "grad_norm": 0.7174275517463684,
+      "learning_rate": 0.00017482,
+      "loss": 1.5929729461669921,
+      "step": 1260
+    },
+    {
+      "epoch": 1.027,
+      "grad_norm": 0.7710967659950256,
+      "learning_rate": 0.00017462,
+      "loss": 1.4883572578430175,
+      "step": 1270
+    },
+    {
+      "epoch": 1.028,
+      "grad_norm": 0.689930260181427,
+      "learning_rate": 0.00017442,
+      "loss": 1.4959463119506835,
+      "step": 1280
+    },
+    {
+      "epoch": 1.029,
+      "grad_norm": 0.7309102416038513,
+      "learning_rate": 0.00017422,
+      "loss": 1.5185231208801269,
+      "step": 1290
+    },
+    {
+      "epoch": 1.03,
+      "grad_norm": 0.6255451440811157,
+      "learning_rate": 0.00017402000000000002,
+      "loss": 1.4664793968200684,
+      "step": 1300
+    },
+    {
+      "epoch": 1.031,
+      "grad_norm": 0.7244739532470703,
+      "learning_rate": 0.00017382,
+      "loss": 1.4731544494628905,
+      "step": 1310
+    },
+    {
+      "epoch": 2.0008,
+      "grad_norm": 0.7122154235839844,
+      "learning_rate": 0.00017362,
+      "loss": 1.3298330307006836,
+      "step": 1320
+    },
+    {
+      "epoch": 2.0018,
+      "grad_norm": 0.7280747294425964,
+      "learning_rate": 0.00017342,
+      "loss": 1.094059658050537,
+      "step": 1330
+    },
+    {
+      "epoch": 2.0028,
+      "grad_norm": 0.7428712844848633,
+      "learning_rate": 0.00017322,
+      "loss": 0.9706879615783691,
+      "step": 1340
+    },
+    {
+      "epoch": 2.0038,
+      "grad_norm": 0.759975790977478,
+      "learning_rate": 0.00017302,
+      "loss": 1.02620849609375,
+      "step": 1350
+    },
+    {
+      "epoch": 2.0048,
+      "grad_norm": 0.7684850692749023,
+      "learning_rate": 0.00017282000000000002,
+      "loss": 0.9361392974853515,
+      "step": 1360
+    },
+    {
+      "epoch": 2.0058,
+      "grad_norm": 0.7847408652305603,
+      "learning_rate": 0.00017262,
+      "loss": 0.8885183334350586,
+      "step": 1370
+    },
+    {
+      "epoch": 2.0068,
+      "grad_norm": 0.921360194683075,
+      "learning_rate": 0.00017242,
+      "loss": 1.0311158180236817,
+      "step": 1380
+    },
+    {
+      "epoch": 2.0078,
+      "grad_norm": 0.6837793588638306,
+      "learning_rate": 0.00017222,
+      "loss": 1.2890826225280763,
+      "step": 1390
+    },
+    {
+      "epoch": 2.0088,
+      "grad_norm": 0.7072200775146484,
+      "learning_rate": 0.00017202,
+      "loss": 1.209097957611084,
+      "step": 1400
+    },
+    {
+      "epoch": 2.0098,
+      "grad_norm": 0.6607412695884705,
+      "learning_rate": 0.00017182,
+      "loss": 1.2470938682556152,
+      "step": 1410
+    },
+    {
+      "epoch": 2.0108,
+      "grad_norm": 0.7476115226745605,
+      "learning_rate": 0.00017162000000000001,
+      "loss": 1.2279239654541017,
+      "step": 1420
+    },
+    {
+      "epoch": 2.0118,
+      "grad_norm": 0.7690820693969727,
+      "learning_rate": 0.00017142,
+      "loss": 1.1757261276245117,
+      "step": 1430
+    },
+    {
+      "epoch": 2.0128,
+      "grad_norm": 0.7281740307807922,
+      "learning_rate": 0.00017122,
+      "loss": 1.158098030090332,
+      "step": 1440
+    },
+    {
+      "epoch": 2.0138,
+      "grad_norm": 0.7036393880844116,
+      "learning_rate": 0.00017102,
+      "loss": 1.1959182739257812,
+      "step": 1450
+    },
+    {
+      "epoch": 2.0148,
+      "grad_norm": 0.7431781888008118,
+      "learning_rate": 0.00017082,
+      "loss": 1.189777946472168,
+      "step": 1460
+    },
+    {
+      "epoch": 2.0158,
+      "grad_norm": 0.7411831021308899,
+      "learning_rate": 0.00017062,
+      "loss": 1.2544533729553222,
+      "step": 1470
+    },
+    {
+      "epoch": 2.0168,
+      "grad_norm": 0.7163280844688416,
+      "learning_rate": 0.00017042,
+      "loss": 1.165062141418457,
+      "step": 1480
+    },
+    {
+      "epoch": 2.0178,
+      "grad_norm": 0.7118193507194519,
+      "learning_rate": 0.00017022,
+      "loss": 1.2281935691833497,
+      "step": 1490
+    },
+    {
+      "epoch": 2.0188,
+      "grad_norm": 0.6703944206237793,
+      "learning_rate": 0.00017002,
+      "loss": 1.1760727882385253,
+      "step": 1500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.2700397305014682e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6613ae7e039f69e0c219d13c85d932cd4ee709153ecf7a7918efd897af4b506a
 size 5329

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a906813357c502f71d3ca10d7a5748ab64a30407afe18ed781d8ce5e0a1e7e1
 size 5329