Training in progress, step 900, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +213 -3
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8914facca3ec7ebd4ca0af63a4103bd73934c6203de2086fcb50395772ac962
 size 3237818848

 version https://git-lfs.github.com/spec/v1
+oid sha256:ea44be5f29e63d43296d9d83bd74000d9eec25472608a721883a3def330d0d51
 size 3237818848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0950e188b2932851adfd96a6948dca2e97b8e9815befb943767ad300ac5bddf4
 size 2062251569

 version https://git-lfs.github.com/spec/v1
+oid sha256:fcfc52b46b2bcbd19bdeae44612f8466c1fd2dddd02666025d9a6d924a564419
 size 2062251569

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7087649df6c0734a2a4d59d344e34355cbcef9bd4b101d7b7a1da6a37d115851
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:60c8632974dc900245d4dfbbcf87a13b532e38345500a34dea8a1b480b697112
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1e35963fbe17703d43e57c264c8bf401c049828d6ea5abe6c269f936eebec007
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:504b7bc543b9e5f039f6559d07b099507a66c15c86836ff5981e4eee51792c02
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:acea6b741bab97301e556cecda1616269a490b6124f19e7710f2f8643bc308f4
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:a838d3ba3633bb04603e3afbc02ea3103b4064d4c633a0639c7ced656d5b0c92
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.26666666666666666,
   "eval_steps": 300,
-  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -440,6 +440,216 @@
       "learning_rate": 0.00017066031020892934,
       "loss": 1.1963,
       "step": 600
     }
   ],
   "logging_steps": 10,
@@ -459,7 +669,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.6367531065344e+19,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4,
   "eval_steps": 300,
+  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.00017066031020892934,
       "loss": 1.1963,
       "step": 600
+    },
+    {
+      "epoch": 0.27111111111111114,
+      "grad_norm": 22.651229858398438,
+      "learning_rate": 0.00016964546254930247,
+      "loss": 1.1826,
+      "step": 610
+    },
+    {
+      "epoch": 0.27555555555555555,
+      "grad_norm": 28.09796905517578,
+      "learning_rate": 0.0001686164903528152,
+      "loss": 1.2849,
+      "step": 620
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 22.29288673400879,
+      "learning_rate": 0.00016757360230148618,
+      "loss": 1.2473,
+      "step": 630
+    },
+    {
+      "epoch": 0.28444444444444444,
+      "grad_norm": 29.369836807250977,
+      "learning_rate": 0.00016651700989955682,
+      "loss": 1.2133,
+      "step": 640
+    },
+    {
+      "epoch": 0.28888888888888886,
+      "grad_norm": 10.829903602600098,
+      "learning_rate": 0.00016544692743059684,
+      "loss": 1.2379,
+      "step": 650
+    },
+    {
+      "epoch": 0.29333333333333333,
+      "grad_norm": 10.857136726379395,
+      "learning_rate": 0.0001643635719140461,
+      "loss": 1.1889,
+      "step": 660
+    },
+    {
+      "epoch": 0.29777777777777775,
+      "grad_norm": 10.762494087219238,
+      "learning_rate": 0.00016326716306120195,
+      "loss": 1.2591,
+      "step": 670
+    },
+    {
+      "epoch": 0.3022222222222222,
+      "grad_norm": 13.926369667053223,
+      "learning_rate": 0.00016215792323066012,
+      "loss": 1.2075,
+      "step": 680
+    },
+    {
+      "epoch": 0.30666666666666664,
+      "grad_norm": 10.43800163269043,
+      "learning_rate": 0.00016103607738321925,
+      "loss": 1.2076,
+      "step": 690
+    },
+    {
+      "epoch": 0.3111111111111111,
+      "grad_norm": 18.675508499145508,
+      "learning_rate": 0.0001599018530362573,
+      "loss": 1.2339,
+      "step": 700
+    },
+    {
+      "epoch": 0.31555555555555553,
+      "grad_norm": 10.020101547241211,
+      "learning_rate": 0.0001587554802175895,
+      "loss": 1.14,
+      "step": 710
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 8.47937297821045,
+      "learning_rate": 0.0001575971914188175,
+      "loss": 1.145,
+      "step": 720
+    },
+    {
+      "epoch": 0.3244444444444444,
+      "grad_norm": 16.2773380279541,
+      "learning_rate": 0.00015642722154817848,
+      "loss": 1.1076,
+      "step": 730
+    },
+    {
+      "epoch": 0.3288888888888889,
+      "grad_norm": 10.47890853881836,
+      "learning_rate": 0.00015524580788290425,
+      "loss": 1.1414,
+      "step": 740
+    },
+    {
+      "epoch": 0.3333333333333333,
+      "grad_norm": 9.702156066894531,
+      "learning_rate": 0.0001540531900211,
+      "loss": 1.22,
+      "step": 750
+    },
+    {
+      "epoch": 0.3377777777777778,
+      "grad_norm": 10.579848289489746,
+      "learning_rate": 0.0001528496098331523,
+      "loss": 1.1548,
+      "step": 760
+    },
+    {
+      "epoch": 0.3422222222222222,
+      "grad_norm": 24.226659774780273,
+      "learning_rate": 0.00015163531141267628,
+      "loss": 1.1407,
+      "step": 770
+    },
+    {
+      "epoch": 0.3466666666666667,
+      "grad_norm": 11.10332202911377,
+      "learning_rate": 0.00015041054102701184,
+      "loss": 1.1642,
+      "step": 780
+    },
+    {
+      "epoch": 0.3511111111111111,
+      "grad_norm": 14.13973331451416,
+      "learning_rate": 0.00014917554706727915,
+      "loss": 1.1726,
+      "step": 790
+    },
+    {
+      "epoch": 0.35555555555555557,
+      "grad_norm": 21.75472640991211,
+      "learning_rate": 0.00014793057999800335,
+      "loss": 1.1478,
+      "step": 800
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 12.123833656311035,
+      "learning_rate": 0.0001466758923063189,
+      "loss": 1.1939,
+      "step": 810
+    },
+    {
+      "epoch": 0.36444444444444446,
+      "grad_norm": 9.510560035705566,
+      "learning_rate": 0.00014541173845076323,
+      "loss": 1.0843,
+      "step": 820
+    },
+    {
+      "epoch": 0.3688888888888889,
+      "grad_norm": 17.031314849853516,
+      "learning_rate": 0.00014413837480967145,
+      "loss": 1.1181,
+      "step": 830
+    },
+    {
+      "epoch": 0.37333333333333335,
+      "grad_norm": 16.022037506103516,
+      "learning_rate": 0.00014285605962918084,
+      "loss": 1.1542,
+      "step": 840
+    },
+    {
+      "epoch": 0.37777777777777777,
+      "grad_norm": 12.77236270904541,
+      "learning_rate": 0.00014156505297085713,
+      "loss": 1.114,
+      "step": 850
+    },
+    {
+      "epoch": 0.38222222222222224,
+      "grad_norm": 38.819454193115234,
+      "learning_rate": 0.00014026561665895224,
+      "loss": 1.0932,
+      "step": 860
+    },
+    {
+      "epoch": 0.38666666666666666,
+      "grad_norm": 10.85486125946045,
+      "learning_rate": 0.00013895801422730473,
+      "loss": 1.11,
+      "step": 870
+    },
+    {
+      "epoch": 0.39111111111111113,
+      "grad_norm": 10.986682891845703,
+      "learning_rate": 0.00013764251086589353,
+      "loss": 1.0752,
+      "step": 880
+    },
+    {
+      "epoch": 0.39555555555555555,
+      "grad_norm": 7.950289726257324,
+      "learning_rate": 0.00013631937336705568,
+      "loss": 1.1817,
+      "step": 890
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 7.103327751159668,
+      "learning_rate": 0.00013498887007137918,
+      "loss": 1.0813,
+      "step": 900
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.4551296598016e+19,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90a266fde3aed1b9627604c89937e8d2ff74c90016b7e05cb2a1d6ffdc03917d
 size 5969

 version https://git-lfs.github.com/spec/v1
+oid sha256:b9012ea34a655f218dd2bab2f2edc38d537cc1525f0e422dbcceaa6fa5a75517
 size 5969