Training in progress, step 120000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:423179ea0149a7aaeacb5ccaa10149a8392d7f119d23b5e82ddb6e09d76ee4bf
 size 1410301944

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e70907b0d675ee2643842e014ed6c972c9663ac94c350f0ab42a0be8632152c
 size 1410301944

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b71ae6a920aee5962a410d286e3547ba68e15be1375e1283ae48d23a63cbab16
 size 2820185786

 version https://git-lfs.github.com/spec/v1
+oid sha256:e3a65d04a4bb9bbc428894a0e56fe5a8ff86920144b87270537f75bf5b3558c9
 size 2820185786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8f8fb2244d43602b2b223fa5f88e945c708dd60e4c4c5e962793b5f1f77fe7b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d8a9a435a8fb7efaea34ed653a04299793c4ab23d440f306a1001d1a5e2fe4d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a469da166349e663b52b425176faaf03bae4cb82a5020b6687129f2f779fc711
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f14fb013cc682f88bd394d32631eff6723ea097f4e238bec79824a853a5616c4
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.1352683735406703,
   "eval_steps": 500,
-  "global_step": 119000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -21190,11 +21190,189 @@
       "eval_steps_per_second": 15.211,
       "num_input_tokens_seen": 62380238112,
       "step": 119000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
-  "num_input_tokens_seen": 62380238112,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -21209,7 +21387,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1040164330280837e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.1448084238644358,
   "eval_steps": 500,
+  "global_step": 120000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 15.211,
       "num_input_tokens_seen": 62380238112,
       "step": 119000
+    },
+    {
+      "epoch": 1.1357453760568588,
+      "grad_norm": 0.1409357637166977,
+      "learning_rate": 0.0008515644076206653,
+      "loss": 2.0885,
+      "num_input_tokens_seen": 62406448192,
+      "step": 119050
+    },
+    {
+      "epoch": 1.136222378573047,
+      "grad_norm": 0.15409712493419647,
+      "learning_rate": 0.0008495643602586287,
+      "loss": 2.0778,
+      "num_input_tokens_seen": 62432661632,
+      "step": 119100
+    },
+    {
+      "epoch": 1.1366993810892352,
+      "grad_norm": 0.1327887326478958,
+      "learning_rate": 0.0008475533114523955,
+      "loss": 2.086,
+      "num_input_tokens_seen": 62458870752,
+      "step": 119150
+    },
+    {
+      "epoch": 1.1371763836054236,
+      "grad_norm": 0.14051629602909088,
+      "learning_rate": 0.0008455313244934324,
+      "loss": 2.0765,
+      "num_input_tokens_seen": 62485082688,
+      "step": 119200
+    },
+    {
+      "epoch": 1.1376533861216118,
+      "grad_norm": 0.13998936116695404,
+      "learning_rate": 0.0008434984630174508,
+      "loss": 2.0784,
+      "num_input_tokens_seen": 62511288832,
+      "step": 119250
+    },
+    {
+      "epoch": 1.1381303886378,
+      "grad_norm": 0.1316358745098114,
+      "learning_rate": 0.0008414547910024035,
+      "loss": 2.0839,
+      "num_input_tokens_seen": 62537499648,
+      "step": 119300
+    },
+    {
+      "epoch": 1.1386073911539882,
+      "grad_norm": 0.13315369188785553,
+      "learning_rate": 0.0008394003727664709,
+      "loss": 2.0793,
+      "num_input_tokens_seen": 62563710336,
+      "step": 119350
+    },
+    {
+      "epoch": 1.1390843936701767,
+      "grad_norm": 0.1454961597919464,
+      "learning_rate": 0.0008373352729660373,
+      "loss": 2.0814,
+      "num_input_tokens_seen": 62589918400,
+      "step": 119400
+    },
+    {
+      "epoch": 1.1395613961863649,
+      "grad_norm": 0.14860859513282776,
+      "learning_rate": 0.0008352595565936554,
+      "loss": 2.0885,
+      "num_input_tokens_seen": 62616130880,
+      "step": 119450
+    },
+    {
+      "epoch": 1.140038398702553,
+      "grad_norm": 0.13664905726909637,
+      "learning_rate": 0.000833173288976002,
+      "loss": 2.0836,
+      "num_input_tokens_seen": 62642339520,
+      "step": 119500
+    },
+    {
+      "epoch": 1.140038398702553,
+      "eval_loss": 1.9989631175994873,
+      "eval_runtime": 83.3074,
+      "eval_samples_per_second": 60.019,
+      "eval_steps_per_second": 15.005,
+      "num_input_tokens_seen": 62642339520,
+      "step": 119500
+    },
+    {
+      "epoch": 1.1405154012187415,
+      "grad_norm": 0.1337277889251709,
+      "learning_rate": 0.0008310765357718206,
+      "loss": 2.0745,
+      "num_input_tokens_seen": 62668548896,
+      "step": 119550
+    },
+    {
+      "epoch": 1.1409924037349297,
+      "grad_norm": 0.13231709599494934,
+      "learning_rate": 0.0008289693629698564,
+      "loss": 2.0851,
+      "num_input_tokens_seen": 62694761888,
+      "step": 119600
+    },
+    {
+      "epoch": 1.141469406251118,
+      "grad_norm": 0.13446244597434998,
+      "learning_rate": 0.0008268518368867782,
+      "loss": 2.0737,
+      "num_input_tokens_seen": 62720974368,
+      "step": 119650
+    },
+    {
+      "epoch": 1.1419464087673061,
+      "grad_norm": 0.14359907805919647,
+      "learning_rate": 0.0008247240241650918,
+      "loss": 2.0772,
+      "num_input_tokens_seen": 62747188768,
+      "step": 119700
+    },
+    {
+      "epoch": 1.1424234112834946,
+      "grad_norm": 0.13156485557556152,
+      "learning_rate": 0.0008225859917710439,
+      "loss": 2.0791,
+      "num_input_tokens_seen": 62773395936,
+      "step": 119750
+    },
+    {
+      "epoch": 1.1429004137996828,
+      "grad_norm": 0.14039525389671326,
+      "learning_rate": 0.000820437806992512,
+      "loss": 2.0656,
+      "num_input_tokens_seen": 62799610336,
+      "step": 119800
+    },
+    {
+      "epoch": 1.143377416315871,
+      "grad_norm": 0.14653949439525604,
+      "learning_rate": 0.0008182795374368893,
+      "loss": 2.0741,
+      "num_input_tokens_seen": 62825821984,
+      "step": 119850
+    },
+    {
+      "epoch": 1.1438544188320594,
+      "grad_norm": 0.12294785678386688,
+      "learning_rate": 0.0008161112510289549,
+      "loss": 2.0741,
+      "num_input_tokens_seen": 62852031840,
+      "step": 119900
+    },
+    {
+      "epoch": 1.1443314213482476,
+      "grad_norm": 0.18639816343784332,
+      "learning_rate": 0.0008139330160087374,
+      "loss": 2.1258,
+      "num_input_tokens_seen": 62878240576,
+      "step": 119950
+    },
+    {
+      "epoch": 1.1448084238644358,
+      "grad_norm": 0.1320071518421173,
+      "learning_rate": 0.0008117449009293668,
+      "loss": 2.0956,
+      "num_input_tokens_seen": 62904447680,
+      "step": 120000
+    },
+    {
+      "epoch": 1.1448084238644358,
+      "eval_loss": 2.0032639503479004,
+      "eval_runtime": 82.8531,
+      "eval_samples_per_second": 60.348,
+      "eval_steps_per_second": 15.087,
+      "num_input_tokens_seen": 62904447680,
+      "step": 120000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
+  "num_input_tokens_seen": 62904447680,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.1132939862234317e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null