Training in progress, step 42000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7fb18d4c27c64f6607996dc76ab059b3274f96bf50194e20861ca91446bac906
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:b793c31018c10b83151888a761e5fecf881d8cfcf10fe82ad108fb7a30b9cb35
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4a71156c2d2f2da1c265821c7ca99486fbc72cc466c418215c7150c425f5836
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:c753061fb3a47402b7408e67c6f3761fca04d13fb94ac46b9adfdfc16d0184d4
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:028c63076d3d8e5d0c73e4da1b6fc8793d1c56810af68c19f7f253b3016ce7ac
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9aaf95bbf390f32ec661a712de605a0c816388cfa815f81914058fe6bdabdcd9
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9bafdd2692f3ffed299379761090a99347b59a938d0713ea16130141db6dd54e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a94a7467707318fda39e274661a096a9de559314c283be40d75a871d8d1d3d18
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.1955710316371919,
   "eval_steps": 500,
-  "global_step": 41000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7306,11 +7306,189 @@
       "eval_steps_per_second": 24.179,
       "num_input_tokens_seen": 10747899456,
       "step": 41000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 10747899456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -7325,7 +7503,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.8751680039786906e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.2003410567990746,
   "eval_steps": 500,
+  "global_step": 42000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 24.179,
       "num_input_tokens_seen": 10747899456,
       "step": 41000
+    },
+    {
+      "epoch": 0.19580953289528602,
+      "grad_norm": 0.20298945903778076,
+      "learning_rate": 0.001,
+      "loss": 2.6233,
+      "num_input_tokens_seen": 10761006656,
+      "step": 41050
+    },
+    {
+      "epoch": 0.19604803415338015,
+      "grad_norm": 0.2280716896057129,
+      "learning_rate": 0.001,
+      "loss": 2.6427,
+      "num_input_tokens_seen": 10774113856,
+      "step": 41100
+    },
+    {
+      "epoch": 0.19628653541147428,
+      "grad_norm": 0.19223643839359283,
+      "learning_rate": 0.001,
+      "loss": 2.6263,
+      "num_input_tokens_seen": 10787221056,
+      "step": 41150
+    },
+    {
+      "epoch": 0.19652503666956844,
+      "grad_norm": 0.19221842288970947,
+      "learning_rate": 0.001,
+      "loss": 2.6401,
+      "num_input_tokens_seen": 10800328256,
+      "step": 41200
+    },
+    {
+      "epoch": 0.19676353792766257,
+      "grad_norm": 0.19479979574680328,
+      "learning_rate": 0.001,
+      "loss": 2.6269,
+      "num_input_tokens_seen": 10813435456,
+      "step": 41250
+    },
+    {
+      "epoch": 0.1970020391857567,
+      "grad_norm": 0.24501195549964905,
+      "learning_rate": 0.001,
+      "loss": 2.618,
+      "num_input_tokens_seen": 10826542656,
+      "step": 41300
+    },
+    {
+      "epoch": 0.19724054044385084,
+      "grad_norm": 0.1994044929742813,
+      "learning_rate": 0.001,
+      "loss": 2.64,
+      "num_input_tokens_seen": 10839649856,
+      "step": 41350
+    },
+    {
+      "epoch": 0.19747904170194497,
+      "grad_norm": 0.20831650495529175,
+      "learning_rate": 0.001,
+      "loss": 2.6513,
+      "num_input_tokens_seen": 10852757056,
+      "step": 41400
+    },
+    {
+      "epoch": 0.19771754296003913,
+      "grad_norm": 0.21919438242912292,
+      "learning_rate": 0.001,
+      "loss": 2.6379,
+      "num_input_tokens_seen": 10865864256,
+      "step": 41450
+    },
+    {
+      "epoch": 0.19795604421813326,
+      "grad_norm": 0.23088768124580383,
+      "learning_rate": 0.001,
+      "loss": 2.6449,
+      "num_input_tokens_seen": 10878971456,
+      "step": 41500
+    },
+    {
+      "epoch": 0.19795604421813326,
+      "eval_loss": 2.5156567096710205,
+      "eval_runtime": 51.6776,
+      "eval_samples_per_second": 96.754,
+      "eval_steps_per_second": 24.188,
+      "num_input_tokens_seen": 10878971456,
+      "step": 41500
+    },
+    {
+      "epoch": 0.1981945454762274,
+      "grad_norm": 0.1982518881559372,
+      "learning_rate": 0.001,
+      "loss": 2.6304,
+      "num_input_tokens_seen": 10892078656,
+      "step": 41550
+    },
+    {
+      "epoch": 0.19843304673432152,
+      "grad_norm": 0.2099853903055191,
+      "learning_rate": 0.001,
+      "loss": 2.6305,
+      "num_input_tokens_seen": 10905185856,
+      "step": 41600
+    },
+    {
+      "epoch": 0.19867154799241565,
+      "grad_norm": 0.19403131306171417,
+      "learning_rate": 0.001,
+      "loss": 2.6419,
+      "num_input_tokens_seen": 10918293056,
+      "step": 41650
+    },
+    {
+      "epoch": 0.19891004925050979,
+      "grad_norm": 0.20865993201732635,
+      "learning_rate": 0.001,
+      "loss": 2.6116,
+      "num_input_tokens_seen": 10931400256,
+      "step": 41700
+    },
+    {
+      "epoch": 0.19914855050860394,
+      "grad_norm": 0.19042626023292542,
+      "learning_rate": 0.001,
+      "loss": 2.6271,
+      "num_input_tokens_seen": 10944507456,
+      "step": 41750
+    },
+    {
+      "epoch": 0.19938705176669808,
+      "grad_norm": 0.20514579117298126,
+      "learning_rate": 0.001,
+      "loss": 2.6348,
+      "num_input_tokens_seen": 10957614656,
+      "step": 41800
+    },
+    {
+      "epoch": 0.1996255530247922,
+      "grad_norm": 0.21224668622016907,
+      "learning_rate": 0.001,
+      "loss": 2.6314,
+      "num_input_tokens_seen": 10970721856,
+      "step": 41850
+    },
+    {
+      "epoch": 0.19986405428288634,
+      "grad_norm": 0.18857082724571228,
+      "learning_rate": 0.001,
+      "loss": 2.6217,
+      "num_input_tokens_seen": 10983829056,
+      "step": 41900
+    },
+    {
+      "epoch": 0.20010255554098047,
+      "grad_norm": 0.18431074917316437,
+      "learning_rate": 0.001,
+      "loss": 2.6267,
+      "num_input_tokens_seen": 10996936256,
+      "step": 41950
+    },
+    {
+      "epoch": 0.2003410567990746,
+      "grad_norm": 0.20570099353790283,
+      "learning_rate": 0.001,
+      "loss": 2.6016,
+      "num_input_tokens_seen": 11010043456,
+      "step": 42000
+    },
+    {
+      "epoch": 0.2003410567990746,
+      "eval_loss": 2.506241798400879,
+      "eval_runtime": 51.5548,
+      "eval_samples_per_second": 96.984,
+      "eval_steps_per_second": 24.246,
+      "num_input_tokens_seen": 11010043456,
+      "step": 42000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 11010043456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 2.9452940825041306e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null