Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step2750/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2750/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2750/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2750/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2750/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +160 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ed35d9e9a53737611af966cbe93a83870961407619ae9b764d5a71481806bd1
 size 1037269336

 version https://git-lfs.github.com/spec/v1
+oid sha256:41eba1008d873044192a020b36381b7428ff6627186a0aebca3a9191aa95e154
 size 1037269336

last-checkpoint/global_step2750/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f3bccecb96b6ad79d4682b57ef76ca7727c7c5ff4811d53c75235fcd04f30e5
+size 781993445

last-checkpoint/global_step2750/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:296d772ecd529ffba299a0c219a97e1c0c778ffeac847c946de62f6e7977f9b4
+size 781993509

last-checkpoint/global_step2750/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a85dff21ff59e775869cc5540252bef200b4d8f3230db33de3b3b9eb8984ec8
+size 781993509

last-checkpoint/global_step2750/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:769cbbfcebb8af82d2baa12d1b6609a0082a4b0d8eebb63f7bf23b80b070e634
+size 781993509

last-checkpoint/global_step2750/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bc9194cda2bd009b0d5e328ae988b1121ee5bf25708ccbb4f03dbec7c9743576
+size 2610290277

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step2650~~


1	+ global_step2750

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a555f29dd0266ec849af7131cdeb25395cc2774915812c98f84cc74f010f652f
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:128632a5a6c84ed29b2d92372ca3a3444bcf9664bddeca70dc2e8dc1479dc9ba
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7866dce40dfefc3ceb6ee4b58857dca32c5179d5176488037d421cdde3785292
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:1fa70d56fe2828a4932eca6e89391bb5eb3e6023a9d392081c741ffddcb48e32
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a9297cc95cd9db2e8b723a119df7dc41e3e6ca3438b896056f5bdda90472c78d
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:e377c5adc37c7bb27de7eb961e8e335dc1a990c6e6cc4c52dff5bfce37db4bdb
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:777bd3cda62a757b45065141f038d5fde7382e3b6d33030210d22127a50b78ac
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:a3309b2ba0e1ededbc01d8d5e756621af5edc2dd27c0c494a5dba8227a208c2b
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3fdc06a2ad366cb343cdc321bf1e8e054e7fe10a6844e2f229b0f7a2a714c549
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:f0c5c6d0d23fe4659a54b886e17b4a28c437d0eb3c1002e3af25db23c5751106
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 2.050044298171997,
   "best_model_checkpoint": null,
-  "epoch": 0.38523041139700537,
   "eval_steps": 50,
-  "global_step": 2650,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4142,6 +4142,162 @@
       "eval_samples_per_second": 171.033,
       "eval_steps_per_second": 10.725,
       "step": 2650
     }
   ],
   "logging_steps": 5,
@@ -4170,7 +4326,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.89848308616659e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 2.048673152923584,
   "best_model_checkpoint": null,
+  "epoch": 0.39976740805349614,
   "eval_steps": 50,
+  "global_step": 2750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 171.033,
       "eval_steps_per_second": 10.725,
       "step": 2650
+    },
+    {
+      "epoch": 0.38595726122982993,
+      "grad_norm": 2.482224464416504,
+      "learning_rate": 8.462414849593505e-05,
+      "loss": 2.3298,
+      "step": 2655
+    },
+    {
+      "epoch": 0.38668411106265443,
+      "grad_norm": 2.928178071975708,
+      "learning_rate": 8.4566506422412e-05,
+      "loss": 2.1993,
+      "step": 2660
+    },
+    {
+      "epoch": 0.387410960895479,
+      "grad_norm": 2.753080129623413,
+      "learning_rate": 8.450877757539051e-05,
+      "loss": 2.1442,
+      "step": 2665
+    },
+    {
+      "epoch": 0.38813781072830356,
+      "grad_norm": 2.788785934448242,
+      "learning_rate": 8.445096210020286e-05,
+      "loss": 2.2659,
+      "step": 2670
+    },
+    {
+      "epoch": 0.38886466056112806,
+      "grad_norm": 2.5485122203826904,
+      "learning_rate": 8.439306014239947e-05,
+      "loss": 2.0677,
+      "step": 2675
+    },
+    {
+      "epoch": 0.3895915103939526,
+      "grad_norm": 2.8225951194763184,
+      "learning_rate": 8.433507184774844e-05,
+      "loss": 2.1661,
+      "step": 2680
+    },
+    {
+      "epoch": 0.39031836022677713,
+      "grad_norm": 2.5097239017486572,
+      "learning_rate": 8.427699736223522e-05,
+      "loss": 2.2583,
+      "step": 2685
+    },
+    {
+      "epoch": 0.3910452100596017,
+      "grad_norm": 2.8999710083007812,
+      "learning_rate": 8.421883683206229e-05,
+      "loss": 1.9918,
+      "step": 2690
+    },
+    {
+      "epoch": 0.39177205989242625,
+      "grad_norm": 2.4386322498321533,
+      "learning_rate": 8.416059040364867e-05,
+      "loss": 2.1094,
+      "step": 2695
+    },
+    {
+      "epoch": 0.39249890972525076,
+      "grad_norm": 2.6135191917419434,
+      "learning_rate": 8.41022582236297e-05,
+      "loss": 2.2167,
+      "step": 2700
+    },
+    {
+      "epoch": 0.39249890972525076,
+      "eval_loss": 2.0557267665863037,
+      "eval_runtime": 20.6155,
+      "eval_samples_per_second": 160.122,
+      "eval_steps_per_second": 10.041,
+      "step": 2700
+    },
+    {
+      "epoch": 0.3932257595580753,
+      "grad_norm": 2.4323067665100098,
+      "learning_rate": 8.404384043885659e-05,
+      "loss": 2.1704,
+      "step": 2705
+    },
+    {
+      "epoch": 0.3939526093908998,
+      "grad_norm": 3.0446643829345703,
+      "learning_rate": 8.3985337196396e-05,
+      "loss": 2.2533,
+      "step": 2710
+    },
+    {
+      "epoch": 0.3946794592237244,
+      "grad_norm": 2.5526018142700195,
+      "learning_rate": 8.392674864352983e-05,
+      "loss": 1.9887,
+      "step": 2715
+    },
+    {
+      "epoch": 0.39540630905654894,
+      "grad_norm": 2.2026188373565674,
+      "learning_rate": 8.386807492775464e-05,
+      "loss": 2.0637,
+      "step": 2720
+    },
+    {
+      "epoch": 0.39613315888937345,
+      "grad_norm": 2.6651768684387207,
+      "learning_rate": 8.380931619678144e-05,
+      "loss": 2.0884,
+      "step": 2725
+    },
+    {
+      "epoch": 0.396860008722198,
+      "grad_norm": 2.4840121269226074,
+      "learning_rate": 8.375047259853531e-05,
+      "loss": 2.2356,
+      "step": 2730
+    },
+    {
+      "epoch": 0.3975868585550225,
+      "grad_norm": 2.4644320011138916,
+      "learning_rate": 8.369154428115492e-05,
+      "loss": 2.1208,
+      "step": 2735
+    },
+    {
+      "epoch": 0.3983137083878471,
+      "grad_norm": 2.8018391132354736,
+      "learning_rate": 8.36325313929922e-05,
+      "loss": 2.1674,
+      "step": 2740
+    },
+    {
+      "epoch": 0.3990405582206716,
+      "grad_norm": 2.1455233097076416,
+      "learning_rate": 8.35734340826121e-05,
+      "loss": 2.0756,
+      "step": 2745
+    },
+    {
+      "epoch": 0.39976740805349614,
+      "grad_norm": 2.5568268299102783,
+      "learning_rate": 8.351425249879196e-05,
+      "loss": 2.2644,
+      "step": 2750
+    },
+    {
+      "epoch": 0.39976740805349614,
+      "eval_loss": 2.048673152923584,
+      "eval_runtime": 19.1036,
+      "eval_samples_per_second": 172.795,
+      "eval_steps_per_second": 10.836,
+      "step": 2750
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 7.154438808702812e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null