Training in progress, step 855, checkpoint

Browse files

Files changed (10) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step855/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step855/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step855/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step855/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +676 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37ddee871f5c8860c14421aa33d7cdbaa19f59b850fbe75607f8e04d53149ec8
 size 1527066456

 version https://git-lfs.github.com/spec/v1
+oid sha256:0355df4e5063562f37d09abcb14b93955eed834c29f96e9873c1ae6867862c3c
 size 1527066456

last-checkpoint/global_step855/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e3946b3681927eb61dbc0943eac914d926599e3e93d2bb344c31a171fb3f88a
+size 2303346228

last-checkpoint/global_step855/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:957045c26127b5ae0cf698962b6f3bea091dd1f36a574987ff44d98775cd7601
+size 2303346228

last-checkpoint/global_step855/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0edccf7dfc2621373d5aad8800a44738a6fd5044232f274d3c92fe9166a15764
+size 354242335

last-checkpoint/global_step855/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:01b813789517429aedbb8c970fc2103dd038913fa55a904f2f73ed1c12a4f2da
+size 354242335

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step760~~


1	+ global_step855

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd02523e9a2772795dcb8a5377c30dd5d755619121ed3b3ff62475427588a9c3
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:03593c226bb4a31df5c4e26aaac693fbb9741d071e04c601b5ac1382f878f52b
 size 14917

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de3e6ca92eb194178d24b38dccc3684b16157506fcf7c4fed89bc27d96db71bd
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:d987383f11815234d8954c0b84d9c5f500a84408fd66a9795cd135ccfaa9f970
 size 14917

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ec9f9edd6063090e9cce93303e9da244a2299a1a318fe32b73067a10396350a
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:515697a4ba82550e0f5b33a4815d00a842066a9ee3219fde5b4a86b4c7e265ef
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.804871591209955,
   "eval_steps": 95,
-  "global_step": 760,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5400,6 +5400,679 @@
       "eval_samples_per_second": 0.578,
       "eval_steps_per_second": 0.29,
       "step": 760
     }
   ],
   "logging_steps": 1,
@@ -5419,7 +6092,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.5199521730330624e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9054805401111994,
   "eval_steps": 95,
+  "global_step": 855,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.578,
       "eval_steps_per_second": 0.29,
       "step": 760
+    },
+    {
+      "epoch": 0.8059306327773366,
+      "grad_norm": 0.6803131636311378,
+      "learning_rate": 7.140070230198985e-06,
+      "loss": 1.8325,
+      "step": 761
+    },
+    {
+      "epoch": 0.806989674344718,
+      "grad_norm": 0.5797389494956084,
+      "learning_rate": 7.126076742364918e-06,
+      "loss": 1.9813,
+      "step": 762
+    },
+    {
+      "epoch": 0.8080487159120996,
+      "grad_norm": 0.44784413151847136,
+      "learning_rate": 7.111984282907661e-06,
+      "loss": 2.3973,
+      "step": 763
+    },
+    {
+      "epoch": 0.809107757479481,
+      "grad_norm": 1.5430000937697363,
+      "learning_rate": 7.097791798107255e-06,
+      "loss": 2.147,
+      "step": 764
+    },
+    {
+      "epoch": 0.8101667990468626,
+      "grad_norm": 0.5136408504852492,
+      "learning_rate": 7.083498219232293e-06,
+      "loss": 1.848,
+      "step": 765
+    },
+    {
+      "epoch": 0.8112258406142441,
+      "grad_norm": 0.5467920174538149,
+      "learning_rate": 7.069102462271644e-06,
+      "loss": 2.2383,
+      "step": 766
+    },
+    {
+      "epoch": 0.8122848821816256,
+      "grad_norm": 0.5125300215381279,
+      "learning_rate": 7.054603427660422e-06,
+      "loss": 2.1579,
+      "step": 767
+    },
+    {
+      "epoch": 0.8133439237490071,
+      "grad_norm": 0.8105607354385294,
+      "learning_rate": 7.04e-06,
+      "loss": 2.236,
+      "step": 768
+    },
+    {
+      "epoch": 0.8144029653163887,
+      "grad_norm": 0.46810244908141757,
+      "learning_rate": 7.02529104777198e-06,
+      "loss": 2.1892,
+      "step": 769
+    },
+    {
+      "epoch": 0.8154620068837702,
+      "grad_norm": 0.4455237449570357,
+      "learning_rate": 7.0104754230459316e-06,
+      "loss": 2.2361,
+      "step": 770
+    },
+    {
+      "epoch": 0.8165210484511517,
+      "grad_norm": 0.5665884230798665,
+      "learning_rate": 6.995551961180752e-06,
+      "loss": 1.9058,
+      "step": 771
+    },
+    {
+      "epoch": 0.8175800900185333,
+      "grad_norm": 0.4633746613411758,
+      "learning_rate": 6.980519480519481e-06,
+      "loss": 2.1833,
+      "step": 772
+    },
+    {
+      "epoch": 0.8186391315859147,
+      "grad_norm": 0.44219293669742443,
+      "learning_rate": 6.965376782077392e-06,
+      "loss": 2.434,
+      "step": 773
+    },
+    {
+      "epoch": 0.8196981731532963,
+      "grad_norm": 0.42875965911174113,
+      "learning_rate": 6.950122649223222e-06,
+      "loss": 2.1409,
+      "step": 774
+    },
+    {
+      "epoch": 0.8207572147206778,
+      "grad_norm": 0.47230346181676486,
+      "learning_rate": 6.934755847353305e-06,
+      "loss": 2.1609,
+      "step": 775
+    },
+    {
+      "epoch": 0.8218162562880593,
+      "grad_norm": 0.47784292161116215,
+      "learning_rate": 6.919275123558486e-06,
+      "loss": 2.0429,
+      "step": 776
+    },
+    {
+      "epoch": 0.8228752978554408,
+      "grad_norm": 1.1727376426648415,
+      "learning_rate": 6.903679206283588e-06,
+      "loss": 1.9888,
+      "step": 777
+    },
+    {
+      "epoch": 0.8239343394228223,
+      "grad_norm": 2.1540603636137363,
+      "learning_rate": 6.887966804979253e-06,
+      "loss": 2.2259,
+      "step": 778
+    },
+    {
+      "epoch": 0.8249933809902039,
+      "grad_norm": 0.39665352588092573,
+      "learning_rate": 6.8721366097459395e-06,
+      "loss": 2.1907,
+      "step": 779
+    },
+    {
+      "epoch": 0.8260524225575854,
+      "grad_norm": 0.41043373870823585,
+      "learning_rate": 6.8561872909699e-06,
+      "loss": 2.2407,
+      "step": 780
+    },
+    {
+      "epoch": 0.8271114641249669,
+      "grad_norm": 0.5256052719666096,
+      "learning_rate": 6.840117498950903e-06,
+      "loss": 1.9323,
+      "step": 781
+    },
+    {
+      "epoch": 0.8281705056923484,
+      "grad_norm": 0.43680474985593193,
+      "learning_rate": 6.823925863521483e-06,
+      "loss": 2.3057,
+      "step": 782
+    },
+    {
+      "epoch": 0.82922954725973,
+      "grad_norm": 0.56024481376916,
+      "learning_rate": 6.807610993657505e-06,
+      "loss": 2.283,
+      "step": 783
+    },
+    {
+      "epoch": 0.8302885888271114,
+      "grad_norm": 2.461245897952525,
+      "learning_rate": 6.7911714770797965e-06,
+      "loss": 2.2754,
+      "step": 784
+    },
+    {
+      "epoch": 0.831347630394493,
+      "grad_norm": 0.4239538684026029,
+      "learning_rate": 6.774605879846613e-06,
+      "loss": 2.1561,
+      "step": 785
+    },
+    {
+      "epoch": 0.8324066719618745,
+      "grad_norm": 0.5086795267311749,
+      "learning_rate": 6.757912745936699e-06,
+      "loss": 1.9561,
+      "step": 786
+    },
+    {
+      "epoch": 0.833465713529256,
+      "grad_norm": 0.529180140080738,
+      "learning_rate": 6.7410905968226705e-06,
+      "loss": 2.2472,
+      "step": 787
+    },
+    {
+      "epoch": 0.8345247550966376,
+      "grad_norm": 0.906770591412783,
+      "learning_rate": 6.724137931034482e-06,
+      "loss": 2.0894,
+      "step": 788
+    },
+    {
+      "epoch": 0.835583796664019,
+      "grad_norm": 0.4763073163865911,
+      "learning_rate": 6.707053223712678e-06,
+      "loss": 2.1889,
+      "step": 789
+    },
+    {
+      "epoch": 0.8366428382314006,
+      "grad_norm": 0.41043514041608953,
+      "learning_rate": 6.689834926151174e-06,
+      "loss": 2.2596,
+      "step": 790
+    },
+    {
+      "epoch": 0.8377018797987821,
+      "grad_norm": 0.4875150728481836,
+      "learning_rate": 6.672481465329265e-06,
+      "loss": 2.171,
+      "step": 791
+    },
+    {
+      "epoch": 0.8387609213661636,
+      "grad_norm": 0.4563054157354168,
+      "learning_rate": 6.654991243432575e-06,
+      "loss": 2.0479,
+      "step": 792
+    },
+    {
+      "epoch": 0.8398199629335451,
+      "grad_norm": 0.40698891088293526,
+      "learning_rate": 6.637362637362638e-06,
+      "loss": 2.1311,
+      "step": 793
+    },
+    {
+      "epoch": 0.8408790045009267,
+      "grad_norm": 1.3105970922128873,
+      "learning_rate": 6.619593998234774e-06,
+      "loss": 2.1572,
+      "step": 794
+    },
+    {
+      "epoch": 0.8419380460683081,
+      "grad_norm": 0.5405021865928985,
+      "learning_rate": 6.601683650863979e-06,
+      "loss": 2.0705,
+      "step": 795
+    },
+    {
+      "epoch": 0.8429970876356897,
+      "grad_norm": 0.4641185563260275,
+      "learning_rate": 6.5836298932384346e-06,
+      "loss": 2.2504,
+      "step": 796
+    },
+    {
+      "epoch": 0.8440561292030713,
+      "grad_norm": 0.42421600635418305,
+      "learning_rate": 6.565430995980349e-06,
+      "loss": 2.2085,
+      "step": 797
+    },
+    {
+      "epoch": 0.8451151707704527,
+      "grad_norm": 0.49354822735708614,
+      "learning_rate": 6.547085201793723e-06,
+      "loss": 2.1794,
+      "step": 798
+    },
+    {
+      "epoch": 0.8461742123378343,
+      "grad_norm": 0.3921126516756366,
+      "learning_rate": 6.528590724898695e-06,
+      "loss": 2.227,
+      "step": 799
+    },
+    {
+      "epoch": 0.8472332539052158,
+      "grad_norm": 0.6764827329334605,
+      "learning_rate": 6.50994575045208e-06,
+      "loss": 2.1332,
+      "step": 800
+    },
+    {
+      "epoch": 0.8482922954725973,
+      "grad_norm": 0.4061658039995484,
+      "learning_rate": 6.4911484339537e-06,
+      "loss": 2.3831,
+      "step": 801
+    },
+    {
+      "epoch": 0.8493513370399788,
+      "grad_norm": 0.5826701454101317,
+      "learning_rate": 6.4721969006381045e-06,
+      "loss": 2.3832,
+      "step": 802
+    },
+    {
+      "epoch": 0.8504103786073604,
+      "grad_norm": 0.41435088004419374,
+      "learning_rate": 6.453089244851258e-06,
+      "loss": 2.2416,
+      "step": 803
+    },
+    {
+      "epoch": 0.8514694201747418,
+      "grad_norm": 0.4150959050115928,
+      "learning_rate": 6.433823529411766e-06,
+      "loss": 2.0757,
+      "step": 804
+    },
+    {
+      "epoch": 0.8525284617421234,
+      "grad_norm": 0.43352625752977775,
+      "learning_rate": 6.414397784956161e-06,
+      "loss": 1.9316,
+      "step": 805
+    },
+    {
+      "epoch": 0.853587503309505,
+      "grad_norm": 0.5885629954685914,
+      "learning_rate": 6.39481000926784e-06,
+      "loss": 2.283,
+      "step": 806
+    },
+    {
+      "epoch": 0.8546465448768864,
+      "grad_norm": 0.6425274615571129,
+      "learning_rate": 6.375058166589111e-06,
+      "loss": 2.1418,
+      "step": 807
+    },
+    {
+      "epoch": 0.855705586444268,
+      "grad_norm": 0.3921348356319304,
+      "learning_rate": 6.355140186915888e-06,
+      "loss": 2.367,
+      "step": 808
+    },
+    {
+      "epoch": 0.8567646280116494,
+      "grad_norm": 0.48187968387901975,
+      "learning_rate": 6.3350539652745195e-06,
+      "loss": 2.2415,
+      "step": 809
+    },
+    {
+      "epoch": 0.857823669579031,
+      "grad_norm": 0.5163238323570051,
+      "learning_rate": 6.3147973609802075e-06,
+      "loss": 2.096,
+      "step": 810
+    },
+    {
+      "epoch": 0.8588827111464125,
+      "grad_norm": 0.42537069143517753,
+      "learning_rate": 6.294368196876479e-06,
+      "loss": 2.2303,
+      "step": 811
+    },
+    {
+      "epoch": 0.859941752713794,
+      "grad_norm": 0.5111353722058767,
+      "learning_rate": 6.273764258555133e-06,
+      "loss": 2.1343,
+      "step": 812
+    },
+    {
+      "epoch": 0.8610007942811755,
+      "grad_norm": 0.4948365929852451,
+      "learning_rate": 6.252983293556086e-06,
+      "loss": 2.2779,
+      "step": 813
+    },
+    {
+      "epoch": 0.862059835848557,
+      "grad_norm": 0.42418098706232704,
+      "learning_rate": 6.232023010546501e-06,
+      "loss": 2.2429,
+      "step": 814
+    },
+    {
+      "epoch": 0.8631188774159386,
+      "grad_norm": 0.592767643023693,
+      "learning_rate": 6.210881078478576e-06,
+      "loss": 2.1041,
+      "step": 815
+    },
+    {
+      "epoch": 0.8641779189833201,
+      "grad_norm": 1.111541479840316,
+      "learning_rate": 6.189555125725339e-06,
+      "loss": 2.2028,
+      "step": 816
+    },
+    {
+      "epoch": 0.8652369605507017,
+      "grad_norm": 0.39821783655109405,
+      "learning_rate": 6.168042739193783e-06,
+      "loss": 2.2218,
+      "step": 817
+    },
+    {
+      "epoch": 0.8662960021180831,
+      "grad_norm": 1.003472324980434,
+      "learning_rate": 6.1463414634146346e-06,
+      "loss": 2.1237,
+      "step": 818
+    },
+    {
+      "epoch": 0.8673550436854647,
+      "grad_norm": 0.5140913920253216,
+      "learning_rate": 6.124448799608036e-06,
+      "loss": 2.2554,
+      "step": 819
+    },
+    {
+      "epoch": 0.8684140852528461,
+      "grad_norm": 1.304653340463634,
+      "learning_rate": 6.1023622047244104e-06,
+      "loss": 2.1231,
+      "step": 820
+    },
+    {
+      "epoch": 0.8694731268202277,
+      "grad_norm": 0.46644604217264457,
+      "learning_rate": 6.080079090459714e-06,
+      "loss": 2.068,
+      "step": 821
+    },
+    {
+      "epoch": 0.8705321683876092,
+      "grad_norm": 0.3784392165588507,
+      "learning_rate": 6.05759682224429e-06,
+      "loss": 2.3086,
+      "step": 822
+    },
+    {
+      "epoch": 0.8715912099549907,
+      "grad_norm": 0.42750467258430275,
+      "learning_rate": 6.03491271820449e-06,
+      "loss": 2.3433,
+      "step": 823
+    },
+    {
+      "epoch": 0.8726502515223723,
+      "grad_norm": 0.3855344094267301,
+      "learning_rate": 6.0120240480961935e-06,
+      "loss": 2.2661,
+      "step": 824
+    },
+    {
+      "epoch": 0.8737092930897538,
+      "grad_norm": 0.43412569682236263,
+      "learning_rate": 5.9889280322093616e-06,
+      "loss": 2.0809,
+      "step": 825
+    },
+    {
+      "epoch": 0.8747683346571353,
+      "grad_norm": 0.4567508929265723,
+      "learning_rate": 5.96562184024267e-06,
+      "loss": 1.9931,
+      "step": 826
+    },
+    {
+      "epoch": 0.8758273762245168,
+      "grad_norm": 0.7858185134588669,
+      "learning_rate": 5.942102590147283e-06,
+      "loss": 1.8915,
+      "step": 827
+    },
+    {
+      "epoch": 0.8768864177918984,
+      "grad_norm": 0.4865728159534291,
+      "learning_rate": 5.918367346938776e-06,
+      "loss": 2.1063,
+      "step": 828
+    },
+    {
+      "epoch": 0.8779454593592798,
+      "grad_norm": 0.7998515233126545,
+      "learning_rate": 5.894413121476167e-06,
+      "loss": 1.7472,
+      "step": 829
+    },
+    {
+      "epoch": 0.8790045009266614,
+      "grad_norm": 0.4524437200975804,
+      "learning_rate": 5.870236869207003e-06,
+      "loss": 2.2934,
+      "step": 830
+    },
+    {
+      "epoch": 0.8800635424940428,
+      "grad_norm": 0.4057519289307801,
+      "learning_rate": 5.845835488877393e-06,
+      "loss": 2.1486,
+      "step": 831
+    },
+    {
+      "epoch": 0.8811225840614244,
+      "grad_norm": 0.4391117370907218,
+      "learning_rate": 5.821205821205822e-06,
+      "loss": 2.262,
+      "step": 832
+    },
+    {
+      "epoch": 0.882181625628806,
+      "grad_norm": 0.6376172649412307,
+      "learning_rate": 5.7963446475195825e-06,
+      "loss": 2.155,
+      "step": 833
+    },
+    {
+      "epoch": 0.8832406671961874,
+      "grad_norm": 0.37373198069593205,
+      "learning_rate": 5.771248688352571e-06,
+      "loss": 2.1126,
+      "step": 834
+    },
+    {
+      "epoch": 0.884299708763569,
+      "grad_norm": 0.5897412582783383,
+      "learning_rate": 5.745914602003163e-06,
+      "loss": 2.2602,
+      "step": 835
+    },
+    {
+      "epoch": 0.8853587503309505,
+      "grad_norm": 0.47097565886520626,
+      "learning_rate": 5.720338983050848e-06,
+      "loss": 1.8018,
+      "step": 836
+    },
+    {
+      "epoch": 0.886417791898332,
+      "grad_norm": 0.4395931623754186,
+      "learning_rate": 5.694518360830229e-06,
+      "loss": 2.1072,
+      "step": 837
+    },
+    {
+      "epoch": 0.8874768334657135,
+      "grad_norm": 0.46574222534352466,
+      "learning_rate": 5.6684491978609635e-06,
+      "loss": 2.1773,
+      "step": 838
+    },
+    {
+      "epoch": 0.8885358750330951,
+      "grad_norm": 0.4551573251462227,
+      "learning_rate": 5.642127888232134e-06,
+      "loss": 2.3387,
+      "step": 839
+    },
+    {
+      "epoch": 0.8895949166004765,
+      "grad_norm": 0.4493811713490901,
+      "learning_rate": 5.615550755939525e-06,
+      "loss": 2.166,
+      "step": 840
+    },
+    {
+      "epoch": 0.8906539581678581,
+      "grad_norm": 0.39495794701015247,
+      "learning_rate": 5.588714053174173e-06,
+      "loss": 2.1217,
+      "step": 841
+    },
+    {
+      "epoch": 0.8917129997352397,
+      "grad_norm": 0.5230334500510622,
+      "learning_rate": 5.5616139585605235e-06,
+      "loss": 2.208,
+      "step": 842
+    },
+    {
+      "epoch": 0.8927720413026211,
+      "grad_norm": 0.5613270004933778,
+      "learning_rate": 5.534246575342466e-06,
+      "loss": 2.1997,
+      "step": 843
+    },
+    {
+      "epoch": 0.8938310828700027,
+      "grad_norm": 0.5650905985537464,
+      "learning_rate": 5.506607929515418e-06,
+      "loss": 2.198,
+      "step": 844
+    },
+    {
+      "epoch": 0.8948901244373841,
+      "grad_norm": 0.3895565844023344,
+      "learning_rate": 5.4786939679026e-06,
+      "loss": 2.1742,
+      "step": 845
+    },
+    {
+      "epoch": 0.8959491660047657,
+      "grad_norm": 0.42224606882848037,
+      "learning_rate": 5.450500556173527e-06,
+      "loss": 2.0029,
+      "step": 846
+    },
+    {
+      "epoch": 0.8970082075721472,
+      "grad_norm": 0.4528295653901916,
+      "learning_rate": 5.422023476802684e-06,
+      "loss": 2.2477,
+      "step": 847
+    },
+    {
+      "epoch": 0.8980672491395287,
+      "grad_norm": 0.42318696679446294,
+      "learning_rate": 5.393258426966292e-06,
+      "loss": 2.2269,
+      "step": 848
+    },
+    {
+      "epoch": 0.8991262907069102,
+      "grad_norm": 0.5825734030559547,
+      "learning_rate": 5.36420101637493e-06,
+      "loss": 1.9258,
+      "step": 849
+    },
+    {
+      "epoch": 0.9001853322742918,
+      "grad_norm": 0.5182408045493935,
+      "learning_rate": 5.334846765039727e-06,
+      "loss": 2.3554,
+      "step": 850
+    },
+    {
+      "epoch": 0.9012443738416733,
+      "grad_norm": 0.38168303079212984,
+      "learning_rate": 5.305191100969766e-06,
+      "loss": 2.21,
+      "step": 851
+    },
+    {
+      "epoch": 0.9023034154090548,
+      "grad_norm": 0.5296996772260512,
+      "learning_rate": 5.275229357798165e-06,
+      "loss": 2.1481,
+      "step": 852
+    },
+    {
+      "epoch": 0.9033624569764364,
+      "grad_norm": 0.44191291244492953,
+      "learning_rate": 5.244956772334294e-06,
+      "loss": 2.292,
+      "step": 853
+    },
+    {
+      "epoch": 0.9044214985438178,
+      "grad_norm": 0.39411649769962676,
+      "learning_rate": 5.214368482039398e-06,
+      "loss": 2.1063,
+      "step": 854
+    },
+    {
+      "epoch": 0.9054805401111994,
+      "grad_norm": 0.4979125672714714,
+      "learning_rate": 5.18345952242283e-06,
+      "loss": 2.1021,
+      "step": 855
+    },
+    {
+      "epoch": 0.9054805401111994,
+      "eval_loss": 2.1856369972229004,
+      "eval_runtime": 560.4973,
+      "eval_samples_per_second": 0.58,
+      "eval_steps_per_second": 0.291,
+      "step": 855
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.9599464066842624e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null