Training in progress, step 1000, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aeb8e62aebef304af7f29719c0fad923798eb330385aeb4124ebe5905d2f7893
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a352f0d84009b1817ea378a4704c01130220431cda057a719176edb53b9ce38
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:925451c7a47e11cfdf5d3e79ff8e1d1616fa31bfbe9fd4dd921a8d07495100a5
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:192c82f34e86d685c6f351fd58c1000ddea9a13d640195ac79c49fbf42423aa5
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:80aebfaa38d8fd15efc2f80ca22db9271add0dfa1df7cd1b9ec3a6cafcc1e980
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:b90ca6c9a0d45f633e326ad429b79dcb8a229254c394c0026c58947de8b6ccb1
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e93ab70baf5fb3f49fc902766d3981884a3c59e7111a93ea08d704b5eaca5524
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:f1ddcd3b678ecc28638f1325c2c32db98cad1876b80914907eec102e20d65888
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e1f8093292209f6718d35e0ccd016f16652167381bf80627ae426fc0a96d439c
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:441eb9b06b4fc0f3fa0a9291de25b8426d0d9f412df64f69773da2db1b4860b2
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4f14ea077a90622e6b4dc501a0231b02a369eb0516f972a2f1408a934b610f29
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:01659b87d6d23358ab75fa4077af9feedf08b369b1c157aa83e98851b9c0d1ee
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:716d166395b1d3204d4c7983923c858c7814b0e98a579025f7d5396f16ff6dbc
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:71450373e32f8a9a1b7bd7c09bbf7665cd2aab9935d9141b9e0d70c0fce7c3de
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f369ee493042be075f560b3402758308791790a6b19967c254c943ef54144890
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:173eff09d590e65fe2dd1179e23f7fb059beaf649179bf2d537bde02e80545b0
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d70614fd7a6e0bc09ddffd7fa93961bcf9eea5616a951374e008e680df41fe5
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:6afe62f64f980792c5f93908f1252e0efd7d9d6dd9a401096016c0cf0f6e9df7
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:53ddb89813eac5e34cc35dc1ec465872bcd28d173f301c7ce65f1667e4d5f404
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c96a88229c7cf8988c09092a9afef0bd222230400623a17d132e957aa024720
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dbbf9a445428ea3735d412cb42b094a0445cbab134f49cd9d71dd69330ce45b5
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:50d2280d0785bc9b8dd3a1397de7a4d5f6e608d8e08010244249962de0f0c423
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe5328f1346602824c30aa9cc75535e926a4d8ce4ca9da88e40f8ce89791ebde
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:05e89f8a1132e0f0def133732be826c04d18fb1ddc8e499809e4f481802df182
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed607b5799c4b3e2659af93e02b0fa11a91a2ab37a2feec0e0666f1663f216c4
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ead26a1aba46fa0b3384e323e0349ee0e9c3d6b20dad4ce8e9c9bf15675155cc
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8348794063079777,
   "eval_steps": 20,
-  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6859,6 +6859,766 @@
       "eval_samples_per_second": 5.818,
       "eval_steps_per_second": 0.19,
       "step": 900
     }
   ],
   "logging_steps": 1,
@@ -6878,7 +7638,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.8777892777715302e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9276437847866419,
   "eval_steps": 20,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.818,
       "eval_steps_per_second": 0.19,
       "step": 900
+    },
+    {
+      "epoch": 0.8358070500927643,
+      "grad_norm": 3.852740526199341,
+      "learning_rate": 1.5986252796969482e-06,
+      "loss": 0.1165,
+      "step": 901
+    },
+    {
+      "epoch": 0.8367346938775511,
+      "grad_norm": 5.131833076477051,
+      "learning_rate": 1.5811032226467304e-06,
+      "loss": 0.198,
+      "step": 902
+    },
+    {
+      "epoch": 0.8376623376623377,
+      "grad_norm": 4.975651741027832,
+      "learning_rate": 1.5636694758399563e-06,
+      "loss": 0.1891,
+      "step": 903
+    },
+    {
+      "epoch": 0.8385899814471243,
+      "grad_norm": 3.24419903755188,
+      "learning_rate": 1.5463242221483742e-06,
+      "loss": 0.0935,
+      "step": 904
+    },
+    {
+      "epoch": 0.839517625231911,
+      "grad_norm": 3.5641651153564453,
+      "learning_rate": 1.5290676435154949e-06,
+      "loss": 0.1533,
+      "step": 905
+    },
+    {
+      "epoch": 0.8404452690166976,
+      "grad_norm": 3.872134208679199,
+      "learning_rate": 1.511899920954656e-06,
+      "loss": 0.1545,
+      "step": 906
+    },
+    {
+      "epoch": 0.8413729128014842,
+      "grad_norm": 6.075543403625488,
+      "learning_rate": 1.4948212345471492e-06,
+      "loss": 0.2032,
+      "step": 907
+    },
+    {
+      "epoch": 0.8423005565862709,
+      "grad_norm": 2.9056954383850098,
+      "learning_rate": 1.4778317634403082e-06,
+      "loss": 0.0986,
+      "step": 908
+    },
+    {
+      "epoch": 0.8432282003710575,
+      "grad_norm": 5.516162872314453,
+      "learning_rate": 1.460931685845649e-06,
+      "loss": 0.1868,
+      "step": 909
+    },
+    {
+      "epoch": 0.8441558441558441,
+      "grad_norm": 2.8610849380493164,
+      "learning_rate": 1.4441211790369892e-06,
+      "loss": 0.0923,
+      "step": 910
+    },
+    {
+      "epoch": 0.8450834879406308,
+      "grad_norm": 3.700863838195801,
+      "learning_rate": 1.427400419348588e-06,
+      "loss": 0.1291,
+      "step": 911
+    },
+    {
+      "epoch": 0.8460111317254174,
+      "grad_norm": 4.772455215454102,
+      "learning_rate": 1.4107695821733026e-06,
+      "loss": 0.1352,
+      "step": 912
+    },
+    {
+      "epoch": 0.8469387755102041,
+      "grad_norm": 3.5742745399475098,
+      "learning_rate": 1.3942288419607476e-06,
+      "loss": 0.1824,
+      "step": 913
+    },
+    {
+      "epoch": 0.8478664192949907,
+      "grad_norm": 8.259415626525879,
+      "learning_rate": 1.3777783722154603e-06,
+      "loss": 0.2448,
+      "step": 914
+    },
+    {
+      "epoch": 0.8487940630797773,
+      "grad_norm": 3.900238513946533,
+      "learning_rate": 1.3614183454950824e-06,
+      "loss": 0.1273,
+      "step": 915
+    },
+    {
+      "epoch": 0.849721706864564,
+      "grad_norm": 2.9773433208465576,
+      "learning_rate": 1.3451489334085555e-06,
+      "loss": 0.1522,
+      "step": 916
+    },
+    {
+      "epoch": 0.8506493506493507,
+      "grad_norm": 3.071232318878174,
+      "learning_rate": 1.3289703066143112e-06,
+      "loss": 0.1256,
+      "step": 917
+    },
+    {
+      "epoch": 0.8515769944341373,
+      "grad_norm": 3.8165667057037354,
+      "learning_rate": 1.3128826348184886e-06,
+      "loss": 0.1111,
+      "step": 918
+    },
+    {
+      "epoch": 0.852504638218924,
+      "grad_norm": 3.7821688652038574,
+      "learning_rate": 1.296886086773157e-06,
+      "loss": 0.2091,
+      "step": 919
+    },
+    {
+      "epoch": 0.8534322820037106,
+      "grad_norm": 4.833895206451416,
+      "learning_rate": 1.2809808302745298e-06,
+      "loss": 0.1762,
+      "step": 920
+    },
+    {
+      "epoch": 0.8534322820037106,
+      "eval_accuracy": 0.8603104212860311,
+      "eval_f1": 0.704225352112676,
+      "eval_loss": 0.30113720893859863,
+      "eval_precision": 0.8670520231213873,
+      "eval_recall": 0.5928853754940712,
+      "eval_runtime": 47.313,
+      "eval_samples_per_second": 5.833,
+      "eval_steps_per_second": 0.19,
+      "step": 920
+    },
+    {
+      "epoch": 0.8543599257884972,
+      "grad_norm": 3.3207972049713135,
+      "learning_rate": 1.2651670321612264e-06,
+      "loss": 0.1367,
+      "step": 921
+    },
+    {
+      "epoch": 0.8552875695732839,
+      "grad_norm": 3.202796697616577,
+      "learning_rate": 1.249444858312502e-06,
+      "loss": 0.1379,
+      "step": 922
+    },
+    {
+      "epoch": 0.8562152133580705,
+      "grad_norm": 6.188356876373291,
+      "learning_rate": 1.233814473646524e-06,
+      "loss": 0.2627,
+      "step": 923
+    },
+    {
+      "epoch": 0.8571428571428571,
+      "grad_norm": 3.4624321460723877,
+      "learning_rate": 1.218276042118629e-06,
+      "loss": 0.1318,
+      "step": 924
+    },
+    {
+      "epoch": 0.8580705009276438,
+      "grad_norm": 3.288809061050415,
+      "learning_rate": 1.202829726719611e-06,
+      "loss": 0.1188,
+      "step": 925
+    },
+    {
+      "epoch": 0.8589981447124304,
+      "grad_norm": 2.691675901412964,
+      "learning_rate": 1.1874756894740137e-06,
+      "loss": 0.1252,
+      "step": 926
+    },
+    {
+      "epoch": 0.859925788497217,
+      "grad_norm": 3.750600576400757,
+      "learning_rate": 1.1722140914384162e-06,
+      "loss": 0.1644,
+      "step": 927
+    },
+    {
+      "epoch": 0.8608534322820037,
+      "grad_norm": 3.1353397369384766,
+      "learning_rate": 1.1570450926997657e-06,
+      "loss": 0.1461,
+      "step": 928
+    },
+    {
+      "epoch": 0.8617810760667903,
+      "grad_norm": 5.295469760894775,
+      "learning_rate": 1.1419688523736761e-06,
+      "loss": 0.1967,
+      "step": 929
+    },
+    {
+      "epoch": 0.862708719851577,
+      "grad_norm": 3.461599349975586,
+      "learning_rate": 1.1269855286027798e-06,
+      "loss": 0.1426,
+      "step": 930
+    },
+    {
+      "epoch": 0.8636363636363636,
+      "grad_norm": 6.9660420417785645,
+      "learning_rate": 1.1120952785550477e-06,
+      "loss": 0.2015,
+      "step": 931
+    },
+    {
+      "epoch": 0.8645640074211502,
+      "grad_norm": 2.989213705062866,
+      "learning_rate": 1.0972982584221592e-06,
+      "loss": 0.1204,
+      "step": 932
+    },
+    {
+      "epoch": 0.865491651205937,
+      "grad_norm": 4.492414474487305,
+      "learning_rate": 1.0825946234178575e-06,
+      "loss": 0.1579,
+      "step": 933
+    },
+    {
+      "epoch": 0.8664192949907236,
+      "grad_norm": 4.693439960479736,
+      "learning_rate": 1.067984527776309e-06,
+      "loss": 0.1959,
+      "step": 934
+    },
+    {
+      "epoch": 0.8673469387755102,
+      "grad_norm": 5.462426662445068,
+      "learning_rate": 1.0534681247505107e-06,
+      "loss": 0.1435,
+      "step": 935
+    },
+    {
+      "epoch": 0.8682745825602969,
+      "grad_norm": 2.594604730606079,
+      "learning_rate": 1.0390455666106547e-06,
+      "loss": 0.115,
+      "step": 936
+    },
+    {
+      "epoch": 0.8692022263450835,
+      "grad_norm": 5.900606155395508,
+      "learning_rate": 1.024717004642557e-06,
+      "loss": 0.1749,
+      "step": 937
+    },
+    {
+      "epoch": 0.8701298701298701,
+      "grad_norm": 5.774359226226807,
+      "learning_rate": 1.010482589146048e-06,
+      "loss": 0.1802,
+      "step": 938
+    },
+    {
+      "epoch": 0.8710575139146568,
+      "grad_norm": 4.002913951873779,
+      "learning_rate": 9.963424694334122e-07,
+      "loss": 0.1277,
+      "step": 939
+    },
+    {
+      "epoch": 0.8719851576994434,
+      "grad_norm": 3.6173672676086426,
+      "learning_rate": 9.822967938278172e-07,
+      "loss": 0.1561,
+      "step": 940
+    },
+    {
+      "epoch": 0.8719851576994434,
+      "eval_accuracy": 0.8603104212860311,
+      "eval_f1": 0.704225352112676,
+      "eval_loss": 0.29984721541404724,
+      "eval_precision": 0.8670520231213873,
+      "eval_recall": 0.5928853754940712,
+      "eval_runtime": 48.0345,
+      "eval_samples_per_second": 5.746,
+      "eval_steps_per_second": 0.187,
+      "step": 940
+    },
+    {
+      "epoch": 0.87291280148423,
+      "grad_norm": 5.298496723175049,
+      "learning_rate": 9.683457096617487e-07,
+      "loss": 0.1343,
+      "step": 941
+    },
+    {
+      "epoch": 0.8738404452690167,
+      "grad_norm": 4.087591648101807,
+      "learning_rate": 9.544893632754816e-07,
+      "loss": 0.1342,
+      "step": 942
+    },
+    {
+      "epoch": 0.8747680890538033,
+      "grad_norm": 3.6953861713409424,
+      "learning_rate": 9.407279000155311e-07,
+      "loss": 0.1125,
+      "step": 943
+    },
+    {
+      "epoch": 0.87569573283859,
+      "grad_norm": 5.693349838256836,
+      "learning_rate": 9.270614642331377e-07,
+      "loss": 0.2285,
+      "step": 944
+    },
+    {
+      "epoch": 0.8766233766233766,
+      "grad_norm": 4.321276664733887,
+      "learning_rate": 9.134901992827427e-07,
+      "loss": 0.2169,
+      "step": 945
+    },
+    {
+      "epoch": 0.8775510204081632,
+      "grad_norm": 5.951560020446777,
+      "learning_rate": 9.000142475204965e-07,
+      "loss": 0.2039,
+      "step": 946
+    },
+    {
+      "epoch": 0.87847866419295,
+      "grad_norm": 5.382765293121338,
+      "learning_rate": 8.866337503027523e-07,
+      "loss": 0.1347,
+      "step": 947
+    },
+    {
+      "epoch": 0.8794063079777366,
+      "grad_norm": 4.566171646118164,
+      "learning_rate": 8.733488479845997e-07,
+      "loss": 0.1929,
+      "step": 948
+    },
+    {
+      "epoch": 0.8803339517625232,
+      "grad_norm": 4.413459300994873,
+      "learning_rate": 8.60159679918372e-07,
+      "loss": 0.1463,
+      "step": 949
+    },
+    {
+      "epoch": 0.8812615955473099,
+      "grad_norm": 3.8674092292785645,
+      "learning_rate": 8.470663844522053e-07,
+      "loss": 0.1523,
+      "step": 950
+    },
+    {
+      "epoch": 0.8821892393320965,
+      "grad_norm": 3.844576597213745,
+      "learning_rate": 8.340690989285727e-07,
+      "loss": 0.1248,
+      "step": 951
+    },
+    {
+      "epoch": 0.8831168831168831,
+      "grad_norm": 4.541808605194092,
+      "learning_rate": 8.211679596828481e-07,
+      "loss": 0.1571,
+      "step": 952
+    },
+    {
+      "epoch": 0.8840445269016698,
+      "grad_norm": 3.0702145099639893,
+      "learning_rate": 8.083631020418792e-07,
+      "loss": 0.157,
+      "step": 953
+    },
+    {
+      "epoch": 0.8849721706864564,
+      "grad_norm": 3.5125439167022705,
+      "learning_rate": 7.956546603225601e-07,
+      "loss": 0.1011,
+      "step": 954
+    },
+    {
+      "epoch": 0.885899814471243,
+      "grad_norm": 4.256104469299316,
+      "learning_rate": 7.830427678304353e-07,
+      "loss": 0.1411,
+      "step": 955
+    },
+    {
+      "epoch": 0.8868274582560297,
+      "grad_norm": 4.931686878204346,
+      "learning_rate": 7.705275568582848e-07,
+      "loss": 0.1953,
+      "step": 956
+    },
+    {
+      "epoch": 0.8877551020408163,
+      "grad_norm": 5.233354091644287,
+      "learning_rate": 7.581091586847522e-07,
+      "loss": 0.2095,
+      "step": 957
+    },
+    {
+      "epoch": 0.8886827458256029,
+      "grad_norm": 6.383068084716797,
+      "learning_rate": 7.457877035729588e-07,
+      "loss": 0.2274,
+      "step": 958
+    },
+    {
+      "epoch": 0.8896103896103896,
+      "grad_norm": 2.8475682735443115,
+      "learning_rate": 7.335633207691362e-07,
+      "loss": 0.1336,
+      "step": 959
+    },
+    {
+      "epoch": 0.8905380333951762,
+      "grad_norm": 3.393915891647339,
+      "learning_rate": 7.21436138501278e-07,
+      "loss": 0.1633,
+      "step": 960
+    },
+    {
+      "epoch": 0.8905380333951762,
+      "eval_accuracy": 0.8569844789356984,
+      "eval_f1": 0.6935866983372921,
+      "eval_loss": 0.3064272701740265,
+      "eval_precision": 0.8690476190476191,
+      "eval_recall": 0.5770750988142292,
+      "eval_runtime": 48.2701,
+      "eval_samples_per_second": 5.718,
+      "eval_steps_per_second": 0.186,
+      "step": 960
+    },
+    {
+      "epoch": 0.891465677179963,
+      "grad_norm": 4.68550968170166,
+      "learning_rate": 7.094062839777838e-07,
+      "loss": 0.1854,
+      "step": 961
+    },
+    {
+      "epoch": 0.8923933209647495,
+      "grad_norm": 5.072958946228027,
+      "learning_rate": 6.974738833861383e-07,
+      "loss": 0.1762,
+      "step": 962
+    },
+    {
+      "epoch": 0.8933209647495362,
+      "grad_norm": 4.519327640533447,
+      "learning_rate": 6.856390618915775e-07,
+      "loss": 0.182,
+      "step": 963
+    },
+    {
+      "epoch": 0.8942486085343229,
+      "grad_norm": 5.558988094329834,
+      "learning_rate": 6.739019436357774e-07,
+      "loss": 0.1665,
+      "step": 964
+    },
+    {
+      "epoch": 0.8951762523191095,
+      "grad_norm": 2.263278007507324,
+      "learning_rate": 6.622626517355557e-07,
+      "loss": 0.1112,
+      "step": 965
+    },
+    {
+      "epoch": 0.8961038961038961,
+      "grad_norm": 5.888603687286377,
+      "learning_rate": 6.507213082815745e-07,
+      "loss": 0.1455,
+      "step": 966
+    },
+    {
+      "epoch": 0.8970315398886828,
+      "grad_norm": 5.091086387634277,
+      "learning_rate": 6.392780343370686e-07,
+      "loss": 0.1812,
+      "step": 967
+    },
+    {
+      "epoch": 0.8979591836734694,
+      "grad_norm": 6.290548324584961,
+      "learning_rate": 6.279329499365649e-07,
+      "loss": 0.1527,
+      "step": 968
+    },
+    {
+      "epoch": 0.898886827458256,
+      "grad_norm": 6.533473014831543,
+      "learning_rate": 6.166861740846297e-07,
+      "loss": 0.2105,
+      "step": 969
+    },
+    {
+      "epoch": 0.8998144712430427,
+      "grad_norm": 3.4495279788970947,
+      "learning_rate": 6.055378247546217e-07,
+      "loss": 0.1222,
+      "step": 970
+    },
+    {
+      "epoch": 0.9007421150278293,
+      "grad_norm": 5.290384769439697,
+      "learning_rate": 5.94488018887448e-07,
+      "loss": 0.2046,
+      "step": 971
+    },
+    {
+      "epoch": 0.9016697588126159,
+      "grad_norm": 6.091614723205566,
+      "learning_rate": 5.835368723903456e-07,
+      "loss": 0.2643,
+      "step": 972
+    },
+    {
+      "epoch": 0.9025974025974026,
+      "grad_norm": 4.488548278808594,
+      "learning_rate": 5.726845001356573e-07,
+      "loss": 0.1263,
+      "step": 973
+    },
+    {
+      "epoch": 0.9035250463821892,
+      "grad_norm": 2.7875099182128906,
+      "learning_rate": 5.619310159596358e-07,
+      "loss": 0.0922,
+      "step": 974
+    },
+    {
+      "epoch": 0.9044526901669759,
+      "grad_norm": 5.558516025543213,
+      "learning_rate": 5.51276532661238e-07,
+      "loss": 0.2045,
+      "step": 975
+    },
+    {
+      "epoch": 0.9053803339517625,
+      "grad_norm": 5.901011943817139,
+      "learning_rate": 5.407211620009545e-07,
+      "loss": 0.1743,
+      "step": 976
+    },
+    {
+      "epoch": 0.9063079777365491,
+      "grad_norm": 3.838674783706665,
+      "learning_rate": 5.30265014699628e-07,
+      "loss": 0.1728,
+      "step": 977
+    },
+    {
+      "epoch": 0.9072356215213359,
+      "grad_norm": 3.811453104019165,
+      "learning_rate": 5.199082004372958e-07,
+      "loss": 0.153,
+      "step": 978
+    },
+    {
+      "epoch": 0.9081632653061225,
+      "grad_norm": 5.14892578125,
+      "learning_rate": 5.096508278520385e-07,
+      "loss": 0.1991,
+      "step": 979
+    },
+    {
+      "epoch": 0.9090909090909091,
+      "grad_norm": 3.6292712688446045,
+      "learning_rate": 4.994930045388414e-07,
+      "loss": 0.1452,
+      "step": 980
+    },
+    {
+      "epoch": 0.9090909090909091,
+      "eval_accuracy": 0.8603104212860311,
+      "eval_f1": 0.7028301886792453,
+      "eval_loss": 0.3034472167491913,
+      "eval_precision": 0.8713450292397661,
+      "eval_recall": 0.5889328063241107,
+      "eval_runtime": 48.7572,
+      "eval_samples_per_second": 5.661,
+      "eval_steps_per_second": 0.185,
+      "step": 980
+    },
+    {
+      "epoch": 0.9100185528756958,
+      "grad_norm": 3.438109874725342,
+      "learning_rate": 4.894348370484648e-07,
+      "loss": 0.1054,
+      "step": 981
+    },
+    {
+      "epoch": 0.9109461966604824,
+      "grad_norm": 5.481462478637695,
+      "learning_rate": 4.794764308863242e-07,
+      "loss": 0.1463,
+      "step": 982
+    },
+    {
+      "epoch": 0.911873840445269,
+      "grad_norm": 6.784456253051758,
+      "learning_rate": 4.696178905113913e-07,
+      "loss": 0.1634,
+      "step": 983
+    },
+    {
+      "epoch": 0.9128014842300557,
+      "grad_norm": 3.902355194091797,
+      "learning_rate": 4.5985931933508757e-07,
+      "loss": 0.1689,
+      "step": 984
+    },
+    {
+      "epoch": 0.9137291280148423,
+      "grad_norm": 4.524623394012451,
+      "learning_rate": 4.502008197202068e-07,
+      "loss": 0.1428,
+      "step": 985
+    },
+    {
+      "epoch": 0.9146567717996289,
+      "grad_norm": 3.976349353790283,
+      "learning_rate": 4.406424929798403e-07,
+      "loss": 0.1864,
+      "step": 986
+    },
+    {
+      "epoch": 0.9155844155844156,
+      "grad_norm": 3.3905527591705322,
+      "learning_rate": 4.3118443937631094e-07,
+      "loss": 0.1719,
+      "step": 987
+    },
+    {
+      "epoch": 0.9165120593692022,
+      "grad_norm": 4.1316938400268555,
+      "learning_rate": 4.218267581201296e-07,
+      "loss": 0.1124,
+      "step": 988
+    },
+    {
+      "epoch": 0.9174397031539888,
+      "grad_norm": 5.6381754875183105,
+      "learning_rate": 4.125695473689406e-07,
+      "loss": 0.1994,
+      "step": 989
+    },
+    {
+      "epoch": 0.9183673469387755,
+      "grad_norm": 7.625948905944824,
+      "learning_rate": 4.034129042265067e-07,
+      "loss": 0.2211,
+      "step": 990
+    },
+    {
+      "epoch": 0.9192949907235621,
+      "grad_norm": 3.567246437072754,
+      "learning_rate": 3.943569247416801e-07,
+      "loss": 0.1359,
+      "step": 991
+    },
+    {
+      "epoch": 0.9202226345083488,
+      "grad_norm": 4.336119174957275,
+      "learning_rate": 3.8540170390740097e-07,
+      "loss": 0.1519,
+      "step": 992
+    },
+    {
+      "epoch": 0.9211502782931354,
+      "grad_norm": 4.9389848709106445,
+      "learning_rate": 3.7654733565969826e-07,
+      "loss": 0.1874,
+      "step": 993
+    },
+    {
+      "epoch": 0.922077922077922,
+      "grad_norm": 3.25769305229187,
+      "learning_rate": 3.67793912876705e-07,
+      "loss": 0.1191,
+      "step": 994
+    },
+    {
+      "epoch": 0.9230055658627088,
+      "grad_norm": 3.4334826469421387,
+      "learning_rate": 3.591415273776855e-07,
+      "loss": 0.1012,
+      "step": 995
+    },
+    {
+      "epoch": 0.9239332096474954,
+      "grad_norm": 3.1981468200683594,
+      "learning_rate": 3.5059026992206645e-07,
+      "loss": 0.0812,
+      "step": 996
+    },
+    {
+      "epoch": 0.924860853432282,
+      "grad_norm": 5.118222236633301,
+      "learning_rate": 3.421402302084953e-07,
+      "loss": 0.1293,
+      "step": 997
+    },
+    {
+      "epoch": 0.9257884972170687,
+      "grad_norm": 4.047184944152832,
+      "learning_rate": 3.3379149687388866e-07,
+      "loss": 0.1723,
+      "step": 998
+    },
+    {
+      "epoch": 0.9267161410018553,
+      "grad_norm": 7.083133220672607,
+      "learning_rate": 3.255441574925089e-07,
+      "loss": 0.2061,
+      "step": 999
+    },
+    {
+      "epoch": 0.9276437847866419,
+      "grad_norm": 2.8097355365753174,
+      "learning_rate": 3.1739829857504235e-07,
+      "loss": 0.086,
+      "step": 1000
+    },
+    {
+      "epoch": 0.9276437847866419,
+      "eval_accuracy": 0.8580931263858093,
+      "eval_f1": 0.6966824644549763,
+      "eval_loss": 0.30505669116973877,
+      "eval_precision": 0.8698224852071006,
+      "eval_recall": 0.5810276679841897,
+      "eval_runtime": 47.8654,
+      "eval_samples_per_second": 5.766,
+      "eval_steps_per_second": 0.188,
+      "step": 1000
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.198993040534405e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null