minpeter commited on
Commit
18a0848
·
verified ·
1 Parent(s): 6d0d740

Training in progress, step 200, checkpoint

Browse files
last-checkpoint/model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:9192a84227fca2aac03205fb395d6ce7c4837e98cd36fa369ddb920a8bff5939
3
  size 373077376
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5fbd2e60526489e6f6f39cf288ada5ee34355bdd563beb7e5399d0ac622a5c3e
3
  size 373077376
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:591d7feb697303f84a724edf4dec4e8afa84368269c2c44266862f6235dde6a9
3
  size 422377867
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3f6e8dff52c08eae75b95c752c0f6f01bfbb1ed09c5bce28a0e4593cda5e5c80
3
  size 422377867
last-checkpoint/rng_state_0.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:18bb6b6e7da6250d22c25b95c64287be4aea598d9d97ef67b0fd69b9be869ed7
3
  size 15365
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ac0e770c61e3acef7bd144efee65a450ed487b244ed293a8dd801394ffcae775
3
  size 15365
last-checkpoint/rng_state_1.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:3cff16289615ba210b601be2162794d1949cb1d62132099a4cf62330c43649a5
3
  size 15365
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:21354c9980d6ba769d430eb9962ffba457eb04a66cb90e33b0934d3157fae7cf
3
  size 15365
last-checkpoint/rng_state_2.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c6caa3980c911491b74ec2e96e48a78cd7c3365dd32116c61642a4b6839a2da1
3
  size 15365
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d574a8567b1636a399633d2b20273fdb3be4b888e37f0d331cd695b973f10463
3
  size 15365
last-checkpoint/rng_state_3.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4e93d0d6464a92d227e9235c134b2224cf28ea45ba375cf82e6949c632e2b0d5
3
  size 15365
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cca2b80df90b78b3ba9d9d2951c5b7aa80fc0a44b4512b495de6de40396fcb6e
3
  size 15365
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c8f74ef64bb62eb0db7b90ee83cd7b2ecc127cfca56e27af0bc348a6066ee6ce
3
  size 1401
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:39a79e2827280868096ff650d0ee6e4723dddc824192c37a937a656d54903350
3
  size 1401
last-checkpoint/trainer_state.json CHANGED
@@ -2,9 +2,9 @@
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
- "epoch": 0.4166666666666667,
6
  "eval_steps": 100,
7
- "global_step": 100,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
@@ -715,6 +715,713 @@
715
  "eval_samples_per_second": 17.321,
716
  "eval_steps_per_second": 1.083,
717
  "step": 100
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
718
  }
719
  ],
720
  "logging_steps": 1,
@@ -734,7 +1441,7 @@
734
  "attributes": {}
735
  }
736
  },
737
- "total_flos": 5.09447277379584e+16,
738
  "train_batch_size": 16,
739
  "trial_name": null,
740
  "trial_params": null
 
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
+ "epoch": 0.8333333333333334,
6
  "eval_steps": 100,
7
+ "global_step": 200,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
 
715
  "eval_samples_per_second": 17.321,
716
  "eval_steps_per_second": 1.083,
717
  "step": 100
718
+ },
719
+ {
720
+ "epoch": 0.42083333333333334,
721
+ "grad_norm": 0.466796875,
722
+ "learning_rate": 0.0006753187775963773,
723
+ "loss": 6.1547,
724
+ "step": 101
725
+ },
726
+ {
727
+ "epoch": 0.425,
728
+ "grad_norm": 0.443359375,
729
+ "learning_rate": 0.0006688502846768696,
730
+ "loss": 6.1169,
731
+ "step": 102
732
+ },
733
+ {
734
+ "epoch": 0.42916666666666664,
735
+ "grad_norm": 0.578125,
736
+ "learning_rate": 0.0006623497346023419,
737
+ "loss": 5.9032,
738
+ "step": 103
739
+ },
740
+ {
741
+ "epoch": 0.43333333333333335,
742
+ "grad_norm": 0.515625,
743
+ "learning_rate": 0.0006558183615379707,
744
+ "loss": 5.9968,
745
+ "step": 104
746
+ },
747
+ {
748
+ "epoch": 0.4375,
749
+ "grad_norm": 0.498046875,
750
+ "learning_rate": 0.0006492574055008473,
751
+ "loss": 6.0527,
752
+ "step": 105
753
+ },
754
+ {
755
+ "epoch": 0.44166666666666665,
756
+ "grad_norm": 0.45703125,
757
+ "learning_rate": 0.0006426681121245527,
758
+ "loss": 5.9248,
759
+ "step": 106
760
+ },
761
+ {
762
+ "epoch": 0.44583333333333336,
763
+ "grad_norm": 0.416015625,
764
+ "learning_rate": 0.0006360517324226675,
765
+ "loss": 5.8954,
766
+ "step": 107
767
+ },
768
+ {
769
+ "epoch": 0.45,
770
+ "grad_norm": 0.482421875,
771
+ "learning_rate": 0.0006294095225512603,
772
+ "loss": 5.7513,
773
+ "step": 108
774
+ },
775
+ {
776
+ "epoch": 0.45416666666666666,
777
+ "grad_norm": 0.388671875,
778
+ "learning_rate": 0.0006227427435703996,
779
+ "loss": 5.9773,
780
+ "step": 109
781
+ },
782
+ {
783
+ "epoch": 0.4583333333333333,
784
+ "grad_norm": 0.427734375,
785
+ "learning_rate": 0.0006160526612047339,
786
+ "loss": 5.8157,
787
+ "step": 110
788
+ },
789
+ {
790
+ "epoch": 0.4625,
791
+ "grad_norm": 0.484375,
792
+ "learning_rate": 0.0006093405456031879,
793
+ "loss": 5.9297,
794
+ "step": 111
795
+ },
796
+ {
797
+ "epoch": 0.4666666666666667,
798
+ "grad_norm": 0.40625,
799
+ "learning_rate": 0.0006026076710978171,
800
+ "loss": 5.9629,
801
+ "step": 112
802
+ },
803
+ {
804
+ "epoch": 0.4708333333333333,
805
+ "grad_norm": 0.40625,
806
+ "learning_rate": 0.0005958553159618693,
807
+ "loss": 5.9699,
808
+ "step": 113
809
+ },
810
+ {
811
+ "epoch": 0.475,
812
+ "grad_norm": 0.44140625,
813
+ "learning_rate": 0.0005890847621670966,
814
+ "loss": 5.9486,
815
+ "step": 114
816
+ },
817
+ {
818
+ "epoch": 0.4791666666666667,
819
+ "grad_norm": 0.365234375,
820
+ "learning_rate": 0.000582297295140367,
821
+ "loss": 5.9959,
822
+ "step": 115
823
+ },
824
+ {
825
+ "epoch": 0.48333333333333334,
826
+ "grad_norm": 0.3671875,
827
+ "learning_rate": 0.0005754942035196184,
828
+ "loss": 6.011,
829
+ "step": 116
830
+ },
831
+ {
832
+ "epoch": 0.4875,
833
+ "grad_norm": 0.3984375,
834
+ "learning_rate": 0.0005686767789092041,
835
+ "loss": 5.7683,
836
+ "step": 117
837
+ },
838
+ {
839
+ "epoch": 0.49166666666666664,
840
+ "grad_norm": 0.3125,
841
+ "learning_rate": 0.000561846315634674,
842
+ "loss": 5.9579,
843
+ "step": 118
844
+ },
845
+ {
846
+ "epoch": 0.49583333333333335,
847
+ "grad_norm": 0.376953125,
848
+ "learning_rate": 0.0005550041104970397,
849
+ "loss": 5.8793,
850
+ "step": 119
851
+ },
852
+ {
853
+ "epoch": 0.5,
854
+ "grad_norm": 0.44921875,
855
+ "learning_rate": 0.0005481514625265708,
856
+ "loss": 5.7256,
857
+ "step": 120
858
+ },
859
+ {
860
+ "epoch": 0.5041666666666667,
861
+ "grad_norm": 0.44921875,
862
+ "learning_rate": 0.0005412896727361663,
863
+ "loss": 5.8975,
864
+ "step": 121
865
+ },
866
+ {
867
+ "epoch": 0.5083333333333333,
868
+ "grad_norm": 0.46875,
869
+ "learning_rate": 0.0005344200438743488,
870
+ "loss": 5.959,
871
+ "step": 122
872
+ },
873
+ {
874
+ "epoch": 0.5125,
875
+ "grad_norm": 0.400390625,
876
+ "learning_rate": 0.0005275438801779327,
877
+ "loss": 5.8133,
878
+ "step": 123
879
+ },
880
+ {
881
+ "epoch": 0.5166666666666667,
882
+ "grad_norm": 0.37890625,
883
+ "learning_rate": 0.0005206624871244065,
884
+ "loss": 5.8534,
885
+ "step": 124
886
+ },
887
+ {
888
+ "epoch": 0.5208333333333334,
889
+ "grad_norm": 1.1796875,
890
+ "learning_rate": 0.0005137771711840811,
891
+ "loss": 5.8988,
892
+ "step": 125
893
+ },
894
+ {
895
+ "epoch": 0.525,
896
+ "grad_norm": 0.35546875,
897
+ "learning_rate": 0.0005068892395720482,
898
+ "loss": 6.0026,
899
+ "step": 126
900
+ },
901
+ {
902
+ "epoch": 0.5291666666666667,
903
+ "grad_norm": 0.443359375,
904
+ "learning_rate": 0.0005,
905
+ "loss": 5.8737,
906
+ "step": 127
907
+ },
908
+ {
909
+ "epoch": 0.5333333333333333,
910
+ "grad_norm": 0.5234375,
911
+ "learning_rate": 0.0004931107604279518,
912
+ "loss": 5.7772,
913
+ "step": 128
914
+ },
915
+ {
916
+ "epoch": 0.5375,
917
+ "grad_norm": 0.421875,
918
+ "learning_rate": 0.0004862228288159191,
919
+ "loss": 5.8457,
920
+ "step": 129
921
+ },
922
+ {
923
+ "epoch": 0.5416666666666666,
924
+ "grad_norm": 0.50390625,
925
+ "learning_rate": 0.0004793375128755934,
926
+ "loss": 5.7298,
927
+ "step": 130
928
+ },
929
+ {
930
+ "epoch": 0.5458333333333333,
931
+ "grad_norm": 0.4375,
932
+ "learning_rate": 0.0004724561198220672,
933
+ "loss": 6.0151,
934
+ "step": 131
935
+ },
936
+ {
937
+ "epoch": 0.55,
938
+ "grad_norm": 0.40234375,
939
+ "learning_rate": 0.0004655799561256514,
940
+ "loss": 5.7457,
941
+ "step": 132
942
+ },
943
+ {
944
+ "epoch": 0.5541666666666667,
945
+ "grad_norm": 0.470703125,
946
+ "learning_rate": 0.0004587103272638339,
947
+ "loss": 5.7534,
948
+ "step": 133
949
+ },
950
+ {
951
+ "epoch": 0.5583333333333333,
952
+ "grad_norm": 0.486328125,
953
+ "learning_rate": 0.0004518485374734292,
954
+ "loss": 5.7571,
955
+ "step": 134
956
+ },
957
+ {
958
+ "epoch": 0.5625,
959
+ "grad_norm": 0.40234375,
960
+ "learning_rate": 0.0004449958895029604,
961
+ "loss": 5.7288,
962
+ "step": 135
963
+ },
964
+ {
965
+ "epoch": 0.5666666666666667,
966
+ "grad_norm": 0.41015625,
967
+ "learning_rate": 0.00043815368436532617,
968
+ "loss": 5.8647,
969
+ "step": 136
970
+ },
971
+ {
972
+ "epoch": 0.5708333333333333,
973
+ "grad_norm": 0.37109375,
974
+ "learning_rate": 0.0004313232210907959,
975
+ "loss": 5.8594,
976
+ "step": 137
977
+ },
978
+ {
979
+ "epoch": 0.575,
980
+ "grad_norm": 0.38671875,
981
+ "learning_rate": 0.00042450579648038153,
982
+ "loss": 5.7164,
983
+ "step": 138
984
+ },
985
+ {
986
+ "epoch": 0.5791666666666667,
987
+ "grad_norm": 0.40234375,
988
+ "learning_rate": 0.00041770270485963295,
989
+ "loss": 5.7606,
990
+ "step": 139
991
+ },
992
+ {
993
+ "epoch": 0.5833333333333334,
994
+ "grad_norm": 0.37109375,
995
+ "learning_rate": 0.0004109152378329036,
996
+ "loss": 5.7807,
997
+ "step": 140
998
+ },
999
+ {
1000
+ "epoch": 0.5875,
1001
+ "grad_norm": 0.44921875,
1002
+ "learning_rate": 0.00040414468403813093,
1003
+ "loss": 5.7903,
1004
+ "step": 141
1005
+ },
1006
+ {
1007
+ "epoch": 0.5916666666666667,
1008
+ "grad_norm": 0.3046875,
1009
+ "learning_rate": 0.00039739232890218293,
1010
+ "loss": 5.6957,
1011
+ "step": 142
1012
+ },
1013
+ {
1014
+ "epoch": 0.5958333333333333,
1015
+ "grad_norm": 0.361328125,
1016
+ "learning_rate": 0.00039065945439681213,
1017
+ "loss": 5.6413,
1018
+ "step": 143
1019
+ },
1020
+ {
1021
+ "epoch": 0.6,
1022
+ "grad_norm": 0.384765625,
1023
+ "learning_rate": 0.0003839473387952662,
1024
+ "loss": 5.6618,
1025
+ "step": 144
1026
+ },
1027
+ {
1028
+ "epoch": 0.6041666666666666,
1029
+ "grad_norm": 0.392578125,
1030
+ "learning_rate": 0.00037725725642960046,
1031
+ "loss": 5.7087,
1032
+ "step": 145
1033
+ },
1034
+ {
1035
+ "epoch": 0.6083333333333333,
1036
+ "grad_norm": 0.46875,
1037
+ "learning_rate": 0.0003705904774487396,
1038
+ "loss": 5.5071,
1039
+ "step": 146
1040
+ },
1041
+ {
1042
+ "epoch": 0.6125,
1043
+ "grad_norm": 0.330078125,
1044
+ "learning_rate": 0.0003639482675773324,
1045
+ "loss": 5.6133,
1046
+ "step": 147
1047
+ },
1048
+ {
1049
+ "epoch": 0.6166666666666667,
1050
+ "grad_norm": 0.328125,
1051
+ "learning_rate": 0.00035733188787544744,
1052
+ "loss": 5.5889,
1053
+ "step": 148
1054
+ },
1055
+ {
1056
+ "epoch": 0.6208333333333333,
1057
+ "grad_norm": 0.341796875,
1058
+ "learning_rate": 0.00035074259449915284,
1059
+ "loss": 5.6028,
1060
+ "step": 149
1061
+ },
1062
+ {
1063
+ "epoch": 0.625,
1064
+ "grad_norm": 0.30078125,
1065
+ "learning_rate": 0.00034418163846202944,
1066
+ "loss": 5.8408,
1067
+ "step": 150
1068
+ },
1069
+ {
1070
+ "epoch": 0.6291666666666667,
1071
+ "grad_norm": 0.306640625,
1072
+ "learning_rate": 0.0003376502653976583,
1073
+ "loss": 5.8503,
1074
+ "step": 151
1075
+ },
1076
+ {
1077
+ "epoch": 0.6333333333333333,
1078
+ "grad_norm": 0.359375,
1079
+ "learning_rate": 0.0003311497153231305,
1080
+ "loss": 5.6345,
1081
+ "step": 152
1082
+ },
1083
+ {
1084
+ "epoch": 0.6375,
1085
+ "grad_norm": 0.365234375,
1086
+ "learning_rate": 0.00032468122240362287,
1087
+ "loss": 5.5636,
1088
+ "step": 153
1089
+ },
1090
+ {
1091
+ "epoch": 0.6416666666666667,
1092
+ "grad_norm": 0.30078125,
1093
+ "learning_rate": 0.000318246014718085,
1094
+ "loss": 5.7088,
1095
+ "step": 154
1096
+ },
1097
+ {
1098
+ "epoch": 0.6458333333333334,
1099
+ "grad_norm": 0.33984375,
1100
+ "learning_rate": 0.0003118453140260823,
1101
+ "loss": 5.7296,
1102
+ "step": 155
1103
+ },
1104
+ {
1105
+ "epoch": 0.65,
1106
+ "grad_norm": 0.275390625,
1107
+ "learning_rate": 0.000305480335535837,
1108
+ "loss": 5.7223,
1109
+ "step": 156
1110
+ },
1111
+ {
1112
+ "epoch": 0.6541666666666667,
1113
+ "grad_norm": 0.30859375,
1114
+ "learning_rate": 0.0002991522876735154,
1115
+ "loss": 5.5813,
1116
+ "step": 157
1117
+ },
1118
+ {
1119
+ "epoch": 0.6583333333333333,
1120
+ "grad_norm": 0.30859375,
1121
+ "learning_rate": 0.0002928623718538006,
1122
+ "loss": 5.6656,
1123
+ "step": 158
1124
+ },
1125
+ {
1126
+ "epoch": 0.6625,
1127
+ "grad_norm": 0.4140625,
1128
+ "learning_rate": 0.0002866117822517982,
1129
+ "loss": 5.5557,
1130
+ "step": 159
1131
+ },
1132
+ {
1133
+ "epoch": 0.6666666666666666,
1134
+ "grad_norm": 0.5234375,
1135
+ "learning_rate": 0.0002804017055763149,
1136
+ "loss": 5.6746,
1137
+ "step": 160
1138
+ },
1139
+ {
1140
+ "epoch": 0.6708333333333333,
1141
+ "grad_norm": 0.345703125,
1142
+ "learning_rate": 0.00027423332084455543,
1143
+ "loss": 5.4792,
1144
+ "step": 161
1145
+ },
1146
+ {
1147
+ "epoch": 0.675,
1148
+ "grad_norm": 0.271484375,
1149
+ "learning_rate": 0.0002681077991582797,
1150
+ "loss": 5.6576,
1151
+ "step": 162
1152
+ },
1153
+ {
1154
+ "epoch": 0.6791666666666667,
1155
+ "grad_norm": 0.33984375,
1156
+ "learning_rate": 0.0002620263034814632,
1157
+ "loss": 5.6155,
1158
+ "step": 163
1159
+ },
1160
+ {
1161
+ "epoch": 0.6833333333333333,
1162
+ "grad_norm": 0.255859375,
1163
+ "learning_rate": 0.00025598998841950106,
1164
+ "loss": 5.8009,
1165
+ "step": 164
1166
+ },
1167
+ {
1168
+ "epoch": 0.6875,
1169
+ "grad_norm": 0.33984375,
1170
+ "learning_rate": 0.0002500000000000001,
1171
+ "loss": 5.6332,
1172
+ "step": 165
1173
+ },
1174
+ {
1175
+ "epoch": 0.6916666666666667,
1176
+ "grad_norm": 0.322265625,
1177
+ "learning_rate": 0.00024405747545519962,
1178
+ "loss": 5.3542,
1179
+ "step": 166
1180
+ },
1181
+ {
1182
+ "epoch": 0.6958333333333333,
1183
+ "grad_norm": 0.259765625,
1184
+ "learning_rate": 0.00023816354300606107,
1185
+ "loss": 5.6408,
1186
+ "step": 167
1187
+ },
1188
+ {
1189
+ "epoch": 0.7,
1190
+ "grad_norm": 0.328125,
1191
+ "learning_rate": 0.0002323193216480698,
1192
+ "loss": 5.6203,
1193
+ "step": 168
1194
+ },
1195
+ {
1196
+ "epoch": 0.7041666666666667,
1197
+ "grad_norm": 0.25,
1198
+ "learning_rate": 0.00022652592093878665,
1199
+ "loss": 5.6601,
1200
+ "step": 169
1201
+ },
1202
+ {
1203
+ "epoch": 0.7083333333333334,
1204
+ "grad_norm": 0.251953125,
1205
+ "learning_rate": 0.0002207844407871929,
1206
+ "loss": 5.8144,
1207
+ "step": 170
1208
+ },
1209
+ {
1210
+ "epoch": 0.7125,
1211
+ "grad_norm": 0.29296875,
1212
+ "learning_rate": 0.0002150959712448669,
1213
+ "loss": 5.5789,
1214
+ "step": 171
1215
+ },
1216
+ {
1217
+ "epoch": 0.7166666666666667,
1218
+ "grad_norm": 0.2431640625,
1219
+ "learning_rate": 0.0002094615922990309,
1220
+ "loss": 5.6727,
1221
+ "step": 172
1222
+ },
1223
+ {
1224
+ "epoch": 0.7208333333333333,
1225
+ "grad_norm": 0.29296875,
1226
+ "learning_rate": 0.00020388237366751006,
1227
+ "loss": 5.4561,
1228
+ "step": 173
1229
+ },
1230
+ {
1231
+ "epoch": 0.725,
1232
+ "grad_norm": 0.2734375,
1233
+ "learning_rate": 0.00019835937459564064,
1234
+ "loss": 5.7376,
1235
+ "step": 174
1236
+ },
1237
+ {
1238
+ "epoch": 0.7291666666666666,
1239
+ "grad_norm": 0.27734375,
1240
+ "learning_rate": 0.00019289364365516608,
1241
+ "loss": 5.5645,
1242
+ "step": 175
1243
+ },
1244
+ {
1245
+ "epoch": 0.7333333333333333,
1246
+ "grad_norm": 0.322265625,
1247
+ "learning_rate": 0.00018748621854516078,
1248
+ "loss": 5.4465,
1249
+ "step": 176
1250
+ },
1251
+ {
1252
+ "epoch": 0.7375,
1253
+ "grad_norm": 0.275390625,
1254
+ "learning_rate": 0.0001821381258950161,
1255
+ "loss": 5.6323,
1256
+ "step": 177
1257
+ },
1258
+ {
1259
+ "epoch": 0.7416666666666667,
1260
+ "grad_norm": 0.279296875,
1261
+ "learning_rate": 0.0001768503810695295,
1262
+ "loss": 5.7042,
1263
+ "step": 178
1264
+ },
1265
+ {
1266
+ "epoch": 0.7458333333333333,
1267
+ "grad_norm": 0.3125,
1268
+ "learning_rate": 0.00017162398797613282,
1269
+ "loss": 5.549,
1270
+ "step": 179
1271
+ },
1272
+ {
1273
+ "epoch": 0.75,
1274
+ "grad_norm": 0.232421875,
1275
+ "learning_rate": 0.00016645993887429345,
1276
+ "loss": 5.7366,
1277
+ "step": 180
1278
+ },
1279
+ {
1280
+ "epoch": 0.7541666666666667,
1281
+ "grad_norm": 0.30078125,
1282
+ "learning_rate": 0.00016135921418712956,
1283
+ "loss": 5.7234,
1284
+ "step": 181
1285
+ },
1286
+ {
1287
+ "epoch": 0.7583333333333333,
1288
+ "grad_norm": 0.380859375,
1289
+ "learning_rate": 0.0001563227823152708,
1290
+ "loss": 5.4976,
1291
+ "step": 182
1292
+ },
1293
+ {
1294
+ "epoch": 0.7625,
1295
+ "grad_norm": 0.2890625,
1296
+ "learning_rate": 0.0001513515994530023,
1297
+ "loss": 5.4723,
1298
+ "step": 183
1299
+ },
1300
+ {
1301
+ "epoch": 0.7666666666666667,
1302
+ "grad_norm": 0.28125,
1303
+ "learning_rate": 0.00014644660940672628,
1304
+ "loss": 5.5005,
1305
+ "step": 184
1306
+ },
1307
+ {
1308
+ "epoch": 0.7708333333333334,
1309
+ "grad_norm": 0.291015625,
1310
+ "learning_rate": 0.00014160874341577446,
1311
+ "loss": 5.4176,
1312
+ "step": 185
1313
+ },
1314
+ {
1315
+ "epoch": 0.775,
1316
+ "grad_norm": 0.4296875,
1317
+ "learning_rate": 0.0001368389199756075,
1318
+ "loss": 5.5741,
1319
+ "step": 186
1320
+ },
1321
+ {
1322
+ "epoch": 0.7791666666666667,
1323
+ "grad_norm": 0.34375,
1324
+ "learning_rate": 0.0001321380446634342,
1325
+ "loss": 5.2794,
1326
+ "step": 187
1327
+ },
1328
+ {
1329
+ "epoch": 0.7833333333333333,
1330
+ "grad_norm": 0.3046875,
1331
+ "learning_rate": 0.0001275070099662815,
1332
+ "loss": 5.5068,
1333
+ "step": 188
1334
+ },
1335
+ {
1336
+ "epoch": 0.7875,
1337
+ "grad_norm": 0.294921875,
1338
+ "learning_rate": 0.00012294669511155192,
1339
+ "loss": 5.614,
1340
+ "step": 189
1341
+ },
1342
+ {
1343
+ "epoch": 0.7916666666666666,
1344
+ "grad_norm": 0.3125,
1345
+ "learning_rate": 0.00011845796590009682,
1346
+ "loss": 5.6004,
1347
+ "step": 190
1348
+ },
1349
+ {
1350
+ "epoch": 0.7958333333333333,
1351
+ "grad_norm": 0.26953125,
1352
+ "learning_rate": 0.00011404167454183955,
1353
+ "loss": 5.5943,
1354
+ "step": 191
1355
+ },
1356
+ {
1357
+ "epoch": 0.8,
1358
+ "grad_norm": 0.267578125,
1359
+ "learning_rate": 0.000109698659493979,
1360
+ "loss": 5.5778,
1361
+ "step": 192
1362
+ },
1363
+ {
1364
+ "epoch": 0.8041666666666667,
1365
+ "grad_norm": 0.294921875,
1366
+ "learning_rate": 0.00010542974530180327,
1367
+ "loss": 5.6804,
1368
+ "step": 193
1369
+ },
1370
+ {
1371
+ "epoch": 0.8083333333333333,
1372
+ "grad_norm": 0.25,
1373
+ "learning_rate": 0.00010123574244214551,
1374
+ "loss": 5.6639,
1375
+ "step": 194
1376
+ },
1377
+ {
1378
+ "epoch": 0.8125,
1379
+ "grad_norm": 0.3046875,
1380
+ "learning_rate": 9.711744716951093e-05,
1381
+ "loss": 5.4121,
1382
+ "step": 195
1383
+ },
1384
+ {
1385
+ "epoch": 0.8166666666666667,
1386
+ "grad_norm": 0.390625,
1387
+ "learning_rate": 9.307564136490254e-05,
1388
+ "loss": 5.4785,
1389
+ "step": 196
1390
+ },
1391
+ {
1392
+ "epoch": 0.8208333333333333,
1393
+ "grad_norm": 0.30859375,
1394
+ "learning_rate": 8.911109238737747e-05,
1395
+ "loss": 5.6047,
1396
+ "step": 197
1397
+ },
1398
+ {
1399
+ "epoch": 0.825,
1400
+ "grad_norm": 0.23046875,
1401
+ "learning_rate": 8.522455292835934e-05,
1402
+ "loss": 5.6457,
1403
+ "step": 198
1404
+ },
1405
+ {
1406
+ "epoch": 0.8291666666666667,
1407
+ "grad_norm": 0.232421875,
1408
+ "learning_rate": 8.141676086873573e-05,
1409
+ "loss": 5.6667,
1410
+ "step": 199
1411
+ },
1412
+ {
1413
+ "epoch": 0.8333333333333334,
1414
+ "grad_norm": 0.2109375,
1415
+ "learning_rate": 7.768843913876755e-05,
1416
+ "loss": 5.7239,
1417
+ "step": 200
1418
+ },
1419
+ {
1420
+ "epoch": 0.8333333333333334,
1421
+ "eval_runtime": 1.198,
1422
+ "eval_samples_per_second": 13.356,
1423
+ "eval_steps_per_second": 0.835,
1424
+ "step": 200
1425
  }
1426
  ],
1427
  "logging_steps": 1,
 
1441
  "attributes": {}
1442
  }
1443
  },
1444
+ "total_flos": 1.018894554759168e+17,
1445
  "train_batch_size": 16,
1446
  "trial_name": null,
1447
  "trial_params": null