kiritan commited on
Commit
d352fcd
·
verified ·
1 Parent(s): 084f68d

Training in progress, step 10000, checkpoint

Browse files
last-checkpoint/global_step10000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:adab3b00ea21e4478744ddcff0db1221fab1769952ecb555cb359cb26742d43b
3
+ size 5117197020
last-checkpoint/global_step10000/mp_rank_00_model_states.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3772db65d20e3a1c30f97b9cb12603abd67d2b285e8fee06bfb0b019c0543d25
3
+ size 859127504
last-checkpoint/latest CHANGED
@@ -1 +1 @@
1
- global_step3000
 
1
+ global_step10000
last-checkpoint/model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:610d4192b27e6309a44afb5d80a9c25b6f192f5989c5f8fb4e13c7b43939651e
3
  size 962205216
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d2e18aa6175dc70c57ec1ac7704cdfa7862fdb3d72cd69f59bef3dd34ba288be
3
  size 962205216
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5eaee0853f95d35cacfb932d41346ef50714e4ef121f4dd2abff57eddeebe889
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e451b480b233580c5c6b16cef40a41ba3c2d5da3b6ac8e0c30ef4d8ee0bfacf1
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:536a9a8504fffb5687874aeab2eb4bb450e59d1e430c707280de4db4bc58c5a4
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4bfabff5a7af861fca0d4328cbdeeac43000e633dd64effe96ee68fd4be8bd44
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
- "best_metric": 87.76991984912777,
3
- "best_model_checkpoint": "./iteboshi_temp/checkpoint-3000",
4
- "epoch": 3.303964757709251,
5
  "eval_steps": 1000,
6
- "global_step": 3000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -877,6 +877,2036 @@
877
  "eval_steps_per_second": 1.513,
878
  "eval_wer": 87.76991984912777,
879
  "step": 3000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
880
  }
881
  ],
882
  "logging_steps": 25,
@@ -896,7 +2926,7 @@
896
  "attributes": {}
897
  }
898
  },
899
- "total_flos": 5.154429559470293e+19,
900
  "train_batch_size": 4,
901
  "trial_name": null,
902
  "trial_params": null
 
1
  {
2
+ "best_metric": 83.80009429514381,
3
+ "best_model_checkpoint": "./iteboshi_temp/checkpoint-10000",
4
+ "epoch": 11.013215859030836,
5
  "eval_steps": 1000,
6
+ "global_step": 10000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
877
  "eval_steps_per_second": 1.513,
878
  "eval_wer": 87.76991984912777,
879
  "step": 3000
880
+ },
881
+ {
882
+ "epoch": 3.3314977973568283,
883
+ "grad_norm": 1.067468285560608,
884
+ "learning_rate": 1.741025641025641e-05,
885
+ "loss": 0.3583,
886
+ "step": 3025
887
+ },
888
+ {
889
+ "epoch": 3.359030837004405,
890
+ "grad_norm": 0.8070423603057861,
891
+ "learning_rate": 1.7384615384615385e-05,
892
+ "loss": 0.3962,
893
+ "step": 3050
894
+ },
895
+ {
896
+ "epoch": 3.3865638766519823,
897
+ "grad_norm": 0.9048041105270386,
898
+ "learning_rate": 1.7358974358974362e-05,
899
+ "loss": 0.3524,
900
+ "step": 3075
901
+ },
902
+ {
903
+ "epoch": 3.4140969162995596,
904
+ "grad_norm": 0.8543446063995361,
905
+ "learning_rate": 1.7333333333333336e-05,
906
+ "loss": 0.4073,
907
+ "step": 3100
908
+ },
909
+ {
910
+ "epoch": 3.4416299559471364,
911
+ "grad_norm": 0.9092735648155212,
912
+ "learning_rate": 1.730769230769231e-05,
913
+ "loss": 0.3792,
914
+ "step": 3125
915
+ },
916
+ {
917
+ "epoch": 3.4691629955947136,
918
+ "grad_norm": 0.8556696772575378,
919
+ "learning_rate": 1.7282051282051283e-05,
920
+ "loss": 0.3548,
921
+ "step": 3150
922
+ },
923
+ {
924
+ "epoch": 3.496696035242291,
925
+ "grad_norm": 0.8062282800674438,
926
+ "learning_rate": 1.725641025641026e-05,
927
+ "loss": 0.3695,
928
+ "step": 3175
929
+ },
930
+ {
931
+ "epoch": 3.5242290748898677,
932
+ "grad_norm": 0.8389378190040588,
933
+ "learning_rate": 1.7230769230769234e-05,
934
+ "loss": 0.3795,
935
+ "step": 3200
936
+ },
937
+ {
938
+ "epoch": 3.551762114537445,
939
+ "grad_norm": 0.866780698299408,
940
+ "learning_rate": 1.7205128205128207e-05,
941
+ "loss": 0.3535,
942
+ "step": 3225
943
+ },
944
+ {
945
+ "epoch": 3.579295154185022,
946
+ "grad_norm": 1.140093207359314,
947
+ "learning_rate": 1.717948717948718e-05,
948
+ "loss": 0.3453,
949
+ "step": 3250
950
+ },
951
+ {
952
+ "epoch": 3.606828193832599,
953
+ "grad_norm": 0.7346594929695129,
954
+ "learning_rate": 1.7153846153846155e-05,
955
+ "loss": 0.3768,
956
+ "step": 3275
957
+ },
958
+ {
959
+ "epoch": 3.6343612334801763,
960
+ "grad_norm": 0.9942306280136108,
961
+ "learning_rate": 1.7128205128205128e-05,
962
+ "loss": 0.3843,
963
+ "step": 3300
964
+ },
965
+ {
966
+ "epoch": 3.6618942731277535,
967
+ "grad_norm": 0.8022450804710388,
968
+ "learning_rate": 1.7102564102564102e-05,
969
+ "loss": 0.3319,
970
+ "step": 3325
971
+ },
972
+ {
973
+ "epoch": 3.6894273127753303,
974
+ "grad_norm": 0.7250021696090698,
975
+ "learning_rate": 1.707692307692308e-05,
976
+ "loss": 0.3664,
977
+ "step": 3350
978
+ },
979
+ {
980
+ "epoch": 3.7169603524229076,
981
+ "grad_norm": 0.8458446264266968,
982
+ "learning_rate": 1.7051282051282053e-05,
983
+ "loss": 0.32,
984
+ "step": 3375
985
+ },
986
+ {
987
+ "epoch": 3.744493392070485,
988
+ "grad_norm": 0.8499473333358765,
989
+ "learning_rate": 1.7025641025641026e-05,
990
+ "loss": 0.365,
991
+ "step": 3400
992
+ },
993
+ {
994
+ "epoch": 3.7720264317180616,
995
+ "grad_norm": 1.18294095993042,
996
+ "learning_rate": 1.7e-05,
997
+ "loss": 0.3453,
998
+ "step": 3425
999
+ },
1000
+ {
1001
+ "epoch": 3.799559471365639,
1002
+ "grad_norm": 0.7673613429069519,
1003
+ "learning_rate": 1.6974358974358977e-05,
1004
+ "loss": 0.3406,
1005
+ "step": 3450
1006
+ },
1007
+ {
1008
+ "epoch": 3.827092511013216,
1009
+ "grad_norm": 0.8733392953872681,
1010
+ "learning_rate": 1.694871794871795e-05,
1011
+ "loss": 0.3406,
1012
+ "step": 3475
1013
+ },
1014
+ {
1015
+ "epoch": 3.854625550660793,
1016
+ "grad_norm": 0.9603780508041382,
1017
+ "learning_rate": 1.6923076923076924e-05,
1018
+ "loss": 0.4131,
1019
+ "step": 3500
1020
+ },
1021
+ {
1022
+ "epoch": 3.88215859030837,
1023
+ "grad_norm": 1.0154445171356201,
1024
+ "learning_rate": 1.6897435897435898e-05,
1025
+ "loss": 0.3401,
1026
+ "step": 3525
1027
+ },
1028
+ {
1029
+ "epoch": 3.909691629955947,
1030
+ "grad_norm": 0.7912996411323547,
1031
+ "learning_rate": 1.687179487179487e-05,
1032
+ "loss": 0.3621,
1033
+ "step": 3550
1034
+ },
1035
+ {
1036
+ "epoch": 3.9372246696035242,
1037
+ "grad_norm": 0.7029661536216736,
1038
+ "learning_rate": 1.684615384615385e-05,
1039
+ "loss": 0.3848,
1040
+ "step": 3575
1041
+ },
1042
+ {
1043
+ "epoch": 3.964757709251101,
1044
+ "grad_norm": 0.7775823473930359,
1045
+ "learning_rate": 1.6820512820512822e-05,
1046
+ "loss": 0.3753,
1047
+ "step": 3600
1048
+ },
1049
+ {
1050
+ "epoch": 3.9922907488986783,
1051
+ "grad_norm": 0.8819046020507812,
1052
+ "learning_rate": 1.6794871794871796e-05,
1053
+ "loss": 0.373,
1054
+ "step": 3625
1055
+ },
1056
+ {
1057
+ "epoch": 4.0198237885462555,
1058
+ "grad_norm": 0.6218374967575073,
1059
+ "learning_rate": 1.676923076923077e-05,
1060
+ "loss": 0.2521,
1061
+ "step": 3650
1062
+ },
1063
+ {
1064
+ "epoch": 4.047356828193832,
1065
+ "grad_norm": 0.9981600642204285,
1066
+ "learning_rate": 1.6743589743589747e-05,
1067
+ "loss": 0.238,
1068
+ "step": 3675
1069
+ },
1070
+ {
1071
+ "epoch": 4.07488986784141,
1072
+ "grad_norm": 0.6263682246208191,
1073
+ "learning_rate": 1.671794871794872e-05,
1074
+ "loss": 0.2172,
1075
+ "step": 3700
1076
+ },
1077
+ {
1078
+ "epoch": 4.102422907488987,
1079
+ "grad_norm": 0.5469574332237244,
1080
+ "learning_rate": 1.6692307692307694e-05,
1081
+ "loss": 0.2553,
1082
+ "step": 3725
1083
+ },
1084
+ {
1085
+ "epoch": 4.129955947136564,
1086
+ "grad_norm": 0.9186758399009705,
1087
+ "learning_rate": 1.6666666666666667e-05,
1088
+ "loss": 0.2413,
1089
+ "step": 3750
1090
+ },
1091
+ {
1092
+ "epoch": 4.157488986784141,
1093
+ "grad_norm": 0.5088458061218262,
1094
+ "learning_rate": 1.6641025641025645e-05,
1095
+ "loss": 0.2303,
1096
+ "step": 3775
1097
+ },
1098
+ {
1099
+ "epoch": 4.185022026431718,
1100
+ "grad_norm": 0.5243244767189026,
1101
+ "learning_rate": 1.6615384615384618e-05,
1102
+ "loss": 0.1918,
1103
+ "step": 3800
1104
+ },
1105
+ {
1106
+ "epoch": 4.212555066079295,
1107
+ "grad_norm": 0.8335323333740234,
1108
+ "learning_rate": 1.6589743589743592e-05,
1109
+ "loss": 0.2309,
1110
+ "step": 3825
1111
+ },
1112
+ {
1113
+ "epoch": 4.240088105726873,
1114
+ "grad_norm": 0.6145501136779785,
1115
+ "learning_rate": 1.6564102564102565e-05,
1116
+ "loss": 0.226,
1117
+ "step": 3850
1118
+ },
1119
+ {
1120
+ "epoch": 4.2676211453744495,
1121
+ "grad_norm": 0.9030354022979736,
1122
+ "learning_rate": 1.653846153846154e-05,
1123
+ "loss": 0.2569,
1124
+ "step": 3875
1125
+ },
1126
+ {
1127
+ "epoch": 4.295154185022026,
1128
+ "grad_norm": 0.6755716800689697,
1129
+ "learning_rate": 1.6512820512820513e-05,
1130
+ "loss": 0.2424,
1131
+ "step": 3900
1132
+ },
1133
+ {
1134
+ "epoch": 4.322687224669604,
1135
+ "grad_norm": 1.1529523134231567,
1136
+ "learning_rate": 1.6487179487179486e-05,
1137
+ "loss": 0.2539,
1138
+ "step": 3925
1139
+ },
1140
+ {
1141
+ "epoch": 4.350220264317181,
1142
+ "grad_norm": 0.689730167388916,
1143
+ "learning_rate": 1.6461538461538463e-05,
1144
+ "loss": 0.2366,
1145
+ "step": 3950
1146
+ },
1147
+ {
1148
+ "epoch": 4.377753303964758,
1149
+ "grad_norm": 0.6913994550704956,
1150
+ "learning_rate": 1.6435897435897437e-05,
1151
+ "loss": 0.2667,
1152
+ "step": 3975
1153
+ },
1154
+ {
1155
+ "epoch": 4.405286343612334,
1156
+ "grad_norm": 0.6518797278404236,
1157
+ "learning_rate": 1.641025641025641e-05,
1158
+ "loss": 0.2445,
1159
+ "step": 4000
1160
+ },
1161
+ {
1162
+ "epoch": 4.405286343612334,
1163
+ "eval_cer": 28.12639712035583,
1164
+ "eval_loss": 0.7661674618721008,
1165
+ "eval_runtime": 1727.6269,
1166
+ "eval_samples_per_second": 6.125,
1167
+ "eval_steps_per_second": 1.532,
1168
+ "eval_wer": 86.67609618104667,
1169
+ "step": 4000
1170
+ },
1171
+ {
1172
+ "epoch": 4.432819383259912,
1173
+ "grad_norm": 0.7283459305763245,
1174
+ "learning_rate": 1.6384615384615384e-05,
1175
+ "loss": 0.262,
1176
+ "step": 4025
1177
+ },
1178
+ {
1179
+ "epoch": 4.460352422907489,
1180
+ "grad_norm": 0.8054242134094238,
1181
+ "learning_rate": 1.635897435897436e-05,
1182
+ "loss": 0.2685,
1183
+ "step": 4050
1184
+ },
1185
+ {
1186
+ "epoch": 4.487885462555066,
1187
+ "grad_norm": 0.7349271774291992,
1188
+ "learning_rate": 1.6333333333333335e-05,
1189
+ "loss": 0.2636,
1190
+ "step": 4075
1191
+ },
1192
+ {
1193
+ "epoch": 4.515418502202643,
1194
+ "grad_norm": 0.7914747595787048,
1195
+ "learning_rate": 1.630769230769231e-05,
1196
+ "loss": 0.2241,
1197
+ "step": 4100
1198
+ },
1199
+ {
1200
+ "epoch": 4.54295154185022,
1201
+ "grad_norm": 0.6789693832397461,
1202
+ "learning_rate": 1.6282051282051282e-05,
1203
+ "loss": 0.2491,
1204
+ "step": 4125
1205
+ },
1206
+ {
1207
+ "epoch": 4.570484581497797,
1208
+ "grad_norm": 0.7700952887535095,
1209
+ "learning_rate": 1.625641025641026e-05,
1210
+ "loss": 0.2608,
1211
+ "step": 4150
1212
+ },
1213
+ {
1214
+ "epoch": 4.598017621145375,
1215
+ "grad_norm": 0.6949133276939392,
1216
+ "learning_rate": 1.6230769230769233e-05,
1217
+ "loss": 0.2542,
1218
+ "step": 4175
1219
+ },
1220
+ {
1221
+ "epoch": 4.6255506607929515,
1222
+ "grad_norm": 0.7408822774887085,
1223
+ "learning_rate": 1.6205128205128207e-05,
1224
+ "loss": 0.2427,
1225
+ "step": 4200
1226
+ },
1227
+ {
1228
+ "epoch": 4.653083700440528,
1229
+ "grad_norm": 0.7268140912055969,
1230
+ "learning_rate": 1.617948717948718e-05,
1231
+ "loss": 0.2473,
1232
+ "step": 4225
1233
+ },
1234
+ {
1235
+ "epoch": 4.680616740088106,
1236
+ "grad_norm": 1.2149430513381958,
1237
+ "learning_rate": 1.6153846153846154e-05,
1238
+ "loss": 0.2374,
1239
+ "step": 4250
1240
+ },
1241
+ {
1242
+ "epoch": 4.708149779735683,
1243
+ "grad_norm": 0.8126139044761658,
1244
+ "learning_rate": 1.612820512820513e-05,
1245
+ "loss": 0.2428,
1246
+ "step": 4275
1247
+ },
1248
+ {
1249
+ "epoch": 4.73568281938326,
1250
+ "grad_norm": 0.7101436257362366,
1251
+ "learning_rate": 1.6102564102564105e-05,
1252
+ "loss": 0.2475,
1253
+ "step": 4300
1254
+ },
1255
+ {
1256
+ "epoch": 4.763215859030837,
1257
+ "grad_norm": 0.6345697641372681,
1258
+ "learning_rate": 1.607692307692308e-05,
1259
+ "loss": 0.2432,
1260
+ "step": 4325
1261
+ },
1262
+ {
1263
+ "epoch": 4.790748898678414,
1264
+ "grad_norm": 0.781745195388794,
1265
+ "learning_rate": 1.6051282051282052e-05,
1266
+ "loss": 0.23,
1267
+ "step": 4350
1268
+ },
1269
+ {
1270
+ "epoch": 4.818281938325991,
1271
+ "grad_norm": 1.2168214321136475,
1272
+ "learning_rate": 1.602564102564103e-05,
1273
+ "loss": 0.2563,
1274
+ "step": 4375
1275
+ },
1276
+ {
1277
+ "epoch": 4.845814977973569,
1278
+ "grad_norm": 0.47594118118286133,
1279
+ "learning_rate": 1.6000000000000003e-05,
1280
+ "loss": 0.2294,
1281
+ "step": 4400
1282
+ },
1283
+ {
1284
+ "epoch": 4.8733480176211454,
1285
+ "grad_norm": 0.4806981384754181,
1286
+ "learning_rate": 1.5974358974358976e-05,
1287
+ "loss": 0.2321,
1288
+ "step": 4425
1289
+ },
1290
+ {
1291
+ "epoch": 4.900881057268722,
1292
+ "grad_norm": 0.7716917991638184,
1293
+ "learning_rate": 1.594871794871795e-05,
1294
+ "loss": 0.2394,
1295
+ "step": 4450
1296
+ },
1297
+ {
1298
+ "epoch": 4.9284140969163,
1299
+ "grad_norm": 0.579592764377594,
1300
+ "learning_rate": 1.5923076923076924e-05,
1301
+ "loss": 0.2245,
1302
+ "step": 4475
1303
+ },
1304
+ {
1305
+ "epoch": 4.955947136563877,
1306
+ "grad_norm": 0.5050383806228638,
1307
+ "learning_rate": 1.5897435897435897e-05,
1308
+ "loss": 0.2357,
1309
+ "step": 4500
1310
+ },
1311
+ {
1312
+ "epoch": 4.983480176211454,
1313
+ "grad_norm": 1.2022616863250732,
1314
+ "learning_rate": 1.587179487179487e-05,
1315
+ "loss": 0.246,
1316
+ "step": 4525
1317
+ },
1318
+ {
1319
+ "epoch": 5.011013215859031,
1320
+ "grad_norm": 0.6758959889411926,
1321
+ "learning_rate": 1.5846153846153848e-05,
1322
+ "loss": 0.1977,
1323
+ "step": 4550
1324
+ },
1325
+ {
1326
+ "epoch": 5.038546255506608,
1327
+ "grad_norm": 0.3403749465942383,
1328
+ "learning_rate": 1.582051282051282e-05,
1329
+ "loss": 0.1768,
1330
+ "step": 4575
1331
+ },
1332
+ {
1333
+ "epoch": 5.066079295154185,
1334
+ "grad_norm": 0.6206667423248291,
1335
+ "learning_rate": 1.5794871794871795e-05,
1336
+ "loss": 0.1403,
1337
+ "step": 4600
1338
+ },
1339
+ {
1340
+ "epoch": 5.093612334801762,
1341
+ "grad_norm": 0.4241011440753937,
1342
+ "learning_rate": 1.576923076923077e-05,
1343
+ "loss": 0.1857,
1344
+ "step": 4625
1345
+ },
1346
+ {
1347
+ "epoch": 5.121145374449339,
1348
+ "grad_norm": 0.5990819931030273,
1349
+ "learning_rate": 1.5743589743589746e-05,
1350
+ "loss": 0.1732,
1351
+ "step": 4650
1352
+ },
1353
+ {
1354
+ "epoch": 5.148678414096916,
1355
+ "grad_norm": 0.36775925755500793,
1356
+ "learning_rate": 1.571794871794872e-05,
1357
+ "loss": 0.1679,
1358
+ "step": 4675
1359
+ },
1360
+ {
1361
+ "epoch": 5.176211453744493,
1362
+ "grad_norm": 0.4457094669342041,
1363
+ "learning_rate": 1.5692307692307693e-05,
1364
+ "loss": 0.1422,
1365
+ "step": 4700
1366
+ },
1367
+ {
1368
+ "epoch": 5.203744493392071,
1369
+ "grad_norm": 0.3794902563095093,
1370
+ "learning_rate": 1.5666666666666667e-05,
1371
+ "loss": 0.1602,
1372
+ "step": 4725
1373
+ },
1374
+ {
1375
+ "epoch": 5.2312775330396475,
1376
+ "grad_norm": 0.9086684584617615,
1377
+ "learning_rate": 1.5641025641025644e-05,
1378
+ "loss": 0.1401,
1379
+ "step": 4750
1380
+ },
1381
+ {
1382
+ "epoch": 5.258810572687224,
1383
+ "grad_norm": 0.6391773223876953,
1384
+ "learning_rate": 1.5615384615384618e-05,
1385
+ "loss": 0.2021,
1386
+ "step": 4775
1387
+ },
1388
+ {
1389
+ "epoch": 5.286343612334802,
1390
+ "grad_norm": 0.36679503321647644,
1391
+ "learning_rate": 1.558974358974359e-05,
1392
+ "loss": 0.1486,
1393
+ "step": 4800
1394
+ },
1395
+ {
1396
+ "epoch": 5.313876651982379,
1397
+ "grad_norm": 0.5840328335762024,
1398
+ "learning_rate": 1.5564102564102565e-05,
1399
+ "loss": 0.1356,
1400
+ "step": 4825
1401
+ },
1402
+ {
1403
+ "epoch": 5.341409691629956,
1404
+ "grad_norm": 0.4502796232700348,
1405
+ "learning_rate": 1.553846153846154e-05,
1406
+ "loss": 0.1549,
1407
+ "step": 4850
1408
+ },
1409
+ {
1410
+ "epoch": 5.368942731277533,
1411
+ "grad_norm": 0.5962740778923035,
1412
+ "learning_rate": 1.5512820512820516e-05,
1413
+ "loss": 0.1529,
1414
+ "step": 4875
1415
+ },
1416
+ {
1417
+ "epoch": 5.39647577092511,
1418
+ "grad_norm": 0.695899486541748,
1419
+ "learning_rate": 1.548717948717949e-05,
1420
+ "loss": 0.1456,
1421
+ "step": 4900
1422
+ },
1423
+ {
1424
+ "epoch": 5.424008810572687,
1425
+ "grad_norm": 0.5500043630599976,
1426
+ "learning_rate": 1.5461538461538463e-05,
1427
+ "loss": 0.1991,
1428
+ "step": 4925
1429
+ },
1430
+ {
1431
+ "epoch": 5.451541850220265,
1432
+ "grad_norm": 0.4101676642894745,
1433
+ "learning_rate": 1.5435897435897436e-05,
1434
+ "loss": 0.1708,
1435
+ "step": 4950
1436
+ },
1437
+ {
1438
+ "epoch": 5.479074889867841,
1439
+ "grad_norm": 0.5245118141174316,
1440
+ "learning_rate": 1.5410256410256414e-05,
1441
+ "loss": 0.1495,
1442
+ "step": 4975
1443
+ },
1444
+ {
1445
+ "epoch": 5.506607929515418,
1446
+ "grad_norm": 0.9378005266189575,
1447
+ "learning_rate": 1.5384615384615387e-05,
1448
+ "loss": 0.1548,
1449
+ "step": 5000
1450
+ },
1451
+ {
1452
+ "epoch": 5.506607929515418,
1453
+ "eval_cer": 27.874772161911203,
1454
+ "eval_loss": 0.7709037661552429,
1455
+ "eval_runtime": 1715.4949,
1456
+ "eval_samples_per_second": 6.168,
1457
+ "eval_steps_per_second": 1.542,
1458
+ "eval_wer": 86.6006600660066,
1459
+ "step": 5000
1460
+ },
1461
+ {
1462
+ "epoch": 5.534140969162996,
1463
+ "grad_norm": 0.5195850133895874,
1464
+ "learning_rate": 1.535897435897436e-05,
1465
+ "loss": 0.159,
1466
+ "step": 5025
1467
+ },
1468
+ {
1469
+ "epoch": 5.561674008810573,
1470
+ "grad_norm": 0.5712270140647888,
1471
+ "learning_rate": 1.5333333333333334e-05,
1472
+ "loss": 0.184,
1473
+ "step": 5050
1474
+ },
1475
+ {
1476
+ "epoch": 5.5892070484581495,
1477
+ "grad_norm": 0.5652280449867249,
1478
+ "learning_rate": 1.5307692307692308e-05,
1479
+ "loss": 0.1645,
1480
+ "step": 5075
1481
+ },
1482
+ {
1483
+ "epoch": 5.616740088105727,
1484
+ "grad_norm": 0.6352373957633972,
1485
+ "learning_rate": 1.5282051282051282e-05,
1486
+ "loss": 0.1561,
1487
+ "step": 5100
1488
+ },
1489
+ {
1490
+ "epoch": 5.644273127753304,
1491
+ "grad_norm": 0.9260919690132141,
1492
+ "learning_rate": 1.5256410256410257e-05,
1493
+ "loss": 0.1653,
1494
+ "step": 5125
1495
+ },
1496
+ {
1497
+ "epoch": 5.671806167400881,
1498
+ "grad_norm": 0.5775518417358398,
1499
+ "learning_rate": 1.523076923076923e-05,
1500
+ "loss": 0.1767,
1501
+ "step": 5150
1502
+ },
1503
+ {
1504
+ "epoch": 5.6993392070484585,
1505
+ "grad_norm": 0.4431408941745758,
1506
+ "learning_rate": 1.5205128205128206e-05,
1507
+ "loss": 0.1365,
1508
+ "step": 5175
1509
+ },
1510
+ {
1511
+ "epoch": 5.726872246696035,
1512
+ "grad_norm": 0.4839853346347809,
1513
+ "learning_rate": 1.517948717948718e-05,
1514
+ "loss": 0.1932,
1515
+ "step": 5200
1516
+ },
1517
+ {
1518
+ "epoch": 5.754405286343612,
1519
+ "grad_norm": 0.4924067258834839,
1520
+ "learning_rate": 1.5153846153846155e-05,
1521
+ "loss": 0.1506,
1522
+ "step": 5225
1523
+ },
1524
+ {
1525
+ "epoch": 5.78193832599119,
1526
+ "grad_norm": 0.7064109444618225,
1527
+ "learning_rate": 1.5128205128205129e-05,
1528
+ "loss": 0.1899,
1529
+ "step": 5250
1530
+ },
1531
+ {
1532
+ "epoch": 5.809471365638767,
1533
+ "grad_norm": 0.4375017285346985,
1534
+ "learning_rate": 1.5102564102564104e-05,
1535
+ "loss": 0.1629,
1536
+ "step": 5275
1537
+ },
1538
+ {
1539
+ "epoch": 5.8370044052863435,
1540
+ "grad_norm": 0.7590004205703735,
1541
+ "learning_rate": 1.5076923076923078e-05,
1542
+ "loss": 0.1555,
1543
+ "step": 5300
1544
+ },
1545
+ {
1546
+ "epoch": 5.864537444933921,
1547
+ "grad_norm": 0.704337477684021,
1548
+ "learning_rate": 1.5051282051282053e-05,
1549
+ "loss": 0.1603,
1550
+ "step": 5325
1551
+ },
1552
+ {
1553
+ "epoch": 5.892070484581498,
1554
+ "grad_norm": 0.6816414594650269,
1555
+ "learning_rate": 1.5025641025641027e-05,
1556
+ "loss": 0.1753,
1557
+ "step": 5350
1558
+ },
1559
+ {
1560
+ "epoch": 5.919603524229075,
1561
+ "grad_norm": 0.49803662300109863,
1562
+ "learning_rate": 1.5000000000000002e-05,
1563
+ "loss": 0.1517,
1564
+ "step": 5375
1565
+ },
1566
+ {
1567
+ "epoch": 5.9471365638766525,
1568
+ "grad_norm": 1.4683668613433838,
1569
+ "learning_rate": 1.4974358974358976e-05,
1570
+ "loss": 0.1656,
1571
+ "step": 5400
1572
+ },
1573
+ {
1574
+ "epoch": 5.974669603524229,
1575
+ "grad_norm": 0.5251373648643494,
1576
+ "learning_rate": 1.494871794871795e-05,
1577
+ "loss": 0.1454,
1578
+ "step": 5425
1579
+ },
1580
+ {
1581
+ "epoch": 6.002202643171806,
1582
+ "grad_norm": 0.39470919966697693,
1583
+ "learning_rate": 1.4923076923076925e-05,
1584
+ "loss": 0.1317,
1585
+ "step": 5450
1586
+ },
1587
+ {
1588
+ "epoch": 6.029735682819383,
1589
+ "grad_norm": 0.4022665321826935,
1590
+ "learning_rate": 1.4897435897435898e-05,
1591
+ "loss": 0.1069,
1592
+ "step": 5475
1593
+ },
1594
+ {
1595
+ "epoch": 6.057268722466961,
1596
+ "grad_norm": 0.462735116481781,
1597
+ "learning_rate": 1.4871794871794874e-05,
1598
+ "loss": 0.0833,
1599
+ "step": 5500
1600
+ },
1601
+ {
1602
+ "epoch": 6.084801762114537,
1603
+ "grad_norm": 0.5390641689300537,
1604
+ "learning_rate": 1.4846153846153847e-05,
1605
+ "loss": 0.1123,
1606
+ "step": 5525
1607
+ },
1608
+ {
1609
+ "epoch": 6.112334801762114,
1610
+ "grad_norm": 0.34844598174095154,
1611
+ "learning_rate": 1.4820512820512823e-05,
1612
+ "loss": 0.1198,
1613
+ "step": 5550
1614
+ },
1615
+ {
1616
+ "epoch": 6.139867841409692,
1617
+ "grad_norm": 0.3289618492126465,
1618
+ "learning_rate": 1.4794871794871796e-05,
1619
+ "loss": 0.1119,
1620
+ "step": 5575
1621
+ },
1622
+ {
1623
+ "epoch": 6.167400881057269,
1624
+ "grad_norm": 0.5920740962028503,
1625
+ "learning_rate": 1.4769230769230772e-05,
1626
+ "loss": 0.1185,
1627
+ "step": 5600
1628
+ },
1629
+ {
1630
+ "epoch": 6.1949339207048455,
1631
+ "grad_norm": 0.3685765862464905,
1632
+ "learning_rate": 1.4743589743589745e-05,
1633
+ "loss": 0.0869,
1634
+ "step": 5625
1635
+ },
1636
+ {
1637
+ "epoch": 6.222466960352423,
1638
+ "grad_norm": 0.6981714367866516,
1639
+ "learning_rate": 1.471794871794872e-05,
1640
+ "loss": 0.1187,
1641
+ "step": 5650
1642
+ },
1643
+ {
1644
+ "epoch": 6.25,
1645
+ "grad_norm": 0.5181892514228821,
1646
+ "learning_rate": 1.4692307692307694e-05,
1647
+ "loss": 0.1144,
1648
+ "step": 5675
1649
+ },
1650
+ {
1651
+ "epoch": 6.277533039647577,
1652
+ "grad_norm": 0.5749639272689819,
1653
+ "learning_rate": 1.4666666666666666e-05,
1654
+ "loss": 0.082,
1655
+ "step": 5700
1656
+ },
1657
+ {
1658
+ "epoch": 6.3050660792951545,
1659
+ "grad_norm": 0.34826797246932983,
1660
+ "learning_rate": 1.4641025641025642e-05,
1661
+ "loss": 0.1196,
1662
+ "step": 5725
1663
+ },
1664
+ {
1665
+ "epoch": 6.332599118942731,
1666
+ "grad_norm": 0.4354853332042694,
1667
+ "learning_rate": 1.4615384615384615e-05,
1668
+ "loss": 0.0996,
1669
+ "step": 5750
1670
+ },
1671
+ {
1672
+ "epoch": 6.360132158590308,
1673
+ "grad_norm": 0.4485156238079071,
1674
+ "learning_rate": 1.458974358974359e-05,
1675
+ "loss": 0.1012,
1676
+ "step": 5775
1677
+ },
1678
+ {
1679
+ "epoch": 6.387665198237886,
1680
+ "grad_norm": 1.4070178270339966,
1681
+ "learning_rate": 1.4564102564102564e-05,
1682
+ "loss": 0.1116,
1683
+ "step": 5800
1684
+ },
1685
+ {
1686
+ "epoch": 6.415198237885463,
1687
+ "grad_norm": 0.5709951519966125,
1688
+ "learning_rate": 1.453846153846154e-05,
1689
+ "loss": 0.0992,
1690
+ "step": 5825
1691
+ },
1692
+ {
1693
+ "epoch": 6.442731277533039,
1694
+ "grad_norm": 0.7376241087913513,
1695
+ "learning_rate": 1.4512820512820513e-05,
1696
+ "loss": 0.1296,
1697
+ "step": 5850
1698
+ },
1699
+ {
1700
+ "epoch": 6.470264317180617,
1701
+ "grad_norm": 0.5828295350074768,
1702
+ "learning_rate": 1.4487179487179489e-05,
1703
+ "loss": 0.1363,
1704
+ "step": 5875
1705
+ },
1706
+ {
1707
+ "epoch": 6.497797356828194,
1708
+ "grad_norm": 0.44842031598091125,
1709
+ "learning_rate": 1.4461538461538462e-05,
1710
+ "loss": 0.1186,
1711
+ "step": 5900
1712
+ },
1713
+ {
1714
+ "epoch": 6.525330396475771,
1715
+ "grad_norm": 0.5105710625648499,
1716
+ "learning_rate": 1.4435897435897438e-05,
1717
+ "loss": 0.1319,
1718
+ "step": 5925
1719
+ },
1720
+ {
1721
+ "epoch": 6.5528634361233475,
1722
+ "grad_norm": 0.45816680788993835,
1723
+ "learning_rate": 1.4410256410256411e-05,
1724
+ "loss": 0.1169,
1725
+ "step": 5950
1726
+ },
1727
+ {
1728
+ "epoch": 6.580396475770925,
1729
+ "grad_norm": 0.5432708859443665,
1730
+ "learning_rate": 1.4384615384615387e-05,
1731
+ "loss": 0.1163,
1732
+ "step": 5975
1733
+ },
1734
+ {
1735
+ "epoch": 6.607929515418502,
1736
+ "grad_norm": 0.5402922034263611,
1737
+ "learning_rate": 1.435897435897436e-05,
1738
+ "loss": 0.1102,
1739
+ "step": 6000
1740
+ },
1741
+ {
1742
+ "epoch": 6.607929515418502,
1743
+ "eval_cer": 26.293375213508654,
1744
+ "eval_loss": 0.7888639569282532,
1745
+ "eval_runtime": 1700.1004,
1746
+ "eval_samples_per_second": 6.224,
1747
+ "eval_steps_per_second": 1.556,
1748
+ "eval_wer": 86.31777463460631,
1749
+ "step": 6000
1750
+ },
1751
+ {
1752
+ "epoch": 6.635462555066079,
1753
+ "grad_norm": 0.8144319653511047,
1754
+ "learning_rate": 1.4333333333333334e-05,
1755
+ "loss": 0.0867,
1756
+ "step": 6025
1757
+ },
1758
+ {
1759
+ "epoch": 6.6629955947136565,
1760
+ "grad_norm": 0.3316783607006073,
1761
+ "learning_rate": 1.430769230769231e-05,
1762
+ "loss": 0.1343,
1763
+ "step": 6050
1764
+ },
1765
+ {
1766
+ "epoch": 6.690528634361233,
1767
+ "grad_norm": 0.6257611513137817,
1768
+ "learning_rate": 1.4282051282051283e-05,
1769
+ "loss": 0.141,
1770
+ "step": 6075
1771
+ },
1772
+ {
1773
+ "epoch": 6.71806167400881,
1774
+ "grad_norm": 0.6132906079292297,
1775
+ "learning_rate": 1.4256410256410258e-05,
1776
+ "loss": 0.1405,
1777
+ "step": 6100
1778
+ },
1779
+ {
1780
+ "epoch": 6.745594713656388,
1781
+ "grad_norm": 0.4126946032047272,
1782
+ "learning_rate": 1.4230769230769232e-05,
1783
+ "loss": 0.125,
1784
+ "step": 6125
1785
+ },
1786
+ {
1787
+ "epoch": 6.773127753303965,
1788
+ "grad_norm": 0.5601705312728882,
1789
+ "learning_rate": 1.4205128205128207e-05,
1790
+ "loss": 0.109,
1791
+ "step": 6150
1792
+ },
1793
+ {
1794
+ "epoch": 6.8006607929515415,
1795
+ "grad_norm": 0.51097571849823,
1796
+ "learning_rate": 1.4179487179487181e-05,
1797
+ "loss": 0.1227,
1798
+ "step": 6175
1799
+ },
1800
+ {
1801
+ "epoch": 6.828193832599119,
1802
+ "grad_norm": 0.557555615901947,
1803
+ "learning_rate": 1.4153846153846156e-05,
1804
+ "loss": 0.1051,
1805
+ "step": 6200
1806
+ },
1807
+ {
1808
+ "epoch": 6.855726872246696,
1809
+ "grad_norm": 0.602931797504425,
1810
+ "learning_rate": 1.412820512820513e-05,
1811
+ "loss": 0.1323,
1812
+ "step": 6225
1813
+ },
1814
+ {
1815
+ "epoch": 6.883259911894273,
1816
+ "grad_norm": 0.4400341212749481,
1817
+ "learning_rate": 1.4102564102564105e-05,
1818
+ "loss": 0.1118,
1819
+ "step": 6250
1820
+ },
1821
+ {
1822
+ "epoch": 6.9107929515418505,
1823
+ "grad_norm": 0.8456242084503174,
1824
+ "learning_rate": 1.4076923076923079e-05,
1825
+ "loss": 0.093,
1826
+ "step": 6275
1827
+ },
1828
+ {
1829
+ "epoch": 6.938325991189427,
1830
+ "grad_norm": 0.34682753682136536,
1831
+ "learning_rate": 1.405128205128205e-05,
1832
+ "loss": 0.1108,
1833
+ "step": 6300
1834
+ },
1835
+ {
1836
+ "epoch": 6.965859030837004,
1837
+ "grad_norm": 0.5863762497901917,
1838
+ "learning_rate": 1.4025641025641026e-05,
1839
+ "loss": 0.1206,
1840
+ "step": 6325
1841
+ },
1842
+ {
1843
+ "epoch": 6.993392070484582,
1844
+ "grad_norm": 0.4746488332748413,
1845
+ "learning_rate": 1.4e-05,
1846
+ "loss": 0.1128,
1847
+ "step": 6350
1848
+ },
1849
+ {
1850
+ "epoch": 7.020925110132159,
1851
+ "grad_norm": 0.19997574388980865,
1852
+ "learning_rate": 1.3974358974358975e-05,
1853
+ "loss": 0.0823,
1854
+ "step": 6375
1855
+ },
1856
+ {
1857
+ "epoch": 7.048458149779735,
1858
+ "grad_norm": 0.44562461972236633,
1859
+ "learning_rate": 1.3948717948717949e-05,
1860
+ "loss": 0.0788,
1861
+ "step": 6400
1862
+ },
1863
+ {
1864
+ "epoch": 7.075991189427313,
1865
+ "grad_norm": 1.034386396408081,
1866
+ "learning_rate": 1.3923076923076924e-05,
1867
+ "loss": 0.0651,
1868
+ "step": 6425
1869
+ },
1870
+ {
1871
+ "epoch": 7.10352422907489,
1872
+ "grad_norm": 0.4024251103401184,
1873
+ "learning_rate": 1.3897435897435898e-05,
1874
+ "loss": 0.0603,
1875
+ "step": 6450
1876
+ },
1877
+ {
1878
+ "epoch": 7.131057268722467,
1879
+ "grad_norm": 0.2884047329425812,
1880
+ "learning_rate": 1.3871794871794873e-05,
1881
+ "loss": 0.0759,
1882
+ "step": 6475
1883
+ },
1884
+ {
1885
+ "epoch": 7.158590308370044,
1886
+ "grad_norm": 0.30277690291404724,
1887
+ "learning_rate": 1.3846153846153847e-05,
1888
+ "loss": 0.0789,
1889
+ "step": 6500
1890
+ },
1891
+ {
1892
+ "epoch": 7.186123348017621,
1893
+ "grad_norm": 0.5528630614280701,
1894
+ "learning_rate": 1.3820512820512822e-05,
1895
+ "loss": 0.0687,
1896
+ "step": 6525
1897
+ },
1898
+ {
1899
+ "epoch": 7.213656387665198,
1900
+ "grad_norm": 0.852532684803009,
1901
+ "learning_rate": 1.3794871794871796e-05,
1902
+ "loss": 0.0733,
1903
+ "step": 6550
1904
+ },
1905
+ {
1906
+ "epoch": 7.241189427312776,
1907
+ "grad_norm": 0.5282613039016724,
1908
+ "learning_rate": 1.3769230769230771e-05,
1909
+ "loss": 0.0793,
1910
+ "step": 6575
1911
+ },
1912
+ {
1913
+ "epoch": 7.2687224669603525,
1914
+ "grad_norm": 0.4679343104362488,
1915
+ "learning_rate": 1.3743589743589745e-05,
1916
+ "loss": 0.0734,
1917
+ "step": 6600
1918
+ },
1919
+ {
1920
+ "epoch": 7.296255506607929,
1921
+ "grad_norm": 0.30845746397972107,
1922
+ "learning_rate": 1.3717948717948718e-05,
1923
+ "loss": 0.0871,
1924
+ "step": 6625
1925
+ },
1926
+ {
1927
+ "epoch": 7.323788546255507,
1928
+ "grad_norm": 0.3263518810272217,
1929
+ "learning_rate": 1.3692307692307694e-05,
1930
+ "loss": 0.0774,
1931
+ "step": 6650
1932
+ },
1933
+ {
1934
+ "epoch": 7.351321585903084,
1935
+ "grad_norm": 0.6020768284797668,
1936
+ "learning_rate": 1.3666666666666667e-05,
1937
+ "loss": 0.0869,
1938
+ "step": 6675
1939
+ },
1940
+ {
1941
+ "epoch": 7.378854625550661,
1942
+ "grad_norm": 0.23268386721611023,
1943
+ "learning_rate": 1.3641025641025643e-05,
1944
+ "loss": 0.0673,
1945
+ "step": 6700
1946
+ },
1947
+ {
1948
+ "epoch": 7.406387665198238,
1949
+ "grad_norm": 0.34103459119796753,
1950
+ "learning_rate": 1.3615384615384616e-05,
1951
+ "loss": 0.0621,
1952
+ "step": 6725
1953
+ },
1954
+ {
1955
+ "epoch": 7.433920704845815,
1956
+ "grad_norm": 0.44131579995155334,
1957
+ "learning_rate": 1.3589743589743592e-05,
1958
+ "loss": 0.0752,
1959
+ "step": 6750
1960
+ },
1961
+ {
1962
+ "epoch": 7.461453744493392,
1963
+ "grad_norm": 0.41322773694992065,
1964
+ "learning_rate": 1.3564102564102565e-05,
1965
+ "loss": 0.0879,
1966
+ "step": 6775
1967
+ },
1968
+ {
1969
+ "epoch": 7.48898678414097,
1970
+ "grad_norm": 0.2960795760154724,
1971
+ "learning_rate": 1.353846153846154e-05,
1972
+ "loss": 0.0784,
1973
+ "step": 6800
1974
+ },
1975
+ {
1976
+ "epoch": 7.516519823788546,
1977
+ "grad_norm": 0.3674839735031128,
1978
+ "learning_rate": 1.3512820512820514e-05,
1979
+ "loss": 0.0745,
1980
+ "step": 6825
1981
+ },
1982
+ {
1983
+ "epoch": 7.544052863436123,
1984
+ "grad_norm": 0.16305261850357056,
1985
+ "learning_rate": 1.348717948717949e-05,
1986
+ "loss": 0.0794,
1987
+ "step": 6850
1988
+ },
1989
+ {
1990
+ "epoch": 7.5715859030837,
1991
+ "grad_norm": 0.4451794922351837,
1992
+ "learning_rate": 1.3461538461538463e-05,
1993
+ "loss": 0.0631,
1994
+ "step": 6875
1995
+ },
1996
+ {
1997
+ "epoch": 7.599118942731278,
1998
+ "grad_norm": 0.507660448551178,
1999
+ "learning_rate": 1.3435897435897435e-05,
2000
+ "loss": 0.0895,
2001
+ "step": 6900
2002
+ },
2003
+ {
2004
+ "epoch": 7.6266519823788546,
2005
+ "grad_norm": 0.2863459587097168,
2006
+ "learning_rate": 1.341025641025641e-05,
2007
+ "loss": 0.0729,
2008
+ "step": 6925
2009
+ },
2010
+ {
2011
+ "epoch": 7.654185022026431,
2012
+ "grad_norm": 0.5745854377746582,
2013
+ "learning_rate": 1.3384615384615384e-05,
2014
+ "loss": 0.0995,
2015
+ "step": 6950
2016
+ },
2017
+ {
2018
+ "epoch": 7.681718061674009,
2019
+ "grad_norm": 0.42818760871887207,
2020
+ "learning_rate": 1.335897435897436e-05,
2021
+ "loss": 0.0932,
2022
+ "step": 6975
2023
+ },
2024
+ {
2025
+ "epoch": 7.709251101321586,
2026
+ "grad_norm": 0.6487565636634827,
2027
+ "learning_rate": 1.3333333333333333e-05,
2028
+ "loss": 0.0682,
2029
+ "step": 7000
2030
+ },
2031
+ {
2032
+ "epoch": 7.709251101321586,
2033
+ "eval_cer": 27.35776598305687,
2034
+ "eval_loss": 0.7991169095039368,
2035
+ "eval_runtime": 1721.4291,
2036
+ "eval_samples_per_second": 6.147,
2037
+ "eval_steps_per_second": 1.537,
2038
+ "eval_wer": 84.45073078736445,
2039
+ "step": 7000
2040
+ },
2041
+ {
2042
+ "epoch": 7.736784140969163,
2043
+ "grad_norm": 0.7766274809837341,
2044
+ "learning_rate": 1.3307692307692309e-05,
2045
+ "loss": 0.0903,
2046
+ "step": 7025
2047
+ },
2048
+ {
2049
+ "epoch": 7.76431718061674,
2050
+ "grad_norm": 0.41921526193618774,
2051
+ "learning_rate": 1.3282051282051282e-05,
2052
+ "loss": 0.087,
2053
+ "step": 7050
2054
+ },
2055
+ {
2056
+ "epoch": 7.791850220264317,
2057
+ "grad_norm": 0.5744315385818481,
2058
+ "learning_rate": 1.3256410256410258e-05,
2059
+ "loss": 0.0823,
2060
+ "step": 7075
2061
+ },
2062
+ {
2063
+ "epoch": 7.819383259911894,
2064
+ "grad_norm": 0.7453629970550537,
2065
+ "learning_rate": 1.3230769230769231e-05,
2066
+ "loss": 0.0752,
2067
+ "step": 7100
2068
+ },
2069
+ {
2070
+ "epoch": 7.846916299559472,
2071
+ "grad_norm": 0.4299808442592621,
2072
+ "learning_rate": 1.3205128205128207e-05,
2073
+ "loss": 0.0725,
2074
+ "step": 7125
2075
+ },
2076
+ {
2077
+ "epoch": 7.8744493392070485,
2078
+ "grad_norm": 0.6843218207359314,
2079
+ "learning_rate": 1.317948717948718e-05,
2080
+ "loss": 0.0956,
2081
+ "step": 7150
2082
+ },
2083
+ {
2084
+ "epoch": 7.901982378854625,
2085
+ "grad_norm": 0.7576065063476562,
2086
+ "learning_rate": 1.3153846153846156e-05,
2087
+ "loss": 0.0878,
2088
+ "step": 7175
2089
+ },
2090
+ {
2091
+ "epoch": 7.929515418502203,
2092
+ "grad_norm": 0.5355419516563416,
2093
+ "learning_rate": 1.312820512820513e-05,
2094
+ "loss": 0.1018,
2095
+ "step": 7200
2096
+ },
2097
+ {
2098
+ "epoch": 7.95704845814978,
2099
+ "grad_norm": 0.5288059711456299,
2100
+ "learning_rate": 1.3102564102564103e-05,
2101
+ "loss": 0.0858,
2102
+ "step": 7225
2103
+ },
2104
+ {
2105
+ "epoch": 7.984581497797357,
2106
+ "grad_norm": 0.4639795124530792,
2107
+ "learning_rate": 1.3076923076923078e-05,
2108
+ "loss": 0.0867,
2109
+ "step": 7250
2110
+ },
2111
+ {
2112
+ "epoch": 8.012114537444933,
2113
+ "grad_norm": 0.4118720591068268,
2114
+ "learning_rate": 1.3051282051282052e-05,
2115
+ "loss": 0.0966,
2116
+ "step": 7275
2117
+ },
2118
+ {
2119
+ "epoch": 8.039647577092511,
2120
+ "grad_norm": 0.2552703320980072,
2121
+ "learning_rate": 1.3025641025641027e-05,
2122
+ "loss": 0.0644,
2123
+ "step": 7300
2124
+ },
2125
+ {
2126
+ "epoch": 8.067180616740089,
2127
+ "grad_norm": 0.4209102690219879,
2128
+ "learning_rate": 1.3000000000000001e-05,
2129
+ "loss": 0.0534,
2130
+ "step": 7325
2131
+ },
2132
+ {
2133
+ "epoch": 8.094713656387665,
2134
+ "grad_norm": 0.4842354655265808,
2135
+ "learning_rate": 1.2974358974358976e-05,
2136
+ "loss": 0.0567,
2137
+ "step": 7350
2138
+ },
2139
+ {
2140
+ "epoch": 8.122246696035242,
2141
+ "grad_norm": 0.5336529612541199,
2142
+ "learning_rate": 1.294871794871795e-05,
2143
+ "loss": 0.0581,
2144
+ "step": 7375
2145
+ },
2146
+ {
2147
+ "epoch": 8.14977973568282,
2148
+ "grad_norm": 0.3102397918701172,
2149
+ "learning_rate": 1.2923076923076925e-05,
2150
+ "loss": 0.0502,
2151
+ "step": 7400
2152
+ },
2153
+ {
2154
+ "epoch": 8.177312775330396,
2155
+ "grad_norm": 0.29148268699645996,
2156
+ "learning_rate": 1.2897435897435899e-05,
2157
+ "loss": 0.0494,
2158
+ "step": 7425
2159
+ },
2160
+ {
2161
+ "epoch": 8.204845814977974,
2162
+ "grad_norm": 0.11677376180887222,
2163
+ "learning_rate": 1.2871794871794874e-05,
2164
+ "loss": 0.0428,
2165
+ "step": 7450
2166
+ },
2167
+ {
2168
+ "epoch": 8.232378854625551,
2169
+ "grad_norm": 0.5054081082344055,
2170
+ "learning_rate": 1.2846153846153848e-05,
2171
+ "loss": 0.0613,
2172
+ "step": 7475
2173
+ },
2174
+ {
2175
+ "epoch": 8.259911894273127,
2176
+ "grad_norm": 0.16621895134449005,
2177
+ "learning_rate": 1.2820512820512823e-05,
2178
+ "loss": 0.0465,
2179
+ "step": 7500
2180
+ },
2181
+ {
2182
+ "epoch": 8.287444933920705,
2183
+ "grad_norm": 0.6071426272392273,
2184
+ "learning_rate": 1.2794871794871795e-05,
2185
+ "loss": 0.0466,
2186
+ "step": 7525
2187
+ },
2188
+ {
2189
+ "epoch": 8.314977973568283,
2190
+ "grad_norm": 0.4491996765136719,
2191
+ "learning_rate": 1.2769230769230769e-05,
2192
+ "loss": 0.0504,
2193
+ "step": 7550
2194
+ },
2195
+ {
2196
+ "epoch": 8.342511013215859,
2197
+ "grad_norm": 0.5606942176818848,
2198
+ "learning_rate": 1.2743589743589744e-05,
2199
+ "loss": 0.0493,
2200
+ "step": 7575
2201
+ },
2202
+ {
2203
+ "epoch": 8.370044052863436,
2204
+ "grad_norm": 0.6338093280792236,
2205
+ "learning_rate": 1.2717948717948718e-05,
2206
+ "loss": 0.0437,
2207
+ "step": 7600
2208
+ },
2209
+ {
2210
+ "epoch": 8.397577092511014,
2211
+ "grad_norm": 0.50752192735672,
2212
+ "learning_rate": 1.2692307692307693e-05,
2213
+ "loss": 0.0558,
2214
+ "step": 7625
2215
+ },
2216
+ {
2217
+ "epoch": 8.42511013215859,
2218
+ "grad_norm": 0.16351301968097687,
2219
+ "learning_rate": 1.2666666666666667e-05,
2220
+ "loss": 0.0479,
2221
+ "step": 7650
2222
+ },
2223
+ {
2224
+ "epoch": 8.452643171806168,
2225
+ "grad_norm": 0.392193078994751,
2226
+ "learning_rate": 1.2641025641025642e-05,
2227
+ "loss": 0.0542,
2228
+ "step": 7675
2229
+ },
2230
+ {
2231
+ "epoch": 8.480176211453745,
2232
+ "grad_norm": 0.23874300718307495,
2233
+ "learning_rate": 1.2615384615384616e-05,
2234
+ "loss": 0.0516,
2235
+ "step": 7700
2236
+ },
2237
+ {
2238
+ "epoch": 8.507709251101321,
2239
+ "grad_norm": 0.31626826524734497,
2240
+ "learning_rate": 1.2589743589743591e-05,
2241
+ "loss": 0.0486,
2242
+ "step": 7725
2243
+ },
2244
+ {
2245
+ "epoch": 8.535242290748899,
2246
+ "grad_norm": 0.5571256875991821,
2247
+ "learning_rate": 1.2564102564102565e-05,
2248
+ "loss": 0.0665,
2249
+ "step": 7750
2250
+ },
2251
+ {
2252
+ "epoch": 8.562775330396477,
2253
+ "grad_norm": 0.3961975872516632,
2254
+ "learning_rate": 1.253846153846154e-05,
2255
+ "loss": 0.0587,
2256
+ "step": 7775
2257
+ },
2258
+ {
2259
+ "epoch": 8.590308370044053,
2260
+ "grad_norm": 0.33032137155532837,
2261
+ "learning_rate": 1.2512820512820514e-05,
2262
+ "loss": 0.0631,
2263
+ "step": 7800
2264
+ },
2265
+ {
2266
+ "epoch": 8.61784140969163,
2267
+ "grad_norm": 0.1791045367717743,
2268
+ "learning_rate": 1.2487179487179487e-05,
2269
+ "loss": 0.0669,
2270
+ "step": 7825
2271
+ },
2272
+ {
2273
+ "epoch": 8.645374449339208,
2274
+ "grad_norm": 0.3944324851036072,
2275
+ "learning_rate": 1.2461538461538463e-05,
2276
+ "loss": 0.0439,
2277
+ "step": 7850
2278
+ },
2279
+ {
2280
+ "epoch": 8.672907488986784,
2281
+ "grad_norm": 0.13560180366039276,
2282
+ "learning_rate": 1.2435897435897436e-05,
2283
+ "loss": 0.0403,
2284
+ "step": 7875
2285
+ },
2286
+ {
2287
+ "epoch": 8.700440528634362,
2288
+ "grad_norm": 0.4744511842727661,
2289
+ "learning_rate": 1.2410256410256412e-05,
2290
+ "loss": 0.0595,
2291
+ "step": 7900
2292
+ },
2293
+ {
2294
+ "epoch": 8.72797356828194,
2295
+ "grad_norm": 0.5268675684928894,
2296
+ "learning_rate": 1.2384615384615385e-05,
2297
+ "loss": 0.0568,
2298
+ "step": 7925
2299
+ },
2300
+ {
2301
+ "epoch": 8.755506607929515,
2302
+ "grad_norm": 0.33561986684799194,
2303
+ "learning_rate": 1.235897435897436e-05,
2304
+ "loss": 0.057,
2305
+ "step": 7950
2306
+ },
2307
+ {
2308
+ "epoch": 8.783039647577093,
2309
+ "grad_norm": 0.23346789181232452,
2310
+ "learning_rate": 1.2333333333333334e-05,
2311
+ "loss": 0.05,
2312
+ "step": 7975
2313
+ },
2314
+ {
2315
+ "epoch": 8.810572687224669,
2316
+ "grad_norm": 0.5446615815162659,
2317
+ "learning_rate": 1.230769230769231e-05,
2318
+ "loss": 0.0647,
2319
+ "step": 8000
2320
+ },
2321
+ {
2322
+ "epoch": 8.810572687224669,
2323
+ "eval_cer": 25.62619650820217,
2324
+ "eval_loss": 0.8131716847419739,
2325
+ "eval_runtime": 1709.9866,
2326
+ "eval_samples_per_second": 6.188,
2327
+ "eval_steps_per_second": 1.547,
2328
+ "eval_wer": 84.64875058934464,
2329
+ "step": 8000
2330
+ },
2331
+ {
2332
+ "epoch": 8.838105726872246,
2333
+ "grad_norm": 0.37270498275756836,
2334
+ "learning_rate": 1.2282051282051283e-05,
2335
+ "loss": 0.0486,
2336
+ "step": 8025
2337
+ },
2338
+ {
2339
+ "epoch": 8.865638766519824,
2340
+ "grad_norm": 0.4193556308746338,
2341
+ "learning_rate": 1.2256410256410259e-05,
2342
+ "loss": 0.0544,
2343
+ "step": 8050
2344
+ },
2345
+ {
2346
+ "epoch": 8.8931718061674,
2347
+ "grad_norm": 0.4220805764198303,
2348
+ "learning_rate": 1.2230769230769232e-05,
2349
+ "loss": 0.0555,
2350
+ "step": 8075
2351
+ },
2352
+ {
2353
+ "epoch": 8.920704845814978,
2354
+ "grad_norm": 0.12924405932426453,
2355
+ "learning_rate": 1.2205128205128208e-05,
2356
+ "loss": 0.0654,
2357
+ "step": 8100
2358
+ },
2359
+ {
2360
+ "epoch": 8.948237885462555,
2361
+ "grad_norm": 0.2983054518699646,
2362
+ "learning_rate": 1.217948717948718e-05,
2363
+ "loss": 0.0481,
2364
+ "step": 8125
2365
+ },
2366
+ {
2367
+ "epoch": 8.975770925110131,
2368
+ "grad_norm": 0.5196457505226135,
2369
+ "learning_rate": 1.2153846153846153e-05,
2370
+ "loss": 0.0455,
2371
+ "step": 8150
2372
+ },
2373
+ {
2374
+ "epoch": 9.003303964757709,
2375
+ "grad_norm": 0.1929197460412979,
2376
+ "learning_rate": 1.2128205128205129e-05,
2377
+ "loss": 0.0587,
2378
+ "step": 8175
2379
+ },
2380
+ {
2381
+ "epoch": 9.030837004405287,
2382
+ "grad_norm": 0.6114550828933716,
2383
+ "learning_rate": 1.2102564102564102e-05,
2384
+ "loss": 0.0375,
2385
+ "step": 8200
2386
+ },
2387
+ {
2388
+ "epoch": 9.058370044052863,
2389
+ "grad_norm": 0.3071931004524231,
2390
+ "learning_rate": 1.2076923076923078e-05,
2391
+ "loss": 0.032,
2392
+ "step": 8225
2393
+ },
2394
+ {
2395
+ "epoch": 9.08590308370044,
2396
+ "grad_norm": 0.3815561532974243,
2397
+ "learning_rate": 1.2051282051282051e-05,
2398
+ "loss": 0.0297,
2399
+ "step": 8250
2400
+ },
2401
+ {
2402
+ "epoch": 9.113436123348018,
2403
+ "grad_norm": 0.3786160349845886,
2404
+ "learning_rate": 1.2025641025641027e-05,
2405
+ "loss": 0.0357,
2406
+ "step": 8275
2407
+ },
2408
+ {
2409
+ "epoch": 9.140969162995594,
2410
+ "grad_norm": 0.32819467782974243,
2411
+ "learning_rate": 1.2e-05,
2412
+ "loss": 0.0362,
2413
+ "step": 8300
2414
+ },
2415
+ {
2416
+ "epoch": 9.168502202643172,
2417
+ "grad_norm": 0.2228395938873291,
2418
+ "learning_rate": 1.1974358974358976e-05,
2419
+ "loss": 0.0259,
2420
+ "step": 8325
2421
+ },
2422
+ {
2423
+ "epoch": 9.19603524229075,
2424
+ "grad_norm": 0.3630577325820923,
2425
+ "learning_rate": 1.194871794871795e-05,
2426
+ "loss": 0.0388,
2427
+ "step": 8350
2428
+ },
2429
+ {
2430
+ "epoch": 9.223568281938325,
2431
+ "grad_norm": 0.24628213047981262,
2432
+ "learning_rate": 1.1923076923076925e-05,
2433
+ "loss": 0.0344,
2434
+ "step": 8375
2435
+ },
2436
+ {
2437
+ "epoch": 9.251101321585903,
2438
+ "grad_norm": 0.4021029472351074,
2439
+ "learning_rate": 1.1897435897435898e-05,
2440
+ "loss": 0.0322,
2441
+ "step": 8400
2442
+ },
2443
+ {
2444
+ "epoch": 9.27863436123348,
2445
+ "grad_norm": 0.1852307766675949,
2446
+ "learning_rate": 1.1871794871794872e-05,
2447
+ "loss": 0.0327,
2448
+ "step": 8425
2449
+ },
2450
+ {
2451
+ "epoch": 9.306167400881057,
2452
+ "grad_norm": 0.8122808337211609,
2453
+ "learning_rate": 1.1846153846153847e-05,
2454
+ "loss": 0.0373,
2455
+ "step": 8450
2456
+ },
2457
+ {
2458
+ "epoch": 9.333700440528634,
2459
+ "grad_norm": 0.4952065348625183,
2460
+ "learning_rate": 1.1820512820512821e-05,
2461
+ "loss": 0.0344,
2462
+ "step": 8475
2463
+ },
2464
+ {
2465
+ "epoch": 9.361233480176212,
2466
+ "grad_norm": 0.2687460482120514,
2467
+ "learning_rate": 1.1794871794871796e-05,
2468
+ "loss": 0.0449,
2469
+ "step": 8500
2470
+ },
2471
+ {
2472
+ "epoch": 9.388766519823788,
2473
+ "grad_norm": 0.46548476815223694,
2474
+ "learning_rate": 1.176923076923077e-05,
2475
+ "loss": 0.0347,
2476
+ "step": 8525
2477
+ },
2478
+ {
2479
+ "epoch": 9.416299559471366,
2480
+ "grad_norm": 0.271555632352829,
2481
+ "learning_rate": 1.1743589743589745e-05,
2482
+ "loss": 0.0372,
2483
+ "step": 8550
2484
+ },
2485
+ {
2486
+ "epoch": 9.443832599118943,
2487
+ "grad_norm": 0.2767009735107422,
2488
+ "learning_rate": 1.1717948717948719e-05,
2489
+ "loss": 0.0341,
2490
+ "step": 8575
2491
+ },
2492
+ {
2493
+ "epoch": 9.47136563876652,
2494
+ "grad_norm": 0.5092193484306335,
2495
+ "learning_rate": 1.1692307692307694e-05,
2496
+ "loss": 0.0344,
2497
+ "step": 8600
2498
+ },
2499
+ {
2500
+ "epoch": 9.498898678414097,
2501
+ "grad_norm": 0.4733143448829651,
2502
+ "learning_rate": 1.1666666666666668e-05,
2503
+ "loss": 0.0442,
2504
+ "step": 8625
2505
+ },
2506
+ {
2507
+ "epoch": 9.526431718061675,
2508
+ "grad_norm": 0.3013637661933899,
2509
+ "learning_rate": 1.1641025641025643e-05,
2510
+ "loss": 0.0437,
2511
+ "step": 8650
2512
+ },
2513
+ {
2514
+ "epoch": 9.55396475770925,
2515
+ "grad_norm": 0.23593106865882874,
2516
+ "learning_rate": 1.1615384615384617e-05,
2517
+ "loss": 0.0345,
2518
+ "step": 8675
2519
+ },
2520
+ {
2521
+ "epoch": 9.581497797356828,
2522
+ "grad_norm": 0.42476484179496765,
2523
+ "learning_rate": 1.1589743589743592e-05,
2524
+ "loss": 0.033,
2525
+ "step": 8700
2526
+ },
2527
+ {
2528
+ "epoch": 9.609030837004406,
2529
+ "grad_norm": 0.1042499765753746,
2530
+ "learning_rate": 1.1564102564102566e-05,
2531
+ "loss": 0.0452,
2532
+ "step": 8725
2533
+ },
2534
+ {
2535
+ "epoch": 9.636563876651982,
2536
+ "grad_norm": 0.4548315405845642,
2537
+ "learning_rate": 1.1538461538461538e-05,
2538
+ "loss": 0.049,
2539
+ "step": 8750
2540
+ },
2541
+ {
2542
+ "epoch": 9.66409691629956,
2543
+ "grad_norm": 0.749373733997345,
2544
+ "learning_rate": 1.1512820512820513e-05,
2545
+ "loss": 0.0397,
2546
+ "step": 8775
2547
+ },
2548
+ {
2549
+ "epoch": 9.691629955947137,
2550
+ "grad_norm": 0.24911393225193024,
2551
+ "learning_rate": 1.1487179487179487e-05,
2552
+ "loss": 0.0327,
2553
+ "step": 8800
2554
+ },
2555
+ {
2556
+ "epoch": 9.719162995594713,
2557
+ "grad_norm": 0.3840325176715851,
2558
+ "learning_rate": 1.1461538461538462e-05,
2559
+ "loss": 0.0378,
2560
+ "step": 8825
2561
+ },
2562
+ {
2563
+ "epoch": 9.746696035242291,
2564
+ "grad_norm": 0.3074113726615906,
2565
+ "learning_rate": 1.1435897435897436e-05,
2566
+ "loss": 0.0424,
2567
+ "step": 8850
2568
+ },
2569
+ {
2570
+ "epoch": 9.774229074889869,
2571
+ "grad_norm": 0.3504096269607544,
2572
+ "learning_rate": 1.1410256410256411e-05,
2573
+ "loss": 0.0408,
2574
+ "step": 8875
2575
+ },
2576
+ {
2577
+ "epoch": 9.801762114537445,
2578
+ "grad_norm": 0.7079716324806213,
2579
+ "learning_rate": 1.1384615384615385e-05,
2580
+ "loss": 0.0362,
2581
+ "step": 8900
2582
+ },
2583
+ {
2584
+ "epoch": 9.829295154185022,
2585
+ "grad_norm": 0.46274736523628235,
2586
+ "learning_rate": 1.135897435897436e-05,
2587
+ "loss": 0.0444,
2588
+ "step": 8925
2589
+ },
2590
+ {
2591
+ "epoch": 9.8568281938326,
2592
+ "grad_norm": 0.30366581678390503,
2593
+ "learning_rate": 1.1333333333333334e-05,
2594
+ "loss": 0.0411,
2595
+ "step": 8950
2596
+ },
2597
+ {
2598
+ "epoch": 9.884361233480176,
2599
+ "grad_norm": 0.394626647233963,
2600
+ "learning_rate": 1.1307692307692309e-05,
2601
+ "loss": 0.0347,
2602
+ "step": 8975
2603
+ },
2604
+ {
2605
+ "epoch": 9.911894273127754,
2606
+ "grad_norm": 0.2617024779319763,
2607
+ "learning_rate": 1.1282051282051283e-05,
2608
+ "loss": 0.0343,
2609
+ "step": 9000
2610
+ },
2611
+ {
2612
+ "epoch": 9.911894273127754,
2613
+ "eval_cer": 24.69478293764974,
2614
+ "eval_loss": 0.8281993865966797,
2615
+ "eval_runtime": 1707.5191,
2616
+ "eval_samples_per_second": 6.197,
2617
+ "eval_steps_per_second": 1.55,
2618
+ "eval_wer": 84.82791136256482,
2619
+ "step": 9000
2620
+ },
2621
+ {
2622
+ "epoch": 9.939427312775331,
2623
+ "grad_norm": 0.5920683145523071,
2624
+ "learning_rate": 1.1256410256410258e-05,
2625
+ "loss": 0.0415,
2626
+ "step": 9025
2627
+ },
2628
+ {
2629
+ "epoch": 9.966960352422907,
2630
+ "grad_norm": 0.5178209543228149,
2631
+ "learning_rate": 1.1230769230769232e-05,
2632
+ "loss": 0.0385,
2633
+ "step": 9050
2634
+ },
2635
+ {
2636
+ "epoch": 9.994493392070485,
2637
+ "grad_norm": 0.33022773265838623,
2638
+ "learning_rate": 1.1205128205128205e-05,
2639
+ "loss": 0.038,
2640
+ "step": 9075
2641
+ },
2642
+ {
2643
+ "epoch": 10.022026431718063,
2644
+ "grad_norm": 0.5157202482223511,
2645
+ "learning_rate": 1.117948717948718e-05,
2646
+ "loss": 0.0304,
2647
+ "step": 9100
2648
+ },
2649
+ {
2650
+ "epoch": 10.049559471365638,
2651
+ "grad_norm": 0.28111565113067627,
2652
+ "learning_rate": 1.1153846153846154e-05,
2653
+ "loss": 0.0271,
2654
+ "step": 9125
2655
+ },
2656
+ {
2657
+ "epoch": 10.077092511013216,
2658
+ "grad_norm": 0.3325743079185486,
2659
+ "learning_rate": 1.112820512820513e-05,
2660
+ "loss": 0.0348,
2661
+ "step": 9150
2662
+ },
2663
+ {
2664
+ "epoch": 10.104625550660794,
2665
+ "grad_norm": 0.39298519492149353,
2666
+ "learning_rate": 1.1102564102564103e-05,
2667
+ "loss": 0.0221,
2668
+ "step": 9175
2669
+ },
2670
+ {
2671
+ "epoch": 10.13215859030837,
2672
+ "grad_norm": 0.7207234501838684,
2673
+ "learning_rate": 1.1076923076923079e-05,
2674
+ "loss": 0.0316,
2675
+ "step": 9200
2676
+ },
2677
+ {
2678
+ "epoch": 10.159691629955947,
2679
+ "grad_norm": 0.12185712903738022,
2680
+ "learning_rate": 1.1051282051282052e-05,
2681
+ "loss": 0.0333,
2682
+ "step": 9225
2683
+ },
2684
+ {
2685
+ "epoch": 10.187224669603523,
2686
+ "grad_norm": 0.18927183747291565,
2687
+ "learning_rate": 1.1025641025641028e-05,
2688
+ "loss": 0.0317,
2689
+ "step": 9250
2690
+ },
2691
+ {
2692
+ "epoch": 10.214757709251101,
2693
+ "grad_norm": 0.5243281722068787,
2694
+ "learning_rate": 1.1000000000000001e-05,
2695
+ "loss": 0.0238,
2696
+ "step": 9275
2697
+ },
2698
+ {
2699
+ "epoch": 10.242290748898679,
2700
+ "grad_norm": 0.25754281878471375,
2701
+ "learning_rate": 1.0974358974358977e-05,
2702
+ "loss": 0.0265,
2703
+ "step": 9300
2704
+ },
2705
+ {
2706
+ "epoch": 10.269823788546255,
2707
+ "grad_norm": 0.3999498188495636,
2708
+ "learning_rate": 1.094871794871795e-05,
2709
+ "loss": 0.0271,
2710
+ "step": 9325
2711
+ },
2712
+ {
2713
+ "epoch": 10.297356828193832,
2714
+ "grad_norm": 0.5361197590827942,
2715
+ "learning_rate": 1.0923076923076922e-05,
2716
+ "loss": 0.0299,
2717
+ "step": 9350
2718
+ },
2719
+ {
2720
+ "epoch": 10.32488986784141,
2721
+ "grad_norm": 0.4799012839794159,
2722
+ "learning_rate": 1.0897435897435898e-05,
2723
+ "loss": 0.0337,
2724
+ "step": 9375
2725
+ },
2726
+ {
2727
+ "epoch": 10.352422907488986,
2728
+ "grad_norm": 0.29171785712242126,
2729
+ "learning_rate": 1.0871794871794871e-05,
2730
+ "loss": 0.0194,
2731
+ "step": 9400
2732
+ },
2733
+ {
2734
+ "epoch": 10.379955947136564,
2735
+ "grad_norm": 0.158452108502388,
2736
+ "learning_rate": 1.0846153846153847e-05,
2737
+ "loss": 0.0293,
2738
+ "step": 9425
2739
+ },
2740
+ {
2741
+ "epoch": 10.407488986784141,
2742
+ "grad_norm": 0.1673414409160614,
2743
+ "learning_rate": 1.082051282051282e-05,
2744
+ "loss": 0.0245,
2745
+ "step": 9450
2746
+ },
2747
+ {
2748
+ "epoch": 10.435022026431717,
2749
+ "grad_norm": 0.4289039075374603,
2750
+ "learning_rate": 1.0794871794871796e-05,
2751
+ "loss": 0.0251,
2752
+ "step": 9475
2753
+ },
2754
+ {
2755
+ "epoch": 10.462555066079295,
2756
+ "grad_norm": 0.43541353940963745,
2757
+ "learning_rate": 1.076923076923077e-05,
2758
+ "loss": 0.0283,
2759
+ "step": 9500
2760
+ },
2761
+ {
2762
+ "epoch": 10.490088105726873,
2763
+ "grad_norm": 0.15916317701339722,
2764
+ "learning_rate": 1.0743589743589745e-05,
2765
+ "loss": 0.0336,
2766
+ "step": 9525
2767
+ },
2768
+ {
2769
+ "epoch": 10.517621145374449,
2770
+ "grad_norm": 0.3281770944595337,
2771
+ "learning_rate": 1.0717948717948718e-05,
2772
+ "loss": 0.0217,
2773
+ "step": 9550
2774
+ },
2775
+ {
2776
+ "epoch": 10.545154185022026,
2777
+ "grad_norm": 0.12852789461612701,
2778
+ "learning_rate": 1.0692307692307694e-05,
2779
+ "loss": 0.0261,
2780
+ "step": 9575
2781
+ },
2782
+ {
2783
+ "epoch": 10.572687224669604,
2784
+ "grad_norm": 0.3133266270160675,
2785
+ "learning_rate": 1.0666666666666667e-05,
2786
+ "loss": 0.0258,
2787
+ "step": 9600
2788
+ },
2789
+ {
2790
+ "epoch": 10.60022026431718,
2791
+ "grad_norm": 0.49409055709838867,
2792
+ "learning_rate": 1.0641025641025643e-05,
2793
+ "loss": 0.0241,
2794
+ "step": 9625
2795
+ },
2796
+ {
2797
+ "epoch": 10.627753303964758,
2798
+ "grad_norm": 0.1980574131011963,
2799
+ "learning_rate": 1.0615384615384616e-05,
2800
+ "loss": 0.0264,
2801
+ "step": 9650
2802
+ },
2803
+ {
2804
+ "epoch": 10.655286343612335,
2805
+ "grad_norm": 0.3089769184589386,
2806
+ "learning_rate": 1.058974358974359e-05,
2807
+ "loss": 0.0301,
2808
+ "step": 9675
2809
+ },
2810
+ {
2811
+ "epoch": 10.682819383259911,
2812
+ "grad_norm": 0.4599588215351105,
2813
+ "learning_rate": 1.0564102564102565e-05,
2814
+ "loss": 0.0297,
2815
+ "step": 9700
2816
+ },
2817
+ {
2818
+ "epoch": 10.710352422907489,
2819
+ "grad_norm": 0.3897559344768524,
2820
+ "learning_rate": 1.0538461538461539e-05,
2821
+ "loss": 0.026,
2822
+ "step": 9725
2823
+ },
2824
+ {
2825
+ "epoch": 10.737885462555067,
2826
+ "grad_norm": 0.26833340525627136,
2827
+ "learning_rate": 1.0512820512820514e-05,
2828
+ "loss": 0.0297,
2829
+ "step": 9750
2830
+ },
2831
+ {
2832
+ "epoch": 10.765418502202643,
2833
+ "grad_norm": 0.1307441145181656,
2834
+ "learning_rate": 1.0487179487179488e-05,
2835
+ "loss": 0.0269,
2836
+ "step": 9775
2837
+ },
2838
+ {
2839
+ "epoch": 10.79295154185022,
2840
+ "grad_norm": 0.5322534441947937,
2841
+ "learning_rate": 1.0461538461538463e-05,
2842
+ "loss": 0.0308,
2843
+ "step": 9800
2844
+ },
2845
+ {
2846
+ "epoch": 10.820484581497798,
2847
+ "grad_norm": 0.42848142981529236,
2848
+ "learning_rate": 1.0435897435897437e-05,
2849
+ "loss": 0.0264,
2850
+ "step": 9825
2851
+ },
2852
+ {
2853
+ "epoch": 10.848017621145374,
2854
+ "grad_norm": 0.24415309727191925,
2855
+ "learning_rate": 1.0410256410256412e-05,
2856
+ "loss": 0.0258,
2857
+ "step": 9850
2858
+ },
2859
+ {
2860
+ "epoch": 10.875550660792952,
2861
+ "grad_norm": 0.2621011734008789,
2862
+ "learning_rate": 1.0384615384615386e-05,
2863
+ "loss": 0.025,
2864
+ "step": 9875
2865
+ },
2866
+ {
2867
+ "epoch": 10.90308370044053,
2868
+ "grad_norm": 0.3474062383174896,
2869
+ "learning_rate": 1.0358974358974361e-05,
2870
+ "loss": 0.0239,
2871
+ "step": 9900
2872
+ },
2873
+ {
2874
+ "epoch": 10.930616740088105,
2875
+ "grad_norm": 0.16342134773731232,
2876
+ "learning_rate": 1.0333333333333335e-05,
2877
+ "loss": 0.0213,
2878
+ "step": 9925
2879
+ },
2880
+ {
2881
+ "epoch": 10.958149779735683,
2882
+ "grad_norm": 0.12468931823968887,
2883
+ "learning_rate": 1.0307692307692307e-05,
2884
+ "loss": 0.0233,
2885
+ "step": 9950
2886
+ },
2887
+ {
2888
+ "epoch": 10.98568281938326,
2889
+ "grad_norm": 0.42761552333831787,
2890
+ "learning_rate": 1.0282051282051282e-05,
2891
+ "loss": 0.0253,
2892
+ "step": 9975
2893
+ },
2894
+ {
2895
+ "epoch": 11.013215859030836,
2896
+ "grad_norm": 0.16973541676998138,
2897
+ "learning_rate": 1.0256410256410256e-05,
2898
+ "loss": 0.0181,
2899
+ "step": 10000
2900
+ },
2901
+ {
2902
+ "epoch": 11.013215859030836,
2903
+ "eval_cer": 24.361766762578384,
2904
+ "eval_loss": 0.8395898342132568,
2905
+ "eval_runtime": 1712.1817,
2906
+ "eval_samples_per_second": 6.18,
2907
+ "eval_steps_per_second": 1.545,
2908
+ "eval_wer": 83.80009429514381,
2909
+ "step": 10000
2910
  }
2911
  ],
2912
  "logging_steps": 25,
 
2926
  "attributes": {}
2927
  }
2928
  },
2929
+ "total_flos": 1.7181431864900977e+20,
2930
  "train_batch_size": 4,
2931
  "trial_name": null,
2932
  "trial_params": null