kiritan commited on
Commit
3c34cd0
·
verified ·
1 Parent(s): f9f0f17

Training in progress, step 15000, checkpoint

Browse files
last-checkpoint/global_step15000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3334ef706136b1577dac6b2d789ff85be8781b111711dd2658201bac647a4ef0
3
+ size 5117197020
last-checkpoint/global_step15000/mp_rank_00_model_states.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1a4a5ec8e6dfded8b6bc8f4b18edbf43f408bd8958cf9a47572e22bc2c25d9ef
3
+ size 859127504
last-checkpoint/latest CHANGED
@@ -1 +1 @@
1
- global_step10000
 
1
+ global_step15000
last-checkpoint/model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d2e18aa6175dc70c57ec1ac7704cdfa7862fdb3d72cd69f59bef3dd34ba288be
3
  size 962205216
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4b11d79fb3db23754b444fc4964b7982434af7a97aa600fcdcde4d9a8a9b3f21
3
  size 962205216
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e451b480b233580c5c6b16cef40a41ba3c2d5da3b6ac8e0c30ef4d8ee0bfacf1
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:63340953913b9f23b1567a89f7ad34314d1dcb47b9a43157322f84f789423e67
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4bfabff5a7af861fca0d4328cbdeeac43000e633dd64effe96ee68fd4be8bd44
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6b94442b72559c9262bb7b2684827bc59deb41027ddc14af8d9ffecb8119b4aa
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": 83.80009429514381,
3
  "best_model_checkpoint": "./iteboshi_temp/checkpoint-10000",
4
- "epoch": 11.013215859030836,
5
  "eval_steps": 1000,
6
- "global_step": 10000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -2907,6 +2907,1456 @@
2907
  "eval_steps_per_second": 1.545,
2908
  "eval_wer": 83.80009429514381,
2909
  "step": 10000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2910
  }
2911
  ],
2912
  "logging_steps": 25,
@@ -2926,7 +4376,7 @@
2926
  "attributes": {}
2927
  }
2928
  },
2929
- "total_flos": 1.7181431864900977e+20,
2930
  "train_batch_size": 4,
2931
  "trial_name": null,
2932
  "trial_params": null
 
1
  {
2
  "best_metric": 83.80009429514381,
3
  "best_model_checkpoint": "./iteboshi_temp/checkpoint-10000",
4
+ "epoch": 16.519823788546255,
5
  "eval_steps": 1000,
6
+ "global_step": 15000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
2907
  "eval_steps_per_second": 1.545,
2908
  "eval_wer": 83.80009429514381,
2909
  "step": 10000
2910
+ },
2911
+ {
2912
+ "epoch": 11.040748898678414,
2913
+ "grad_norm": 0.20153629779815674,
2914
+ "learning_rate": 1.0230769230769231e-05,
2915
+ "loss": 0.0168,
2916
+ "step": 10025
2917
+ },
2918
+ {
2919
+ "epoch": 11.068281938325992,
2920
+ "grad_norm": 0.10129767656326294,
2921
+ "learning_rate": 1.0205128205128205e-05,
2922
+ "loss": 0.0166,
2923
+ "step": 10050
2924
+ },
2925
+ {
2926
+ "epoch": 11.095814977973568,
2927
+ "grad_norm": 0.18236328661441803,
2928
+ "learning_rate": 1.017948717948718e-05,
2929
+ "loss": 0.0207,
2930
+ "step": 10075
2931
+ },
2932
+ {
2933
+ "epoch": 11.123348017621145,
2934
+ "grad_norm": 0.1023649126291275,
2935
+ "learning_rate": 1.0153846153846154e-05,
2936
+ "loss": 0.0151,
2937
+ "step": 10100
2938
+ },
2939
+ {
2940
+ "epoch": 11.150881057268723,
2941
+ "grad_norm": 0.2005663514137268,
2942
+ "learning_rate": 1.012820512820513e-05,
2943
+ "loss": 0.0139,
2944
+ "step": 10125
2945
+ },
2946
+ {
2947
+ "epoch": 11.178414096916299,
2948
+ "grad_norm": 0.5880993008613586,
2949
+ "learning_rate": 1.0102564102564103e-05,
2950
+ "loss": 0.0166,
2951
+ "step": 10150
2952
+ },
2953
+ {
2954
+ "epoch": 11.205947136563877,
2955
+ "grad_norm": 0.18318556249141693,
2956
+ "learning_rate": 1.0076923076923078e-05,
2957
+ "loss": 0.0147,
2958
+ "step": 10175
2959
+ },
2960
+ {
2961
+ "epoch": 11.233480176211454,
2962
+ "grad_norm": 0.10596877336502075,
2963
+ "learning_rate": 1.0051282051282052e-05,
2964
+ "loss": 0.0186,
2965
+ "step": 10200
2966
+ },
2967
+ {
2968
+ "epoch": 11.26101321585903,
2969
+ "grad_norm": 0.21908675134181976,
2970
+ "learning_rate": 1.0025641025641027e-05,
2971
+ "loss": 0.0167,
2972
+ "step": 10225
2973
+ },
2974
+ {
2975
+ "epoch": 11.288546255506608,
2976
+ "grad_norm": 0.3086978495121002,
2977
+ "learning_rate": 1e-05,
2978
+ "loss": 0.0155,
2979
+ "step": 10250
2980
+ },
2981
+ {
2982
+ "epoch": 11.316079295154186,
2983
+ "grad_norm": 0.09563290327787399,
2984
+ "learning_rate": 9.974358974358974e-06,
2985
+ "loss": 0.0201,
2986
+ "step": 10275
2987
+ },
2988
+ {
2989
+ "epoch": 11.343612334801762,
2990
+ "grad_norm": 0.44515764713287354,
2991
+ "learning_rate": 9.94871794871795e-06,
2992
+ "loss": 0.0168,
2993
+ "step": 10300
2994
+ },
2995
+ {
2996
+ "epoch": 11.37114537444934,
2997
+ "grad_norm": 0.3357783854007721,
2998
+ "learning_rate": 9.923076923076923e-06,
2999
+ "loss": 0.0144,
3000
+ "step": 10325
3001
+ },
3002
+ {
3003
+ "epoch": 11.398678414096917,
3004
+ "grad_norm": 0.10834582895040512,
3005
+ "learning_rate": 9.897435897435899e-06,
3006
+ "loss": 0.0207,
3007
+ "step": 10350
3008
+ },
3009
+ {
3010
+ "epoch": 11.426211453744493,
3011
+ "grad_norm": 0.36438989639282227,
3012
+ "learning_rate": 9.871794871794872e-06,
3013
+ "loss": 0.0159,
3014
+ "step": 10375
3015
+ },
3016
+ {
3017
+ "epoch": 11.45374449339207,
3018
+ "grad_norm": 0.2105102390050888,
3019
+ "learning_rate": 9.846153846153848e-06,
3020
+ "loss": 0.0174,
3021
+ "step": 10400
3022
+ },
3023
+ {
3024
+ "epoch": 11.481277533039648,
3025
+ "grad_norm": 0.29330697655677795,
3026
+ "learning_rate": 9.820512820512821e-06,
3027
+ "loss": 0.0139,
3028
+ "step": 10425
3029
+ },
3030
+ {
3031
+ "epoch": 11.508810572687224,
3032
+ "grad_norm": 0.14886349439620972,
3033
+ "learning_rate": 9.794871794871795e-06,
3034
+ "loss": 0.0168,
3035
+ "step": 10450
3036
+ },
3037
+ {
3038
+ "epoch": 11.536343612334802,
3039
+ "grad_norm": 0.2385999709367752,
3040
+ "learning_rate": 9.76923076923077e-06,
3041
+ "loss": 0.0153,
3042
+ "step": 10475
3043
+ },
3044
+ {
3045
+ "epoch": 11.56387665198238,
3046
+ "grad_norm": 0.12921461462974548,
3047
+ "learning_rate": 9.743589743589744e-06,
3048
+ "loss": 0.0211,
3049
+ "step": 10500
3050
+ },
3051
+ {
3052
+ "epoch": 11.591409691629956,
3053
+ "grad_norm": 0.18354228138923645,
3054
+ "learning_rate": 9.71794871794872e-06,
3055
+ "loss": 0.0182,
3056
+ "step": 10525
3057
+ },
3058
+ {
3059
+ "epoch": 11.618942731277533,
3060
+ "grad_norm": 0.31387805938720703,
3061
+ "learning_rate": 9.692307692307693e-06,
3062
+ "loss": 0.0149,
3063
+ "step": 10550
3064
+ },
3065
+ {
3066
+ "epoch": 11.646475770925111,
3067
+ "grad_norm": 0.2267555296421051,
3068
+ "learning_rate": 9.666666666666667e-06,
3069
+ "loss": 0.0158,
3070
+ "step": 10575
3071
+ },
3072
+ {
3073
+ "epoch": 11.674008810572687,
3074
+ "grad_norm": 0.20056696236133575,
3075
+ "learning_rate": 9.641025641025642e-06,
3076
+ "loss": 0.0185,
3077
+ "step": 10600
3078
+ },
3079
+ {
3080
+ "epoch": 11.701541850220265,
3081
+ "grad_norm": 0.33203795552253723,
3082
+ "learning_rate": 9.615384615384616e-06,
3083
+ "loss": 0.0162,
3084
+ "step": 10625
3085
+ },
3086
+ {
3087
+ "epoch": 11.729074889867842,
3088
+ "grad_norm": 0.20103588700294495,
3089
+ "learning_rate": 9.589743589743591e-06,
3090
+ "loss": 0.0168,
3091
+ "step": 10650
3092
+ },
3093
+ {
3094
+ "epoch": 11.756607929515418,
3095
+ "grad_norm": 0.2045770138502121,
3096
+ "learning_rate": 9.564102564102565e-06,
3097
+ "loss": 0.0151,
3098
+ "step": 10675
3099
+ },
3100
+ {
3101
+ "epoch": 11.784140969162996,
3102
+ "grad_norm": 0.35391268134117126,
3103
+ "learning_rate": 9.53846153846154e-06,
3104
+ "loss": 0.0159,
3105
+ "step": 10700
3106
+ },
3107
+ {
3108
+ "epoch": 11.811674008810574,
3109
+ "grad_norm": 0.29899677634239197,
3110
+ "learning_rate": 9.512820512820514e-06,
3111
+ "loss": 0.0161,
3112
+ "step": 10725
3113
+ },
3114
+ {
3115
+ "epoch": 11.83920704845815,
3116
+ "grad_norm": 0.15067006647586823,
3117
+ "learning_rate": 9.487179487179487e-06,
3118
+ "loss": 0.0213,
3119
+ "step": 10750
3120
+ },
3121
+ {
3122
+ "epoch": 11.866740088105727,
3123
+ "grad_norm": 0.09212782979011536,
3124
+ "learning_rate": 9.461538461538463e-06,
3125
+ "loss": 0.018,
3126
+ "step": 10775
3127
+ },
3128
+ {
3129
+ "epoch": 11.894273127753303,
3130
+ "grad_norm": 0.2554011642932892,
3131
+ "learning_rate": 9.435897435897436e-06,
3132
+ "loss": 0.0171,
3133
+ "step": 10800
3134
+ },
3135
+ {
3136
+ "epoch": 11.92180616740088,
3137
+ "grad_norm": 0.15091727674007416,
3138
+ "learning_rate": 9.410256410256412e-06,
3139
+ "loss": 0.0173,
3140
+ "step": 10825
3141
+ },
3142
+ {
3143
+ "epoch": 11.949339207048459,
3144
+ "grad_norm": 0.5245828628540039,
3145
+ "learning_rate": 9.384615384615385e-06,
3146
+ "loss": 0.0143,
3147
+ "step": 10850
3148
+ },
3149
+ {
3150
+ "epoch": 11.976872246696034,
3151
+ "grad_norm": 0.2978862524032593,
3152
+ "learning_rate": 9.358974358974359e-06,
3153
+ "loss": 0.018,
3154
+ "step": 10875
3155
+ },
3156
+ {
3157
+ "epoch": 12.004405286343612,
3158
+ "grad_norm": 0.07283396273851395,
3159
+ "learning_rate": 9.333333333333334e-06,
3160
+ "loss": 0.0182,
3161
+ "step": 10900
3162
+ },
3163
+ {
3164
+ "epoch": 12.03193832599119,
3165
+ "grad_norm": 0.13879446685314178,
3166
+ "learning_rate": 9.307692307692308e-06,
3167
+ "loss": 0.0127,
3168
+ "step": 10925
3169
+ },
3170
+ {
3171
+ "epoch": 12.059471365638766,
3172
+ "grad_norm": 0.16657480597496033,
3173
+ "learning_rate": 9.282051282051283e-06,
3174
+ "loss": 0.014,
3175
+ "step": 10950
3176
+ },
3177
+ {
3178
+ "epoch": 12.087004405286343,
3179
+ "grad_norm": 0.16087482869625092,
3180
+ "learning_rate": 9.256410256410257e-06,
3181
+ "loss": 0.0112,
3182
+ "step": 10975
3183
+ },
3184
+ {
3185
+ "epoch": 12.114537444933921,
3186
+ "grad_norm": 0.18895640969276428,
3187
+ "learning_rate": 9.230769230769232e-06,
3188
+ "loss": 0.0117,
3189
+ "step": 11000
3190
+ },
3191
+ {
3192
+ "epoch": 12.114537444933921,
3193
+ "eval_cer": 24.002957596322496,
3194
+ "eval_loss": 0.8591621518135071,
3195
+ "eval_runtime": 1710.0216,
3196
+ "eval_samples_per_second": 6.188,
3197
+ "eval_steps_per_second": 1.547,
3198
+ "eval_wer": 84.15841584158416,
3199
+ "step": 11000
3200
+ },
3201
+ {
3202
+ "epoch": 12.142070484581497,
3203
+ "grad_norm": 0.08321177214384079,
3204
+ "learning_rate": 9.205128205128206e-06,
3205
+ "loss": 0.0117,
3206
+ "step": 11025
3207
+ },
3208
+ {
3209
+ "epoch": 12.169603524229075,
3210
+ "grad_norm": 0.20632462203502655,
3211
+ "learning_rate": 9.17948717948718e-06,
3212
+ "loss": 0.0131,
3213
+ "step": 11050
3214
+ },
3215
+ {
3216
+ "epoch": 12.197136563876652,
3217
+ "grad_norm": 0.4616119861602783,
3218
+ "learning_rate": 9.153846153846155e-06,
3219
+ "loss": 0.0184,
3220
+ "step": 11075
3221
+ },
3222
+ {
3223
+ "epoch": 12.224669603524228,
3224
+ "grad_norm": 0.89581298828125,
3225
+ "learning_rate": 9.128205128205129e-06,
3226
+ "loss": 0.0155,
3227
+ "step": 11100
3228
+ },
3229
+ {
3230
+ "epoch": 12.252202643171806,
3231
+ "grad_norm": 0.06262637674808502,
3232
+ "learning_rate": 9.102564102564104e-06,
3233
+ "loss": 0.0114,
3234
+ "step": 11125
3235
+ },
3236
+ {
3237
+ "epoch": 12.279735682819384,
3238
+ "grad_norm": 0.30928879976272583,
3239
+ "learning_rate": 9.076923076923078e-06,
3240
+ "loss": 0.0152,
3241
+ "step": 11150
3242
+ },
3243
+ {
3244
+ "epoch": 12.30726872246696,
3245
+ "grad_norm": 0.36566054821014404,
3246
+ "learning_rate": 9.051282051282051e-06,
3247
+ "loss": 0.011,
3248
+ "step": 11175
3249
+ },
3250
+ {
3251
+ "epoch": 12.334801762114537,
3252
+ "grad_norm": 0.21459051966667175,
3253
+ "learning_rate": 9.025641025641027e-06,
3254
+ "loss": 0.0127,
3255
+ "step": 11200
3256
+ },
3257
+ {
3258
+ "epoch": 12.362334801762115,
3259
+ "grad_norm": 0.35859718918800354,
3260
+ "learning_rate": 9e-06,
3261
+ "loss": 0.0125,
3262
+ "step": 11225
3263
+ },
3264
+ {
3265
+ "epoch": 12.389867841409691,
3266
+ "grad_norm": 0.5205895304679871,
3267
+ "learning_rate": 8.974358974358976e-06,
3268
+ "loss": 0.0135,
3269
+ "step": 11250
3270
+ },
3271
+ {
3272
+ "epoch": 12.417400881057269,
3273
+ "grad_norm": 0.09275946021080017,
3274
+ "learning_rate": 8.94871794871795e-06,
3275
+ "loss": 0.0124,
3276
+ "step": 11275
3277
+ },
3278
+ {
3279
+ "epoch": 12.444933920704846,
3280
+ "grad_norm": 0.4651426076889038,
3281
+ "learning_rate": 8.923076923076925e-06,
3282
+ "loss": 0.0118,
3283
+ "step": 11300
3284
+ },
3285
+ {
3286
+ "epoch": 12.472466960352422,
3287
+ "grad_norm": 0.1863466203212738,
3288
+ "learning_rate": 8.897435897435898e-06,
3289
+ "loss": 0.0116,
3290
+ "step": 11325
3291
+ },
3292
+ {
3293
+ "epoch": 12.5,
3294
+ "grad_norm": 0.467035174369812,
3295
+ "learning_rate": 8.871794871794872e-06,
3296
+ "loss": 0.0111,
3297
+ "step": 11350
3298
+ },
3299
+ {
3300
+ "epoch": 12.527533039647578,
3301
+ "grad_norm": 0.13402460515499115,
3302
+ "learning_rate": 8.846153846153847e-06,
3303
+ "loss": 0.0147,
3304
+ "step": 11375
3305
+ },
3306
+ {
3307
+ "epoch": 12.555066079295154,
3308
+ "grad_norm": 0.14492958784103394,
3309
+ "learning_rate": 8.820512820512821e-06,
3310
+ "loss": 0.0128,
3311
+ "step": 11400
3312
+ },
3313
+ {
3314
+ "epoch": 12.582599118942731,
3315
+ "grad_norm": 0.17025631666183472,
3316
+ "learning_rate": 8.794871794871796e-06,
3317
+ "loss": 0.0135,
3318
+ "step": 11425
3319
+ },
3320
+ {
3321
+ "epoch": 12.610132158590309,
3322
+ "grad_norm": 0.43454456329345703,
3323
+ "learning_rate": 8.76923076923077e-06,
3324
+ "loss": 0.0141,
3325
+ "step": 11450
3326
+ },
3327
+ {
3328
+ "epoch": 12.637665198237885,
3329
+ "grad_norm": 0.4362468421459198,
3330
+ "learning_rate": 8.743589743589743e-06,
3331
+ "loss": 0.0167,
3332
+ "step": 11475
3333
+ },
3334
+ {
3335
+ "epoch": 12.665198237885463,
3336
+ "grad_norm": 0.20894859731197357,
3337
+ "learning_rate": 8.717948717948719e-06,
3338
+ "loss": 0.019,
3339
+ "step": 11500
3340
+ },
3341
+ {
3342
+ "epoch": 12.69273127753304,
3343
+ "grad_norm": 0.37119993567466736,
3344
+ "learning_rate": 8.692307692307692e-06,
3345
+ "loss": 0.0136,
3346
+ "step": 11525
3347
+ },
3348
+ {
3349
+ "epoch": 12.720264317180616,
3350
+ "grad_norm": 0.06687525659799576,
3351
+ "learning_rate": 8.666666666666668e-06,
3352
+ "loss": 0.0133,
3353
+ "step": 11550
3354
+ },
3355
+ {
3356
+ "epoch": 12.747797356828194,
3357
+ "grad_norm": 0.1411520540714264,
3358
+ "learning_rate": 8.641025641025641e-06,
3359
+ "loss": 0.0103,
3360
+ "step": 11575
3361
+ },
3362
+ {
3363
+ "epoch": 12.775330396475772,
3364
+ "grad_norm": 0.5004802346229553,
3365
+ "learning_rate": 8.615384615384617e-06,
3366
+ "loss": 0.0139,
3367
+ "step": 11600
3368
+ },
3369
+ {
3370
+ "epoch": 12.802863436123348,
3371
+ "grad_norm": 0.12091943621635437,
3372
+ "learning_rate": 8.58974358974359e-06,
3373
+ "loss": 0.0151,
3374
+ "step": 11625
3375
+ },
3376
+ {
3377
+ "epoch": 12.830396475770925,
3378
+ "grad_norm": 0.39368936419487,
3379
+ "learning_rate": 8.564102564102564e-06,
3380
+ "loss": 0.0155,
3381
+ "step": 11650
3382
+ },
3383
+ {
3384
+ "epoch": 12.857929515418503,
3385
+ "grad_norm": 0.1569003313779831,
3386
+ "learning_rate": 8.53846153846154e-06,
3387
+ "loss": 0.0144,
3388
+ "step": 11675
3389
+ },
3390
+ {
3391
+ "epoch": 12.885462555066079,
3392
+ "grad_norm": 0.2494770586490631,
3393
+ "learning_rate": 8.512820512820513e-06,
3394
+ "loss": 0.0154,
3395
+ "step": 11700
3396
+ },
3397
+ {
3398
+ "epoch": 12.912995594713657,
3399
+ "grad_norm": 0.2350165992975235,
3400
+ "learning_rate": 8.487179487179488e-06,
3401
+ "loss": 0.0154,
3402
+ "step": 11725
3403
+ },
3404
+ {
3405
+ "epoch": 12.940528634361234,
3406
+ "grad_norm": 0.25457248091697693,
3407
+ "learning_rate": 8.461538461538462e-06,
3408
+ "loss": 0.0146,
3409
+ "step": 11750
3410
+ },
3411
+ {
3412
+ "epoch": 12.96806167400881,
3413
+ "grad_norm": 0.5396599769592285,
3414
+ "learning_rate": 8.435897435897436e-06,
3415
+ "loss": 0.0164,
3416
+ "step": 11775
3417
+ },
3418
+ {
3419
+ "epoch": 12.995594713656388,
3420
+ "grad_norm": 0.08093304932117462,
3421
+ "learning_rate": 8.410256410256411e-06,
3422
+ "loss": 0.0152,
3423
+ "step": 11800
3424
+ },
3425
+ {
3426
+ "epoch": 13.023127753303966,
3427
+ "grad_norm": 0.2992173433303833,
3428
+ "learning_rate": 8.384615384615385e-06,
3429
+ "loss": 0.0135,
3430
+ "step": 11825
3431
+ },
3432
+ {
3433
+ "epoch": 13.050660792951541,
3434
+ "grad_norm": 0.19341129064559937,
3435
+ "learning_rate": 8.35897435897436e-06,
3436
+ "loss": 0.0126,
3437
+ "step": 11850
3438
+ },
3439
+ {
3440
+ "epoch": 13.07819383259912,
3441
+ "grad_norm": 0.3333016633987427,
3442
+ "learning_rate": 8.333333333333334e-06,
3443
+ "loss": 0.0172,
3444
+ "step": 11875
3445
+ },
3446
+ {
3447
+ "epoch": 13.105726872246697,
3448
+ "grad_norm": 0.22165773808956146,
3449
+ "learning_rate": 8.307692307692309e-06,
3450
+ "loss": 0.0107,
3451
+ "step": 11900
3452
+ },
3453
+ {
3454
+ "epoch": 13.133259911894273,
3455
+ "grad_norm": 0.14357928931713104,
3456
+ "learning_rate": 8.282051282051283e-06,
3457
+ "loss": 0.0125,
3458
+ "step": 11925
3459
+ },
3460
+ {
3461
+ "epoch": 13.16079295154185,
3462
+ "grad_norm": 0.46441957354545593,
3463
+ "learning_rate": 8.256410256410256e-06,
3464
+ "loss": 0.0098,
3465
+ "step": 11950
3466
+ },
3467
+ {
3468
+ "epoch": 13.188325991189428,
3469
+ "grad_norm": 0.0940885990858078,
3470
+ "learning_rate": 8.230769230769232e-06,
3471
+ "loss": 0.0126,
3472
+ "step": 11975
3473
+ },
3474
+ {
3475
+ "epoch": 13.215859030837004,
3476
+ "grad_norm": 0.09288233518600464,
3477
+ "learning_rate": 8.205128205128205e-06,
3478
+ "loss": 0.0111,
3479
+ "step": 12000
3480
+ },
3481
+ {
3482
+ "epoch": 13.215859030837004,
3483
+ "eval_cer": 24.353742276432083,
3484
+ "eval_loss": 0.8609709739685059,
3485
+ "eval_runtime": 1703.4403,
3486
+ "eval_samples_per_second": 6.212,
3487
+ "eval_steps_per_second": 1.553,
3488
+ "eval_wer": 83.83781235266385,
3489
+ "step": 12000
3490
+ },
3491
+ {
3492
+ "epoch": 13.243392070484582,
3493
+ "grad_norm": 0.2091829776763916,
3494
+ "learning_rate": 8.17948717948718e-06,
3495
+ "loss": 0.0098,
3496
+ "step": 12025
3497
+ },
3498
+ {
3499
+ "epoch": 13.270925110132158,
3500
+ "grad_norm": 0.02503281459212303,
3501
+ "learning_rate": 8.153846153846154e-06,
3502
+ "loss": 0.0066,
3503
+ "step": 12050
3504
+ },
3505
+ {
3506
+ "epoch": 13.298458149779735,
3507
+ "grad_norm": 0.2379840463399887,
3508
+ "learning_rate": 8.12820512820513e-06,
3509
+ "loss": 0.0106,
3510
+ "step": 12075
3511
+ },
3512
+ {
3513
+ "epoch": 13.325991189427313,
3514
+ "grad_norm": 0.06553735584020615,
3515
+ "learning_rate": 8.102564102564103e-06,
3516
+ "loss": 0.0114,
3517
+ "step": 12100
3518
+ },
3519
+ {
3520
+ "epoch": 13.353524229074889,
3521
+ "grad_norm": 0.05876093730330467,
3522
+ "learning_rate": 8.076923076923077e-06,
3523
+ "loss": 0.0089,
3524
+ "step": 12125
3525
+ },
3526
+ {
3527
+ "epoch": 13.381057268722467,
3528
+ "grad_norm": 0.0722096711397171,
3529
+ "learning_rate": 8.051282051282052e-06,
3530
+ "loss": 0.01,
3531
+ "step": 12150
3532
+ },
3533
+ {
3534
+ "epoch": 13.408590308370044,
3535
+ "grad_norm": 0.16798360645771027,
3536
+ "learning_rate": 8.025641025641026e-06,
3537
+ "loss": 0.0112,
3538
+ "step": 12175
3539
+ },
3540
+ {
3541
+ "epoch": 13.43612334801762,
3542
+ "grad_norm": 0.08319924026727676,
3543
+ "learning_rate": 8.000000000000001e-06,
3544
+ "loss": 0.0164,
3545
+ "step": 12200
3546
+ },
3547
+ {
3548
+ "epoch": 13.463656387665198,
3549
+ "grad_norm": 0.03909989818930626,
3550
+ "learning_rate": 7.974358974358975e-06,
3551
+ "loss": 0.0124,
3552
+ "step": 12225
3553
+ },
3554
+ {
3555
+ "epoch": 13.491189427312776,
3556
+ "grad_norm": 0.3100120425224304,
3557
+ "learning_rate": 7.948717948717949e-06,
3558
+ "loss": 0.0103,
3559
+ "step": 12250
3560
+ },
3561
+ {
3562
+ "epoch": 13.518722466960352,
3563
+ "grad_norm": 0.20275218784809113,
3564
+ "learning_rate": 7.923076923076924e-06,
3565
+ "loss": 0.0124,
3566
+ "step": 12275
3567
+ },
3568
+ {
3569
+ "epoch": 13.54625550660793,
3570
+ "grad_norm": 0.43703603744506836,
3571
+ "learning_rate": 7.897435897435898e-06,
3572
+ "loss": 0.0126,
3573
+ "step": 12300
3574
+ },
3575
+ {
3576
+ "epoch": 13.573788546255507,
3577
+ "grad_norm": 0.17036165297031403,
3578
+ "learning_rate": 7.871794871794873e-06,
3579
+ "loss": 0.0123,
3580
+ "step": 12325
3581
+ },
3582
+ {
3583
+ "epoch": 13.601321585903083,
3584
+ "grad_norm": 0.2403183877468109,
3585
+ "learning_rate": 7.846153846153847e-06,
3586
+ "loss": 0.0124,
3587
+ "step": 12350
3588
+ },
3589
+ {
3590
+ "epoch": 13.62885462555066,
3591
+ "grad_norm": 0.14506351947784424,
3592
+ "learning_rate": 7.820512820512822e-06,
3593
+ "loss": 0.0113,
3594
+ "step": 12375
3595
+ },
3596
+ {
3597
+ "epoch": 13.656387665198238,
3598
+ "grad_norm": 0.17597095668315887,
3599
+ "learning_rate": 7.794871794871796e-06,
3600
+ "loss": 0.013,
3601
+ "step": 12400
3602
+ },
3603
+ {
3604
+ "epoch": 13.683920704845814,
3605
+ "grad_norm": 0.10913864523172379,
3606
+ "learning_rate": 7.76923076923077e-06,
3607
+ "loss": 0.0111,
3608
+ "step": 12425
3609
+ },
3610
+ {
3611
+ "epoch": 13.711453744493392,
3612
+ "grad_norm": 0.09308384358882904,
3613
+ "learning_rate": 7.743589743589745e-06,
3614
+ "loss": 0.0107,
3615
+ "step": 12450
3616
+ },
3617
+ {
3618
+ "epoch": 13.73898678414097,
3619
+ "grad_norm": 0.15387412905693054,
3620
+ "learning_rate": 7.717948717948718e-06,
3621
+ "loss": 0.0081,
3622
+ "step": 12475
3623
+ },
3624
+ {
3625
+ "epoch": 13.766519823788546,
3626
+ "grad_norm": 0.1064794659614563,
3627
+ "learning_rate": 7.692307692307694e-06,
3628
+ "loss": 0.0103,
3629
+ "step": 12500
3630
+ },
3631
+ {
3632
+ "epoch": 13.794052863436123,
3633
+ "grad_norm": 0.461704283952713,
3634
+ "learning_rate": 7.666666666666667e-06,
3635
+ "loss": 0.0099,
3636
+ "step": 12525
3637
+ },
3638
+ {
3639
+ "epoch": 13.821585903083701,
3640
+ "grad_norm": 0.1432102471590042,
3641
+ "learning_rate": 7.641025641025641e-06,
3642
+ "loss": 0.012,
3643
+ "step": 12550
3644
+ },
3645
+ {
3646
+ "epoch": 13.849118942731277,
3647
+ "grad_norm": 0.07016371935606003,
3648
+ "learning_rate": 7.615384615384615e-06,
3649
+ "loss": 0.0102,
3650
+ "step": 12575
3651
+ },
3652
+ {
3653
+ "epoch": 13.876651982378855,
3654
+ "grad_norm": 0.07148536294698715,
3655
+ "learning_rate": 7.58974358974359e-06,
3656
+ "loss": 0.0135,
3657
+ "step": 12600
3658
+ },
3659
+ {
3660
+ "epoch": 13.904185022026432,
3661
+ "grad_norm": 0.11293036490678787,
3662
+ "learning_rate": 7.564102564102564e-06,
3663
+ "loss": 0.0119,
3664
+ "step": 12625
3665
+ },
3666
+ {
3667
+ "epoch": 13.931718061674008,
3668
+ "grad_norm": 0.12203430384397507,
3669
+ "learning_rate": 7.538461538461539e-06,
3670
+ "loss": 0.0133,
3671
+ "step": 12650
3672
+ },
3673
+ {
3674
+ "epoch": 13.959251101321586,
3675
+ "grad_norm": 0.18345963954925537,
3676
+ "learning_rate": 7.512820512820513e-06,
3677
+ "loss": 0.0131,
3678
+ "step": 12675
3679
+ },
3680
+ {
3681
+ "epoch": 13.986784140969164,
3682
+ "grad_norm": 0.135273739695549,
3683
+ "learning_rate": 7.487179487179488e-06,
3684
+ "loss": 0.0144,
3685
+ "step": 12700
3686
+ },
3687
+ {
3688
+ "epoch": 14.01431718061674,
3689
+ "grad_norm": 0.07620234042406082,
3690
+ "learning_rate": 7.461538461538462e-06,
3691
+ "loss": 0.0095,
3692
+ "step": 12725
3693
+ },
3694
+ {
3695
+ "epoch": 14.041850220264317,
3696
+ "grad_norm": 0.02833453379571438,
3697
+ "learning_rate": 7.435897435897437e-06,
3698
+ "loss": 0.0064,
3699
+ "step": 12750
3700
+ },
3701
+ {
3702
+ "epoch": 14.069383259911895,
3703
+ "grad_norm": 0.19002589583396912,
3704
+ "learning_rate": 7.410256410256411e-06,
3705
+ "loss": 0.0088,
3706
+ "step": 12775
3707
+ },
3708
+ {
3709
+ "epoch": 14.09691629955947,
3710
+ "grad_norm": 0.15754035115242004,
3711
+ "learning_rate": 7.384615384615386e-06,
3712
+ "loss": 0.0055,
3713
+ "step": 12800
3714
+ },
3715
+ {
3716
+ "epoch": 14.124449339207048,
3717
+ "grad_norm": 0.43471795320510864,
3718
+ "learning_rate": 7.35897435897436e-06,
3719
+ "loss": 0.0088,
3720
+ "step": 12825
3721
+ },
3722
+ {
3723
+ "epoch": 14.151982378854626,
3724
+ "grad_norm": 0.2886705696582794,
3725
+ "learning_rate": 7.333333333333333e-06,
3726
+ "loss": 0.0074,
3727
+ "step": 12850
3728
+ },
3729
+ {
3730
+ "epoch": 14.179515418502202,
3731
+ "grad_norm": 0.2692849040031433,
3732
+ "learning_rate": 7.307692307692308e-06,
3733
+ "loss": 0.0141,
3734
+ "step": 12875
3735
+ },
3736
+ {
3737
+ "epoch": 14.20704845814978,
3738
+ "grad_norm": 0.12292686104774475,
3739
+ "learning_rate": 7.282051282051282e-06,
3740
+ "loss": 0.0151,
3741
+ "step": 12900
3742
+ },
3743
+ {
3744
+ "epoch": 14.234581497797357,
3745
+ "grad_norm": 0.36948704719543457,
3746
+ "learning_rate": 7.256410256410257e-06,
3747
+ "loss": 0.0083,
3748
+ "step": 12925
3749
+ },
3750
+ {
3751
+ "epoch": 14.262114537444933,
3752
+ "grad_norm": 0.19203431904315948,
3753
+ "learning_rate": 7.230769230769231e-06,
3754
+ "loss": 0.0066,
3755
+ "step": 12950
3756
+ },
3757
+ {
3758
+ "epoch": 14.289647577092511,
3759
+ "grad_norm": 0.13032004237174988,
3760
+ "learning_rate": 7.205128205128206e-06,
3761
+ "loss": 0.0117,
3762
+ "step": 12975
3763
+ },
3764
+ {
3765
+ "epoch": 14.317180616740089,
3766
+ "grad_norm": 0.4582443833351135,
3767
+ "learning_rate": 7.17948717948718e-06,
3768
+ "loss": 0.0088,
3769
+ "step": 13000
3770
+ },
3771
+ {
3772
+ "epoch": 14.317180616740089,
3773
+ "eval_cer": 24.632306581224995,
3774
+ "eval_loss": 0.8743005394935608,
3775
+ "eval_runtime": 1717.1726,
3776
+ "eval_samples_per_second": 6.162,
3777
+ "eval_steps_per_second": 1.541,
3778
+ "eval_wer": 84.0924092409241,
3779
+ "step": 13000
3780
+ },
3781
+ {
3782
+ "epoch": 14.344713656387665,
3783
+ "grad_norm": 0.17969651520252228,
3784
+ "learning_rate": 7.153846153846155e-06,
3785
+ "loss": 0.0088,
3786
+ "step": 13025
3787
+ },
3788
+ {
3789
+ "epoch": 14.372246696035242,
3790
+ "grad_norm": 0.2400025725364685,
3791
+ "learning_rate": 7.128205128205129e-06,
3792
+ "loss": 0.0112,
3793
+ "step": 13050
3794
+ },
3795
+ {
3796
+ "epoch": 14.39977973568282,
3797
+ "grad_norm": 0.1150280013680458,
3798
+ "learning_rate": 7.102564102564104e-06,
3799
+ "loss": 0.0079,
3800
+ "step": 13075
3801
+ },
3802
+ {
3803
+ "epoch": 14.427312775330396,
3804
+ "grad_norm": 0.676898717880249,
3805
+ "learning_rate": 7.076923076923078e-06,
3806
+ "loss": 0.0097,
3807
+ "step": 13100
3808
+ },
3809
+ {
3810
+ "epoch": 14.454845814977974,
3811
+ "grad_norm": 0.22521457076072693,
3812
+ "learning_rate": 7.051282051282053e-06,
3813
+ "loss": 0.0067,
3814
+ "step": 13125
3815
+ },
3816
+ {
3817
+ "epoch": 14.482378854625551,
3818
+ "grad_norm": 0.05301696062088013,
3819
+ "learning_rate": 7.025641025641025e-06,
3820
+ "loss": 0.0082,
3821
+ "step": 13150
3822
+ },
3823
+ {
3824
+ "epoch": 14.509911894273127,
3825
+ "grad_norm": 0.056506820023059845,
3826
+ "learning_rate": 7e-06,
3827
+ "loss": 0.0068,
3828
+ "step": 13175
3829
+ },
3830
+ {
3831
+ "epoch": 14.537444933920705,
3832
+ "grad_norm": 0.31176385283470154,
3833
+ "learning_rate": 6.974358974358974e-06,
3834
+ "loss": 0.0076,
3835
+ "step": 13200
3836
+ },
3837
+ {
3838
+ "epoch": 14.564977973568283,
3839
+ "grad_norm": 0.27583009004592896,
3840
+ "learning_rate": 6.948717948717949e-06,
3841
+ "loss": 0.0069,
3842
+ "step": 13225
3843
+ },
3844
+ {
3845
+ "epoch": 14.592511013215859,
3846
+ "grad_norm": 0.04734191671013832,
3847
+ "learning_rate": 6.923076923076923e-06,
3848
+ "loss": 0.0102,
3849
+ "step": 13250
3850
+ },
3851
+ {
3852
+ "epoch": 14.620044052863436,
3853
+ "grad_norm": 0.26911285519599915,
3854
+ "learning_rate": 6.897435897435898e-06,
3855
+ "loss": 0.0101,
3856
+ "step": 13275
3857
+ },
3858
+ {
3859
+ "epoch": 14.647577092511014,
3860
+ "grad_norm": 0.07513406872749329,
3861
+ "learning_rate": 6.871794871794872e-06,
3862
+ "loss": 0.008,
3863
+ "step": 13300
3864
+ },
3865
+ {
3866
+ "epoch": 14.67511013215859,
3867
+ "grad_norm": 0.2528563141822815,
3868
+ "learning_rate": 6.846153846153847e-06,
3869
+ "loss": 0.0065,
3870
+ "step": 13325
3871
+ },
3872
+ {
3873
+ "epoch": 14.702643171806168,
3874
+ "grad_norm": 0.052279576659202576,
3875
+ "learning_rate": 6.820512820512821e-06,
3876
+ "loss": 0.0092,
3877
+ "step": 13350
3878
+ },
3879
+ {
3880
+ "epoch": 14.730176211453745,
3881
+ "grad_norm": 0.16867485642433167,
3882
+ "learning_rate": 6.794871794871796e-06,
3883
+ "loss": 0.0063,
3884
+ "step": 13375
3885
+ },
3886
+ {
3887
+ "epoch": 14.757709251101321,
3888
+ "grad_norm": 0.09278307855129242,
3889
+ "learning_rate": 6.76923076923077e-06,
3890
+ "loss": 0.007,
3891
+ "step": 13400
3892
+ },
3893
+ {
3894
+ "epoch": 14.785242290748899,
3895
+ "grad_norm": 0.03741838410496712,
3896
+ "learning_rate": 6.743589743589745e-06,
3897
+ "loss": 0.0049,
3898
+ "step": 13425
3899
+ },
3900
+ {
3901
+ "epoch": 14.812775330396477,
3902
+ "grad_norm": 0.07582259178161621,
3903
+ "learning_rate": 6.717948717948718e-06,
3904
+ "loss": 0.0089,
3905
+ "step": 13450
3906
+ },
3907
+ {
3908
+ "epoch": 14.840308370044053,
3909
+ "grad_norm": 0.22878766059875488,
3910
+ "learning_rate": 6.692307692307692e-06,
3911
+ "loss": 0.006,
3912
+ "step": 13475
3913
+ },
3914
+ {
3915
+ "epoch": 14.86784140969163,
3916
+ "grad_norm": 0.19926956295967102,
3917
+ "learning_rate": 6.666666666666667e-06,
3918
+ "loss": 0.0079,
3919
+ "step": 13500
3920
+ },
3921
+ {
3922
+ "epoch": 14.895374449339208,
3923
+ "grad_norm": 0.08697038888931274,
3924
+ "learning_rate": 6.641025641025641e-06,
3925
+ "loss": 0.0092,
3926
+ "step": 13525
3927
+ },
3928
+ {
3929
+ "epoch": 14.922907488986784,
3930
+ "grad_norm": 0.05428479611873627,
3931
+ "learning_rate": 6.615384615384616e-06,
3932
+ "loss": 0.0055,
3933
+ "step": 13550
3934
+ },
3935
+ {
3936
+ "epoch": 14.950440528634362,
3937
+ "grad_norm": 0.06628289073705673,
3938
+ "learning_rate": 6.58974358974359e-06,
3939
+ "loss": 0.0068,
3940
+ "step": 13575
3941
+ },
3942
+ {
3943
+ "epoch": 14.97797356828194,
3944
+ "grad_norm": 0.07876273989677429,
3945
+ "learning_rate": 6.564102564102565e-06,
3946
+ "loss": 0.0073,
3947
+ "step": 13600
3948
+ },
3949
+ {
3950
+ "epoch": 15.005506607929515,
3951
+ "grad_norm": 0.047706760466098785,
3952
+ "learning_rate": 6.538461538461539e-06,
3953
+ "loss": 0.0087,
3954
+ "step": 13625
3955
+ },
3956
+ {
3957
+ "epoch": 15.033039647577093,
3958
+ "grad_norm": 0.06642945855855942,
3959
+ "learning_rate": 6.512820512820514e-06,
3960
+ "loss": 0.0043,
3961
+ "step": 13650
3962
+ },
3963
+ {
3964
+ "epoch": 15.060572687224669,
3965
+ "grad_norm": 0.028193380683660507,
3966
+ "learning_rate": 6.487179487179488e-06,
3967
+ "loss": 0.0038,
3968
+ "step": 13675
3969
+ },
3970
+ {
3971
+ "epoch": 15.088105726872246,
3972
+ "grad_norm": 0.11379621922969818,
3973
+ "learning_rate": 6.461538461538463e-06,
3974
+ "loss": 0.0049,
3975
+ "step": 13700
3976
+ },
3977
+ {
3978
+ "epoch": 15.115638766519824,
3979
+ "grad_norm": 0.09332601726055145,
3980
+ "learning_rate": 6.435897435897437e-06,
3981
+ "loss": 0.0082,
3982
+ "step": 13725
3983
+ },
3984
+ {
3985
+ "epoch": 15.1431718061674,
3986
+ "grad_norm": 0.029045449569821358,
3987
+ "learning_rate": 6.410256410256412e-06,
3988
+ "loss": 0.0054,
3989
+ "step": 13750
3990
+ },
3991
+ {
3992
+ "epoch": 15.170704845814978,
3993
+ "grad_norm": 0.025950396433472633,
3994
+ "learning_rate": 6.384615384615384e-06,
3995
+ "loss": 0.0061,
3996
+ "step": 13775
3997
+ },
3998
+ {
3999
+ "epoch": 15.198237885462555,
4000
+ "grad_norm": 0.09153343737125397,
4001
+ "learning_rate": 6.358974358974359e-06,
4002
+ "loss": 0.0064,
4003
+ "step": 13800
4004
+ },
4005
+ {
4006
+ "epoch": 15.225770925110131,
4007
+ "grad_norm": 0.02982979267835617,
4008
+ "learning_rate": 6.333333333333333e-06,
4009
+ "loss": 0.0079,
4010
+ "step": 13825
4011
+ },
4012
+ {
4013
+ "epoch": 15.253303964757709,
4014
+ "grad_norm": 0.3530775010585785,
4015
+ "learning_rate": 6.307692307692308e-06,
4016
+ "loss": 0.0075,
4017
+ "step": 13850
4018
+ },
4019
+ {
4020
+ "epoch": 15.280837004405287,
4021
+ "grad_norm": 0.7259305715560913,
4022
+ "learning_rate": 6.282051282051282e-06,
4023
+ "loss": 0.0057,
4024
+ "step": 13875
4025
+ },
4026
+ {
4027
+ "epoch": 15.308370044052863,
4028
+ "grad_norm": 0.04625716805458069,
4029
+ "learning_rate": 6.256410256410257e-06,
4030
+ "loss": 0.0051,
4031
+ "step": 13900
4032
+ },
4033
+ {
4034
+ "epoch": 15.33590308370044,
4035
+ "grad_norm": 0.04628950357437134,
4036
+ "learning_rate": 6.230769230769231e-06,
4037
+ "loss": 0.0059,
4038
+ "step": 13925
4039
+ },
4040
+ {
4041
+ "epoch": 15.363436123348018,
4042
+ "grad_norm": 0.020349033176898956,
4043
+ "learning_rate": 6.205128205128206e-06,
4044
+ "loss": 0.0088,
4045
+ "step": 13950
4046
+ },
4047
+ {
4048
+ "epoch": 15.390969162995594,
4049
+ "grad_norm": 0.9620158672332764,
4050
+ "learning_rate": 6.17948717948718e-06,
4051
+ "loss": 0.006,
4052
+ "step": 13975
4053
+ },
4054
+ {
4055
+ "epoch": 15.418502202643172,
4056
+ "grad_norm": 0.12168940901756287,
4057
+ "learning_rate": 6.153846153846155e-06,
4058
+ "loss": 0.0112,
4059
+ "step": 14000
4060
+ },
4061
+ {
4062
+ "epoch": 15.418502202643172,
4063
+ "eval_cer": 24.93437116687492,
4064
+ "eval_loss": 0.8769130110740662,
4065
+ "eval_runtime": 1701.8659,
4066
+ "eval_samples_per_second": 6.217,
4067
+ "eval_steps_per_second": 1.555,
4068
+ "eval_wer": 84.18670438472418,
4069
+ "step": 14000
4070
+ },
4071
+ {
4072
+ "epoch": 15.44603524229075,
4073
+ "grad_norm": 0.0730656310915947,
4074
+ "learning_rate": 6.128205128205129e-06,
4075
+ "loss": 0.0051,
4076
+ "step": 14025
4077
+ },
4078
+ {
4079
+ "epoch": 15.473568281938325,
4080
+ "grad_norm": 0.38274314999580383,
4081
+ "learning_rate": 6.102564102564104e-06,
4082
+ "loss": 0.0118,
4083
+ "step": 14050
4084
+ },
4085
+ {
4086
+ "epoch": 15.501101321585903,
4087
+ "grad_norm": 0.6983866691589355,
4088
+ "learning_rate": 6.076923076923077e-06,
4089
+ "loss": 0.0126,
4090
+ "step": 14075
4091
+ },
4092
+ {
4093
+ "epoch": 15.52863436123348,
4094
+ "grad_norm": 0.14446529746055603,
4095
+ "learning_rate": 6.051282051282051e-06,
4096
+ "loss": 0.0063,
4097
+ "step": 14100
4098
+ },
4099
+ {
4100
+ "epoch": 15.556167400881057,
4101
+ "grad_norm": 0.03284487873315811,
4102
+ "learning_rate": 6.025641025641026e-06,
4103
+ "loss": 0.0072,
4104
+ "step": 14125
4105
+ },
4106
+ {
4107
+ "epoch": 15.583700440528634,
4108
+ "grad_norm": 0.14825402200222015,
4109
+ "learning_rate": 6e-06,
4110
+ "loss": 0.0074,
4111
+ "step": 14150
4112
+ },
4113
+ {
4114
+ "epoch": 15.611233480176212,
4115
+ "grad_norm": 0.08878491818904877,
4116
+ "learning_rate": 5.974358974358975e-06,
4117
+ "loss": 0.0067,
4118
+ "step": 14175
4119
+ },
4120
+ {
4121
+ "epoch": 15.638766519823788,
4122
+ "grad_norm": 0.36057594418525696,
4123
+ "learning_rate": 5.948717948717949e-06,
4124
+ "loss": 0.0112,
4125
+ "step": 14200
4126
+ },
4127
+ {
4128
+ "epoch": 15.666299559471366,
4129
+ "grad_norm": 0.09728468954563141,
4130
+ "learning_rate": 5.923076923076924e-06,
4131
+ "loss": 0.007,
4132
+ "step": 14225
4133
+ },
4134
+ {
4135
+ "epoch": 15.693832599118943,
4136
+ "grad_norm": 0.2802368402481079,
4137
+ "learning_rate": 5.897435897435898e-06,
4138
+ "loss": 0.0065,
4139
+ "step": 14250
4140
+ },
4141
+ {
4142
+ "epoch": 15.72136563876652,
4143
+ "grad_norm": 0.05950731784105301,
4144
+ "learning_rate": 5.871794871794873e-06,
4145
+ "loss": 0.0086,
4146
+ "step": 14275
4147
+ },
4148
+ {
4149
+ "epoch": 15.748898678414097,
4150
+ "grad_norm": 0.025011401623487473,
4151
+ "learning_rate": 5.846153846153847e-06,
4152
+ "loss": 0.0042,
4153
+ "step": 14300
4154
+ },
4155
+ {
4156
+ "epoch": 15.776431718061675,
4157
+ "grad_norm": 0.037724148482084274,
4158
+ "learning_rate": 5.820512820512822e-06,
4159
+ "loss": 0.0043,
4160
+ "step": 14325
4161
+ },
4162
+ {
4163
+ "epoch": 15.80396475770925,
4164
+ "grad_norm": 0.05708827078342438,
4165
+ "learning_rate": 5.794871794871796e-06,
4166
+ "loss": 0.0051,
4167
+ "step": 14350
4168
+ },
4169
+ {
4170
+ "epoch": 15.831497797356828,
4171
+ "grad_norm": 0.1876123994588852,
4172
+ "learning_rate": 5.769230769230769e-06,
4173
+ "loss": 0.0044,
4174
+ "step": 14375
4175
+ },
4176
+ {
4177
+ "epoch": 15.859030837004406,
4178
+ "grad_norm": 0.059942033141851425,
4179
+ "learning_rate": 5.743589743589743e-06,
4180
+ "loss": 0.0049,
4181
+ "step": 14400
4182
+ },
4183
+ {
4184
+ "epoch": 15.886563876651982,
4185
+ "grad_norm": 0.10881105065345764,
4186
+ "learning_rate": 5.717948717948718e-06,
4187
+ "loss": 0.0053,
4188
+ "step": 14425
4189
+ },
4190
+ {
4191
+ "epoch": 15.91409691629956,
4192
+ "grad_norm": 0.22075070440769196,
4193
+ "learning_rate": 5.692307692307692e-06,
4194
+ "loss": 0.0055,
4195
+ "step": 14450
4196
+ },
4197
+ {
4198
+ "epoch": 15.941629955947137,
4199
+ "grad_norm": 0.2150040864944458,
4200
+ "learning_rate": 5.666666666666667e-06,
4201
+ "loss": 0.0077,
4202
+ "step": 14475
4203
+ },
4204
+ {
4205
+ "epoch": 15.969162995594713,
4206
+ "grad_norm": 0.259221613407135,
4207
+ "learning_rate": 5.641025641025641e-06,
4208
+ "loss": 0.0044,
4209
+ "step": 14500
4210
+ },
4211
+ {
4212
+ "epoch": 15.996696035242291,
4213
+ "grad_norm": 0.08321662992238998,
4214
+ "learning_rate": 5.615384615384616e-06,
4215
+ "loss": 0.0052,
4216
+ "step": 14525
4217
+ },
4218
+ {
4219
+ "epoch": 16.024229074889867,
4220
+ "grad_norm": 0.07159877568483353,
4221
+ "learning_rate": 5.58974358974359e-06,
4222
+ "loss": 0.0043,
4223
+ "step": 14550
4224
+ },
4225
+ {
4226
+ "epoch": 16.051762114537446,
4227
+ "grad_norm": 0.04299210384488106,
4228
+ "learning_rate": 5.564102564102565e-06,
4229
+ "loss": 0.0061,
4230
+ "step": 14575
4231
+ },
4232
+ {
4233
+ "epoch": 16.079295154185022,
4234
+ "grad_norm": 0.013192574493587017,
4235
+ "learning_rate": 5.538461538461539e-06,
4236
+ "loss": 0.0069,
4237
+ "step": 14600
4238
+ },
4239
+ {
4240
+ "epoch": 16.106828193832598,
4241
+ "grad_norm": 0.027391914278268814,
4242
+ "learning_rate": 5.512820512820514e-06,
4243
+ "loss": 0.0038,
4244
+ "step": 14625
4245
+ },
4246
+ {
4247
+ "epoch": 16.134361233480178,
4248
+ "grad_norm": 0.04832287132740021,
4249
+ "learning_rate": 5.487179487179488e-06,
4250
+ "loss": 0.0048,
4251
+ "step": 14650
4252
+ },
4253
+ {
4254
+ "epoch": 16.161894273127754,
4255
+ "grad_norm": 0.18682819604873657,
4256
+ "learning_rate": 5.461538461538461e-06,
4257
+ "loss": 0.0039,
4258
+ "step": 14675
4259
+ },
4260
+ {
4261
+ "epoch": 16.18942731277533,
4262
+ "grad_norm": 0.0538317896425724,
4263
+ "learning_rate": 5.435897435897436e-06,
4264
+ "loss": 0.0061,
4265
+ "step": 14700
4266
+ },
4267
+ {
4268
+ "epoch": 16.21696035242291,
4269
+ "grad_norm": 0.024896269664168358,
4270
+ "learning_rate": 5.41025641025641e-06,
4271
+ "loss": 0.0063,
4272
+ "step": 14725
4273
+ },
4274
+ {
4275
+ "epoch": 16.244493392070485,
4276
+ "grad_norm": 0.0841188058257103,
4277
+ "learning_rate": 5.384615384615385e-06,
4278
+ "loss": 0.0033,
4279
+ "step": 14750
4280
+ },
4281
+ {
4282
+ "epoch": 16.27202643171806,
4283
+ "grad_norm": 0.04172555357217789,
4284
+ "learning_rate": 5.358974358974359e-06,
4285
+ "loss": 0.0057,
4286
+ "step": 14775
4287
+ },
4288
+ {
4289
+ "epoch": 16.29955947136564,
4290
+ "grad_norm": 0.026171807199716568,
4291
+ "learning_rate": 5.333333333333334e-06,
4292
+ "loss": 0.0056,
4293
+ "step": 14800
4294
+ },
4295
+ {
4296
+ "epoch": 16.327092511013216,
4297
+ "grad_norm": 0.3256167471408844,
4298
+ "learning_rate": 5.307692307692308e-06,
4299
+ "loss": 0.0065,
4300
+ "step": 14825
4301
+ },
4302
+ {
4303
+ "epoch": 16.354625550660792,
4304
+ "grad_norm": 0.08626765012741089,
4305
+ "learning_rate": 5.282051282051283e-06,
4306
+ "loss": 0.0031,
4307
+ "step": 14850
4308
+ },
4309
+ {
4310
+ "epoch": 16.38215859030837,
4311
+ "grad_norm": 0.02025369182229042,
4312
+ "learning_rate": 5.256410256410257e-06,
4313
+ "loss": 0.0052,
4314
+ "step": 14875
4315
+ },
4316
+ {
4317
+ "epoch": 16.409691629955947,
4318
+ "grad_norm": 0.030549725517630577,
4319
+ "learning_rate": 5.230769230769232e-06,
4320
+ "loss": 0.0045,
4321
+ "step": 14900
4322
+ },
4323
+ {
4324
+ "epoch": 16.437224669603523,
4325
+ "grad_norm": 0.03368716686964035,
4326
+ "learning_rate": 5.205128205128206e-06,
4327
+ "loss": 0.0043,
4328
+ "step": 14925
4329
+ },
4330
+ {
4331
+ "epoch": 16.464757709251103,
4332
+ "grad_norm": 0.35517045855522156,
4333
+ "learning_rate": 5.179487179487181e-06,
4334
+ "loss": 0.0065,
4335
+ "step": 14950
4336
+ },
4337
+ {
4338
+ "epoch": 16.49229074889868,
4339
+ "grad_norm": 0.01714472658932209,
4340
+ "learning_rate": 5.1538461538461534e-06,
4341
+ "loss": 0.0063,
4342
+ "step": 14975
4343
+ },
4344
+ {
4345
+ "epoch": 16.519823788546255,
4346
+ "grad_norm": 1.1677449941635132,
4347
+ "learning_rate": 5.128205128205128e-06,
4348
+ "loss": 0.0109,
4349
+ "step": 15000
4350
+ },
4351
+ {
4352
+ "epoch": 16.519823788546255,
4353
+ "eval_cer": 24.621416207169304,
4354
+ "eval_loss": 0.8773795962333679,
4355
+ "eval_runtime": 1704.8877,
4356
+ "eval_samples_per_second": 6.206,
4357
+ "eval_steps_per_second": 1.552,
4358
+ "eval_wer": 84.67703913248468,
4359
+ "step": 15000
4360
  }
4361
  ],
4362
  "logging_steps": 25,
 
4376
  "attributes": {}
4377
  }
4378
  },
4379
+ "total_flos": 2.5772147797351465e+20,
4380
  "train_batch_size": 4,
4381
  "trial_name": null,
4382
  "trial_params": null