UltimoUno commited on
Commit
99b5682
·
verified ·
1 Parent(s): ad4fde1

Uploaded checkpoint-5000

Browse files
Files changed (5) hide show
  1. model.safetensors +1 -1
  2. optimizer.pt +1 -1
  3. rng_state.pth +1 -1
  4. scheduler.pt +1 -1
  5. trainer_state.json +711 -3
model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:dee94e938767a260117ef4c72990c915717f6a1428c66dfc2fa292feae4c1b55
3
  size 2836579040
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e0b03057c36e4ae3d1c8ad803821d19398ff358211eaf32a34baa7283fb29868
3
  size 2836579040
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:dc4db2b04f54904da67f0f6ed9acfd7baeb09ee856c56ef2cc5e7bc3840e567f
3
  size 5673376169
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f8b601cbd05f4af730d23f7a08329aa98d5112750e1bbc5c713b794aa64db464
3
  size 5673376169
rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b0cfd838427005f3598246259455779f1c1e118bacce9f330af533309c11e6ad
3
  size 14180
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c24f333818658fb1a6ac065e8380ec5713b07987c477e3ef1d4a113c4ec403e3
3
  size 14180
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:9925f5cdfedfb49cb76b21cdd6c0c2e868c58e55559c6dcbe5c03dc7caaf7e9e
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:506671c04dd848ffd9038cbb7a15f1988edb1a31beec0ecf80efaa4f06c169fa
3
  size 1064
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 2.599935001624959,
5
  "eval_steps": 1000,
6
- "global_step": 4000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -2839,6 +2839,714 @@
2839
  "eval_samples_per_second": 13.901,
2840
  "eval_steps_per_second": 13.901,
2841
  "step": 4000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2842
  }
2843
  ],
2844
  "logging_steps": 10,
@@ -2846,7 +3554,7 @@
2846
  "num_input_tokens_seen": 0,
2847
  "num_train_epochs": 4,
2848
  "save_steps": 1000,
2849
- "total_flos": 6.455688167424e+16,
2850
  "train_batch_size": 1,
2851
  "trial_name": null,
2852
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 3.249918752031199,
5
  "eval_steps": 1000,
6
+ "global_step": 5000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
2839
  "eval_samples_per_second": 13.901,
2840
  "eval_steps_per_second": 13.901,
2841
  "step": 4000
2842
+ },
2843
+ {
2844
+ "epoch": 2.61,
2845
+ "grad_norm": 0.06494140625,
2846
+ "learning_rate": 6.6e-07,
2847
+ "loss": 0.0016,
2848
+ "step": 4010
2849
+ },
2850
+ {
2851
+ "epoch": 2.61,
2852
+ "grad_norm": 0.052490234375,
2853
+ "learning_rate": 6.533333333333334e-07,
2854
+ "loss": 0.0132,
2855
+ "step": 4020
2856
+ },
2857
+ {
2858
+ "epoch": 2.62,
2859
+ "grad_norm": 0.046875,
2860
+ "learning_rate": 6.466666666666667e-07,
2861
+ "loss": 0.0025,
2862
+ "step": 4030
2863
+ },
2864
+ {
2865
+ "epoch": 2.63,
2866
+ "grad_norm": 0.04541015625,
2867
+ "learning_rate": 6.4e-07,
2868
+ "loss": 0.0039,
2869
+ "step": 4040
2870
+ },
2871
+ {
2872
+ "epoch": 2.63,
2873
+ "grad_norm": 0.1103515625,
2874
+ "learning_rate": 6.333333333333333e-07,
2875
+ "loss": 0.0049,
2876
+ "step": 4050
2877
+ },
2878
+ {
2879
+ "epoch": 2.64,
2880
+ "grad_norm": 0.05126953125,
2881
+ "learning_rate": 6.266666666666668e-07,
2882
+ "loss": 0.0064,
2883
+ "step": 4060
2884
+ },
2885
+ {
2886
+ "epoch": 2.65,
2887
+ "grad_norm": 0.0537109375,
2888
+ "learning_rate": 6.2e-07,
2889
+ "loss": 0.0044,
2890
+ "step": 4070
2891
+ },
2892
+ {
2893
+ "epoch": 2.65,
2894
+ "grad_norm": 0.310546875,
2895
+ "learning_rate": 6.133333333333334e-07,
2896
+ "loss": 0.0173,
2897
+ "step": 4080
2898
+ },
2899
+ {
2900
+ "epoch": 2.66,
2901
+ "grad_norm": 0.05322265625,
2902
+ "learning_rate": 6.066666666666666e-07,
2903
+ "loss": 0.0015,
2904
+ "step": 4090
2905
+ },
2906
+ {
2907
+ "epoch": 2.66,
2908
+ "grad_norm": 0.0498046875,
2909
+ "learning_rate": 6.000000000000001e-07,
2910
+ "loss": 0.0018,
2911
+ "step": 4100
2912
+ },
2913
+ {
2914
+ "epoch": 2.67,
2915
+ "grad_norm": 0.052978515625,
2916
+ "learning_rate": 5.933333333333333e-07,
2917
+ "loss": 0.0017,
2918
+ "step": 4110
2919
+ },
2920
+ {
2921
+ "epoch": 2.68,
2922
+ "grad_norm": 1.2109375,
2923
+ "learning_rate": 5.866666666666667e-07,
2924
+ "loss": 0.0099,
2925
+ "step": 4120
2926
+ },
2927
+ {
2928
+ "epoch": 2.68,
2929
+ "grad_norm": 0.060302734375,
2930
+ "learning_rate": 5.8e-07,
2931
+ "loss": 0.007,
2932
+ "step": 4130
2933
+ },
2934
+ {
2935
+ "epoch": 2.69,
2936
+ "grad_norm": 0.04345703125,
2937
+ "learning_rate": 5.733333333333334e-07,
2938
+ "loss": 0.0049,
2939
+ "step": 4140
2940
+ },
2941
+ {
2942
+ "epoch": 2.7,
2943
+ "grad_norm": 0.05126953125,
2944
+ "learning_rate": 5.666666666666667e-07,
2945
+ "loss": 0.0108,
2946
+ "step": 4150
2947
+ },
2948
+ {
2949
+ "epoch": 2.7,
2950
+ "grad_norm": 0.051025390625,
2951
+ "learning_rate": 5.6e-07,
2952
+ "loss": 0.0033,
2953
+ "step": 4160
2954
+ },
2955
+ {
2956
+ "epoch": 2.71,
2957
+ "grad_norm": 0.04736328125,
2958
+ "learning_rate": 5.533333333333334e-07,
2959
+ "loss": 0.0018,
2960
+ "step": 4170
2961
+ },
2962
+ {
2963
+ "epoch": 2.72,
2964
+ "grad_norm": 0.27734375,
2965
+ "learning_rate": 5.466666666666667e-07,
2966
+ "loss": 0.007,
2967
+ "step": 4180
2968
+ },
2969
+ {
2970
+ "epoch": 2.72,
2971
+ "grad_norm": 0.0732421875,
2972
+ "learning_rate": 5.4e-07,
2973
+ "loss": 0.0052,
2974
+ "step": 4190
2975
+ },
2976
+ {
2977
+ "epoch": 2.73,
2978
+ "grad_norm": 0.0498046875,
2979
+ "learning_rate": 5.333333333333333e-07,
2980
+ "loss": 0.0014,
2981
+ "step": 4200
2982
+ },
2983
+ {
2984
+ "epoch": 2.74,
2985
+ "grad_norm": 0.11328125,
2986
+ "learning_rate": 5.266666666666667e-07,
2987
+ "loss": 0.0051,
2988
+ "step": 4210
2989
+ },
2990
+ {
2991
+ "epoch": 2.74,
2992
+ "grad_norm": 0.047607421875,
2993
+ "learning_rate": 5.2e-07,
2994
+ "loss": 0.0015,
2995
+ "step": 4220
2996
+ },
2997
+ {
2998
+ "epoch": 2.75,
2999
+ "grad_norm": 0.30859375,
3000
+ "learning_rate": 5.133333333333333e-07,
3001
+ "loss": 0.0044,
3002
+ "step": 4230
3003
+ },
3004
+ {
3005
+ "epoch": 2.76,
3006
+ "grad_norm": 0.064453125,
3007
+ "learning_rate": 5.066666666666667e-07,
3008
+ "loss": 0.0023,
3009
+ "step": 4240
3010
+ },
3011
+ {
3012
+ "epoch": 2.76,
3013
+ "grad_norm": 0.1162109375,
3014
+ "learning_rate": 5e-07,
3015
+ "loss": 0.0073,
3016
+ "step": 4250
3017
+ },
3018
+ {
3019
+ "epoch": 2.77,
3020
+ "grad_norm": 0.045654296875,
3021
+ "learning_rate": 4.933333333333334e-07,
3022
+ "loss": 0.0131,
3023
+ "step": 4260
3024
+ },
3025
+ {
3026
+ "epoch": 2.78,
3027
+ "grad_norm": 0.044921875,
3028
+ "learning_rate": 4.866666666666666e-07,
3029
+ "loss": 0.0042,
3030
+ "step": 4270
3031
+ },
3032
+ {
3033
+ "epoch": 2.78,
3034
+ "grad_norm": 0.057373046875,
3035
+ "learning_rate": 4.800000000000001e-07,
3036
+ "loss": 0.0127,
3037
+ "step": 4280
3038
+ },
3039
+ {
3040
+ "epoch": 2.79,
3041
+ "grad_norm": 0.072265625,
3042
+ "learning_rate": 4.7333333333333334e-07,
3043
+ "loss": 0.0016,
3044
+ "step": 4290
3045
+ },
3046
+ {
3047
+ "epoch": 2.79,
3048
+ "grad_norm": 0.06103515625,
3049
+ "learning_rate": 4.6666666666666666e-07,
3050
+ "loss": 0.0019,
3051
+ "step": 4300
3052
+ },
3053
+ {
3054
+ "epoch": 2.8,
3055
+ "grad_norm": 0.044921875,
3056
+ "learning_rate": 4.6e-07,
3057
+ "loss": 0.0038,
3058
+ "step": 4310
3059
+ },
3060
+ {
3061
+ "epoch": 2.81,
3062
+ "grad_norm": 0.1015625,
3063
+ "learning_rate": 4.5333333333333337e-07,
3064
+ "loss": 0.0016,
3065
+ "step": 4320
3066
+ },
3067
+ {
3068
+ "epoch": 2.81,
3069
+ "grad_norm": 0.0498046875,
3070
+ "learning_rate": 4.4666666666666664e-07,
3071
+ "loss": 0.0051,
3072
+ "step": 4330
3073
+ },
3074
+ {
3075
+ "epoch": 2.82,
3076
+ "grad_norm": 0.0556640625,
3077
+ "learning_rate": 4.4e-07,
3078
+ "loss": 0.0088,
3079
+ "step": 4340
3080
+ },
3081
+ {
3082
+ "epoch": 2.83,
3083
+ "grad_norm": 0.045654296875,
3084
+ "learning_rate": 4.333333333333333e-07,
3085
+ "loss": 0.0026,
3086
+ "step": 4350
3087
+ },
3088
+ {
3089
+ "epoch": 2.83,
3090
+ "grad_norm": 0.061767578125,
3091
+ "learning_rate": 4.266666666666667e-07,
3092
+ "loss": 0.0017,
3093
+ "step": 4360
3094
+ },
3095
+ {
3096
+ "epoch": 2.84,
3097
+ "grad_norm": 0.12158203125,
3098
+ "learning_rate": 4.2000000000000006e-07,
3099
+ "loss": 0.0028,
3100
+ "step": 4370
3101
+ },
3102
+ {
3103
+ "epoch": 2.85,
3104
+ "grad_norm": 0.099609375,
3105
+ "learning_rate": 4.1333333333333333e-07,
3106
+ "loss": 0.0052,
3107
+ "step": 4380
3108
+ },
3109
+ {
3110
+ "epoch": 2.85,
3111
+ "grad_norm": 0.056396484375,
3112
+ "learning_rate": 4.066666666666667e-07,
3113
+ "loss": 0.0039,
3114
+ "step": 4390
3115
+ },
3116
+ {
3117
+ "epoch": 2.86,
3118
+ "grad_norm": 0.048095703125,
3119
+ "learning_rate": 4e-07,
3120
+ "loss": 0.0015,
3121
+ "step": 4400
3122
+ },
3123
+ {
3124
+ "epoch": 2.87,
3125
+ "grad_norm": 0.046142578125,
3126
+ "learning_rate": 3.9333333333333336e-07,
3127
+ "loss": 0.0029,
3128
+ "step": 4410
3129
+ },
3130
+ {
3131
+ "epoch": 2.87,
3132
+ "grad_norm": 0.0654296875,
3133
+ "learning_rate": 3.866666666666667e-07,
3134
+ "loss": 0.0024,
3135
+ "step": 4420
3136
+ },
3137
+ {
3138
+ "epoch": 2.88,
3139
+ "grad_norm": 0.047119140625,
3140
+ "learning_rate": 3.8000000000000007e-07,
3141
+ "loss": 0.0024,
3142
+ "step": 4430
3143
+ },
3144
+ {
3145
+ "epoch": 2.89,
3146
+ "grad_norm": 0.051513671875,
3147
+ "learning_rate": 3.7333333333333334e-07,
3148
+ "loss": 0.0024,
3149
+ "step": 4440
3150
+ },
3151
+ {
3152
+ "epoch": 2.89,
3153
+ "grad_norm": 1.703125,
3154
+ "learning_rate": 3.6666666666666667e-07,
3155
+ "loss": 0.0124,
3156
+ "step": 4450
3157
+ },
3158
+ {
3159
+ "epoch": 2.9,
3160
+ "grad_norm": 0.047119140625,
3161
+ "learning_rate": 3.6e-07,
3162
+ "loss": 0.0019,
3163
+ "step": 4460
3164
+ },
3165
+ {
3166
+ "epoch": 2.91,
3167
+ "grad_norm": 0.70703125,
3168
+ "learning_rate": 3.533333333333333e-07,
3169
+ "loss": 0.0053,
3170
+ "step": 4470
3171
+ },
3172
+ {
3173
+ "epoch": 2.91,
3174
+ "grad_norm": 0.31640625,
3175
+ "learning_rate": 3.4666666666666665e-07,
3176
+ "loss": 0.0053,
3177
+ "step": 4480
3178
+ },
3179
+ {
3180
+ "epoch": 2.92,
3181
+ "grad_norm": 0.4140625,
3182
+ "learning_rate": 3.4e-07,
3183
+ "loss": 0.0052,
3184
+ "step": 4490
3185
+ },
3186
+ {
3187
+ "epoch": 2.92,
3188
+ "grad_norm": 1.1640625,
3189
+ "learning_rate": 3.333333333333333e-07,
3190
+ "loss": 0.0138,
3191
+ "step": 4500
3192
+ },
3193
+ {
3194
+ "epoch": 2.93,
3195
+ "grad_norm": 0.056884765625,
3196
+ "learning_rate": 3.266666666666667e-07,
3197
+ "loss": 0.0057,
3198
+ "step": 4510
3199
+ },
3200
+ {
3201
+ "epoch": 2.94,
3202
+ "grad_norm": 0.07177734375,
3203
+ "learning_rate": 3.2e-07,
3204
+ "loss": 0.0073,
3205
+ "step": 4520
3206
+ },
3207
+ {
3208
+ "epoch": 2.94,
3209
+ "grad_norm": 0.29296875,
3210
+ "learning_rate": 3.133333333333334e-07,
3211
+ "loss": 0.0026,
3212
+ "step": 4530
3213
+ },
3214
+ {
3215
+ "epoch": 2.95,
3216
+ "grad_norm": 0.103515625,
3217
+ "learning_rate": 3.066666666666667e-07,
3218
+ "loss": 0.0044,
3219
+ "step": 4540
3220
+ },
3221
+ {
3222
+ "epoch": 2.96,
3223
+ "grad_norm": 0.052490234375,
3224
+ "learning_rate": 3.0000000000000004e-07,
3225
+ "loss": 0.0119,
3226
+ "step": 4550
3227
+ },
3228
+ {
3229
+ "epoch": 2.96,
3230
+ "grad_norm": 0.04833984375,
3231
+ "learning_rate": 2.9333333333333337e-07,
3232
+ "loss": 0.0042,
3233
+ "step": 4560
3234
+ },
3235
+ {
3236
+ "epoch": 2.97,
3237
+ "grad_norm": 0.0791015625,
3238
+ "learning_rate": 2.866666666666667e-07,
3239
+ "loss": 0.0114,
3240
+ "step": 4570
3241
+ },
3242
+ {
3243
+ "epoch": 2.98,
3244
+ "grad_norm": 0.049560546875,
3245
+ "learning_rate": 2.8e-07,
3246
+ "loss": 0.0052,
3247
+ "step": 4580
3248
+ },
3249
+ {
3250
+ "epoch": 2.98,
3251
+ "grad_norm": 0.064453125,
3252
+ "learning_rate": 2.7333333333333335e-07,
3253
+ "loss": 0.0061,
3254
+ "step": 4590
3255
+ },
3256
+ {
3257
+ "epoch": 2.99,
3258
+ "grad_norm": 0.047119140625,
3259
+ "learning_rate": 2.6666666666666667e-07,
3260
+ "loss": 0.0024,
3261
+ "step": 4600
3262
+ },
3263
+ {
3264
+ "epoch": 3.0,
3265
+ "grad_norm": 0.04541015625,
3266
+ "learning_rate": 2.6e-07,
3267
+ "loss": 0.0025,
3268
+ "step": 4610
3269
+ },
3270
+ {
3271
+ "epoch": 3.0,
3272
+ "grad_norm": 1.7421875,
3273
+ "learning_rate": 2.533333333333333e-07,
3274
+ "loss": 0.0151,
3275
+ "step": 4620
3276
+ },
3277
+ {
3278
+ "epoch": 3.01,
3279
+ "grad_norm": 0.04736328125,
3280
+ "learning_rate": 2.466666666666667e-07,
3281
+ "loss": 0.0015,
3282
+ "step": 4630
3283
+ },
3284
+ {
3285
+ "epoch": 3.02,
3286
+ "grad_norm": 1.1640625,
3287
+ "learning_rate": 2.4000000000000003e-07,
3288
+ "loss": 0.0147,
3289
+ "step": 4640
3290
+ },
3291
+ {
3292
+ "epoch": 3.02,
3293
+ "grad_norm": 0.048095703125,
3294
+ "learning_rate": 2.3333333333333333e-07,
3295
+ "loss": 0.0041,
3296
+ "step": 4650
3297
+ },
3298
+ {
3299
+ "epoch": 3.03,
3300
+ "grad_norm": 0.1064453125,
3301
+ "learning_rate": 2.2666666666666668e-07,
3302
+ "loss": 0.0033,
3303
+ "step": 4660
3304
+ },
3305
+ {
3306
+ "epoch": 3.04,
3307
+ "grad_norm": 0.0478515625,
3308
+ "learning_rate": 2.2e-07,
3309
+ "loss": 0.0018,
3310
+ "step": 4670
3311
+ },
3312
+ {
3313
+ "epoch": 3.04,
3314
+ "grad_norm": 0.10205078125,
3315
+ "learning_rate": 2.1333333333333334e-07,
3316
+ "loss": 0.0033,
3317
+ "step": 4680
3318
+ },
3319
+ {
3320
+ "epoch": 3.05,
3321
+ "grad_norm": 0.10791015625,
3322
+ "learning_rate": 2.0666666666666666e-07,
3323
+ "loss": 0.0078,
3324
+ "step": 4690
3325
+ },
3326
+ {
3327
+ "epoch": 3.05,
3328
+ "grad_norm": 0.12109375,
3329
+ "learning_rate": 2e-07,
3330
+ "loss": 0.0087,
3331
+ "step": 4700
3332
+ },
3333
+ {
3334
+ "epoch": 3.06,
3335
+ "grad_norm": 0.049072265625,
3336
+ "learning_rate": 1.9333333333333334e-07,
3337
+ "loss": 0.0061,
3338
+ "step": 4710
3339
+ },
3340
+ {
3341
+ "epoch": 3.07,
3342
+ "grad_norm": 0.053466796875,
3343
+ "learning_rate": 1.8666666666666667e-07,
3344
+ "loss": 0.0026,
3345
+ "step": 4720
3346
+ },
3347
+ {
3348
+ "epoch": 3.07,
3349
+ "grad_norm": 0.068359375,
3350
+ "learning_rate": 1.8e-07,
3351
+ "loss": 0.0039,
3352
+ "step": 4730
3353
+ },
3354
+ {
3355
+ "epoch": 3.08,
3356
+ "grad_norm": 0.057861328125,
3357
+ "learning_rate": 1.7333333333333332e-07,
3358
+ "loss": 0.0017,
3359
+ "step": 4740
3360
+ },
3361
+ {
3362
+ "epoch": 3.09,
3363
+ "grad_norm": 0.04833984375,
3364
+ "learning_rate": 1.6666666666666665e-07,
3365
+ "loss": 0.0076,
3366
+ "step": 4750
3367
+ },
3368
+ {
3369
+ "epoch": 3.09,
3370
+ "grad_norm": 0.10498046875,
3371
+ "learning_rate": 1.6e-07,
3372
+ "loss": 0.0045,
3373
+ "step": 4760
3374
+ },
3375
+ {
3376
+ "epoch": 3.1,
3377
+ "grad_norm": 0.10009765625,
3378
+ "learning_rate": 1.5333333333333336e-07,
3379
+ "loss": 0.0021,
3380
+ "step": 4770
3381
+ },
3382
+ {
3383
+ "epoch": 3.11,
3384
+ "grad_norm": 0.045166015625,
3385
+ "learning_rate": 1.4666666666666668e-07,
3386
+ "loss": 0.0017,
3387
+ "step": 4780
3388
+ },
3389
+ {
3390
+ "epoch": 3.11,
3391
+ "grad_norm": 0.0546875,
3392
+ "learning_rate": 1.4e-07,
3393
+ "loss": 0.0107,
3394
+ "step": 4790
3395
+ },
3396
+ {
3397
+ "epoch": 3.12,
3398
+ "grad_norm": 0.11474609375,
3399
+ "learning_rate": 1.3333333333333334e-07,
3400
+ "loss": 0.0045,
3401
+ "step": 4800
3402
+ },
3403
+ {
3404
+ "epoch": 3.13,
3405
+ "grad_norm": 0.045654296875,
3406
+ "learning_rate": 1.2666666666666666e-07,
3407
+ "loss": 0.0053,
3408
+ "step": 4810
3409
+ },
3410
+ {
3411
+ "epoch": 3.13,
3412
+ "grad_norm": 0.045654296875,
3413
+ "learning_rate": 1.2000000000000002e-07,
3414
+ "loss": 0.0112,
3415
+ "step": 4820
3416
+ },
3417
+ {
3418
+ "epoch": 3.14,
3419
+ "grad_norm": 0.046142578125,
3420
+ "learning_rate": 1.1333333333333334e-07,
3421
+ "loss": 0.0014,
3422
+ "step": 4830
3423
+ },
3424
+ {
3425
+ "epoch": 3.15,
3426
+ "grad_norm": 0.44921875,
3427
+ "learning_rate": 1.0666666666666667e-07,
3428
+ "loss": 0.0083,
3429
+ "step": 4840
3430
+ },
3431
+ {
3432
+ "epoch": 3.15,
3433
+ "grad_norm": 0.130859375,
3434
+ "learning_rate": 1e-07,
3435
+ "loss": 0.0019,
3436
+ "step": 4850
3437
+ },
3438
+ {
3439
+ "epoch": 3.16,
3440
+ "grad_norm": 0.0673828125,
3441
+ "learning_rate": 9.333333333333334e-08,
3442
+ "loss": 0.0107,
3443
+ "step": 4860
3444
+ },
3445
+ {
3446
+ "epoch": 3.17,
3447
+ "grad_norm": 0.04833984375,
3448
+ "learning_rate": 8.666666666666666e-08,
3449
+ "loss": 0.0014,
3450
+ "step": 4870
3451
+ },
3452
+ {
3453
+ "epoch": 3.17,
3454
+ "grad_norm": 0.0458984375,
3455
+ "learning_rate": 8e-08,
3456
+ "loss": 0.0024,
3457
+ "step": 4880
3458
+ },
3459
+ {
3460
+ "epoch": 3.18,
3461
+ "grad_norm": 0.051025390625,
3462
+ "learning_rate": 7.333333333333334e-08,
3463
+ "loss": 0.0048,
3464
+ "step": 4890
3465
+ },
3466
+ {
3467
+ "epoch": 3.18,
3468
+ "grad_norm": 0.044677734375,
3469
+ "learning_rate": 6.666666666666667e-08,
3470
+ "loss": 0.0026,
3471
+ "step": 4900
3472
+ },
3473
+ {
3474
+ "epoch": 3.19,
3475
+ "grad_norm": 0.044189453125,
3476
+ "learning_rate": 6.000000000000001e-08,
3477
+ "loss": 0.0054,
3478
+ "step": 4910
3479
+ },
3480
+ {
3481
+ "epoch": 3.2,
3482
+ "grad_norm": 0.054931640625,
3483
+ "learning_rate": 5.3333333333333334e-08,
3484
+ "loss": 0.0052,
3485
+ "step": 4920
3486
+ },
3487
+ {
3488
+ "epoch": 3.2,
3489
+ "grad_norm": 0.044677734375,
3490
+ "learning_rate": 4.666666666666667e-08,
3491
+ "loss": 0.0039,
3492
+ "step": 4930
3493
+ },
3494
+ {
3495
+ "epoch": 3.21,
3496
+ "grad_norm": 0.048583984375,
3497
+ "learning_rate": 4e-08,
3498
+ "loss": 0.0092,
3499
+ "step": 4940
3500
+ },
3501
+ {
3502
+ "epoch": 3.22,
3503
+ "grad_norm": 0.06005859375,
3504
+ "learning_rate": 3.3333333333333334e-08,
3505
+ "loss": 0.0035,
3506
+ "step": 4950
3507
+ },
3508
+ {
3509
+ "epoch": 3.22,
3510
+ "grad_norm": 0.048583984375,
3511
+ "learning_rate": 2.6666666666666667e-08,
3512
+ "loss": 0.0044,
3513
+ "step": 4960
3514
+ },
3515
+ {
3516
+ "epoch": 3.23,
3517
+ "grad_norm": 0.04931640625,
3518
+ "learning_rate": 2e-08,
3519
+ "loss": 0.0048,
3520
+ "step": 4970
3521
+ },
3522
+ {
3523
+ "epoch": 3.24,
3524
+ "grad_norm": 0.046875,
3525
+ "learning_rate": 1.3333333333333334e-08,
3526
+ "loss": 0.0015,
3527
+ "step": 4980
3528
+ },
3529
+ {
3530
+ "epoch": 3.24,
3531
+ "grad_norm": 0.294921875,
3532
+ "learning_rate": 6.666666666666667e-09,
3533
+ "loss": 0.0031,
3534
+ "step": 4990
3535
+ },
3536
+ {
3537
+ "epoch": 3.25,
3538
+ "grad_norm": 0.048095703125,
3539
+ "learning_rate": 0.0,
3540
+ "loss": 0.0036,
3541
+ "step": 5000
3542
+ },
3543
+ {
3544
+ "epoch": 3.25,
3545
+ "eval_loss": 0.004249705467373133,
3546
+ "eval_runtime": 72.2773,
3547
+ "eval_samples_per_second": 13.836,
3548
+ "eval_steps_per_second": 13.836,
3549
+ "step": 5000
3550
  }
3551
  ],
3552
  "logging_steps": 10,
 
3554
  "num_input_tokens_seen": 0,
3555
  "num_train_epochs": 4,
3556
  "save_steps": 1000,
3557
+ "total_flos": 8.06961020928e+16,
3558
  "train_batch_size": 1,
3559
  "trial_name": null,
3560
  "trial_params": null