ErrorAI commited on
Commit
297bb30
·
verified ·
1 Parent(s): 95b8978

Training in progress, step 570, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:95f9ee5321bf184cccf6bd1768794472ea0dab0c045ac19a3e73094ef57ab439
3
  size 80013120
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ba7f260598f9dfc78b063cf2291dafcd9b997ea4c973ea9b07cc51602e495ab9
3
  size 80013120
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:0e51d1808ca4450a035ddae04d6c29f94fd7739dbaad6d0281e13d8ef19e86dc
3
  size 41120084
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:671d4c3971b26a85c5e792fea63ce43be94833ab0aec2967ea53390f68b186a9
3
  size 41120084
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:ed6575e00bcb98b4d07e384c21771313f1fae9b22686c7f08a765d9d0109e4e2
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8b9fa5acaeecc23f2ae7c39a001e08deaa87f6cd3040e3d7ee614526b4af35df
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:20b6399ed1f4a4e925c86dd58b4b559fa96fc0370b46ab280a68ad58e4333e47
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e3efe9a7dcecfc294170eaf9d37d88929a06a263232a2f5ff76c24580b1ffbbf
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.7526315789473684,
5
  "eval_steps": 143,
6
- "global_step": 429,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -3042,6 +3042,993 @@
3042
  "eval_samples_per_second": 17.652,
3043
  "eval_steps_per_second": 8.826,
3044
  "step": 429
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3045
  }
3046
  ],
3047
  "logging_steps": 1,
@@ -3056,12 +4043,12 @@
3056
  "should_evaluate": false,
3057
  "should_log": false,
3058
  "should_save": true,
3059
- "should_training_stop": false
3060
  },
3061
  "attributes": {}
3062
  }
3063
  },
3064
- "total_flos": 1.465694981896274e+17,
3065
  "train_batch_size": 2,
3066
  "trial_name": null,
3067
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 1.0,
5
  "eval_steps": 143,
6
+ "global_step": 570,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
3042
  "eval_samples_per_second": 17.652,
3043
  "eval_steps_per_second": 8.826,
3044
  "step": 429
3045
+ },
3046
+ {
3047
+ "epoch": 0.7543859649122807,
3048
+ "grad_norm": 0.21846020221710205,
3049
+ "learning_rate": 2.9289321881345254e-05,
3050
+ "loss": 1.4571,
3051
+ "step": 430
3052
+ },
3053
+ {
3054
+ "epoch": 0.756140350877193,
3055
+ "grad_norm": 0.22741371393203735,
3056
+ "learning_rate": 2.8893750684111975e-05,
3057
+ "loss": 1.1949,
3058
+ "step": 431
3059
+ },
3060
+ {
3061
+ "epoch": 0.7578947368421053,
3062
+ "grad_norm": 0.23230372369289398,
3063
+ "learning_rate": 2.850041733353247e-05,
3064
+ "loss": 1.2444,
3065
+ "step": 432
3066
+ },
3067
+ {
3068
+ "epoch": 0.7596491228070176,
3069
+ "grad_norm": 0.20818418264389038,
3070
+ "learning_rate": 2.8109334208542993e-05,
3071
+ "loss": 0.899,
3072
+ "step": 433
3073
+ },
3074
+ {
3075
+ "epoch": 0.7614035087719299,
3076
+ "grad_norm": 0.18375477194786072,
3077
+ "learning_rate": 2.7720513617260856e-05,
3078
+ "loss": 1.089,
3079
+ "step": 434
3080
+ },
3081
+ {
3082
+ "epoch": 0.7631578947368421,
3083
+ "grad_norm": 0.21327602863311768,
3084
+ "learning_rate": 2.7333967796597315e-05,
3085
+ "loss": 1.2009,
3086
+ "step": 435
3087
+ },
3088
+ {
3089
+ "epoch": 0.7649122807017544,
3090
+ "grad_norm": 0.2226010113954544,
3091
+ "learning_rate": 2.694970891187225e-05,
3092
+ "loss": 1.3526,
3093
+ "step": 436
3094
+ },
3095
+ {
3096
+ "epoch": 0.7666666666666667,
3097
+ "grad_norm": 0.18763844668865204,
3098
+ "learning_rate": 2.6567749056431467e-05,
3099
+ "loss": 1.0013,
3100
+ "step": 437
3101
+ },
3102
+ {
3103
+ "epoch": 0.7684210526315789,
3104
+ "grad_norm": 0.18595463037490845,
3105
+ "learning_rate": 2.6188100251265945e-05,
3106
+ "loss": 0.8139,
3107
+ "step": 438
3108
+ },
3109
+ {
3110
+ "epoch": 0.7701754385964912,
3111
+ "grad_norm": 0.226368248462677,
3112
+ "learning_rate": 2.5810774444633644e-05,
3113
+ "loss": 1.1663,
3114
+ "step": 439
3115
+ },
3116
+ {
3117
+ "epoch": 0.7719298245614035,
3118
+ "grad_norm": 0.1991311013698578,
3119
+ "learning_rate": 2.5435783511683443e-05,
3120
+ "loss": 1.0207,
3121
+ "step": 440
3122
+ },
3123
+ {
3124
+ "epoch": 0.7736842105263158,
3125
+ "grad_norm": 0.226077601313591,
3126
+ "learning_rate": 2.506313925408127e-05,
3127
+ "loss": 1.3249,
3128
+ "step": 441
3129
+ },
3130
+ {
3131
+ "epoch": 0.775438596491228,
3132
+ "grad_norm": 0.23103055357933044,
3133
+ "learning_rate": 2.4692853399638917e-05,
3134
+ "loss": 1.0387,
3135
+ "step": 442
3136
+ },
3137
+ {
3138
+ "epoch": 0.7771929824561403,
3139
+ "grad_norm": 0.195194810628891,
3140
+ "learning_rate": 2.4324937601944685e-05,
3141
+ "loss": 1.1331,
3142
+ "step": 443
3143
+ },
3144
+ {
3145
+ "epoch": 0.7789473684210526,
3146
+ "grad_norm": 0.23875974118709564,
3147
+ "learning_rate": 2.3959403439996907e-05,
3148
+ "loss": 1.2292,
3149
+ "step": 444
3150
+ },
3151
+ {
3152
+ "epoch": 0.7807017543859649,
3153
+ "grad_norm": 0.18718209862709045,
3154
+ "learning_rate": 2.3596262417839255e-05,
3155
+ "loss": 1.1075,
3156
+ "step": 445
3157
+ },
3158
+ {
3159
+ "epoch": 0.7824561403508772,
3160
+ "grad_norm": 0.17584474384784698,
3161
+ "learning_rate": 2.323552596419889e-05,
3162
+ "loss": 0.9849,
3163
+ "step": 446
3164
+ },
3165
+ {
3166
+ "epoch": 0.7842105263157895,
3167
+ "grad_norm": 0.16845519840717316,
3168
+ "learning_rate": 2.2877205432126657e-05,
3169
+ "loss": 0.9737,
3170
+ "step": 447
3171
+ },
3172
+ {
3173
+ "epoch": 0.7859649122807018,
3174
+ "grad_norm": 0.19468963146209717,
3175
+ "learning_rate": 2.2521312098639914e-05,
3176
+ "loss": 1.0789,
3177
+ "step": 448
3178
+ },
3179
+ {
3180
+ "epoch": 0.787719298245614,
3181
+ "grad_norm": 0.19649626314640045,
3182
+ "learning_rate": 2.2167857164367422e-05,
3183
+ "loss": 0.9901,
3184
+ "step": 449
3185
+ },
3186
+ {
3187
+ "epoch": 0.7894736842105263,
3188
+ "grad_norm": 0.19049738347530365,
3189
+ "learning_rate": 2.181685175319702e-05,
3190
+ "loss": 0.9139,
3191
+ "step": 450
3192
+ },
3193
+ {
3194
+ "epoch": 0.7912280701754386,
3195
+ "grad_norm": 0.20821937918663025,
3196
+ "learning_rate": 2.146830691192553e-05,
3197
+ "loss": 1.2032,
3198
+ "step": 451
3199
+ },
3200
+ {
3201
+ "epoch": 0.7929824561403509,
3202
+ "grad_norm": 0.21067368984222412,
3203
+ "learning_rate": 2.11222336099109e-05,
3204
+ "loss": 0.8502,
3205
+ "step": 452
3206
+ },
3207
+ {
3208
+ "epoch": 0.7947368421052632,
3209
+ "grad_norm": 0.2066434919834137,
3210
+ "learning_rate": 2.0778642738727272e-05,
3211
+ "loss": 1.0896,
3212
+ "step": 453
3213
+ },
3214
+ {
3215
+ "epoch": 0.7964912280701755,
3216
+ "grad_norm": 0.19079746305942535,
3217
+ "learning_rate": 2.043754511182191e-05,
3218
+ "loss": 0.9596,
3219
+ "step": 454
3220
+ },
3221
+ {
3222
+ "epoch": 0.7982456140350878,
3223
+ "grad_norm": 0.17518748342990875,
3224
+ "learning_rate": 2.009895146417512e-05,
3225
+ "loss": 0.9326,
3226
+ "step": 455
3227
+ },
3228
+ {
3229
+ "epoch": 0.8,
3230
+ "grad_norm": 0.20753763616085052,
3231
+ "learning_rate": 1.9762872451962212e-05,
3232
+ "loss": 1.0991,
3233
+ "step": 456
3234
+ },
3235
+ {
3236
+ "epoch": 0.8017543859649123,
3237
+ "grad_norm": 0.20544378459453583,
3238
+ "learning_rate": 1.9429318652218276e-05,
3239
+ "loss": 1.2205,
3240
+ "step": 457
3241
+ },
3242
+ {
3243
+ "epoch": 0.8035087719298246,
3244
+ "grad_norm": 0.20627406239509583,
3245
+ "learning_rate": 1.9098300562505266e-05,
3246
+ "loss": 0.8546,
3247
+ "step": 458
3248
+ },
3249
+ {
3250
+ "epoch": 0.8052631578947368,
3251
+ "grad_norm": 0.20179207623004913,
3252
+ "learning_rate": 1.8769828600581496e-05,
3253
+ "loss": 1.0499,
3254
+ "step": 459
3255
+ },
3256
+ {
3257
+ "epoch": 0.8070175438596491,
3258
+ "grad_norm": 0.21462082862854004,
3259
+ "learning_rate": 1.8443913104073983e-05,
3260
+ "loss": 1.2047,
3261
+ "step": 460
3262
+ },
3263
+ {
3264
+ "epoch": 0.8087719298245614,
3265
+ "grad_norm": 0.20801608264446259,
3266
+ "learning_rate": 1.8120564330152923e-05,
3267
+ "loss": 1.1157,
3268
+ "step": 461
3269
+ },
3270
+ {
3271
+ "epoch": 0.8105263157894737,
3272
+ "grad_norm": 0.22594526410102844,
3273
+ "learning_rate": 1.7799792455209018e-05,
3274
+ "loss": 1.1778,
3275
+ "step": 462
3276
+ },
3277
+ {
3278
+ "epoch": 0.8122807017543859,
3279
+ "grad_norm": 0.18215923011302948,
3280
+ "learning_rate": 1.7481607574533044e-05,
3281
+ "loss": 1.0573,
3282
+ "step": 463
3283
+ },
3284
+ {
3285
+ "epoch": 0.8140350877192982,
3286
+ "grad_norm": 0.19557355344295502,
3287
+ "learning_rate": 1.716601970199836e-05,
3288
+ "loss": 1.1006,
3289
+ "step": 464
3290
+ },
3291
+ {
3292
+ "epoch": 0.8157894736842105,
3293
+ "grad_norm": 0.23207271099090576,
3294
+ "learning_rate": 1.6853038769745467e-05,
3295
+ "loss": 1.1726,
3296
+ "step": 465
3297
+ },
3298
+ {
3299
+ "epoch": 0.8175438596491228,
3300
+ "grad_norm": 0.1910407841205597,
3301
+ "learning_rate": 1.6542674627869737e-05,
3302
+ "loss": 1.1038,
3303
+ "step": 466
3304
+ },
3305
+ {
3306
+ "epoch": 0.8192982456140351,
3307
+ "grad_norm": 0.1775582730770111,
3308
+ "learning_rate": 1.6234937044111152e-05,
3309
+ "loss": 0.8225,
3310
+ "step": 467
3311
+ },
3312
+ {
3313
+ "epoch": 0.8210526315789474,
3314
+ "grad_norm": 0.21295365691184998,
3315
+ "learning_rate": 1.5929835703546993e-05,
3316
+ "loss": 1.1882,
3317
+ "step": 468
3318
+ },
3319
+ {
3320
+ "epoch": 0.8228070175438597,
3321
+ "grad_norm": 0.23779192566871643,
3322
+ "learning_rate": 1.5627380208287114e-05,
3323
+ "loss": 0.9332,
3324
+ "step": 469
3325
+ },
3326
+ {
3327
+ "epoch": 0.8245614035087719,
3328
+ "grad_norm": 0.21569402515888214,
3329
+ "learning_rate": 1.5327580077171587e-05,
3330
+ "loss": 0.9752,
3331
+ "step": 470
3332
+ },
3333
+ {
3334
+ "epoch": 0.8263157894736842,
3335
+ "grad_norm": 0.20171040296554565,
3336
+ "learning_rate": 1.5030444745471294e-05,
3337
+ "loss": 0.8921,
3338
+ "step": 471
3339
+ },
3340
+ {
3341
+ "epoch": 0.8280701754385965,
3342
+ "grad_norm": 0.2244572937488556,
3343
+ "learning_rate": 1.4735983564590783e-05,
3344
+ "loss": 1.2602,
3345
+ "step": 472
3346
+ },
3347
+ {
3348
+ "epoch": 0.8298245614035088,
3349
+ "grad_norm": 0.21642790734767914,
3350
+ "learning_rate": 1.4444205801774202e-05,
3351
+ "loss": 1.41,
3352
+ "step": 473
3353
+ },
3354
+ {
3355
+ "epoch": 0.8315789473684211,
3356
+ "grad_norm": 0.20672833919525146,
3357
+ "learning_rate": 1.415512063981339e-05,
3358
+ "loss": 1.066,
3359
+ "step": 474
3360
+ },
3361
+ {
3362
+ "epoch": 0.8333333333333334,
3363
+ "grad_norm": 0.23660632967948914,
3364
+ "learning_rate": 1.3868737176759106e-05,
3365
+ "loss": 1.247,
3366
+ "step": 475
3367
+ },
3368
+ {
3369
+ "epoch": 0.8350877192982457,
3370
+ "grad_norm": 0.19157983362674713,
3371
+ "learning_rate": 1.3585064425634542e-05,
3372
+ "loss": 0.8976,
3373
+ "step": 476
3374
+ },
3375
+ {
3376
+ "epoch": 0.8368421052631579,
3377
+ "grad_norm": 0.21549120545387268,
3378
+ "learning_rate": 1.330411131415169e-05,
3379
+ "loss": 1.0631,
3380
+ "step": 477
3381
+ },
3382
+ {
3383
+ "epoch": 0.8385964912280702,
3384
+ "grad_norm": 0.21641142666339874,
3385
+ "learning_rate": 1.3025886684430467e-05,
3386
+ "loss": 1.327,
3387
+ "step": 478
3388
+ },
3389
+ {
3390
+ "epoch": 0.8403508771929824,
3391
+ "grad_norm": 0.2355552315711975,
3392
+ "learning_rate": 1.2750399292720283e-05,
3393
+ "loss": 1.3794,
3394
+ "step": 479
3395
+ },
3396
+ {
3397
+ "epoch": 0.8421052631578947,
3398
+ "grad_norm": 0.21204498410224915,
3399
+ "learning_rate": 1.2477657809124631e-05,
3400
+ "loss": 1.0638,
3401
+ "step": 480
3402
+ },
3403
+ {
3404
+ "epoch": 0.843859649122807,
3405
+ "grad_norm": 0.19920291006565094,
3406
+ "learning_rate": 1.2207670817328066e-05,
3407
+ "loss": 0.8266,
3408
+ "step": 481
3409
+ },
3410
+ {
3411
+ "epoch": 0.8456140350877193,
3412
+ "grad_norm": 0.20642384886741638,
3413
+ "learning_rate": 1.19404468143262e-05,
3414
+ "loss": 1.1196,
3415
+ "step": 482
3416
+ },
3417
+ {
3418
+ "epoch": 0.8473684210526315,
3419
+ "grad_norm": 0.1852245032787323,
3420
+ "learning_rate": 1.1675994210158181e-05,
3421
+ "loss": 0.9718,
3422
+ "step": 483
3423
+ },
3424
+ {
3425
+ "epoch": 0.8491228070175438,
3426
+ "grad_norm": 0.2029811590909958,
3427
+ "learning_rate": 1.141432132764202e-05,
3428
+ "loss": 0.9548,
3429
+ "step": 484
3430
+ },
3431
+ {
3432
+ "epoch": 0.8508771929824561,
3433
+ "grad_norm": 0.23442597687244415,
3434
+ "learning_rate": 1.1155436402112785e-05,
3435
+ "loss": 1.3182,
3436
+ "step": 485
3437
+ },
3438
+ {
3439
+ "epoch": 0.8526315789473684,
3440
+ "grad_norm": 0.2029426246881485,
3441
+ "learning_rate": 1.0899347581163221e-05,
3442
+ "loss": 1.0673,
3443
+ "step": 486
3444
+ },
3445
+ {
3446
+ "epoch": 0.8543859649122807,
3447
+ "grad_norm": 0.2036561220884323,
3448
+ "learning_rate": 1.0646062924387512e-05,
3449
+ "loss": 1.1552,
3450
+ "step": 487
3451
+ },
3452
+ {
3453
+ "epoch": 0.856140350877193,
3454
+ "grad_norm": 0.1849490851163864,
3455
+ "learning_rate": 1.0395590403127486e-05,
3456
+ "loss": 0.7817,
3457
+ "step": 488
3458
+ },
3459
+ {
3460
+ "epoch": 0.8578947368421053,
3461
+ "grad_norm": 0.196690633893013,
3462
+ "learning_rate": 1.0147937900221883e-05,
3463
+ "loss": 1.0408,
3464
+ "step": 489
3465
+ },
3466
+ {
3467
+ "epoch": 0.8596491228070176,
3468
+ "grad_norm": 0.21207116544246674,
3469
+ "learning_rate": 9.903113209758096e-06,
3470
+ "loss": 1.1144,
3471
+ "step": 490
3472
+ },
3473
+ {
3474
+ "epoch": 0.8614035087719298,
3475
+ "grad_norm": 0.2588272988796234,
3476
+ "learning_rate": 9.661124036827063e-06,
3477
+ "loss": 1.0656,
3478
+ "step": 491
3479
+ },
3480
+ {
3481
+ "epoch": 0.8631578947368421,
3482
+ "grad_norm": 0.2087583690881729,
3483
+ "learning_rate": 9.421977997280596e-06,
3484
+ "loss": 0.9854,
3485
+ "step": 492
3486
+ },
3487
+ {
3488
+ "epoch": 0.8649122807017544,
3489
+ "grad_norm": 0.2295677214860916,
3490
+ "learning_rate": 9.185682617491863e-06,
3491
+ "loss": 1.1204,
3492
+ "step": 493
3493
+ },
3494
+ {
3495
+ "epoch": 0.8666666666666667,
3496
+ "grad_norm": 0.23894089460372925,
3497
+ "learning_rate": 8.952245334118414e-06,
3498
+ "loss": 1.171,
3499
+ "step": 494
3500
+ },
3501
+ {
3502
+ "epoch": 0.868421052631579,
3503
+ "grad_norm": 0.22390300035476685,
3504
+ "learning_rate": 8.72167349386811e-06,
3505
+ "loss": 1.2307,
3506
+ "step": 495
3507
+ },
3508
+ {
3509
+ "epoch": 0.8701754385964913,
3510
+ "grad_norm": 0.19924871623516083,
3511
+ "learning_rate": 8.493974353268019e-06,
3512
+ "loss": 1.0831,
3513
+ "step": 496
3514
+ },
3515
+ {
3516
+ "epoch": 0.8719298245614036,
3517
+ "grad_norm": 0.23712003231048584,
3518
+ "learning_rate": 8.269155078435931e-06,
3519
+ "loss": 1.2277,
3520
+ "step": 497
3521
+ },
3522
+ {
3523
+ "epoch": 0.8736842105263158,
3524
+ "grad_norm": 0.19795198738574982,
3525
+ "learning_rate": 8.047222744854943e-06,
3526
+ "loss": 0.9915,
3527
+ "step": 498
3528
+ },
3529
+ {
3530
+ "epoch": 0.875438596491228,
3531
+ "grad_norm": 0.246077299118042,
3532
+ "learning_rate": 7.828184337150613e-06,
3533
+ "loss": 1.334,
3534
+ "step": 499
3535
+ },
3536
+ {
3537
+ "epoch": 0.8771929824561403,
3538
+ "grad_norm": 0.16609066724777222,
3539
+ "learning_rate": 7.612046748871327e-06,
3540
+ "loss": 0.8738,
3541
+ "step": 500
3542
+ },
3543
+ {
3544
+ "epoch": 0.8789473684210526,
3545
+ "grad_norm": 0.212895929813385,
3546
+ "learning_rate": 7.398816782271223e-06,
3547
+ "loss": 1.1872,
3548
+ "step": 501
3549
+ },
3550
+ {
3551
+ "epoch": 0.8807017543859649,
3552
+ "grad_norm": 0.21837033331394196,
3553
+ "learning_rate": 7.1885011480961164e-06,
3554
+ "loss": 0.8359,
3555
+ "step": 502
3556
+ },
3557
+ {
3558
+ "epoch": 0.8824561403508772,
3559
+ "grad_norm": 0.20409606397151947,
3560
+ "learning_rate": 6.981106465372389e-06,
3561
+ "loss": 0.9836,
3562
+ "step": 503
3563
+ },
3564
+ {
3565
+ "epoch": 0.8842105263157894,
3566
+ "grad_norm": 0.23097316920757294,
3567
+ "learning_rate": 6.776639261198581e-06,
3568
+ "loss": 1.1037,
3569
+ "step": 504
3570
+ },
3571
+ {
3572
+ "epoch": 0.8859649122807017,
3573
+ "grad_norm": 0.2189425528049469,
3574
+ "learning_rate": 6.5751059705400295e-06,
3575
+ "loss": 1.104,
3576
+ "step": 505
3577
+ },
3578
+ {
3579
+ "epoch": 0.887719298245614,
3580
+ "grad_norm": 0.1863974928855896,
3581
+ "learning_rate": 6.37651293602628e-06,
3582
+ "loss": 1.0283,
3583
+ "step": 506
3584
+ },
3585
+ {
3586
+ "epoch": 0.8894736842105263,
3587
+ "grad_norm": 0.19999191164970398,
3588
+ "learning_rate": 6.180866407751595e-06,
3589
+ "loss": 1.1252,
3590
+ "step": 507
3591
+ },
3592
+ {
3593
+ "epoch": 0.8912280701754386,
3594
+ "grad_norm": 0.2026892900466919,
3595
+ "learning_rate": 5.988172543078097e-06,
3596
+ "loss": 0.9766,
3597
+ "step": 508
3598
+ },
3599
+ {
3600
+ "epoch": 0.8929824561403509,
3601
+ "grad_norm": 0.2486003041267395,
3602
+ "learning_rate": 5.7984374064421035e-06,
3603
+ "loss": 1.2422,
3604
+ "step": 509
3605
+ },
3606
+ {
3607
+ "epoch": 0.8947368421052632,
3608
+ "grad_norm": 0.23102660477161407,
3609
+ "learning_rate": 5.611666969163243e-06,
3610
+ "loss": 0.9549,
3611
+ "step": 510
3612
+ },
3613
+ {
3614
+ "epoch": 0.8964912280701754,
3615
+ "grad_norm": 0.20781514048576355,
3616
+ "learning_rate": 5.427867109256457e-06,
3617
+ "loss": 0.9169,
3618
+ "step": 511
3619
+ },
3620
+ {
3621
+ "epoch": 0.8982456140350877,
3622
+ "grad_norm": 0.24224388599395752,
3623
+ "learning_rate": 5.247043611247127e-06,
3624
+ "loss": 1.1469,
3625
+ "step": 512
3626
+ },
3627
+ {
3628
+ "epoch": 0.9,
3629
+ "grad_norm": 0.20646372437477112,
3630
+ "learning_rate": 5.0692021659888735e-06,
3631
+ "loss": 1.0301,
3632
+ "step": 513
3633
+ },
3634
+ {
3635
+ "epoch": 0.9017543859649123,
3636
+ "grad_norm": 0.19209584593772888,
3637
+ "learning_rate": 4.8943483704846475e-06,
3638
+ "loss": 0.8421,
3639
+ "step": 514
3640
+ },
3641
+ {
3642
+ "epoch": 0.9035087719298246,
3643
+ "grad_norm": 0.19765536487102509,
3644
+ "learning_rate": 4.722487727710368e-06,
3645
+ "loss": 0.7961,
3646
+ "step": 515
3647
+ },
3648
+ {
3649
+ "epoch": 0.9052631578947369,
3650
+ "grad_norm": 0.19135533273220062,
3651
+ "learning_rate": 4.553625646441928e-06,
3652
+ "loss": 0.9,
3653
+ "step": 516
3654
+ },
3655
+ {
3656
+ "epoch": 0.9070175438596492,
3657
+ "grad_norm": 0.2040165811777115,
3658
+ "learning_rate": 4.3877674410848e-06,
3659
+ "loss": 1.0021,
3660
+ "step": 517
3661
+ },
3662
+ {
3663
+ "epoch": 0.9087719298245615,
3664
+ "grad_norm": 0.2542368769645691,
3665
+ "learning_rate": 4.224918331506955e-06,
3666
+ "loss": 1.1327,
3667
+ "step": 518
3668
+ },
3669
+ {
3670
+ "epoch": 0.9105263157894737,
3671
+ "grad_norm": 0.22248725593090057,
3672
+ "learning_rate": 4.065083442874418e-06,
3673
+ "loss": 1.0234,
3674
+ "step": 519
3675
+ },
3676
+ {
3677
+ "epoch": 0.9122807017543859,
3678
+ "grad_norm": 0.2187497317790985,
3679
+ "learning_rate": 3.908267805490051e-06,
3680
+ "loss": 1.1397,
3681
+ "step": 520
3682
+ },
3683
+ {
3684
+ "epoch": 0.9140350877192982,
3685
+ "grad_norm": 0.22156085073947906,
3686
+ "learning_rate": 3.7544763546352834e-06,
3687
+ "loss": 1.1903,
3688
+ "step": 521
3689
+ },
3690
+ {
3691
+ "epoch": 0.9157894736842105,
3692
+ "grad_norm": 0.18726098537445068,
3693
+ "learning_rate": 3.6037139304146762e-06,
3694
+ "loss": 0.8838,
3695
+ "step": 522
3696
+ },
3697
+ {
3698
+ "epoch": 0.9175438596491228,
3699
+ "grad_norm": 0.24216888844966888,
3700
+ "learning_rate": 3.455985277603713e-06,
3701
+ "loss": 1.1866,
3702
+ "step": 523
3703
+ },
3704
+ {
3705
+ "epoch": 0.9192982456140351,
3706
+ "grad_norm": 0.22994445264339447,
3707
+ "learning_rate": 3.311295045499363e-06,
3708
+ "loss": 1.2912,
3709
+ "step": 524
3710
+ },
3711
+ {
3712
+ "epoch": 0.9210526315789473,
3713
+ "grad_norm": 0.2445104867219925,
3714
+ "learning_rate": 3.169647787773866e-06,
3715
+ "loss": 1.2097,
3716
+ "step": 525
3717
+ },
3718
+ {
3719
+ "epoch": 0.9228070175438596,
3720
+ "grad_norm": 0.2259332537651062,
3721
+ "learning_rate": 3.0310479623313127e-06,
3722
+ "loss": 1.3334,
3723
+ "step": 526
3724
+ },
3725
+ {
3726
+ "epoch": 0.9245614035087719,
3727
+ "grad_norm": 0.21811023354530334,
3728
+ "learning_rate": 2.8954999311674558e-06,
3729
+ "loss": 0.9423,
3730
+ "step": 527
3731
+ },
3732
+ {
3733
+ "epoch": 0.9263157894736842,
3734
+ "grad_norm": 0.20350219309329987,
3735
+ "learning_rate": 2.7630079602323442e-06,
3736
+ "loss": 1.2072,
3737
+ "step": 528
3738
+ },
3739
+ {
3740
+ "epoch": 0.9280701754385965,
3741
+ "grad_norm": 0.2146158218383789,
3742
+ "learning_rate": 2.6335762192960743e-06,
3743
+ "loss": 1.0334,
3744
+ "step": 529
3745
+ },
3746
+ {
3747
+ "epoch": 0.9298245614035088,
3748
+ "grad_norm": 0.24354608356952667,
3749
+ "learning_rate": 2.5072087818176382e-06,
3750
+ "loss": 0.9747,
3751
+ "step": 530
3752
+ },
3753
+ {
3754
+ "epoch": 0.9315789473684211,
3755
+ "grad_norm": 0.20511949062347412,
3756
+ "learning_rate": 2.383909624816616e-06,
3757
+ "loss": 1.1739,
3758
+ "step": 531
3759
+ },
3760
+ {
3761
+ "epoch": 0.9333333333333333,
3762
+ "grad_norm": 0.21031689643859863,
3763
+ "learning_rate": 2.2636826287480873e-06,
3764
+ "loss": 0.8473,
3765
+ "step": 532
3766
+ },
3767
+ {
3768
+ "epoch": 0.9350877192982456,
3769
+ "grad_norm": 0.19460001587867737,
3770
+ "learning_rate": 2.1465315773804616e-06,
3771
+ "loss": 1.1534,
3772
+ "step": 533
3773
+ },
3774
+ {
3775
+ "epoch": 0.9368421052631579,
3776
+ "grad_norm": 0.23352767527103424,
3777
+ "learning_rate": 2.032460157676452e-06,
3778
+ "loss": 1.1901,
3779
+ "step": 534
3780
+ },
3781
+ {
3782
+ "epoch": 0.9385964912280702,
3783
+ "grad_norm": 0.2155674397945404,
3784
+ "learning_rate": 1.921471959676957e-06,
3785
+ "loss": 1.214,
3786
+ "step": 535
3787
+ },
3788
+ {
3789
+ "epoch": 0.9403508771929825,
3790
+ "grad_norm": 0.19896399974822998,
3791
+ "learning_rate": 1.81357047638816e-06,
3792
+ "loss": 0.9388,
3793
+ "step": 536
3794
+ },
3795
+ {
3796
+ "epoch": 0.9421052631578948,
3797
+ "grad_norm": 0.2220386415719986,
3798
+ "learning_rate": 1.7087591036715534e-06,
3799
+ "loss": 1.1168,
3800
+ "step": 537
3801
+ },
3802
+ {
3803
+ "epoch": 0.9438596491228071,
3804
+ "grad_norm": 0.1958460658788681,
3805
+ "learning_rate": 1.6070411401370334e-06,
3806
+ "loss": 0.8961,
3807
+ "step": 538
3808
+ },
3809
+ {
3810
+ "epoch": 0.9456140350877194,
3811
+ "grad_norm": 0.23341479897499084,
3812
+ "learning_rate": 1.5084197870391837e-06,
3813
+ "loss": 1.0279,
3814
+ "step": 539
3815
+ },
3816
+ {
3817
+ "epoch": 0.9473684210526315,
3818
+ "grad_norm": 0.21169790625572205,
3819
+ "learning_rate": 1.4128981481764115e-06,
3820
+ "loss": 1.1875,
3821
+ "step": 540
3822
+ },
3823
+ {
3824
+ "epoch": 0.9491228070175438,
3825
+ "grad_norm": 0.18905304372310638,
3826
+ "learning_rate": 1.3204792297933588e-06,
3827
+ "loss": 1.0736,
3828
+ "step": 541
3829
+ },
3830
+ {
3831
+ "epoch": 0.9508771929824561,
3832
+ "grad_norm": 0.22275826334953308,
3833
+ "learning_rate": 1.231165940486234e-06,
3834
+ "loss": 1.1324,
3835
+ "step": 542
3836
+ },
3837
+ {
3838
+ "epoch": 0.9526315789473684,
3839
+ "grad_norm": 0.22516103088855743,
3840
+ "learning_rate": 1.1449610911112741e-06,
3841
+ "loss": 1.1521,
3842
+ "step": 543
3843
+ },
3844
+ {
3845
+ "epoch": 0.9543859649122807,
3846
+ "grad_norm": 0.18578921258449554,
3847
+ "learning_rate": 1.0618673946963365e-06,
3848
+ "loss": 0.9419,
3849
+ "step": 544
3850
+ },
3851
+ {
3852
+ "epoch": 0.956140350877193,
3853
+ "grad_norm": 0.19390179216861725,
3854
+ "learning_rate": 9.818874663554357e-07,
3855
+ "loss": 1.0505,
3856
+ "step": 545
3857
+ },
3858
+ {
3859
+ "epoch": 0.9578947368421052,
3860
+ "grad_norm": 0.2348068505525589,
3861
+ "learning_rate": 9.0502382320653e-07,
3862
+ "loss": 1.0465,
3863
+ "step": 546
3864
+ },
3865
+ {
3866
+ "epoch": 0.9596491228070175,
3867
+ "grad_norm": 0.20014607906341553,
3868
+ "learning_rate": 8.31278884292186e-07,
3869
+ "loss": 0.9987,
3870
+ "step": 547
3871
+ },
3872
+ {
3873
+ "epoch": 0.9614035087719298,
3874
+ "grad_norm": 0.22346830368041992,
3875
+ "learning_rate": 7.606549705035937e-07,
3876
+ "loss": 1.2411,
3877
+ "step": 548
3878
+ },
3879
+ {
3880
+ "epoch": 0.9631578947368421,
3881
+ "grad_norm": 0.22480875253677368,
3882
+ "learning_rate": 6.931543045073708e-07,
3883
+ "loss": 1.2412,
3884
+ "step": 549
3885
+ },
3886
+ {
3887
+ "epoch": 0.9649122807017544,
3888
+ "grad_norm": 0.22292938828468323,
3889
+ "learning_rate": 6.287790106757396e-07,
3890
+ "loss": 0.9878,
3891
+ "step": 550
3892
+ },
3893
+ {
3894
+ "epoch": 0.9666666666666667,
3895
+ "grad_norm": 0.20601260662078857,
3896
+ "learning_rate": 5.675311150195928e-07,
3897
+ "loss": 1.1647,
3898
+ "step": 551
3899
+ },
3900
+ {
3901
+ "epoch": 0.968421052631579,
3902
+ "grad_norm": 0.21411311626434326,
3903
+ "learning_rate": 5.094125451247655e-07,
3904
+ "loss": 1.1315,
3905
+ "step": 552
3906
+ },
3907
+ {
3908
+ "epoch": 0.9701754385964912,
3909
+ "grad_norm": 0.21345672011375427,
3910
+ "learning_rate": 4.544251300913405e-07,
3911
+ "loss": 1.0022,
3912
+ "step": 553
3913
+ },
3914
+ {
3915
+ "epoch": 0.9719298245614035,
3916
+ "grad_norm": 0.18871097266674042,
3917
+ "learning_rate": 4.025706004760932e-07,
3918
+ "loss": 0.9219,
3919
+ "step": 554
3920
+ },
3921
+ {
3922
+ "epoch": 0.9736842105263158,
3923
+ "grad_norm": 0.2253376692533493,
3924
+ "learning_rate": 3.5385058823809156e-07,
3925
+ "loss": 1.065,
3926
+ "step": 555
3927
+ },
3928
+ {
3929
+ "epoch": 0.9754385964912281,
3930
+ "grad_norm": 0.20358805358409882,
3931
+ "learning_rate": 3.0826662668720364e-07,
3932
+ "loss": 1.0352,
3933
+ "step": 556
3934
+ },
3935
+ {
3936
+ "epoch": 0.9771929824561404,
3937
+ "grad_norm": 0.22318677604198456,
3938
+ "learning_rate": 2.658201504359803e-07,
3939
+ "loss": 1.0816,
3940
+ "step": 557
3941
+ },
3942
+ {
3943
+ "epoch": 0.9789473684210527,
3944
+ "grad_norm": 0.2127983570098877,
3945
+ "learning_rate": 2.265124953543918e-07,
3946
+ "loss": 1.0055,
3947
+ "step": 558
3948
+ },
3949
+ {
3950
+ "epoch": 0.980701754385965,
3951
+ "grad_norm": 0.18631552159786224,
3952
+ "learning_rate": 1.9034489852787218e-07,
3953
+ "loss": 0.9969,
3954
+ "step": 559
3955
+ },
3956
+ {
3957
+ "epoch": 0.9824561403508771,
3958
+ "grad_norm": 0.19769078493118286,
3959
+ "learning_rate": 1.5731849821833954e-07,
3960
+ "loss": 0.9535,
3961
+ "step": 560
3962
+ },
3963
+ {
3964
+ "epoch": 0.9842105263157894,
3965
+ "grad_norm": 0.18470965325832367,
3966
+ "learning_rate": 1.274343338283801e-07,
3967
+ "loss": 0.8852,
3968
+ "step": 561
3969
+ },
3970
+ {
3971
+ "epoch": 0.9859649122807017,
3972
+ "grad_norm": 0.2604463994503021,
3973
+ "learning_rate": 1.0069334586854107e-07,
3974
+ "loss": 1.0838,
3975
+ "step": 562
3976
+ },
3977
+ {
3978
+ "epoch": 0.987719298245614,
3979
+ "grad_norm": 0.22031089663505554,
3980
+ "learning_rate": 7.709637592770991e-08,
3981
+ "loss": 0.9439,
3982
+ "step": 563
3983
+ },
3984
+ {
3985
+ "epoch": 0.9894736842105263,
3986
+ "grad_norm": 0.20898091793060303,
3987
+ "learning_rate": 5.6644166646668826e-08,
3988
+ "loss": 1.0976,
3989
+ "step": 564
3990
+ },
3991
+ {
3992
+ "epoch": 0.9912280701754386,
3993
+ "grad_norm": 0.22906498610973358,
3994
+ "learning_rate": 3.933736169471347e-08,
3995
+ "loss": 1.2958,
3996
+ "step": 565
3997
+ },
3998
+ {
3999
+ "epoch": 0.9929824561403509,
4000
+ "grad_norm": 0.2085491120815277,
4001
+ "learning_rate": 2.5176505749346936e-08,
4002
+ "loss": 0.8897,
4003
+ "step": 566
4004
+ },
4005
+ {
4006
+ "epoch": 0.9947368421052631,
4007
+ "grad_norm": 0.17532259225845337,
4008
+ "learning_rate": 1.4162044479182346e-08,
4009
+ "loss": 0.8908,
4010
+ "step": 567
4011
+ },
4012
+ {
4013
+ "epoch": 0.9964912280701754,
4014
+ "grad_norm": 0.23514819145202637,
4015
+ "learning_rate": 6.294324529942941e-09,
4016
+ "loss": 1.0965,
4017
+ "step": 568
4018
+ },
4019
+ {
4020
+ "epoch": 0.9982456140350877,
4021
+ "grad_norm": 0.19628407061100006,
4022
+ "learning_rate": 1.5735935134708613e-09,
4023
+ "loss": 0.8857,
4024
+ "step": 569
4025
+ },
4026
+ {
4027
+ "epoch": 1.0,
4028
+ "grad_norm": 0.21578288078308105,
4029
+ "learning_rate": 0.0,
4030
+ "loss": 0.9811,
4031
+ "step": 570
4032
  }
4033
  ],
4034
  "logging_steps": 1,
 
4043
  "should_evaluate": false,
4044
  "should_log": false,
4045
  "should_save": true,
4046
+ "should_training_stop": true
4047
  },
4048
  "attributes": {}
4049
  }
4050
  },
4051
+ "total_flos": 1.9503234629291213e+17,
4052
  "train_batch_size": 2,
4053
  "trial_name": null,
4054
  "trial_params": null