ErrorAI commited on
Commit
d9a2579
·
verified ·
1 Parent(s): e62c200

Training in progress, step 570, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d796c5d280566587a8ef2b2ab38733ede8d9e5b67c2e12612a3cec8eb5a83f3d
3
  size 81576
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:51e98f67765a2eb2368c2f2e215e5056e6877b63a99d2c749fa289541026b705
3
  size 81576
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:48f1265ac635ad13e4f6c1a2becc081b202cbe5b61e836c335c4bdf0be18801c
3
  size 173094
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2cfe11ad55a96cad8bdac1448ebc4e55b90395474681435aab23be456282687f
3
  size 173094
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a286108953ad03a08dcce39ded4bd4d34d44de383cc996117af0f2b57e23a641
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c2b1b4d4fc5af089dfffe964a368b7be036a5a5e60d94d3627c20a7cd7efe1e0
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:20b6399ed1f4a4e925c86dd58b4b559fa96fc0370b46ab280a68ad58e4333e47
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e3efe9a7dcecfc294170eaf9d37d88929a06a263232a2f5ff76c24580b1ffbbf
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.7526315789473684,
5
  "eval_steps": 143,
6
- "global_step": 429,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -3042,6 +3042,993 @@
3042
  "eval_samples_per_second": 317.257,
3043
  "eval_steps_per_second": 158.629,
3044
  "step": 429
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3045
  }
3046
  ],
3047
  "logging_steps": 1,
@@ -3056,12 +4043,12 @@
3056
  "should_evaluate": false,
3057
  "should_log": false,
3058
  "should_save": true,
3059
- "should_training_stop": false
3060
  },
3061
  "attributes": {}
3062
  }
3063
  },
3064
- "total_flos": 42819438772224.0,
3065
  "train_batch_size": 2,
3066
  "trial_name": null,
3067
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 1.0,
5
  "eval_steps": 143,
6
+ "global_step": 570,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
3042
  "eval_samples_per_second": 317.257,
3043
  "eval_steps_per_second": 158.629,
3044
  "step": 429
3045
+ },
3046
+ {
3047
+ "epoch": 0.7543859649122807,
3048
+ "grad_norm": 0.29503875970840454,
3049
+ "learning_rate": 2.9289321881345254e-05,
3050
+ "loss": 10.691,
3051
+ "step": 430
3052
+ },
3053
+ {
3054
+ "epoch": 0.756140350877193,
3055
+ "grad_norm": 0.2280651479959488,
3056
+ "learning_rate": 2.8893750684111975e-05,
3057
+ "loss": 10.7043,
3058
+ "step": 431
3059
+ },
3060
+ {
3061
+ "epoch": 0.7578947368421053,
3062
+ "grad_norm": 0.2564852237701416,
3063
+ "learning_rate": 2.850041733353247e-05,
3064
+ "loss": 10.6683,
3065
+ "step": 432
3066
+ },
3067
+ {
3068
+ "epoch": 0.7596491228070176,
3069
+ "grad_norm": 0.19316798448562622,
3070
+ "learning_rate": 2.8109334208542993e-05,
3071
+ "loss": 10.6773,
3072
+ "step": 433
3073
+ },
3074
+ {
3075
+ "epoch": 0.7614035087719299,
3076
+ "grad_norm": 0.18743948638439178,
3077
+ "learning_rate": 2.7720513617260856e-05,
3078
+ "loss": 10.6676,
3079
+ "step": 434
3080
+ },
3081
+ {
3082
+ "epoch": 0.7631578947368421,
3083
+ "grad_norm": 0.21178874373435974,
3084
+ "learning_rate": 2.7333967796597315e-05,
3085
+ "loss": 10.7064,
3086
+ "step": 435
3087
+ },
3088
+ {
3089
+ "epoch": 0.7649122807017544,
3090
+ "grad_norm": 0.19119100272655487,
3091
+ "learning_rate": 2.694970891187225e-05,
3092
+ "loss": 10.6512,
3093
+ "step": 436
3094
+ },
3095
+ {
3096
+ "epoch": 0.7666666666666667,
3097
+ "grad_norm": 0.25586599111557007,
3098
+ "learning_rate": 2.6567749056431467e-05,
3099
+ "loss": 10.6905,
3100
+ "step": 437
3101
+ },
3102
+ {
3103
+ "epoch": 0.7684210526315789,
3104
+ "grad_norm": 0.17666222155094147,
3105
+ "learning_rate": 2.6188100251265945e-05,
3106
+ "loss": 10.6544,
3107
+ "step": 438
3108
+ },
3109
+ {
3110
+ "epoch": 0.7701754385964912,
3111
+ "grad_norm": 0.1568339616060257,
3112
+ "learning_rate": 2.5810774444633644e-05,
3113
+ "loss": 10.6804,
3114
+ "step": 439
3115
+ },
3116
+ {
3117
+ "epoch": 0.7719298245614035,
3118
+ "grad_norm": 0.2483753114938736,
3119
+ "learning_rate": 2.5435783511683443e-05,
3120
+ "loss": 10.6641,
3121
+ "step": 440
3122
+ },
3123
+ {
3124
+ "epoch": 0.7736842105263158,
3125
+ "grad_norm": 0.22110183537006378,
3126
+ "learning_rate": 2.506313925408127e-05,
3127
+ "loss": 10.6885,
3128
+ "step": 441
3129
+ },
3130
+ {
3131
+ "epoch": 0.775438596491228,
3132
+ "grad_norm": 0.1530926376581192,
3133
+ "learning_rate": 2.4692853399638917e-05,
3134
+ "loss": 10.6533,
3135
+ "step": 442
3136
+ },
3137
+ {
3138
+ "epoch": 0.7771929824561403,
3139
+ "grad_norm": 0.23491761088371277,
3140
+ "learning_rate": 2.4324937601944685e-05,
3141
+ "loss": 10.6488,
3142
+ "step": 443
3143
+ },
3144
+ {
3145
+ "epoch": 0.7789473684210526,
3146
+ "grad_norm": 0.21756233274936676,
3147
+ "learning_rate": 2.3959403439996907e-05,
3148
+ "loss": 10.6742,
3149
+ "step": 444
3150
+ },
3151
+ {
3152
+ "epoch": 0.7807017543859649,
3153
+ "grad_norm": 0.18125437200069427,
3154
+ "learning_rate": 2.3596262417839255e-05,
3155
+ "loss": 10.6726,
3156
+ "step": 445
3157
+ },
3158
+ {
3159
+ "epoch": 0.7824561403508772,
3160
+ "grad_norm": 0.23887260258197784,
3161
+ "learning_rate": 2.323552596419889e-05,
3162
+ "loss": 10.6596,
3163
+ "step": 446
3164
+ },
3165
+ {
3166
+ "epoch": 0.7842105263157895,
3167
+ "grad_norm": 0.18337543308734894,
3168
+ "learning_rate": 2.2877205432126657e-05,
3169
+ "loss": 10.6511,
3170
+ "step": 447
3171
+ },
3172
+ {
3173
+ "epoch": 0.7859649122807018,
3174
+ "grad_norm": 0.2415776550769806,
3175
+ "learning_rate": 2.2521312098639914e-05,
3176
+ "loss": 10.6739,
3177
+ "step": 448
3178
+ },
3179
+ {
3180
+ "epoch": 0.787719298245614,
3181
+ "grad_norm": 0.18577896058559418,
3182
+ "learning_rate": 2.2167857164367422e-05,
3183
+ "loss": 10.6954,
3184
+ "step": 449
3185
+ },
3186
+ {
3187
+ "epoch": 0.7894736842105263,
3188
+ "grad_norm": 0.2739926278591156,
3189
+ "learning_rate": 2.181685175319702e-05,
3190
+ "loss": 10.6477,
3191
+ "step": 450
3192
+ },
3193
+ {
3194
+ "epoch": 0.7912280701754386,
3195
+ "grad_norm": 0.2336394488811493,
3196
+ "learning_rate": 2.146830691192553e-05,
3197
+ "loss": 10.6947,
3198
+ "step": 451
3199
+ },
3200
+ {
3201
+ "epoch": 0.7929824561403509,
3202
+ "grad_norm": 0.22242297232151031,
3203
+ "learning_rate": 2.11222336099109e-05,
3204
+ "loss": 10.6602,
3205
+ "step": 452
3206
+ },
3207
+ {
3208
+ "epoch": 0.7947368421052632,
3209
+ "grad_norm": 0.18758748471736908,
3210
+ "learning_rate": 2.0778642738727272e-05,
3211
+ "loss": 10.6843,
3212
+ "step": 453
3213
+ },
3214
+ {
3215
+ "epoch": 0.7964912280701755,
3216
+ "grad_norm": 0.1851445883512497,
3217
+ "learning_rate": 2.043754511182191e-05,
3218
+ "loss": 10.6776,
3219
+ "step": 454
3220
+ },
3221
+ {
3222
+ "epoch": 0.7982456140350878,
3223
+ "grad_norm": 0.1795864701271057,
3224
+ "learning_rate": 2.009895146417512e-05,
3225
+ "loss": 10.6947,
3226
+ "step": 455
3227
+ },
3228
+ {
3229
+ "epoch": 0.8,
3230
+ "grad_norm": 0.21275727450847626,
3231
+ "learning_rate": 1.9762872451962212e-05,
3232
+ "loss": 10.69,
3233
+ "step": 456
3234
+ },
3235
+ {
3236
+ "epoch": 0.8017543859649123,
3237
+ "grad_norm": 0.1958458423614502,
3238
+ "learning_rate": 1.9429318652218276e-05,
3239
+ "loss": 10.6889,
3240
+ "step": 457
3241
+ },
3242
+ {
3243
+ "epoch": 0.8035087719298246,
3244
+ "grad_norm": 0.3333258032798767,
3245
+ "learning_rate": 1.9098300562505266e-05,
3246
+ "loss": 10.652,
3247
+ "step": 458
3248
+ },
3249
+ {
3250
+ "epoch": 0.8052631578947368,
3251
+ "grad_norm": 0.22521115839481354,
3252
+ "learning_rate": 1.8769828600581496e-05,
3253
+ "loss": 10.6767,
3254
+ "step": 459
3255
+ },
3256
+ {
3257
+ "epoch": 0.8070175438596491,
3258
+ "grad_norm": 0.22420458495616913,
3259
+ "learning_rate": 1.8443913104073983e-05,
3260
+ "loss": 10.6827,
3261
+ "step": 460
3262
+ },
3263
+ {
3264
+ "epoch": 0.8087719298245614,
3265
+ "grad_norm": 0.28353458642959595,
3266
+ "learning_rate": 1.8120564330152923e-05,
3267
+ "loss": 10.6371,
3268
+ "step": 461
3269
+ },
3270
+ {
3271
+ "epoch": 0.8105263157894737,
3272
+ "grad_norm": 0.27955901622772217,
3273
+ "learning_rate": 1.7799792455209018e-05,
3274
+ "loss": 10.6391,
3275
+ "step": 462
3276
+ },
3277
+ {
3278
+ "epoch": 0.8122807017543859,
3279
+ "grad_norm": 0.24275584518909454,
3280
+ "learning_rate": 1.7481607574533044e-05,
3281
+ "loss": 10.669,
3282
+ "step": 463
3283
+ },
3284
+ {
3285
+ "epoch": 0.8140350877192982,
3286
+ "grad_norm": 0.21551206707954407,
3287
+ "learning_rate": 1.716601970199836e-05,
3288
+ "loss": 10.6878,
3289
+ "step": 464
3290
+ },
3291
+ {
3292
+ "epoch": 0.8157894736842105,
3293
+ "grad_norm": 0.20878919959068298,
3294
+ "learning_rate": 1.6853038769745467e-05,
3295
+ "loss": 10.6937,
3296
+ "step": 465
3297
+ },
3298
+ {
3299
+ "epoch": 0.8175438596491228,
3300
+ "grad_norm": 0.21660566329956055,
3301
+ "learning_rate": 1.6542674627869737e-05,
3302
+ "loss": 10.6919,
3303
+ "step": 466
3304
+ },
3305
+ {
3306
+ "epoch": 0.8192982456140351,
3307
+ "grad_norm": 0.2458791881799698,
3308
+ "learning_rate": 1.6234937044111152e-05,
3309
+ "loss": 10.6738,
3310
+ "step": 467
3311
+ },
3312
+ {
3313
+ "epoch": 0.8210526315789474,
3314
+ "grad_norm": 0.22026145458221436,
3315
+ "learning_rate": 1.5929835703546993e-05,
3316
+ "loss": 10.6797,
3317
+ "step": 468
3318
+ },
3319
+ {
3320
+ "epoch": 0.8228070175438597,
3321
+ "grad_norm": 0.21497632563114166,
3322
+ "learning_rate": 1.5627380208287114e-05,
3323
+ "loss": 10.6807,
3324
+ "step": 469
3325
+ },
3326
+ {
3327
+ "epoch": 0.8245614035087719,
3328
+ "grad_norm": 0.24622896313667297,
3329
+ "learning_rate": 1.5327580077171587e-05,
3330
+ "loss": 10.6612,
3331
+ "step": 470
3332
+ },
3333
+ {
3334
+ "epoch": 0.8263157894736842,
3335
+ "grad_norm": 0.2639427185058594,
3336
+ "learning_rate": 1.5030444745471294e-05,
3337
+ "loss": 10.6531,
3338
+ "step": 471
3339
+ },
3340
+ {
3341
+ "epoch": 0.8280701754385965,
3342
+ "grad_norm": 0.21809430420398712,
3343
+ "learning_rate": 1.4735983564590783e-05,
3344
+ "loss": 10.6821,
3345
+ "step": 472
3346
+ },
3347
+ {
3348
+ "epoch": 0.8298245614035088,
3349
+ "grad_norm": 0.2837026119232178,
3350
+ "learning_rate": 1.4444205801774202e-05,
3351
+ "loss": 10.6852,
3352
+ "step": 473
3353
+ },
3354
+ {
3355
+ "epoch": 0.8315789473684211,
3356
+ "grad_norm": 0.2315063625574112,
3357
+ "learning_rate": 1.415512063981339e-05,
3358
+ "loss": 10.6723,
3359
+ "step": 474
3360
+ },
3361
+ {
3362
+ "epoch": 0.8333333333333334,
3363
+ "grad_norm": 0.2142920196056366,
3364
+ "learning_rate": 1.3868737176759106e-05,
3365
+ "loss": 10.6347,
3366
+ "step": 475
3367
+ },
3368
+ {
3369
+ "epoch": 0.8350877192982457,
3370
+ "grad_norm": 0.22398516535758972,
3371
+ "learning_rate": 1.3585064425634542e-05,
3372
+ "loss": 10.6954,
3373
+ "step": 476
3374
+ },
3375
+ {
3376
+ "epoch": 0.8368421052631579,
3377
+ "grad_norm": 0.18427734076976776,
3378
+ "learning_rate": 1.330411131415169e-05,
3379
+ "loss": 10.6796,
3380
+ "step": 477
3381
+ },
3382
+ {
3383
+ "epoch": 0.8385964912280702,
3384
+ "grad_norm": 0.20222590863704681,
3385
+ "learning_rate": 1.3025886684430467e-05,
3386
+ "loss": 10.6647,
3387
+ "step": 478
3388
+ },
3389
+ {
3390
+ "epoch": 0.8403508771929824,
3391
+ "grad_norm": 0.19547833502292633,
3392
+ "learning_rate": 1.2750399292720283e-05,
3393
+ "loss": 10.6801,
3394
+ "step": 479
3395
+ },
3396
+ {
3397
+ "epoch": 0.8421052631578947,
3398
+ "grad_norm": 0.23069126904010773,
3399
+ "learning_rate": 1.2477657809124631e-05,
3400
+ "loss": 10.6665,
3401
+ "step": 480
3402
+ },
3403
+ {
3404
+ "epoch": 0.843859649122807,
3405
+ "grad_norm": 0.17966169118881226,
3406
+ "learning_rate": 1.2207670817328066e-05,
3407
+ "loss": 10.6755,
3408
+ "step": 481
3409
+ },
3410
+ {
3411
+ "epoch": 0.8456140350877193,
3412
+ "grad_norm": 0.2698460817337036,
3413
+ "learning_rate": 1.19404468143262e-05,
3414
+ "loss": 10.6617,
3415
+ "step": 482
3416
+ },
3417
+ {
3418
+ "epoch": 0.8473684210526315,
3419
+ "grad_norm": 0.1589714139699936,
3420
+ "learning_rate": 1.1675994210158181e-05,
3421
+ "loss": 10.6625,
3422
+ "step": 483
3423
+ },
3424
+ {
3425
+ "epoch": 0.8491228070175438,
3426
+ "grad_norm": 0.23473794758319855,
3427
+ "learning_rate": 1.141432132764202e-05,
3428
+ "loss": 10.6698,
3429
+ "step": 484
3430
+ },
3431
+ {
3432
+ "epoch": 0.8508771929824561,
3433
+ "grad_norm": 0.25006183981895447,
3434
+ "learning_rate": 1.1155436402112785e-05,
3435
+ "loss": 10.6668,
3436
+ "step": 485
3437
+ },
3438
+ {
3439
+ "epoch": 0.8526315789473684,
3440
+ "grad_norm": 0.200173020362854,
3441
+ "learning_rate": 1.0899347581163221e-05,
3442
+ "loss": 10.6611,
3443
+ "step": 486
3444
+ },
3445
+ {
3446
+ "epoch": 0.8543859649122807,
3447
+ "grad_norm": 0.18156000971794128,
3448
+ "learning_rate": 1.0646062924387512e-05,
3449
+ "loss": 10.6593,
3450
+ "step": 487
3451
+ },
3452
+ {
3453
+ "epoch": 0.856140350877193,
3454
+ "grad_norm": 0.2163092941045761,
3455
+ "learning_rate": 1.0395590403127486e-05,
3456
+ "loss": 10.6704,
3457
+ "step": 488
3458
+ },
3459
+ {
3460
+ "epoch": 0.8578947368421053,
3461
+ "grad_norm": 0.29484280943870544,
3462
+ "learning_rate": 1.0147937900221883e-05,
3463
+ "loss": 10.6809,
3464
+ "step": 489
3465
+ },
3466
+ {
3467
+ "epoch": 0.8596491228070176,
3468
+ "grad_norm": 0.2818056046962738,
3469
+ "learning_rate": 9.903113209758096e-06,
3470
+ "loss": 10.6291,
3471
+ "step": 490
3472
+ },
3473
+ {
3474
+ "epoch": 0.8614035087719298,
3475
+ "grad_norm": 0.19995582103729248,
3476
+ "learning_rate": 9.661124036827063e-06,
3477
+ "loss": 10.6645,
3478
+ "step": 491
3479
+ },
3480
+ {
3481
+ "epoch": 0.8631578947368421,
3482
+ "grad_norm": 0.25295835733413696,
3483
+ "learning_rate": 9.421977997280596e-06,
3484
+ "loss": 10.6527,
3485
+ "step": 492
3486
+ },
3487
+ {
3488
+ "epoch": 0.8649122807017544,
3489
+ "grad_norm": 0.1981017291545868,
3490
+ "learning_rate": 9.185682617491863e-06,
3491
+ "loss": 10.6562,
3492
+ "step": 493
3493
+ },
3494
+ {
3495
+ "epoch": 0.8666666666666667,
3496
+ "grad_norm": 0.16144883632659912,
3497
+ "learning_rate": 8.952245334118414e-06,
3498
+ "loss": 10.6626,
3499
+ "step": 494
3500
+ },
3501
+ {
3502
+ "epoch": 0.868421052631579,
3503
+ "grad_norm": 0.23267914354801178,
3504
+ "learning_rate": 8.72167349386811e-06,
3505
+ "loss": 10.6941,
3506
+ "step": 495
3507
+ },
3508
+ {
3509
+ "epoch": 0.8701754385964913,
3510
+ "grad_norm": 0.20202142000198364,
3511
+ "learning_rate": 8.493974353268019e-06,
3512
+ "loss": 10.6771,
3513
+ "step": 496
3514
+ },
3515
+ {
3516
+ "epoch": 0.8719298245614036,
3517
+ "grad_norm": 0.34231188893318176,
3518
+ "learning_rate": 8.269155078435931e-06,
3519
+ "loss": 10.7252,
3520
+ "step": 497
3521
+ },
3522
+ {
3523
+ "epoch": 0.8736842105263158,
3524
+ "grad_norm": 0.17752091586589813,
3525
+ "learning_rate": 8.047222744854943e-06,
3526
+ "loss": 10.6724,
3527
+ "step": 498
3528
+ },
3529
+ {
3530
+ "epoch": 0.875438596491228,
3531
+ "grad_norm": 0.26747509837150574,
3532
+ "learning_rate": 7.828184337150613e-06,
3533
+ "loss": 10.7056,
3534
+ "step": 499
3535
+ },
3536
+ {
3537
+ "epoch": 0.8771929824561403,
3538
+ "grad_norm": 0.26659560203552246,
3539
+ "learning_rate": 7.612046748871327e-06,
3540
+ "loss": 10.7047,
3541
+ "step": 500
3542
+ },
3543
+ {
3544
+ "epoch": 0.8789473684210526,
3545
+ "grad_norm": 0.19917453825473785,
3546
+ "learning_rate": 7.398816782271223e-06,
3547
+ "loss": 10.704,
3548
+ "step": 501
3549
+ },
3550
+ {
3551
+ "epoch": 0.8807017543859649,
3552
+ "grad_norm": 0.23498232662677765,
3553
+ "learning_rate": 7.1885011480961164e-06,
3554
+ "loss": 10.6675,
3555
+ "step": 502
3556
+ },
3557
+ {
3558
+ "epoch": 0.8824561403508772,
3559
+ "grad_norm": 0.21307386457920074,
3560
+ "learning_rate": 6.981106465372389e-06,
3561
+ "loss": 10.6562,
3562
+ "step": 503
3563
+ },
3564
+ {
3565
+ "epoch": 0.8842105263157894,
3566
+ "grad_norm": 0.3048202097415924,
3567
+ "learning_rate": 6.776639261198581e-06,
3568
+ "loss": 10.6504,
3569
+ "step": 504
3570
+ },
3571
+ {
3572
+ "epoch": 0.8859649122807017,
3573
+ "grad_norm": 0.221920445561409,
3574
+ "learning_rate": 6.5751059705400295e-06,
3575
+ "loss": 10.6859,
3576
+ "step": 505
3577
+ },
3578
+ {
3579
+ "epoch": 0.887719298245614,
3580
+ "grad_norm": 0.19181109964847565,
3581
+ "learning_rate": 6.37651293602628e-06,
3582
+ "loss": 10.6674,
3583
+ "step": 506
3584
+ },
3585
+ {
3586
+ "epoch": 0.8894736842105263,
3587
+ "grad_norm": 0.23929765820503235,
3588
+ "learning_rate": 6.180866407751595e-06,
3589
+ "loss": 10.6818,
3590
+ "step": 507
3591
+ },
3592
+ {
3593
+ "epoch": 0.8912280701754386,
3594
+ "grad_norm": 0.28008386492729187,
3595
+ "learning_rate": 5.988172543078097e-06,
3596
+ "loss": 10.7264,
3597
+ "step": 508
3598
+ },
3599
+ {
3600
+ "epoch": 0.8929824561403509,
3601
+ "grad_norm": 0.31902721524238586,
3602
+ "learning_rate": 5.7984374064421035e-06,
3603
+ "loss": 10.6314,
3604
+ "step": 509
3605
+ },
3606
+ {
3607
+ "epoch": 0.8947368421052632,
3608
+ "grad_norm": 0.22529898583889008,
3609
+ "learning_rate": 5.611666969163243e-06,
3610
+ "loss": 10.6476,
3611
+ "step": 510
3612
+ },
3613
+ {
3614
+ "epoch": 0.8964912280701754,
3615
+ "grad_norm": 0.18052135407924652,
3616
+ "learning_rate": 5.427867109256457e-06,
3617
+ "loss": 10.6507,
3618
+ "step": 511
3619
+ },
3620
+ {
3621
+ "epoch": 0.8982456140350877,
3622
+ "grad_norm": 0.20663322508335114,
3623
+ "learning_rate": 5.247043611247127e-06,
3624
+ "loss": 10.6917,
3625
+ "step": 512
3626
+ },
3627
+ {
3628
+ "epoch": 0.9,
3629
+ "grad_norm": 0.19402727484703064,
3630
+ "learning_rate": 5.0692021659888735e-06,
3631
+ "loss": 10.6435,
3632
+ "step": 513
3633
+ },
3634
+ {
3635
+ "epoch": 0.9017543859649123,
3636
+ "grad_norm": 0.18608134984970093,
3637
+ "learning_rate": 4.8943483704846475e-06,
3638
+ "loss": 10.6597,
3639
+ "step": 514
3640
+ },
3641
+ {
3642
+ "epoch": 0.9035087719298246,
3643
+ "grad_norm": 0.23060499131679535,
3644
+ "learning_rate": 4.722487727710368e-06,
3645
+ "loss": 10.673,
3646
+ "step": 515
3647
+ },
3648
+ {
3649
+ "epoch": 0.9052631578947369,
3650
+ "grad_norm": 0.2104937583208084,
3651
+ "learning_rate": 4.553625646441928e-06,
3652
+ "loss": 10.6911,
3653
+ "step": 516
3654
+ },
3655
+ {
3656
+ "epoch": 0.9070175438596492,
3657
+ "grad_norm": 0.17810438573360443,
3658
+ "learning_rate": 4.3877674410848e-06,
3659
+ "loss": 10.6848,
3660
+ "step": 517
3661
+ },
3662
+ {
3663
+ "epoch": 0.9087719298245615,
3664
+ "grad_norm": 0.25825297832489014,
3665
+ "learning_rate": 4.224918331506955e-06,
3666
+ "loss": 10.6735,
3667
+ "step": 518
3668
+ },
3669
+ {
3670
+ "epoch": 0.9105263157894737,
3671
+ "grad_norm": 0.16333693265914917,
3672
+ "learning_rate": 4.065083442874418e-06,
3673
+ "loss": 10.6632,
3674
+ "step": 519
3675
+ },
3676
+ {
3677
+ "epoch": 0.9122807017543859,
3678
+ "grad_norm": 0.21222874522209167,
3679
+ "learning_rate": 3.908267805490051e-06,
3680
+ "loss": 10.6984,
3681
+ "step": 520
3682
+ },
3683
+ {
3684
+ "epoch": 0.9140350877192982,
3685
+ "grad_norm": 0.20313438773155212,
3686
+ "learning_rate": 3.7544763546352834e-06,
3687
+ "loss": 10.6889,
3688
+ "step": 521
3689
+ },
3690
+ {
3691
+ "epoch": 0.9157894736842105,
3692
+ "grad_norm": 0.201041117310524,
3693
+ "learning_rate": 3.6037139304146762e-06,
3694
+ "loss": 10.6284,
3695
+ "step": 522
3696
+ },
3697
+ {
3698
+ "epoch": 0.9175438596491228,
3699
+ "grad_norm": 0.2828705906867981,
3700
+ "learning_rate": 3.455985277603713e-06,
3701
+ "loss": 10.6829,
3702
+ "step": 523
3703
+ },
3704
+ {
3705
+ "epoch": 0.9192982456140351,
3706
+ "grad_norm": 0.2506016492843628,
3707
+ "learning_rate": 3.311295045499363e-06,
3708
+ "loss": 10.6884,
3709
+ "step": 524
3710
+ },
3711
+ {
3712
+ "epoch": 0.9210526315789473,
3713
+ "grad_norm": 0.42757734656333923,
3714
+ "learning_rate": 3.169647787773866e-06,
3715
+ "loss": 10.6356,
3716
+ "step": 525
3717
+ },
3718
+ {
3719
+ "epoch": 0.9228070175438596,
3720
+ "grad_norm": 0.2824893295764923,
3721
+ "learning_rate": 3.0310479623313127e-06,
3722
+ "loss": 10.7104,
3723
+ "step": 526
3724
+ },
3725
+ {
3726
+ "epoch": 0.9245614035087719,
3727
+ "grad_norm": 0.2309618890285492,
3728
+ "learning_rate": 2.8954999311674558e-06,
3729
+ "loss": 10.68,
3730
+ "step": 527
3731
+ },
3732
+ {
3733
+ "epoch": 0.9263157894736842,
3734
+ "grad_norm": 0.23892293870449066,
3735
+ "learning_rate": 2.7630079602323442e-06,
3736
+ "loss": 10.6244,
3737
+ "step": 528
3738
+ },
3739
+ {
3740
+ "epoch": 0.9280701754385965,
3741
+ "grad_norm": 0.21768365800380707,
3742
+ "learning_rate": 2.6335762192960743e-06,
3743
+ "loss": 10.6715,
3744
+ "step": 529
3745
+ },
3746
+ {
3747
+ "epoch": 0.9298245614035088,
3748
+ "grad_norm": 0.22950419783592224,
3749
+ "learning_rate": 2.5072087818176382e-06,
3750
+ "loss": 10.6401,
3751
+ "step": 530
3752
+ },
3753
+ {
3754
+ "epoch": 0.9315789473684211,
3755
+ "grad_norm": 0.20661982893943787,
3756
+ "learning_rate": 2.383909624816616e-06,
3757
+ "loss": 10.6522,
3758
+ "step": 531
3759
+ },
3760
+ {
3761
+ "epoch": 0.9333333333333333,
3762
+ "grad_norm": 0.18806463479995728,
3763
+ "learning_rate": 2.2636826287480873e-06,
3764
+ "loss": 10.6811,
3765
+ "step": 532
3766
+ },
3767
+ {
3768
+ "epoch": 0.9350877192982456,
3769
+ "grad_norm": 0.3133368194103241,
3770
+ "learning_rate": 2.1465315773804616e-06,
3771
+ "loss": 10.6325,
3772
+ "step": 533
3773
+ },
3774
+ {
3775
+ "epoch": 0.9368421052631579,
3776
+ "grad_norm": 0.23937764763832092,
3777
+ "learning_rate": 2.032460157676452e-06,
3778
+ "loss": 10.669,
3779
+ "step": 534
3780
+ },
3781
+ {
3782
+ "epoch": 0.9385964912280702,
3783
+ "grad_norm": 0.21383170783519745,
3784
+ "learning_rate": 1.921471959676957e-06,
3785
+ "loss": 10.6751,
3786
+ "step": 535
3787
+ },
3788
+ {
3789
+ "epoch": 0.9403508771929825,
3790
+ "grad_norm": 0.3915383219718933,
3791
+ "learning_rate": 1.81357047638816e-06,
3792
+ "loss": 10.6673,
3793
+ "step": 536
3794
+ },
3795
+ {
3796
+ "epoch": 0.9421052631578948,
3797
+ "grad_norm": 0.21916410326957703,
3798
+ "learning_rate": 1.7087591036715534e-06,
3799
+ "loss": 10.7053,
3800
+ "step": 537
3801
+ },
3802
+ {
3803
+ "epoch": 0.9438596491228071,
3804
+ "grad_norm": 0.26692306995391846,
3805
+ "learning_rate": 1.6070411401370334e-06,
3806
+ "loss": 10.6689,
3807
+ "step": 538
3808
+ },
3809
+ {
3810
+ "epoch": 0.9456140350877194,
3811
+ "grad_norm": 0.19968879222869873,
3812
+ "learning_rate": 1.5084197870391837e-06,
3813
+ "loss": 10.7208,
3814
+ "step": 539
3815
+ },
3816
+ {
3817
+ "epoch": 0.9473684210526315,
3818
+ "grad_norm": 0.21784716844558716,
3819
+ "learning_rate": 1.4128981481764115e-06,
3820
+ "loss": 10.6356,
3821
+ "step": 540
3822
+ },
3823
+ {
3824
+ "epoch": 0.9491228070175438,
3825
+ "grad_norm": 0.1975242644548416,
3826
+ "learning_rate": 1.3204792297933588e-06,
3827
+ "loss": 10.7024,
3828
+ "step": 541
3829
+ },
3830
+ {
3831
+ "epoch": 0.9508771929824561,
3832
+ "grad_norm": 0.2712066173553467,
3833
+ "learning_rate": 1.231165940486234e-06,
3834
+ "loss": 10.6415,
3835
+ "step": 542
3836
+ },
3837
+ {
3838
+ "epoch": 0.9526315789473684,
3839
+ "grad_norm": 0.19951169192790985,
3840
+ "learning_rate": 1.1449610911112741e-06,
3841
+ "loss": 10.6615,
3842
+ "step": 543
3843
+ },
3844
+ {
3845
+ "epoch": 0.9543859649122807,
3846
+ "grad_norm": 0.21636833250522614,
3847
+ "learning_rate": 1.0618673946963365e-06,
3848
+ "loss": 10.67,
3849
+ "step": 544
3850
+ },
3851
+ {
3852
+ "epoch": 0.956140350877193,
3853
+ "grad_norm": 0.24349869787693024,
3854
+ "learning_rate": 9.818874663554357e-07,
3855
+ "loss": 10.658,
3856
+ "step": 545
3857
+ },
3858
+ {
3859
+ "epoch": 0.9578947368421052,
3860
+ "grad_norm": 0.22371384501457214,
3861
+ "learning_rate": 9.0502382320653e-07,
3862
+ "loss": 10.6703,
3863
+ "step": 546
3864
+ },
3865
+ {
3866
+ "epoch": 0.9596491228070175,
3867
+ "grad_norm": 0.2083524912595749,
3868
+ "learning_rate": 8.31278884292186e-07,
3869
+ "loss": 10.6766,
3870
+ "step": 547
3871
+ },
3872
+ {
3873
+ "epoch": 0.9614035087719298,
3874
+ "grad_norm": 0.2264506220817566,
3875
+ "learning_rate": 7.606549705035937e-07,
3876
+ "loss": 10.672,
3877
+ "step": 548
3878
+ },
3879
+ {
3880
+ "epoch": 0.9631578947368421,
3881
+ "grad_norm": 0.21471793949604034,
3882
+ "learning_rate": 6.931543045073708e-07,
3883
+ "loss": 10.7041,
3884
+ "step": 549
3885
+ },
3886
+ {
3887
+ "epoch": 0.9649122807017544,
3888
+ "grad_norm": 0.20497629046440125,
3889
+ "learning_rate": 6.287790106757396e-07,
3890
+ "loss": 10.6923,
3891
+ "step": 550
3892
+ },
3893
+ {
3894
+ "epoch": 0.9666666666666667,
3895
+ "grad_norm": 0.18738481402397156,
3896
+ "learning_rate": 5.675311150195928e-07,
3897
+ "loss": 10.6622,
3898
+ "step": 551
3899
+ },
3900
+ {
3901
+ "epoch": 0.968421052631579,
3902
+ "grad_norm": 0.24018672108650208,
3903
+ "learning_rate": 5.094125451247655e-07,
3904
+ "loss": 10.629,
3905
+ "step": 552
3906
+ },
3907
+ {
3908
+ "epoch": 0.9701754385964912,
3909
+ "grad_norm": 0.23290672898292542,
3910
+ "learning_rate": 4.544251300913405e-07,
3911
+ "loss": 10.6888,
3912
+ "step": 553
3913
+ },
3914
+ {
3915
+ "epoch": 0.9719298245614035,
3916
+ "grad_norm": 0.3501298129558563,
3917
+ "learning_rate": 4.025706004760932e-07,
3918
+ "loss": 10.6527,
3919
+ "step": 554
3920
+ },
3921
+ {
3922
+ "epoch": 0.9736842105263158,
3923
+ "grad_norm": 0.2251330465078354,
3924
+ "learning_rate": 3.5385058823809156e-07,
3925
+ "loss": 10.696,
3926
+ "step": 555
3927
+ },
3928
+ {
3929
+ "epoch": 0.9754385964912281,
3930
+ "grad_norm": 0.24375322461128235,
3931
+ "learning_rate": 3.0826662668720364e-07,
3932
+ "loss": 10.7063,
3933
+ "step": 556
3934
+ },
3935
+ {
3936
+ "epoch": 0.9771929824561404,
3937
+ "grad_norm": 0.2920641303062439,
3938
+ "learning_rate": 2.658201504359803e-07,
3939
+ "loss": 10.645,
3940
+ "step": 557
3941
+ },
3942
+ {
3943
+ "epoch": 0.9789473684210527,
3944
+ "grad_norm": 0.29870396852493286,
3945
+ "learning_rate": 2.265124953543918e-07,
3946
+ "loss": 10.6955,
3947
+ "step": 558
3948
+ },
3949
+ {
3950
+ "epoch": 0.980701754385965,
3951
+ "grad_norm": 0.2032945305109024,
3952
+ "learning_rate": 1.9034489852787218e-07,
3953
+ "loss": 10.7028,
3954
+ "step": 559
3955
+ },
3956
+ {
3957
+ "epoch": 0.9824561403508771,
3958
+ "grad_norm": 0.16992153227329254,
3959
+ "learning_rate": 1.5731849821833954e-07,
3960
+ "loss": 10.6516,
3961
+ "step": 560
3962
+ },
3963
+ {
3964
+ "epoch": 0.9842105263157894,
3965
+ "grad_norm": 0.19095556437969208,
3966
+ "learning_rate": 1.274343338283801e-07,
3967
+ "loss": 10.6713,
3968
+ "step": 561
3969
+ },
3970
+ {
3971
+ "epoch": 0.9859649122807017,
3972
+ "grad_norm": 0.2375078797340393,
3973
+ "learning_rate": 1.0069334586854107e-07,
3974
+ "loss": 10.6812,
3975
+ "step": 562
3976
+ },
3977
+ {
3978
+ "epoch": 0.987719298245614,
3979
+ "grad_norm": 0.1917848289012909,
3980
+ "learning_rate": 7.709637592770991e-08,
3981
+ "loss": 10.6814,
3982
+ "step": 563
3983
+ },
3984
+ {
3985
+ "epoch": 0.9894736842105263,
3986
+ "grad_norm": 0.2119506448507309,
3987
+ "learning_rate": 5.6644166646668826e-08,
3988
+ "loss": 10.7086,
3989
+ "step": 564
3990
+ },
3991
+ {
3992
+ "epoch": 0.9912280701754386,
3993
+ "grad_norm": 0.21006697416305542,
3994
+ "learning_rate": 3.933736169471347e-08,
3995
+ "loss": 10.6638,
3996
+ "step": 565
3997
+ },
3998
+ {
3999
+ "epoch": 0.9929824561403509,
4000
+ "grad_norm": 0.19843615591526031,
4001
+ "learning_rate": 2.5176505749346936e-08,
4002
+ "loss": 10.6587,
4003
+ "step": 566
4004
+ },
4005
+ {
4006
+ "epoch": 0.9947368421052631,
4007
+ "grad_norm": 0.292624831199646,
4008
+ "learning_rate": 1.4162044479182346e-08,
4009
+ "loss": 10.6584,
4010
+ "step": 567
4011
+ },
4012
+ {
4013
+ "epoch": 0.9964912280701754,
4014
+ "grad_norm": 0.14934279024600983,
4015
+ "learning_rate": 6.294324529942941e-09,
4016
+ "loss": 10.6876,
4017
+ "step": 568
4018
+ },
4019
+ {
4020
+ "epoch": 0.9982456140350877,
4021
+ "grad_norm": 0.24475471675395966,
4022
+ "learning_rate": 1.5735935134708613e-09,
4023
+ "loss": 10.6859,
4024
+ "step": 569
4025
+ },
4026
+ {
4027
+ "epoch": 1.0,
4028
+ "grad_norm": 0.17199726402759552,
4029
+ "learning_rate": 0.0,
4030
+ "loss": 10.7093,
4031
+ "step": 570
4032
  }
4033
  ],
4034
  "logging_steps": 1,
 
4043
  "should_evaluate": false,
4044
  "should_log": false,
4045
  "should_save": true,
4046
+ "should_training_stop": true
4047
  },
4048
  "attributes": {}
4049
  }
4050
  },
4051
+ "total_flos": 56846496301056.0,
4052
  "train_batch_size": 2,
4053
  "trial_name": null,
4054
  "trial_params": null