CocoRoF commited on
Commit
338ca43
·
verified ·
1 Parent(s): 49d8f63

Training in progress, step 5000, checkpoint

Browse files
last-checkpoint/model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:34566692b409c5ac91614f85431dcd34c66b34e43f4a92470ac88cb8a7f59789
3
  size 737580392
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:24857bc4b164a0fc3e6179ea07b38593c6c2d12e6d0172627df2d50db6fea93d
3
  size 737580392
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4dde92a9190daf4d6cde776e30b6451c543ea444edee3b9afc951fa9a8b0c5c7
3
  size 1475248442
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fd9a1d0b8c63d7b12cdde7d50236f1a919f3ab5b10dee3efa64febf5e045dd28
3
  size 1475248442
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8f9aa43992237c34da047eae3e4635545e3cbee9026436669a8ec61ef48f58c1
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0dce7b39374d406c6e9a2e0a52c3d989921f1d308f3e0a976795e1defff56359
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5a5a37a50084edc8f378e7d4e65f501b6827a819c6aec4a25edf84ae7f0723a0
3
  size 1000
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fed7e74ecc01b85f3fc063ed097046907474fb7f4b9c36a632434be797d10982
3
  size 1000
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 1.8744142455482662,
5
  "eval_steps": 250,
6
- "global_step": 4000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -3063,6 +3063,770 @@
3063
  "eval_spearman_manhattan": 0.8111787861762638,
3064
  "eval_steps_per_second": 26.053,
3065
  "step": 4000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3066
  }
3067
  ],
3068
  "logging_steps": 10,
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 2.3430178069353325,
5
  "eval_steps": 250,
6
+ "global_step": 5000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
3063
  "eval_spearman_manhattan": 0.8111787861762638,
3064
  "eval_steps_per_second": 26.053,
3065
  "step": 4000
3066
+ },
3067
+ {
3068
+ "epoch": 1.879100281162137,
3069
+ "grad_norm": 1.9940646886825562,
3070
+ "learning_rate": 1.8825562324273666e-05,
3071
+ "loss": 0.2141,
3072
+ "step": 4010
3073
+ },
3074
+ {
3075
+ "epoch": 1.8837863167760074,
3076
+ "grad_norm": 1.5724692344665527,
3077
+ "learning_rate": 1.8822633552014996e-05,
3078
+ "loss": 0.2202,
3079
+ "step": 4020
3080
+ },
3081
+ {
3082
+ "epoch": 1.8884723523898783,
3083
+ "grad_norm": 1.880194067955017,
3084
+ "learning_rate": 1.881970477975633e-05,
3085
+ "loss": 0.245,
3086
+ "step": 4030
3087
+ },
3088
+ {
3089
+ "epoch": 1.8931583880037488,
3090
+ "grad_norm": 1.6564527750015259,
3091
+ "learning_rate": 1.8816776007497658e-05,
3092
+ "loss": 0.2367,
3093
+ "step": 4040
3094
+ },
3095
+ {
3096
+ "epoch": 1.8978444236176195,
3097
+ "grad_norm": 1.3603813648223877,
3098
+ "learning_rate": 1.8813847235238987e-05,
3099
+ "loss": 0.2219,
3100
+ "step": 4050
3101
+ },
3102
+ {
3103
+ "epoch": 1.9025304592314902,
3104
+ "grad_norm": 2.0585732460021973,
3105
+ "learning_rate": 1.881091846298032e-05,
3106
+ "loss": 0.27,
3107
+ "step": 4060
3108
+ },
3109
+ {
3110
+ "epoch": 1.9072164948453607,
3111
+ "grad_norm": 2.4080166816711426,
3112
+ "learning_rate": 1.880798969072165e-05,
3113
+ "loss": 0.2569,
3114
+ "step": 4070
3115
+ },
3116
+ {
3117
+ "epoch": 1.9119025304592316,
3118
+ "grad_norm": 2.0260493755340576,
3119
+ "learning_rate": 1.8805060918462983e-05,
3120
+ "loss": 0.2239,
3121
+ "step": 4080
3122
+ },
3123
+ {
3124
+ "epoch": 1.9165885660731021,
3125
+ "grad_norm": 1.6909536123275757,
3126
+ "learning_rate": 1.8802132146204312e-05,
3127
+ "loss": 0.2229,
3128
+ "step": 4090
3129
+ },
3130
+ {
3131
+ "epoch": 1.9212746016869728,
3132
+ "grad_norm": 1.7024294137954712,
3133
+ "learning_rate": 1.8799203373945642e-05,
3134
+ "loss": 0.2078,
3135
+ "step": 4100
3136
+ },
3137
+ {
3138
+ "epoch": 1.9259606373008435,
3139
+ "grad_norm": 1.7406731843948364,
3140
+ "learning_rate": 1.8796274601686975e-05,
3141
+ "loss": 0.2456,
3142
+ "step": 4110
3143
+ },
3144
+ {
3145
+ "epoch": 1.930646672914714,
3146
+ "grad_norm": 1.4349228143692017,
3147
+ "learning_rate": 1.8793345829428304e-05,
3148
+ "loss": 0.2296,
3149
+ "step": 4120
3150
+ },
3151
+ {
3152
+ "epoch": 1.935332708528585,
3153
+ "grad_norm": 1.7777549028396606,
3154
+ "learning_rate": 1.8790417057169637e-05,
3155
+ "loss": 0.2121,
3156
+ "step": 4130
3157
+ },
3158
+ {
3159
+ "epoch": 1.9400187441424555,
3160
+ "grad_norm": 2.259178638458252,
3161
+ "learning_rate": 1.8787488284910967e-05,
3162
+ "loss": 0.2606,
3163
+ "step": 4140
3164
+ },
3165
+ {
3166
+ "epoch": 1.9447047797563262,
3167
+ "grad_norm": 2.10732364654541,
3168
+ "learning_rate": 1.87845595126523e-05,
3169
+ "loss": 0.2492,
3170
+ "step": 4150
3171
+ },
3172
+ {
3173
+ "epoch": 1.9493908153701969,
3174
+ "grad_norm": 2.2768290042877197,
3175
+ "learning_rate": 1.878163074039363e-05,
3176
+ "loss": 0.2155,
3177
+ "step": 4160
3178
+ },
3179
+ {
3180
+ "epoch": 1.9540768509840674,
3181
+ "grad_norm": 1.8602643013000488,
3182
+ "learning_rate": 1.8778701968134962e-05,
3183
+ "loss": 0.2396,
3184
+ "step": 4170
3185
+ },
3186
+ {
3187
+ "epoch": 1.9587628865979383,
3188
+ "grad_norm": 2.197460412979126,
3189
+ "learning_rate": 1.877577319587629e-05,
3190
+ "loss": 0.2169,
3191
+ "step": 4180
3192
+ },
3193
+ {
3194
+ "epoch": 1.9634489222118088,
3195
+ "grad_norm": 1.5060274600982666,
3196
+ "learning_rate": 1.877284442361762e-05,
3197
+ "loss": 0.2306,
3198
+ "step": 4190
3199
+ },
3200
+ {
3201
+ "epoch": 1.9681349578256795,
3202
+ "grad_norm": 2.116128921508789,
3203
+ "learning_rate": 1.876991565135895e-05,
3204
+ "loss": 0.2164,
3205
+ "step": 4200
3206
+ },
3207
+ {
3208
+ "epoch": 1.9728209934395502,
3209
+ "grad_norm": 2.097766399383545,
3210
+ "learning_rate": 1.8766986879100283e-05,
3211
+ "loss": 0.2574,
3212
+ "step": 4210
3213
+ },
3214
+ {
3215
+ "epoch": 1.9775070290534207,
3216
+ "grad_norm": 1.824741244316101,
3217
+ "learning_rate": 1.8764058106841613e-05,
3218
+ "loss": 0.249,
3219
+ "step": 4220
3220
+ },
3221
+ {
3222
+ "epoch": 1.9821930646672916,
3223
+ "grad_norm": 2.2704122066497803,
3224
+ "learning_rate": 1.8761129334582942e-05,
3225
+ "loss": 0.2316,
3226
+ "step": 4230
3227
+ },
3228
+ {
3229
+ "epoch": 1.986879100281162,
3230
+ "grad_norm": 1.8285561800003052,
3231
+ "learning_rate": 1.8758200562324275e-05,
3232
+ "loss": 0.2489,
3233
+ "step": 4240
3234
+ },
3235
+ {
3236
+ "epoch": 1.9915651358950328,
3237
+ "grad_norm": 1.4909926652908325,
3238
+ "learning_rate": 1.8755271790065605e-05,
3239
+ "loss": 0.2472,
3240
+ "step": 4250
3241
+ },
3242
+ {
3243
+ "epoch": 1.9915651358950328,
3244
+ "eval_loss": 0.03996381163597107,
3245
+ "eval_pearson_cosine": 0.820344828031935,
3246
+ "eval_pearson_dot": 0.7317039255282225,
3247
+ "eval_pearson_euclidean": 0.8039609112737356,
3248
+ "eval_pearson_manhattan": 0.8052691930531775,
3249
+ "eval_runtime": 3.5603,
3250
+ "eval_samples_per_second": 421.311,
3251
+ "eval_spearman_cosine": 0.8224163636565568,
3252
+ "eval_spearman_dot": 0.7308283663168708,
3253
+ "eval_spearman_euclidean": 0.8146988265770505,
3254
+ "eval_spearman_manhattan": 0.8160453182060199,
3255
+ "eval_steps_per_second": 26.402,
3256
+ "step": 4250
3257
+ },
3258
+ {
3259
+ "epoch": 1.9962511715089035,
3260
+ "grad_norm": 1.7931636571884155,
3261
+ "learning_rate": 1.8752343017806937e-05,
3262
+ "loss": 0.2324,
3263
+ "step": 4260
3264
+ },
3265
+ {
3266
+ "epoch": 2.000937207122774,
3267
+ "grad_norm": 1.267348289489746,
3268
+ "learning_rate": 1.8749414245548267e-05,
3269
+ "loss": 0.2053,
3270
+ "step": 4270
3271
+ },
3272
+ {
3273
+ "epoch": 2.005623242736645,
3274
+ "grad_norm": 1.977459192276001,
3275
+ "learning_rate": 1.87464854732896e-05,
3276
+ "loss": 0.1835,
3277
+ "step": 4280
3278
+ },
3279
+ {
3280
+ "epoch": 2.0103092783505154,
3281
+ "grad_norm": 1.8532277345657349,
3282
+ "learning_rate": 1.874355670103093e-05,
3283
+ "loss": 0.1941,
3284
+ "step": 4290
3285
+ },
3286
+ {
3287
+ "epoch": 2.014995313964386,
3288
+ "grad_norm": 1.478722095489502,
3289
+ "learning_rate": 1.874062792877226e-05,
3290
+ "loss": 0.1674,
3291
+ "step": 4300
3292
+ },
3293
+ {
3294
+ "epoch": 2.019681349578257,
3295
+ "grad_norm": 1.7603696584701538,
3296
+ "learning_rate": 1.8737699156513592e-05,
3297
+ "loss": 0.1752,
3298
+ "step": 4310
3299
+ },
3300
+ {
3301
+ "epoch": 2.0243673851921273,
3302
+ "grad_norm": 2.0662457942962646,
3303
+ "learning_rate": 1.873477038425492e-05,
3304
+ "loss": 0.1638,
3305
+ "step": 4320
3306
+ },
3307
+ {
3308
+ "epoch": 2.0290534208059983,
3309
+ "grad_norm": 1.3146560192108154,
3310
+ "learning_rate": 1.8731841611996254e-05,
3311
+ "loss": 0.1368,
3312
+ "step": 4330
3313
+ },
3314
+ {
3315
+ "epoch": 2.0337394564198688,
3316
+ "grad_norm": 1.8261940479278564,
3317
+ "learning_rate": 1.8728912839737584e-05,
3318
+ "loss": 0.1643,
3319
+ "step": 4340
3320
+ },
3321
+ {
3322
+ "epoch": 2.0384254920337392,
3323
+ "grad_norm": 1.4603139162063599,
3324
+ "learning_rate": 1.8725984067478917e-05,
3325
+ "loss": 0.1655,
3326
+ "step": 4350
3327
+ },
3328
+ {
3329
+ "epoch": 2.04311152764761,
3330
+ "grad_norm": 1.811943531036377,
3331
+ "learning_rate": 1.8723055295220246e-05,
3332
+ "loss": 0.1617,
3333
+ "step": 4360
3334
+ },
3335
+ {
3336
+ "epoch": 2.0477975632614807,
3337
+ "grad_norm": 2.325777769088745,
3338
+ "learning_rate": 1.8720126522961576e-05,
3339
+ "loss": 0.1708,
3340
+ "step": 4370
3341
+ },
3342
+ {
3343
+ "epoch": 2.0524835988753516,
3344
+ "grad_norm": 1.7482625246047974,
3345
+ "learning_rate": 1.871719775070291e-05,
3346
+ "loss": 0.1758,
3347
+ "step": 4380
3348
+ },
3349
+ {
3350
+ "epoch": 2.057169634489222,
3351
+ "grad_norm": 1.916061520576477,
3352
+ "learning_rate": 1.8714268978444238e-05,
3353
+ "loss": 0.1729,
3354
+ "step": 4390
3355
+ },
3356
+ {
3357
+ "epoch": 2.0618556701030926,
3358
+ "grad_norm": 1.4515407085418701,
3359
+ "learning_rate": 1.8711340206185567e-05,
3360
+ "loss": 0.1739,
3361
+ "step": 4400
3362
+ },
3363
+ {
3364
+ "epoch": 2.0665417057169635,
3365
+ "grad_norm": 1.7637025117874146,
3366
+ "learning_rate": 1.8708411433926897e-05,
3367
+ "loss": 0.1648,
3368
+ "step": 4410
3369
+ },
3370
+ {
3371
+ "epoch": 2.071227741330834,
3372
+ "grad_norm": 2.1204230785369873,
3373
+ "learning_rate": 1.870548266166823e-05,
3374
+ "loss": 0.1725,
3375
+ "step": 4420
3376
+ },
3377
+ {
3378
+ "epoch": 2.075913776944705,
3379
+ "grad_norm": 1.7462095022201538,
3380
+ "learning_rate": 1.870255388940956e-05,
3381
+ "loss": 0.154,
3382
+ "step": 4430
3383
+ },
3384
+ {
3385
+ "epoch": 2.0805998125585754,
3386
+ "grad_norm": 1.6449689865112305,
3387
+ "learning_rate": 1.8699625117150892e-05,
3388
+ "loss": 0.1651,
3389
+ "step": 4440
3390
+ },
3391
+ {
3392
+ "epoch": 2.085285848172446,
3393
+ "grad_norm": 1.8776732683181763,
3394
+ "learning_rate": 1.869669634489222e-05,
3395
+ "loss": 0.1752,
3396
+ "step": 4450
3397
+ },
3398
+ {
3399
+ "epoch": 2.089971883786317,
3400
+ "grad_norm": 1.5373666286468506,
3401
+ "learning_rate": 1.8693767572633555e-05,
3402
+ "loss": 0.1551,
3403
+ "step": 4460
3404
+ },
3405
+ {
3406
+ "epoch": 2.0946579194001873,
3407
+ "grad_norm": 1.9183931350708008,
3408
+ "learning_rate": 1.8690838800374884e-05,
3409
+ "loss": 0.1562,
3410
+ "step": 4470
3411
+ },
3412
+ {
3413
+ "epoch": 2.0993439550140582,
3414
+ "grad_norm": 2.184581995010376,
3415
+ "learning_rate": 1.8687910028116217e-05,
3416
+ "loss": 0.1544,
3417
+ "step": 4480
3418
+ },
3419
+ {
3420
+ "epoch": 2.1040299906279287,
3421
+ "grad_norm": 1.1829646825790405,
3422
+ "learning_rate": 1.8684981255857546e-05,
3423
+ "loss": 0.1474,
3424
+ "step": 4490
3425
+ },
3426
+ {
3427
+ "epoch": 2.108716026241799,
3428
+ "grad_norm": 1.7661231756210327,
3429
+ "learning_rate": 1.8682052483598876e-05,
3430
+ "loss": 0.1838,
3431
+ "step": 4500
3432
+ },
3433
+ {
3434
+ "epoch": 2.108716026241799,
3435
+ "eval_loss": 0.03478589281439781,
3436
+ "eval_pearson_cosine": 0.8183668280938576,
3437
+ "eval_pearson_dot": 0.7494542878437821,
3438
+ "eval_pearson_euclidean": 0.8004851343617361,
3439
+ "eval_pearson_manhattan": 0.8022690605878324,
3440
+ "eval_runtime": 3.3337,
3441
+ "eval_samples_per_second": 449.946,
3442
+ "eval_spearman_cosine": 0.819061603084573,
3443
+ "eval_spearman_dot": 0.7480798887745068,
3444
+ "eval_spearman_euclidean": 0.8085010936446739,
3445
+ "eval_spearman_manhattan": 0.8099334586781558,
3446
+ "eval_steps_per_second": 28.197,
3447
+ "step": 4500
3448
+ },
3449
+ {
3450
+ "epoch": 2.11340206185567,
3451
+ "grad_norm": 1.5288666486740112,
3452
+ "learning_rate": 1.867912371134021e-05,
3453
+ "loss": 0.1483,
3454
+ "step": 4510
3455
+ },
3456
+ {
3457
+ "epoch": 2.1180880974695406,
3458
+ "grad_norm": 1.8518108129501343,
3459
+ "learning_rate": 1.867619493908154e-05,
3460
+ "loss": 0.1556,
3461
+ "step": 4520
3462
+ },
3463
+ {
3464
+ "epoch": 2.1227741330834116,
3465
+ "grad_norm": 1.7130534648895264,
3466
+ "learning_rate": 1.867326616682287e-05,
3467
+ "loss": 0.2054,
3468
+ "step": 4530
3469
+ },
3470
+ {
3471
+ "epoch": 2.127460168697282,
3472
+ "grad_norm": 1.6781951189041138,
3473
+ "learning_rate": 1.86703373945642e-05,
3474
+ "loss": 0.1563,
3475
+ "step": 4540
3476
+ },
3477
+ {
3478
+ "epoch": 2.1321462043111525,
3479
+ "grad_norm": 1.960902452468872,
3480
+ "learning_rate": 1.866740862230553e-05,
3481
+ "loss": 0.1666,
3482
+ "step": 4550
3483
+ },
3484
+ {
3485
+ "epoch": 2.1368322399250235,
3486
+ "grad_norm": 1.9517632722854614,
3487
+ "learning_rate": 1.8664479850046863e-05,
3488
+ "loss": 0.1863,
3489
+ "step": 4560
3490
+ },
3491
+ {
3492
+ "epoch": 2.141518275538894,
3493
+ "grad_norm": 1.7729823589324951,
3494
+ "learning_rate": 1.8661551077788193e-05,
3495
+ "loss": 0.1783,
3496
+ "step": 4570
3497
+ },
3498
+ {
3499
+ "epoch": 2.146204311152765,
3500
+ "grad_norm": 2.2520790100097656,
3501
+ "learning_rate": 1.8658622305529522e-05,
3502
+ "loss": 0.208,
3503
+ "step": 4580
3504
+ },
3505
+ {
3506
+ "epoch": 2.1508903467666354,
3507
+ "grad_norm": 1.4760936498641968,
3508
+ "learning_rate": 1.8655693533270855e-05,
3509
+ "loss": 0.1842,
3510
+ "step": 4590
3511
+ },
3512
+ {
3513
+ "epoch": 2.155576382380506,
3514
+ "grad_norm": 1.8456919193267822,
3515
+ "learning_rate": 1.8652764761012184e-05,
3516
+ "loss": 0.1616,
3517
+ "step": 4600
3518
+ },
3519
+ {
3520
+ "epoch": 2.160262417994377,
3521
+ "grad_norm": 1.528846263885498,
3522
+ "learning_rate": 1.8649835988753514e-05,
3523
+ "loss": 0.1342,
3524
+ "step": 4610
3525
+ },
3526
+ {
3527
+ "epoch": 2.1649484536082473,
3528
+ "grad_norm": 1.1334350109100342,
3529
+ "learning_rate": 1.8646907216494847e-05,
3530
+ "loss": 0.1655,
3531
+ "step": 4620
3532
+ },
3533
+ {
3534
+ "epoch": 2.169634489222118,
3535
+ "grad_norm": 1.359473705291748,
3536
+ "learning_rate": 1.8643978444236176e-05,
3537
+ "loss": 0.1667,
3538
+ "step": 4630
3539
+ },
3540
+ {
3541
+ "epoch": 2.1743205248359887,
3542
+ "grad_norm": 1.6595484018325806,
3543
+ "learning_rate": 1.864104967197751e-05,
3544
+ "loss": 0.1597,
3545
+ "step": 4640
3546
+ },
3547
+ {
3548
+ "epoch": 2.179006560449859,
3549
+ "grad_norm": 1.9534510374069214,
3550
+ "learning_rate": 1.863812089971884e-05,
3551
+ "loss": 0.18,
3552
+ "step": 4650
3553
+ },
3554
+ {
3555
+ "epoch": 2.18369259606373,
3556
+ "grad_norm": 2.137612819671631,
3557
+ "learning_rate": 1.863519212746017e-05,
3558
+ "loss": 0.1649,
3559
+ "step": 4660
3560
+ },
3561
+ {
3562
+ "epoch": 2.1883786316776006,
3563
+ "grad_norm": 1.4351214170455933,
3564
+ "learning_rate": 1.86322633552015e-05,
3565
+ "loss": 0.1798,
3566
+ "step": 4670
3567
+ },
3568
+ {
3569
+ "epoch": 2.1930646672914715,
3570
+ "grad_norm": 1.5940383672714233,
3571
+ "learning_rate": 1.8629334582942834e-05,
3572
+ "loss": 0.1762,
3573
+ "step": 4680
3574
+ },
3575
+ {
3576
+ "epoch": 2.197750702905342,
3577
+ "grad_norm": 1.1390234231948853,
3578
+ "learning_rate": 1.8626405810684164e-05,
3579
+ "loss": 0.1575,
3580
+ "step": 4690
3581
+ },
3582
+ {
3583
+ "epoch": 2.2024367385192125,
3584
+ "grad_norm": 1.7934620380401611,
3585
+ "learning_rate": 1.8623477038425493e-05,
3586
+ "loss": 0.16,
3587
+ "step": 4700
3588
+ },
3589
+ {
3590
+ "epoch": 2.2071227741330834,
3591
+ "grad_norm": 1.5120437145233154,
3592
+ "learning_rate": 1.8620548266166826e-05,
3593
+ "loss": 0.1711,
3594
+ "step": 4710
3595
+ },
3596
+ {
3597
+ "epoch": 2.211808809746954,
3598
+ "grad_norm": 1.8935743570327759,
3599
+ "learning_rate": 1.8617619493908155e-05,
3600
+ "loss": 0.1396,
3601
+ "step": 4720
3602
+ },
3603
+ {
3604
+ "epoch": 2.216494845360825,
3605
+ "grad_norm": 1.7621512413024902,
3606
+ "learning_rate": 1.8614690721649485e-05,
3607
+ "loss": 0.1953,
3608
+ "step": 4730
3609
+ },
3610
+ {
3611
+ "epoch": 2.2211808809746953,
3612
+ "grad_norm": 9.526521682739258,
3613
+ "learning_rate": 1.8611761949390818e-05,
3614
+ "loss": 0.1781,
3615
+ "step": 4740
3616
+ },
3617
+ {
3618
+ "epoch": 2.2258669165885663,
3619
+ "grad_norm": 1.4335854053497314,
3620
+ "learning_rate": 1.8608833177132147e-05,
3621
+ "loss": 0.1509,
3622
+ "step": 4750
3623
+ },
3624
+ {
3625
+ "epoch": 2.2258669165885663,
3626
+ "eval_loss": 0.03594741225242615,
3627
+ "eval_pearson_cosine": 0.8116579897427059,
3628
+ "eval_pearson_dot": 0.734380652885136,
3629
+ "eval_pearson_euclidean": 0.7957971930124614,
3630
+ "eval_pearson_manhattan": 0.7976626643154123,
3631
+ "eval_runtime": 3.4015,
3632
+ "eval_samples_per_second": 440.981,
3633
+ "eval_spearman_cosine": 0.8119603885409888,
3634
+ "eval_spearman_dot": 0.7343109043661656,
3635
+ "eval_spearman_euclidean": 0.803610294766424,
3636
+ "eval_spearman_manhattan": 0.8054368058373911,
3637
+ "eval_steps_per_second": 27.635,
3638
+ "step": 4750
3639
+ },
3640
+ {
3641
+ "epoch": 2.2305529522024368,
3642
+ "grad_norm": 1.9357318878173828,
3643
+ "learning_rate": 1.8605904404873477e-05,
3644
+ "loss": 0.1464,
3645
+ "step": 4760
3646
+ },
3647
+ {
3648
+ "epoch": 2.2352389878163073,
3649
+ "grad_norm": 1.958662986755371,
3650
+ "learning_rate": 1.860297563261481e-05,
3651
+ "loss": 0.1699,
3652
+ "step": 4770
3653
+ },
3654
+ {
3655
+ "epoch": 2.239925023430178,
3656
+ "grad_norm": 1.9908474683761597,
3657
+ "learning_rate": 1.860004686035614e-05,
3658
+ "loss": 0.1763,
3659
+ "step": 4780
3660
+ },
3661
+ {
3662
+ "epoch": 2.2446110590440487,
3663
+ "grad_norm": 1.8446073532104492,
3664
+ "learning_rate": 1.859711808809747e-05,
3665
+ "loss": 0.1972,
3666
+ "step": 4790
3667
+ },
3668
+ {
3669
+ "epoch": 2.2492970946579196,
3670
+ "grad_norm": 1.9557933807373047,
3671
+ "learning_rate": 1.85941893158388e-05,
3672
+ "loss": 0.177,
3673
+ "step": 4800
3674
+ },
3675
+ {
3676
+ "epoch": 2.25398313027179,
3677
+ "grad_norm": 1.9075273275375366,
3678
+ "learning_rate": 1.859126054358013e-05,
3679
+ "loss": 0.1719,
3680
+ "step": 4810
3681
+ },
3682
+ {
3683
+ "epoch": 2.2586691658856606,
3684
+ "grad_norm": 1.6813454627990723,
3685
+ "learning_rate": 1.8588331771321464e-05,
3686
+ "loss": 0.1555,
3687
+ "step": 4820
3688
+ },
3689
+ {
3690
+ "epoch": 2.2633552014995315,
3691
+ "grad_norm": 1.677162528038025,
3692
+ "learning_rate": 1.8585402999062793e-05,
3693
+ "loss": 0.1585,
3694
+ "step": 4830
3695
+ },
3696
+ {
3697
+ "epoch": 2.268041237113402,
3698
+ "grad_norm": 1.9858368635177612,
3699
+ "learning_rate": 1.8582474226804126e-05,
3700
+ "loss": 0.1627,
3701
+ "step": 4840
3702
+ },
3703
+ {
3704
+ "epoch": 2.2727272727272725,
3705
+ "grad_norm": 1.6848777532577515,
3706
+ "learning_rate": 1.8579545454545456e-05,
3707
+ "loss": 0.1576,
3708
+ "step": 4850
3709
+ },
3710
+ {
3711
+ "epoch": 2.2774133083411434,
3712
+ "grad_norm": 2.0122177600860596,
3713
+ "learning_rate": 1.857661668228679e-05,
3714
+ "loss": 0.172,
3715
+ "step": 4860
3716
+ },
3717
+ {
3718
+ "epoch": 2.282099343955014,
3719
+ "grad_norm": 1.666049599647522,
3720
+ "learning_rate": 1.8573687910028118e-05,
3721
+ "loss": 0.1554,
3722
+ "step": 4870
3723
+ },
3724
+ {
3725
+ "epoch": 2.286785379568885,
3726
+ "grad_norm": 1.4426305294036865,
3727
+ "learning_rate": 1.857075913776945e-05,
3728
+ "loss": 0.1268,
3729
+ "step": 4880
3730
+ },
3731
+ {
3732
+ "epoch": 2.2914714151827553,
3733
+ "grad_norm": 1.8807013034820557,
3734
+ "learning_rate": 1.856783036551078e-05,
3735
+ "loss": 0.1892,
3736
+ "step": 4890
3737
+ },
3738
+ {
3739
+ "epoch": 2.296157450796626,
3740
+ "grad_norm": 1.6185581684112549,
3741
+ "learning_rate": 1.856490159325211e-05,
3742
+ "loss": 0.1645,
3743
+ "step": 4900
3744
+ },
3745
+ {
3746
+ "epoch": 2.3008434864104967,
3747
+ "grad_norm": 1.7439680099487305,
3748
+ "learning_rate": 1.8561972820993443e-05,
3749
+ "loss": 0.1677,
3750
+ "step": 4910
3751
+ },
3752
+ {
3753
+ "epoch": 2.3055295220243672,
3754
+ "grad_norm": 1.9492429494857788,
3755
+ "learning_rate": 1.8559044048734773e-05,
3756
+ "loss": 0.1626,
3757
+ "step": 4920
3758
+ },
3759
+ {
3760
+ "epoch": 2.310215557638238,
3761
+ "grad_norm": 1.7018874883651733,
3762
+ "learning_rate": 1.8556115276476102e-05,
3763
+ "loss": 0.1581,
3764
+ "step": 4930
3765
+ },
3766
+ {
3767
+ "epoch": 2.3149015932521086,
3768
+ "grad_norm": 1.5858055353164673,
3769
+ "learning_rate": 1.855318650421743e-05,
3770
+ "loss": 0.2029,
3771
+ "step": 4940
3772
+ },
3773
+ {
3774
+ "epoch": 2.319587628865979,
3775
+ "grad_norm": 2.1818623542785645,
3776
+ "learning_rate": 1.8550257731958764e-05,
3777
+ "loss": 0.2094,
3778
+ "step": 4950
3779
+ },
3780
+ {
3781
+ "epoch": 2.32427366447985,
3782
+ "grad_norm": 1.5739350318908691,
3783
+ "learning_rate": 1.8547328959700094e-05,
3784
+ "loss": 0.1565,
3785
+ "step": 4960
3786
+ },
3787
+ {
3788
+ "epoch": 2.3289597000937206,
3789
+ "grad_norm": 1.1287211179733276,
3790
+ "learning_rate": 1.8544400187441427e-05,
3791
+ "loss": 0.1982,
3792
+ "step": 4970
3793
+ },
3794
+ {
3795
+ "epoch": 2.3336457357075915,
3796
+ "grad_norm": 1.8876228332519531,
3797
+ "learning_rate": 1.8541471415182756e-05,
3798
+ "loss": 0.1571,
3799
+ "step": 4980
3800
+ },
3801
+ {
3802
+ "epoch": 2.338331771321462,
3803
+ "grad_norm": 2.1654696464538574,
3804
+ "learning_rate": 1.8538542642924086e-05,
3805
+ "loss": 0.163,
3806
+ "step": 4990
3807
+ },
3808
+ {
3809
+ "epoch": 2.3430178069353325,
3810
+ "grad_norm": 1.3975324630737305,
3811
+ "learning_rate": 1.853561387066542e-05,
3812
+ "loss": 0.1816,
3813
+ "step": 5000
3814
+ },
3815
+ {
3816
+ "epoch": 2.3430178069353325,
3817
+ "eval_loss": 0.033037662506103516,
3818
+ "eval_pearson_cosine": 0.8184973777993747,
3819
+ "eval_pearson_dot": 0.750740290890306,
3820
+ "eval_pearson_euclidean": 0.7978417286720072,
3821
+ "eval_pearson_manhattan": 0.7999562879189881,
3822
+ "eval_runtime": 3.3021,
3823
+ "eval_samples_per_second": 454.257,
3824
+ "eval_spearman_cosine": 0.8181019655563226,
3825
+ "eval_spearman_dot": 0.750101463474286,
3826
+ "eval_spearman_euclidean": 0.8059752038134308,
3827
+ "eval_spearman_manhattan": 0.807850996089844,
3828
+ "eval_steps_per_second": 28.467,
3829
+ "step": 5000
3830
  }
3831
  ],
3832
  "logging_steps": 10,