CocoRoF commited on
Commit
e106b80
·
verified ·
1 Parent(s): f6f7fdd

Training in progress, step 9000, checkpoint

Browse files
last-checkpoint/model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c1964f2d5c44ba4b4c7469db7fbf8939a22f3ba4ba4fc4a9f4f93ad2d0dc89b1
3
  size 613004648
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8adc247d305d9f3f48cfa3878ee63336d7fa4374add45ee01ed8dda6005ec778
3
  size 613004648
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:cd9ace385e6a3aedc5db9e21d5d93eaf44570601ca89516573fdb084906c785a
3
  size 1226096954
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8859d669a35bcbc93780c06ab1a65bd8bc02a7cba417a0b1747229bae278e8c4
3
  size 1226096954
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:ff2a98b7b58dd272a86869334fd0edf641ab47ceb102b634b242c3ff92151a26
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8b9b5cbeb72cb13416d33fb3709b0d7a367e681de773132f1b73f6b02bba3582
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f41a5cf6a87e1088bf38fb8d7948db1a1b81802306d68edaf56a922e0f3b1c95
3
  size 1000
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cdb70058e5fda25192fd22654de739fc2dcf9d8d64b5fc7673d822670c95ff92
3
  size 1000
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 3.7488284910965324,
5
  "eval_steps": 250,
6
- "global_step": 8000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -6119,6 +6119,770 @@
6119
  "eval_spearman_manhattan": 0.7707235385401614,
6120
  "eval_steps_per_second": 37.072,
6121
  "step": 8000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6122
  }
6123
  ],
6124
  "logging_steps": 10,
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 4.217432052483598,
5
  "eval_steps": 250,
6
+ "global_step": 9000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
6119
  "eval_spearman_manhattan": 0.7707235385401614,
6120
  "eval_steps_per_second": 37.072,
6121
  "step": 8000
6122
+ },
6123
+ {
6124
+ "epoch": 3.753514526710403,
6125
+ "grad_norm": 3.368011713027954,
6126
+ "learning_rate": 9.530810684161201e-06,
6127
+ "loss": 0.2193,
6128
+ "step": 8010
6129
+ },
6130
+ {
6131
+ "epoch": 3.758200562324274,
6132
+ "grad_norm": 2.9850523471832275,
6133
+ "learning_rate": 9.530224929709466e-06,
6134
+ "loss": 0.2016,
6135
+ "step": 8020
6136
+ },
6137
+ {
6138
+ "epoch": 3.7628865979381443,
6139
+ "grad_norm": 2.8147449493408203,
6140
+ "learning_rate": 9.529639175257731e-06,
6141
+ "loss": 0.2215,
6142
+ "step": 8030
6143
+ },
6144
+ {
6145
+ "epoch": 3.7675726335520148,
6146
+ "grad_norm": 2.6306607723236084,
6147
+ "learning_rate": 9.529053420806e-06,
6148
+ "loss": 0.2015,
6149
+ "step": 8040
6150
+ },
6151
+ {
6152
+ "epoch": 3.7722586691658857,
6153
+ "grad_norm": 2.9150195121765137,
6154
+ "learning_rate": 9.528467666354265e-06,
6155
+ "loss": 0.2181,
6156
+ "step": 8050
6157
+ },
6158
+ {
6159
+ "epoch": 3.776944704779756,
6160
+ "grad_norm": 2.7011146545410156,
6161
+ "learning_rate": 9.52788191190253e-06,
6162
+ "loss": 0.2087,
6163
+ "step": 8060
6164
+ },
6165
+ {
6166
+ "epoch": 3.781630740393627,
6167
+ "grad_norm": 2.658383846282959,
6168
+ "learning_rate": 9.527296157450797e-06,
6169
+ "loss": 0.2274,
6170
+ "step": 8070
6171
+ },
6172
+ {
6173
+ "epoch": 3.7863167760074976,
6174
+ "grad_norm": 3.214911460876465,
6175
+ "learning_rate": 9.526710402999063e-06,
6176
+ "loss": 0.2062,
6177
+ "step": 8080
6178
+ },
6179
+ {
6180
+ "epoch": 3.791002811621368,
6181
+ "grad_norm": 2.258542537689209,
6182
+ "learning_rate": 9.52612464854733e-06,
6183
+ "loss": 0.1993,
6184
+ "step": 8090
6185
+ },
6186
+ {
6187
+ "epoch": 3.795688847235239,
6188
+ "grad_norm": 2.8734090328216553,
6189
+ "learning_rate": 9.525538894095597e-06,
6190
+ "loss": 0.1992,
6191
+ "step": 8100
6192
+ },
6193
+ {
6194
+ "epoch": 3.8003748828491095,
6195
+ "grad_norm": 2.079141616821289,
6196
+ "learning_rate": 9.524953139643862e-06,
6197
+ "loss": 0.1942,
6198
+ "step": 8110
6199
+ },
6200
+ {
6201
+ "epoch": 3.8050609184629804,
6202
+ "grad_norm": 2.8030195236206055,
6203
+ "learning_rate": 9.524367385192129e-06,
6204
+ "loss": 0.2289,
6205
+ "step": 8120
6206
+ },
6207
+ {
6208
+ "epoch": 3.809746954076851,
6209
+ "grad_norm": 3.562373399734497,
6210
+ "learning_rate": 9.523781630740394e-06,
6211
+ "loss": 0.2177,
6212
+ "step": 8130
6213
+ },
6214
+ {
6215
+ "epoch": 3.8144329896907214,
6216
+ "grad_norm": 3.045858144760132,
6217
+ "learning_rate": 9.52319587628866e-06,
6218
+ "loss": 0.1953,
6219
+ "step": 8140
6220
+ },
6221
+ {
6222
+ "epoch": 3.8191190253045924,
6223
+ "grad_norm": 1.9901701211929321,
6224
+ "learning_rate": 9.522610121836928e-06,
6225
+ "loss": 0.1873,
6226
+ "step": 8150
6227
+ },
6228
+ {
6229
+ "epoch": 3.823805060918463,
6230
+ "grad_norm": 3.8275070190429688,
6231
+ "learning_rate": 9.522024367385193e-06,
6232
+ "loss": 0.2081,
6233
+ "step": 8160
6234
+ },
6235
+ {
6236
+ "epoch": 3.8284910965323338,
6237
+ "grad_norm": 3.9077577590942383,
6238
+ "learning_rate": 9.52143861293346e-06,
6239
+ "loss": 0.2145,
6240
+ "step": 8170
6241
+ },
6242
+ {
6243
+ "epoch": 3.8331771321462043,
6244
+ "grad_norm": 2.799581289291382,
6245
+ "learning_rate": 9.520852858481725e-06,
6246
+ "loss": 0.2139,
6247
+ "step": 8180
6248
+ },
6249
+ {
6250
+ "epoch": 3.8378631677600747,
6251
+ "grad_norm": 2.7552547454833984,
6252
+ "learning_rate": 9.52026710402999e-06,
6253
+ "loss": 0.236,
6254
+ "step": 8190
6255
+ },
6256
+ {
6257
+ "epoch": 3.8425492033739457,
6258
+ "grad_norm": 2.6394495964050293,
6259
+ "learning_rate": 9.519681349578259e-06,
6260
+ "loss": 0.1724,
6261
+ "step": 8200
6262
+ },
6263
+ {
6264
+ "epoch": 3.847235238987816,
6265
+ "grad_norm": 2.702173948287964,
6266
+ "learning_rate": 9.519095595126524e-06,
6267
+ "loss": 0.1896,
6268
+ "step": 8210
6269
+ },
6270
+ {
6271
+ "epoch": 3.851921274601687,
6272
+ "grad_norm": 2.436673402786255,
6273
+ "learning_rate": 9.51850984067479e-06,
6274
+ "loss": 0.2018,
6275
+ "step": 8220
6276
+ },
6277
+ {
6278
+ "epoch": 3.8566073102155576,
6279
+ "grad_norm": 2.3034989833831787,
6280
+ "learning_rate": 9.517924086223056e-06,
6281
+ "loss": 0.1939,
6282
+ "step": 8230
6283
+ },
6284
+ {
6285
+ "epoch": 3.861293345829428,
6286
+ "grad_norm": 3.2450108528137207,
6287
+ "learning_rate": 9.517338331771321e-06,
6288
+ "loss": 0.209,
6289
+ "step": 8240
6290
+ },
6291
+ {
6292
+ "epoch": 3.865979381443299,
6293
+ "grad_norm": 2.502262830734253,
6294
+ "learning_rate": 9.516752577319588e-06,
6295
+ "loss": 0.1783,
6296
+ "step": 8250
6297
+ },
6298
+ {
6299
+ "epoch": 3.865979381443299,
6300
+ "eval_loss": 0.049117717891931534,
6301
+ "eval_pearson_cosine": 0.7772195489479836,
6302
+ "eval_pearson_dot": 0.5914535101164233,
6303
+ "eval_pearson_euclidean": 0.7459002868961946,
6304
+ "eval_pearson_manhattan": 0.7454618646316931,
6305
+ "eval_runtime": 39.5982,
6306
+ "eval_samples_per_second": 37.881,
6307
+ "eval_spearman_cosine": 0.7829045810141201,
6308
+ "eval_spearman_dot": 0.5984134337824631,
6309
+ "eval_spearman_euclidean": 0.7637144641585795,
6310
+ "eval_spearman_manhattan": 0.7630402590525859,
6311
+ "eval_steps_per_second": 37.881,
6312
+ "step": 8250
6313
+ },
6314
+ {
6315
+ "epoch": 3.8706654170571695,
6316
+ "grad_norm": 2.68709397315979,
6317
+ "learning_rate": 9.516166822867855e-06,
6318
+ "loss": 0.2099,
6319
+ "step": 8260
6320
+ },
6321
+ {
6322
+ "epoch": 3.8753514526710404,
6323
+ "grad_norm": 2.731020927429199,
6324
+ "learning_rate": 9.51558106841612e-06,
6325
+ "loss": 0.2032,
6326
+ "step": 8270
6327
+ },
6328
+ {
6329
+ "epoch": 3.880037488284911,
6330
+ "grad_norm": 2.9886014461517334,
6331
+ "learning_rate": 9.514995313964387e-06,
6332
+ "loss": 0.2206,
6333
+ "step": 8280
6334
+ },
6335
+ {
6336
+ "epoch": 3.8847235238987814,
6337
+ "grad_norm": 3.2847719192504883,
6338
+ "learning_rate": 9.514409559512653e-06,
6339
+ "loss": 0.2006,
6340
+ "step": 8290
6341
+ },
6342
+ {
6343
+ "epoch": 3.8894095595126523,
6344
+ "grad_norm": 2.6451122760772705,
6345
+ "learning_rate": 9.51382380506092e-06,
6346
+ "loss": 0.197,
6347
+ "step": 8300
6348
+ },
6349
+ {
6350
+ "epoch": 3.894095595126523,
6351
+ "grad_norm": 2.8909411430358887,
6352
+ "learning_rate": 9.513238050609187e-06,
6353
+ "loss": 0.2122,
6354
+ "step": 8310
6355
+ },
6356
+ {
6357
+ "epoch": 3.8987816307403937,
6358
+ "grad_norm": 2.6058146953582764,
6359
+ "learning_rate": 9.512652296157452e-06,
6360
+ "loss": 0.1812,
6361
+ "step": 8320
6362
+ },
6363
+ {
6364
+ "epoch": 3.9034676663542642,
6365
+ "grad_norm": 2.27011775970459,
6366
+ "learning_rate": 9.512066541705719e-06,
6367
+ "loss": 0.2184,
6368
+ "step": 8330
6369
+ },
6370
+ {
6371
+ "epoch": 3.9081537019681347,
6372
+ "grad_norm": 3.1832330226898193,
6373
+ "learning_rate": 9.511480787253984e-06,
6374
+ "loss": 0.2016,
6375
+ "step": 8340
6376
+ },
6377
+ {
6378
+ "epoch": 3.9128397375820057,
6379
+ "grad_norm": 2.791018009185791,
6380
+ "learning_rate": 9.510895032802249e-06,
6381
+ "loss": 0.215,
6382
+ "step": 8350
6383
+ },
6384
+ {
6385
+ "epoch": 3.917525773195876,
6386
+ "grad_norm": 2.7976248264312744,
6387
+ "learning_rate": 9.510309278350516e-06,
6388
+ "loss": 0.1905,
6389
+ "step": 8360
6390
+ },
6391
+ {
6392
+ "epoch": 3.922211808809747,
6393
+ "grad_norm": 3.055813789367676,
6394
+ "learning_rate": 9.509723523898783e-06,
6395
+ "loss": 0.1749,
6396
+ "step": 8370
6397
+ },
6398
+ {
6399
+ "epoch": 3.9268978444236176,
6400
+ "grad_norm": 2.684330940246582,
6401
+ "learning_rate": 9.509137769447048e-06,
6402
+ "loss": 0.2205,
6403
+ "step": 8380
6404
+ },
6405
+ {
6406
+ "epoch": 3.931583880037488,
6407
+ "grad_norm": 2.509272336959839,
6408
+ "learning_rate": 9.508552014995315e-06,
6409
+ "loss": 0.1996,
6410
+ "step": 8390
6411
+ },
6412
+ {
6413
+ "epoch": 3.936269915651359,
6414
+ "grad_norm": 3.171687126159668,
6415
+ "learning_rate": 9.50796626054358e-06,
6416
+ "loss": 0.2153,
6417
+ "step": 8400
6418
+ },
6419
+ {
6420
+ "epoch": 3.9409559512652295,
6421
+ "grad_norm": 2.5855712890625,
6422
+ "learning_rate": 9.507380506091847e-06,
6423
+ "loss": 0.1948,
6424
+ "step": 8410
6425
+ },
6426
+ {
6427
+ "epoch": 3.9456419868791004,
6428
+ "grad_norm": 2.6451563835144043,
6429
+ "learning_rate": 9.506794751640114e-06,
6430
+ "loss": 0.2016,
6431
+ "step": 8420
6432
+ },
6433
+ {
6434
+ "epoch": 3.950328022492971,
6435
+ "grad_norm": 2.763460159301758,
6436
+ "learning_rate": 9.50620899718838e-06,
6437
+ "loss": 0.1993,
6438
+ "step": 8430
6439
+ },
6440
+ {
6441
+ "epoch": 3.9550140581068414,
6442
+ "grad_norm": 2.799182891845703,
6443
+ "learning_rate": 9.505623242736646e-06,
6444
+ "loss": 0.2042,
6445
+ "step": 8440
6446
+ },
6447
+ {
6448
+ "epoch": 3.9597000937207123,
6449
+ "grad_norm": 3.084116220474243,
6450
+ "learning_rate": 9.505037488284911e-06,
6451
+ "loss": 0.1866,
6452
+ "step": 8450
6453
+ },
6454
+ {
6455
+ "epoch": 3.964386129334583,
6456
+ "grad_norm": 3.3838253021240234,
6457
+ "learning_rate": 9.504451733833178e-06,
6458
+ "loss": 0.1707,
6459
+ "step": 8460
6460
+ },
6461
+ {
6462
+ "epoch": 3.9690721649484537,
6463
+ "grad_norm": 2.19954776763916,
6464
+ "learning_rate": 9.503865979381444e-06,
6465
+ "loss": 0.2248,
6466
+ "step": 8470
6467
+ },
6468
+ {
6469
+ "epoch": 3.973758200562324,
6470
+ "grad_norm": 2.2361807823181152,
6471
+ "learning_rate": 9.50328022492971e-06,
6472
+ "loss": 0.1799,
6473
+ "step": 8480
6474
+ },
6475
+ {
6476
+ "epoch": 3.9784442361761947,
6477
+ "grad_norm": 2.890557050704956,
6478
+ "learning_rate": 9.502694470477977e-06,
6479
+ "loss": 0.1973,
6480
+ "step": 8490
6481
+ },
6482
+ {
6483
+ "epoch": 3.9831302717900656,
6484
+ "grad_norm": 2.7707271575927734,
6485
+ "learning_rate": 9.502108716026243e-06,
6486
+ "loss": 0.2055,
6487
+ "step": 8500
6488
+ },
6489
+ {
6490
+ "epoch": 3.9831302717900656,
6491
+ "eval_loss": 0.05037970840930939,
6492
+ "eval_pearson_cosine": 0.7775524083612311,
6493
+ "eval_pearson_dot": 0.5959320587932737,
6494
+ "eval_pearson_euclidean": 0.7480333124520797,
6495
+ "eval_pearson_manhattan": 0.7476197144949026,
6496
+ "eval_runtime": 40.1455,
6497
+ "eval_samples_per_second": 37.364,
6498
+ "eval_spearman_cosine": 0.7831727093187573,
6499
+ "eval_spearman_dot": 0.6016926673738828,
6500
+ "eval_spearman_euclidean": 0.7661681011355215,
6501
+ "eval_spearman_manhattan": 0.7658464354262474,
6502
+ "eval_steps_per_second": 37.364,
6503
+ "step": 8500
6504
+ },
6505
+ {
6506
+ "epoch": 3.987816307403936,
6507
+ "grad_norm": 2.6210579872131348,
6508
+ "learning_rate": 9.501522961574508e-06,
6509
+ "loss": 0.2097,
6510
+ "step": 8510
6511
+ },
6512
+ {
6513
+ "epoch": 3.992502343017807,
6514
+ "grad_norm": 2.6655242443084717,
6515
+ "learning_rate": 9.500937207122775e-06,
6516
+ "loss": 0.2149,
6517
+ "step": 8520
6518
+ },
6519
+ {
6520
+ "epoch": 3.9971883786316775,
6521
+ "grad_norm": 2.6789777278900146,
6522
+ "learning_rate": 9.50035145267104e-06,
6523
+ "loss": 0.2045,
6524
+ "step": 8530
6525
+ },
6526
+ {
6527
+ "epoch": 4.001874414245548,
6528
+ "grad_norm": 2.4452877044677734,
6529
+ "learning_rate": 9.499765698219307e-06,
6530
+ "loss": 0.1679,
6531
+ "step": 8540
6532
+ },
6533
+ {
6534
+ "epoch": 4.0065604498594185,
6535
+ "grad_norm": 2.454794406890869,
6536
+ "learning_rate": 9.499179943767574e-06,
6537
+ "loss": 0.1334,
6538
+ "step": 8550
6539
+ },
6540
+ {
6541
+ "epoch": 4.01124648547329,
6542
+ "grad_norm": 2.799318790435791,
6543
+ "learning_rate": 9.498594189315839e-06,
6544
+ "loss": 0.1677,
6545
+ "step": 8560
6546
+ },
6547
+ {
6548
+ "epoch": 4.01593252108716,
6549
+ "grad_norm": 2.66549015045166,
6550
+ "learning_rate": 9.498008434864106e-06,
6551
+ "loss": 0.1337,
6552
+ "step": 8570
6553
+ },
6554
+ {
6555
+ "epoch": 4.020618556701031,
6556
+ "grad_norm": 2.5295207500457764,
6557
+ "learning_rate": 9.497422680412371e-06,
6558
+ "loss": 0.1396,
6559
+ "step": 8580
6560
+ },
6561
+ {
6562
+ "epoch": 4.025304592314901,
6563
+ "grad_norm": 1.6832513809204102,
6564
+ "learning_rate": 9.496836925960638e-06,
6565
+ "loss": 0.1628,
6566
+ "step": 8590
6567
+ },
6568
+ {
6569
+ "epoch": 4.029990627928772,
6570
+ "grad_norm": 2.8461272716522217,
6571
+ "learning_rate": 9.496251171508905e-06,
6572
+ "loss": 0.1558,
6573
+ "step": 8600
6574
+ },
6575
+ {
6576
+ "epoch": 4.034676663542643,
6577
+ "grad_norm": 1.970751404762268,
6578
+ "learning_rate": 9.49566541705717e-06,
6579
+ "loss": 0.1166,
6580
+ "step": 8610
6581
+ },
6582
+ {
6583
+ "epoch": 4.039362699156514,
6584
+ "grad_norm": 2.8301377296447754,
6585
+ "learning_rate": 9.495079662605437e-06,
6586
+ "loss": 0.1616,
6587
+ "step": 8620
6588
+ },
6589
+ {
6590
+ "epoch": 4.044048734770384,
6591
+ "grad_norm": 2.252061367034912,
6592
+ "learning_rate": 9.494493908153702e-06,
6593
+ "loss": 0.1331,
6594
+ "step": 8630
6595
+ },
6596
+ {
6597
+ "epoch": 4.048734770384255,
6598
+ "grad_norm": 2.675797700881958,
6599
+ "learning_rate": 9.493908153701968e-06,
6600
+ "loss": 0.1256,
6601
+ "step": 8640
6602
+ },
6603
+ {
6604
+ "epoch": 4.053420805998125,
6605
+ "grad_norm": 2.7920572757720947,
6606
+ "learning_rate": 9.493322399250236e-06,
6607
+ "loss": 0.1327,
6608
+ "step": 8650
6609
+ },
6610
+ {
6611
+ "epoch": 4.0581068416119965,
6612
+ "grad_norm": 2.8503355979919434,
6613
+ "learning_rate": 9.492736644798501e-06,
6614
+ "loss": 0.141,
6615
+ "step": 8660
6616
+ },
6617
+ {
6618
+ "epoch": 4.062792877225867,
6619
+ "grad_norm": 3.100353956222534,
6620
+ "learning_rate": 9.492150890346767e-06,
6621
+ "loss": 0.1501,
6622
+ "step": 8670
6623
+ },
6624
+ {
6625
+ "epoch": 4.0674789128397375,
6626
+ "grad_norm": 2.2261886596679688,
6627
+ "learning_rate": 9.491565135895034e-06,
6628
+ "loss": 0.1352,
6629
+ "step": 8680
6630
+ },
6631
+ {
6632
+ "epoch": 4.072164948453608,
6633
+ "grad_norm": 2.125128984451294,
6634
+ "learning_rate": 9.490979381443299e-06,
6635
+ "loss": 0.1541,
6636
+ "step": 8690
6637
+ },
6638
+ {
6639
+ "epoch": 4.0768509840674785,
6640
+ "grad_norm": 2.3368821144104004,
6641
+ "learning_rate": 9.490393626991566e-06,
6642
+ "loss": 0.144,
6643
+ "step": 8700
6644
+ },
6645
+ {
6646
+ "epoch": 4.08153701968135,
6647
+ "grad_norm": 2.3971216678619385,
6648
+ "learning_rate": 9.489807872539833e-06,
6649
+ "loss": 0.1461,
6650
+ "step": 8710
6651
+ },
6652
+ {
6653
+ "epoch": 4.08622305529522,
6654
+ "grad_norm": 2.2589287757873535,
6655
+ "learning_rate": 9.489222118088098e-06,
6656
+ "loss": 0.1758,
6657
+ "step": 8720
6658
+ },
6659
+ {
6660
+ "epoch": 4.090909090909091,
6661
+ "grad_norm": 2.8072731494903564,
6662
+ "learning_rate": 9.488636363636365e-06,
6663
+ "loss": 0.1454,
6664
+ "step": 8730
6665
+ },
6666
+ {
6667
+ "epoch": 4.095595126522961,
6668
+ "grad_norm": 1.921200156211853,
6669
+ "learning_rate": 9.48805060918463e-06,
6670
+ "loss": 0.1404,
6671
+ "step": 8740
6672
+ },
6673
+ {
6674
+ "epoch": 4.100281162136832,
6675
+ "grad_norm": 2.808347225189209,
6676
+ "learning_rate": 9.487464854732897e-06,
6677
+ "loss": 0.1345,
6678
+ "step": 8750
6679
+ },
6680
+ {
6681
+ "epoch": 4.100281162136832,
6682
+ "eval_loss": 0.0466812327504158,
6683
+ "eval_pearson_cosine": 0.7762485382429531,
6684
+ "eval_pearson_dot": 0.6205844136544023,
6685
+ "eval_pearson_euclidean": 0.7434752403993485,
6686
+ "eval_pearson_manhattan": 0.7429057889387991,
6687
+ "eval_runtime": 39.0625,
6688
+ "eval_samples_per_second": 38.4,
6689
+ "eval_spearman_cosine": 0.7802221022373591,
6690
+ "eval_spearman_dot": 0.6303325253186769,
6691
+ "eval_spearman_euclidean": 0.7611130904217269,
6692
+ "eval_spearman_manhattan": 0.7606144833054299,
6693
+ "eval_steps_per_second": 38.4,
6694
+ "step": 8750
6695
+ },
6696
+ {
6697
+ "epoch": 4.104967197750703,
6698
+ "grad_norm": 1.7242465019226074,
6699
+ "learning_rate": 9.486879100281164e-06,
6700
+ "loss": 0.1288,
6701
+ "step": 8760
6702
+ },
6703
+ {
6704
+ "epoch": 4.109653233364574,
6705
+ "grad_norm": 2.2536211013793945,
6706
+ "learning_rate": 9.486293345829429e-06,
6707
+ "loss": 0.1313,
6708
+ "step": 8770
6709
+ },
6710
+ {
6711
+ "epoch": 4.114339268978444,
6712
+ "grad_norm": 2.289796829223633,
6713
+ "learning_rate": 9.485707591377696e-06,
6714
+ "loss": 0.1689,
6715
+ "step": 8780
6716
+ },
6717
+ {
6718
+ "epoch": 4.119025304592315,
6719
+ "grad_norm": 1.961803913116455,
6720
+ "learning_rate": 9.485121836925961e-06,
6721
+ "loss": 0.127,
6722
+ "step": 8790
6723
+ },
6724
+ {
6725
+ "epoch": 4.123711340206185,
6726
+ "grad_norm": 1.667372465133667,
6727
+ "learning_rate": 9.484536082474226e-06,
6728
+ "loss": 0.1267,
6729
+ "step": 8800
6730
+ },
6731
+ {
6732
+ "epoch": 4.1283973758200565,
6733
+ "grad_norm": 1.8963170051574707,
6734
+ "learning_rate": 9.483950328022495e-06,
6735
+ "loss": 0.1556,
6736
+ "step": 8810
6737
+ },
6738
+ {
6739
+ "epoch": 4.133083411433927,
6740
+ "grad_norm": 2.9656922817230225,
6741
+ "learning_rate": 9.48336457357076e-06,
6742
+ "loss": 0.1486,
6743
+ "step": 8820
6744
+ },
6745
+ {
6746
+ "epoch": 4.1377694470477975,
6747
+ "grad_norm": 1.9788974523544312,
6748
+ "learning_rate": 9.482778819119025e-06,
6749
+ "loss": 0.1542,
6750
+ "step": 8830
6751
+ },
6752
+ {
6753
+ "epoch": 4.142455482661668,
6754
+ "grad_norm": 2.4442574977874756,
6755
+ "learning_rate": 9.482193064667292e-06,
6756
+ "loss": 0.1318,
6757
+ "step": 8840
6758
+ },
6759
+ {
6760
+ "epoch": 4.147141518275539,
6761
+ "grad_norm": 2.5937938690185547,
6762
+ "learning_rate": 9.481607310215558e-06,
6763
+ "loss": 0.1451,
6764
+ "step": 8850
6765
+ },
6766
+ {
6767
+ "epoch": 4.15182755388941,
6768
+ "grad_norm": 2.443493366241455,
6769
+ "learning_rate": 9.481021555763825e-06,
6770
+ "loss": 0.1569,
6771
+ "step": 8860
6772
+ },
6773
+ {
6774
+ "epoch": 4.15651358950328,
6775
+ "grad_norm": 2.4432411193847656,
6776
+ "learning_rate": 9.480435801312091e-06,
6777
+ "loss": 0.1371,
6778
+ "step": 8870
6779
+ },
6780
+ {
6781
+ "epoch": 4.161199625117151,
6782
+ "grad_norm": 2.259110689163208,
6783
+ "learning_rate": 9.479850046860357e-06,
6784
+ "loss": 0.1492,
6785
+ "step": 8880
6786
+ },
6787
+ {
6788
+ "epoch": 4.165885660731021,
6789
+ "grad_norm": 2.7767279148101807,
6790
+ "learning_rate": 9.479264292408624e-06,
6791
+ "loss": 0.1248,
6792
+ "step": 8890
6793
+ },
6794
+ {
6795
+ "epoch": 4.170571696344892,
6796
+ "grad_norm": 2.309516191482544,
6797
+ "learning_rate": 9.478678537956889e-06,
6798
+ "loss": 0.14,
6799
+ "step": 8900
6800
+ },
6801
+ {
6802
+ "epoch": 4.175257731958763,
6803
+ "grad_norm": 1.9368172883987427,
6804
+ "learning_rate": 9.478092783505156e-06,
6805
+ "loss": 0.1343,
6806
+ "step": 8910
6807
+ },
6808
+ {
6809
+ "epoch": 4.179943767572634,
6810
+ "grad_norm": 3.124490976333618,
6811
+ "learning_rate": 9.477507029053423e-06,
6812
+ "loss": 0.1358,
6813
+ "step": 8920
6814
+ },
6815
+ {
6816
+ "epoch": 4.184629803186504,
6817
+ "grad_norm": 2.3121657371520996,
6818
+ "learning_rate": 9.476921274601688e-06,
6819
+ "loss": 0.1516,
6820
+ "step": 8930
6821
+ },
6822
+ {
6823
+ "epoch": 4.189315838800375,
6824
+ "grad_norm": 2.1902709007263184,
6825
+ "learning_rate": 9.476335520149955e-06,
6826
+ "loss": 0.1253,
6827
+ "step": 8940
6828
+ },
6829
+ {
6830
+ "epoch": 4.194001874414246,
6831
+ "grad_norm": 3.0760653018951416,
6832
+ "learning_rate": 9.47574976569822e-06,
6833
+ "loss": 0.1678,
6834
+ "step": 8950
6835
+ },
6836
+ {
6837
+ "epoch": 4.1986879100281165,
6838
+ "grad_norm": 2.8899242877960205,
6839
+ "learning_rate": 9.475164011246485e-06,
6840
+ "loss": 0.137,
6841
+ "step": 8960
6842
+ },
6843
+ {
6844
+ "epoch": 4.203373945641987,
6845
+ "grad_norm": 2.4512765407562256,
6846
+ "learning_rate": 9.474578256794752e-06,
6847
+ "loss": 0.1598,
6848
+ "step": 8970
6849
+ },
6850
+ {
6851
+ "epoch": 4.2080599812558575,
6852
+ "grad_norm": 2.9443392753601074,
6853
+ "learning_rate": 9.473992502343019e-06,
6854
+ "loss": 0.143,
6855
+ "step": 8980
6856
+ },
6857
+ {
6858
+ "epoch": 4.212746016869728,
6859
+ "grad_norm": 3.5128183364868164,
6860
+ "learning_rate": 9.473406747891284e-06,
6861
+ "loss": 0.1556,
6862
+ "step": 8990
6863
+ },
6864
+ {
6865
+ "epoch": 4.217432052483598,
6866
+ "grad_norm": 2.6914291381835938,
6867
+ "learning_rate": 9.472820993439551e-06,
6868
+ "loss": 0.1506,
6869
+ "step": 9000
6870
+ },
6871
+ {
6872
+ "epoch": 4.217432052483598,
6873
+ "eval_loss": 0.04765741899609566,
6874
+ "eval_pearson_cosine": 0.771092218670848,
6875
+ "eval_pearson_dot": 0.5978116743652393,
6876
+ "eval_pearson_euclidean": 0.7473151449481621,
6877
+ "eval_pearson_manhattan": 0.7466335380915066,
6878
+ "eval_runtime": 39.8559,
6879
+ "eval_samples_per_second": 37.636,
6880
+ "eval_spearman_cosine": 0.7759072486337746,
6881
+ "eval_spearman_dot": 0.6025471021302765,
6882
+ "eval_spearman_euclidean": 0.7630945437887154,
6883
+ "eval_spearman_manhattan": 0.7624729408213863,
6884
+ "eval_steps_per_second": 37.636,
6885
+ "step": 9000
6886
  }
6887
  ],
6888
  "logging_steps": 10,