Fanucci commited on
Commit
d5983f4
·
verified ·
1 Parent(s): ca07e66

Training in progress, step 800, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:bf23c078e9609fce3d6406e8cf3318bd1c803b0e4a1390242292fdcc82f0a604
3
  size 671149168
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:356d90ca6784d8ad896343b590031a4d760212691309e5fa44e94d9bd333476d
3
  size 671149168
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f445125568e8c2ec052c8043e5d4738490c13a3f54d07729fc25a1f8f8f74204
3
  size 1342555602
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:07f70391f1d92cd7a39e5c59693cbf6577b5fec9bf7ca1b7d90b99c64d2fd956
3
  size 1342555602
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:72fbfa530194f7b2cf0e13b6a439f72a3da375141106db14ca42e185603cf635
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8b69db2d3e137bfc4fdab5a7f1d0c0af3e74fe5a5f426e92a44235c4a4bbad81
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:fe80b57817b0d8cc8f62cfc1dc5ac6112abe389906e014f58f93bc482e7e6c0e
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:30632263e1c1835085a75879d50f43d028777df4547e51105124fa5b76c67ad2
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": 3.1351470947265625,
3
  "best_model_checkpoint": "miner_id_24/checkpoint-600",
4
- "epoch": 0.1919692849144137,
5
  "eval_steps": 200,
6
- "global_step": 600,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -4239,6 +4239,1414 @@
4239
  "eval_samples_per_second": 5.632,
4240
  "eval_steps_per_second": 1.408,
4241
  "step": 600
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4242
  }
4243
  ],
4244
  "logging_steps": 1,
@@ -4253,7 +5661,7 @@
4253
  "early_stopping_threshold": 0.0
4254
  },
4255
  "attributes": {
4256
- "early_stopping_patience_counter": 0
4257
  }
4258
  },
4259
  "TrainerControl": {
@@ -4267,7 +5675,7 @@
4267
  "attributes": {}
4268
  }
4269
  },
4270
- "total_flos": 5.573737245006889e+17,
4271
  "train_batch_size": 4,
4272
  "trial_name": null,
4273
  "trial_params": null
 
1
  {
2
  "best_metric": 3.1351470947265625,
3
  "best_model_checkpoint": "miner_id_24/checkpoint-600",
4
+ "epoch": 0.2559590465525516,
5
  "eval_steps": 200,
6
+ "global_step": 800,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
4239
  "eval_samples_per_second": 5.632,
4240
  "eval_steps_per_second": 1.408,
4241
  "step": 600
4242
+ },
4243
+ {
4244
+ "epoch": 0.1922892337226044,
4245
+ "grad_norm": 5.824222087860107,
4246
+ "learning_rate": 0.00036586928005909067,
4247
+ "loss": 6.3228,
4248
+ "step": 601
4249
+ },
4250
+ {
4251
+ "epoch": 0.19260918253079506,
4252
+ "grad_norm": 5.025035381317139,
4253
+ "learning_rate": 0.00036575728485310305,
4254
+ "loss": 6.0095,
4255
+ "step": 602
4256
+ },
4257
+ {
4258
+ "epoch": 0.19292913133898576,
4259
+ "grad_norm": 7.741343975067139,
4260
+ "learning_rate": 0.0003656451243944793,
4261
+ "loss": 6.4401,
4262
+ "step": 603
4263
+ },
4264
+ {
4265
+ "epoch": 0.19324908014717646,
4266
+ "grad_norm": 12.790258407592773,
4267
+ "learning_rate": 0.00036553279880221736,
4268
+ "loss": 6.0217,
4269
+ "step": 604
4270
+ },
4271
+ {
4272
+ "epoch": 0.19356902895536715,
4273
+ "grad_norm": 8.1022310256958,
4274
+ "learning_rate": 0.00036542030819549054,
4275
+ "loss": 6.2374,
4276
+ "step": 605
4277
+ },
4278
+ {
4279
+ "epoch": 0.19388897776355782,
4280
+ "grad_norm": 10.174038887023926,
4281
+ "learning_rate": 0.0003653076526936471,
4282
+ "loss": 6.1404,
4283
+ "step": 606
4284
+ },
4285
+ {
4286
+ "epoch": 0.1942089265717485,
4287
+ "grad_norm": 5.43154239654541,
4288
+ "learning_rate": 0.0003651948324162104,
4289
+ "loss": 6.0869,
4290
+ "step": 607
4291
+ },
4292
+ {
4293
+ "epoch": 0.1945288753799392,
4294
+ "grad_norm": 7.523396015167236,
4295
+ "learning_rate": 0.0003650818474828783,
4296
+ "loss": 6.244,
4297
+ "step": 608
4298
+ },
4299
+ {
4300
+ "epoch": 0.1948488241881299,
4301
+ "grad_norm": 9.378880500793457,
4302
+ "learning_rate": 0.0003649686980135238,
4303
+ "loss": 6.3951,
4304
+ "step": 609
4305
+ },
4306
+ {
4307
+ "epoch": 0.1951687729963206,
4308
+ "grad_norm": 9.061972618103027,
4309
+ "learning_rate": 0.0003648553841281942,
4310
+ "loss": 6.3282,
4311
+ "step": 610
4312
+ },
4313
+ {
4314
+ "epoch": 0.19548872180451127,
4315
+ "grad_norm": 6.108553409576416,
4316
+ "learning_rate": 0.0003647419059471112,
4317
+ "loss": 6.2572,
4318
+ "step": 611
4319
+ },
4320
+ {
4321
+ "epoch": 0.19580867061270196,
4322
+ "grad_norm": 5.526744842529297,
4323
+ "learning_rate": 0.00036462826359067097,
4324
+ "loss": 6.2983,
4325
+ "step": 612
4326
+ },
4327
+ {
4328
+ "epoch": 0.19612861942089266,
4329
+ "grad_norm": 15.063833236694336,
4330
+ "learning_rate": 0.00036451445717944364,
4331
+ "loss": 6.0462,
4332
+ "step": 613
4333
+ },
4334
+ {
4335
+ "epoch": 0.19644856822908335,
4336
+ "grad_norm": 8.600305557250977,
4337
+ "learning_rate": 0.00036440048683417374,
4338
+ "loss": 6.0926,
4339
+ "step": 614
4340
+ },
4341
+ {
4342
+ "epoch": 0.19676851703727405,
4343
+ "grad_norm": 6.220649242401123,
4344
+ "learning_rate": 0.00036428635267577944,
4345
+ "loss": 6.4756,
4346
+ "step": 615
4347
+ },
4348
+ {
4349
+ "epoch": 0.19708846584546472,
4350
+ "grad_norm": 10.122354507446289,
4351
+ "learning_rate": 0.0003641720548253528,
4352
+ "loss": 6.3049,
4353
+ "step": 616
4354
+ },
4355
+ {
4356
+ "epoch": 0.1974084146536554,
4357
+ "grad_norm": 8.642034530639648,
4358
+ "learning_rate": 0.00036405759340415956,
4359
+ "loss": 5.996,
4360
+ "step": 617
4361
+ },
4362
+ {
4363
+ "epoch": 0.1977283634618461,
4364
+ "grad_norm": 7.122521877288818,
4365
+ "learning_rate": 0.0003639429685336391,
4366
+ "loss": 6.2142,
4367
+ "step": 618
4368
+ },
4369
+ {
4370
+ "epoch": 0.1980483122700368,
4371
+ "grad_norm": 13.584242820739746,
4372
+ "learning_rate": 0.0003638281803354039,
4373
+ "loss": 6.2225,
4374
+ "step": 619
4375
+ },
4376
+ {
4377
+ "epoch": 0.19836826107822747,
4378
+ "grad_norm": 15.066466331481934,
4379
+ "learning_rate": 0.00036371322893124,
4380
+ "loss": 6.4064,
4381
+ "step": 620
4382
+ },
4383
+ {
4384
+ "epoch": 0.19868820988641817,
4385
+ "grad_norm": 13.614229202270508,
4386
+ "learning_rate": 0.00036359811444310665,
4387
+ "loss": 6.5411,
4388
+ "step": 621
4389
+ },
4390
+ {
4391
+ "epoch": 0.19900815869460886,
4392
+ "grad_norm": 21.728307723999023,
4393
+ "learning_rate": 0.0003634828369931358,
4394
+ "loss": 6.1478,
4395
+ "step": 622
4396
+ },
4397
+ {
4398
+ "epoch": 0.19932810750279956,
4399
+ "grad_norm": 13.957999229431152,
4400
+ "learning_rate": 0.0003633673967036327,
4401
+ "loss": 6.4172,
4402
+ "step": 623
4403
+ },
4404
+ {
4405
+ "epoch": 0.19964805631099025,
4406
+ "grad_norm": 8.37833023071289,
4407
+ "learning_rate": 0.0003632517936970751,
4408
+ "loss": 6.4588,
4409
+ "step": 624
4410
+ },
4411
+ {
4412
+ "epoch": 0.19996800511918092,
4413
+ "grad_norm": 10.713350296020508,
4414
+ "learning_rate": 0.0003631360280961134,
4415
+ "loss": 6.2626,
4416
+ "step": 625
4417
+ },
4418
+ {
4419
+ "epoch": 0.20028795392737161,
4420
+ "grad_norm": 10.606658935546875,
4421
+ "learning_rate": 0.00036302010002357057,
4422
+ "loss": 6.4442,
4423
+ "step": 626
4424
+ },
4425
+ {
4426
+ "epoch": 0.2006079027355623,
4427
+ "grad_norm": 6.849085330963135,
4428
+ "learning_rate": 0.00036290400960244204,
4429
+ "loss": 6.1653,
4430
+ "step": 627
4431
+ },
4432
+ {
4433
+ "epoch": 0.200927851543753,
4434
+ "grad_norm": 9.328271865844727,
4435
+ "learning_rate": 0.0003627877569558953,
4436
+ "loss": 6.2049,
4437
+ "step": 628
4438
+ },
4439
+ {
4440
+ "epoch": 0.2012478003519437,
4441
+ "grad_norm": 20.28767967224121,
4442
+ "learning_rate": 0.00036267134220727,
4443
+ "loss": 6.4698,
4444
+ "step": 629
4445
+ },
4446
+ {
4447
+ "epoch": 0.20156774916013437,
4448
+ "grad_norm": 9.141938209533691,
4449
+ "learning_rate": 0.00036255476548007794,
4450
+ "loss": 6.1397,
4451
+ "step": 630
4452
+ },
4453
+ {
4454
+ "epoch": 0.20188769796832506,
4455
+ "grad_norm": 7.7828369140625,
4456
+ "learning_rate": 0.00036243802689800257,
4457
+ "loss": 6.0992,
4458
+ "step": 631
4459
+ },
4460
+ {
4461
+ "epoch": 0.20220764677651576,
4462
+ "grad_norm": 9.355428695678711,
4463
+ "learning_rate": 0.0003623211265848993,
4464
+ "loss": 6.1,
4465
+ "step": 632
4466
+ },
4467
+ {
4468
+ "epoch": 0.20252759558470645,
4469
+ "grad_norm": 6.362244129180908,
4470
+ "learning_rate": 0.0003622040646647947,
4471
+ "loss": 6.1492,
4472
+ "step": 633
4473
+ },
4474
+ {
4475
+ "epoch": 0.20284754439289715,
4476
+ "grad_norm": 15.05521011352539,
4477
+ "learning_rate": 0.0003620868412618873,
4478
+ "loss": 6.4308,
4479
+ "step": 634
4480
+ },
4481
+ {
4482
+ "epoch": 0.20316749320108782,
4483
+ "grad_norm": 10.501233100891113,
4484
+ "learning_rate": 0.00036196945650054674,
4485
+ "loss": 6.0315,
4486
+ "step": 635
4487
+ },
4488
+ {
4489
+ "epoch": 0.2034874420092785,
4490
+ "grad_norm": 10.360550880432129,
4491
+ "learning_rate": 0.00036185191050531367,
4492
+ "loss": 6.0577,
4493
+ "step": 636
4494
+ },
4495
+ {
4496
+ "epoch": 0.2038073908174692,
4497
+ "grad_norm": 13.611196517944336,
4498
+ "learning_rate": 0.0003617342034009001,
4499
+ "loss": 6.3088,
4500
+ "step": 637
4501
+ },
4502
+ {
4503
+ "epoch": 0.2041273396256599,
4504
+ "grad_norm": 19.629377365112305,
4505
+ "learning_rate": 0.0003616163353121889,
4506
+ "loss": 6.4983,
4507
+ "step": 638
4508
+ },
4509
+ {
4510
+ "epoch": 0.20444728843385057,
4511
+ "grad_norm": 9.073545455932617,
4512
+ "learning_rate": 0.0003614983063642336,
4513
+ "loss": 6.2678,
4514
+ "step": 639
4515
+ },
4516
+ {
4517
+ "epoch": 0.20476723724204127,
4518
+ "grad_norm": 15.663934707641602,
4519
+ "learning_rate": 0.0003613801166822585,
4520
+ "loss": 6.2223,
4521
+ "step": 640
4522
+ },
4523
+ {
4524
+ "epoch": 0.20508718605023196,
4525
+ "grad_norm": 13.69797134399414,
4526
+ "learning_rate": 0.00036126176639165845,
4527
+ "loss": 6.1535,
4528
+ "step": 641
4529
+ },
4530
+ {
4531
+ "epoch": 0.20540713485842266,
4532
+ "grad_norm": 10.088582038879395,
4533
+ "learning_rate": 0.0003611432556179986,
4534
+ "loss": 6.0588,
4535
+ "step": 642
4536
+ },
4537
+ {
4538
+ "epoch": 0.20572708366661335,
4539
+ "grad_norm": 52.31211853027344,
4540
+ "learning_rate": 0.0003610245844870145,
4541
+ "loss": 6.5132,
4542
+ "step": 643
4543
+ },
4544
+ {
4545
+ "epoch": 0.20604703247480402,
4546
+ "grad_norm": 15.596002578735352,
4547
+ "learning_rate": 0.0003609057531246118,
4548
+ "loss": 6.3505,
4549
+ "step": 644
4550
+ },
4551
+ {
4552
+ "epoch": 0.20636698128299472,
4553
+ "grad_norm": 14.089200019836426,
4554
+ "learning_rate": 0.00036078676165686603,
4555
+ "loss": 6.1755,
4556
+ "step": 645
4557
+ },
4558
+ {
4559
+ "epoch": 0.2066869300911854,
4560
+ "grad_norm": 22.81130599975586,
4561
+ "learning_rate": 0.00036066761021002276,
4562
+ "loss": 6.7358,
4563
+ "step": 646
4564
+ },
4565
+ {
4566
+ "epoch": 0.2070068788993761,
4567
+ "grad_norm": 27.079946517944336,
4568
+ "learning_rate": 0.0003605482989104972,
4569
+ "loss": 6.1623,
4570
+ "step": 647
4571
+ },
4572
+ {
4573
+ "epoch": 0.2073268277075668,
4574
+ "grad_norm": 90.47372436523438,
4575
+ "learning_rate": 0.00036042882788487403,
4576
+ "loss": 6.2518,
4577
+ "step": 648
4578
+ },
4579
+ {
4580
+ "epoch": 0.20764677651575747,
4581
+ "grad_norm": 12.399378776550293,
4582
+ "learning_rate": 0.00036030919725990764,
4583
+ "loss": 6.1738,
4584
+ "step": 649
4585
+ },
4586
+ {
4587
+ "epoch": 0.20796672532394817,
4588
+ "grad_norm": 24.64794158935547,
4589
+ "learning_rate": 0.00036018940716252165,
4590
+ "loss": 6.2701,
4591
+ "step": 650
4592
+ },
4593
+ {
4594
+ "epoch": 0.20828667413213886,
4595
+ "grad_norm": 31.136415481567383,
4596
+ "learning_rate": 0.0003600694577198088,
4597
+ "loss": 6.4434,
4598
+ "step": 651
4599
+ },
4600
+ {
4601
+ "epoch": 0.20860662294032956,
4602
+ "grad_norm": 11.99364948272705,
4603
+ "learning_rate": 0.000359949349059031,
4604
+ "loss": 6.2209,
4605
+ "step": 652
4606
+ },
4607
+ {
4608
+ "epoch": 0.20892657174852022,
4609
+ "grad_norm": 22.257827758789062,
4610
+ "learning_rate": 0.000359829081307619,
4611
+ "loss": 6.0483,
4612
+ "step": 653
4613
+ },
4614
+ {
4615
+ "epoch": 0.20924652055671092,
4616
+ "grad_norm": 42.29777145385742,
4617
+ "learning_rate": 0.0003597086545931724,
4618
+ "loss": 6.1647,
4619
+ "step": 654
4620
+ },
4621
+ {
4622
+ "epoch": 0.20956646936490161,
4623
+ "grad_norm": 22.489221572875977,
4624
+ "learning_rate": 0.00035958806904345936,
4625
+ "loss": 6.2579,
4626
+ "step": 655
4627
+ },
4628
+ {
4629
+ "epoch": 0.2098864181730923,
4630
+ "grad_norm": 28.098785400390625,
4631
+ "learning_rate": 0.0003594673247864167,
4632
+ "loss": 6.2493,
4633
+ "step": 656
4634
+ },
4635
+ {
4636
+ "epoch": 0.210206366981283,
4637
+ "grad_norm": 13.18166732788086,
4638
+ "learning_rate": 0.00035934642195014954,
4639
+ "loss": 6.3545,
4640
+ "step": 657
4641
+ },
4642
+ {
4643
+ "epoch": 0.21052631578947367,
4644
+ "grad_norm": 19.027376174926758,
4645
+ "learning_rate": 0.0003592253606629312,
4646
+ "loss": 6.3131,
4647
+ "step": 658
4648
+ },
4649
+ {
4650
+ "epoch": 0.21084626459766437,
4651
+ "grad_norm": 17.17510414123535,
4652
+ "learning_rate": 0.0003591041410532032,
4653
+ "loss": 6.2641,
4654
+ "step": 659
4655
+ },
4656
+ {
4657
+ "epoch": 0.21116621340585506,
4658
+ "grad_norm": 24.58960723876953,
4659
+ "learning_rate": 0.000358982763249575,
4660
+ "loss": 6.1744,
4661
+ "step": 660
4662
+ },
4663
+ {
4664
+ "epoch": 0.21148616221404576,
4665
+ "grad_norm": 74.80911254882812,
4666
+ "learning_rate": 0.0003588612273808239,
4667
+ "loss": 6.2601,
4668
+ "step": 661
4669
+ },
4670
+ {
4671
+ "epoch": 0.21180611102223645,
4672
+ "grad_norm": 24.598215103149414,
4673
+ "learning_rate": 0.0003587395335758949,
4674
+ "loss": 6.0995,
4675
+ "step": 662
4676
+ },
4677
+ {
4678
+ "epoch": 0.21212605983042712,
4679
+ "grad_norm": 27.990663528442383,
4680
+ "learning_rate": 0.00035861768196390054,
4681
+ "loss": 6.3451,
4682
+ "step": 663
4683
+ },
4684
+ {
4685
+ "epoch": 0.21244600863861782,
4686
+ "grad_norm": 30.33852767944336,
4687
+ "learning_rate": 0.0003584956726741208,
4688
+ "loss": 6.1803,
4689
+ "step": 664
4690
+ },
4691
+ {
4692
+ "epoch": 0.2127659574468085,
4693
+ "grad_norm": 21.035871505737305,
4694
+ "learning_rate": 0.00035837350583600296,
4695
+ "loss": 6.0933,
4696
+ "step": 665
4697
+ },
4698
+ {
4699
+ "epoch": 0.2130859062549992,
4700
+ "grad_norm": 18.981107711791992,
4701
+ "learning_rate": 0.0003582511815791615,
4702
+ "loss": 6.2382,
4703
+ "step": 666
4704
+ },
4705
+ {
4706
+ "epoch": 0.2134058550631899,
4707
+ "grad_norm": 15.4559965133667,
4708
+ "learning_rate": 0.0003581287000333779,
4709
+ "loss": 6.2025,
4710
+ "step": 667
4711
+ },
4712
+ {
4713
+ "epoch": 0.21372580387138057,
4714
+ "grad_norm": 42.094425201416016,
4715
+ "learning_rate": 0.00035800606132860036,
4716
+ "loss": 6.2438,
4717
+ "step": 668
4718
+ },
4719
+ {
4720
+ "epoch": 0.21404575267957127,
4721
+ "grad_norm": 394.44744873046875,
4722
+ "learning_rate": 0.000357883265594944,
4723
+ "loss": 6.1518,
4724
+ "step": 669
4725
+ },
4726
+ {
4727
+ "epoch": 0.21436570148776196,
4728
+ "grad_norm": 23.389293670654297,
4729
+ "learning_rate": 0.00035776031296269053,
4730
+ "loss": 6.2643,
4731
+ "step": 670
4732
+ },
4733
+ {
4734
+ "epoch": 0.21468565029595266,
4735
+ "grad_norm": 26.32927703857422,
4736
+ "learning_rate": 0.00035763720356228807,
4737
+ "loss": 6.1562,
4738
+ "step": 671
4739
+ },
4740
+ {
4741
+ "epoch": 0.21500559910414332,
4742
+ "grad_norm": 51.09504318237305,
4743
+ "learning_rate": 0.000357513937524351,
4744
+ "loss": 6.1792,
4745
+ "step": 672
4746
+ },
4747
+ {
4748
+ "epoch": 0.21532554791233402,
4749
+ "grad_norm": 55.16264724731445,
4750
+ "learning_rate": 0.00035739051497966,
4751
+ "loss": 6.2488,
4752
+ "step": 673
4753
+ },
4754
+ {
4755
+ "epoch": 0.21564549672052472,
4756
+ "grad_norm": 13.69837760925293,
4757
+ "learning_rate": 0.00035726693605916184,
4758
+ "loss": 6.0671,
4759
+ "step": 674
4760
+ },
4761
+ {
4762
+ "epoch": 0.2159654455287154,
4763
+ "grad_norm": 30.63555908203125,
4764
+ "learning_rate": 0.00035714320089396903,
4765
+ "loss": 6.208,
4766
+ "step": 675
4767
+ },
4768
+ {
4769
+ "epoch": 0.2162853943369061,
4770
+ "grad_norm": 13.71101188659668,
4771
+ "learning_rate": 0.00035701930961536,
4772
+ "loss": 6.1028,
4773
+ "step": 676
4774
+ },
4775
+ {
4776
+ "epoch": 0.21660534314509677,
4777
+ "grad_norm": 16.373701095581055,
4778
+ "learning_rate": 0.00035689526235477867,
4779
+ "loss": 6.2419,
4780
+ "step": 677
4781
+ },
4782
+ {
4783
+ "epoch": 0.21692529195328747,
4784
+ "grad_norm": 19.588153839111328,
4785
+ "learning_rate": 0.0003567710592438346,
4786
+ "loss": 6.1758,
4787
+ "step": 678
4788
+ },
4789
+ {
4790
+ "epoch": 0.21724524076147816,
4791
+ "grad_norm": 31.715362548828125,
4792
+ "learning_rate": 0.0003566467004143025,
4793
+ "loss": 6.2205,
4794
+ "step": 679
4795
+ },
4796
+ {
4797
+ "epoch": 0.21756518956966886,
4798
+ "grad_norm": 32.14853286743164,
4799
+ "learning_rate": 0.0003565221859981226,
4800
+ "loss": 6.2068,
4801
+ "step": 680
4802
+ },
4803
+ {
4804
+ "epoch": 0.21788513837785956,
4805
+ "grad_norm": 28.47088623046875,
4806
+ "learning_rate": 0.0003563975161274,
4807
+ "loss": 6.3612,
4808
+ "step": 681
4809
+ },
4810
+ {
4811
+ "epoch": 0.21820508718605022,
4812
+ "grad_norm": 27.772294998168945,
4813
+ "learning_rate": 0.00035627269093440467,
4814
+ "loss": 6.3503,
4815
+ "step": 682
4816
+ },
4817
+ {
4818
+ "epoch": 0.21852503599424092,
4819
+ "grad_norm": 27.19485855102539,
4820
+ "learning_rate": 0.00035614771055157143,
4821
+ "loss": 6.222,
4822
+ "step": 683
4823
+ },
4824
+ {
4825
+ "epoch": 0.2188449848024316,
4826
+ "grad_norm": 14.713149070739746,
4827
+ "learning_rate": 0.00035602257511149993,
4828
+ "loss": 6.3099,
4829
+ "step": 684
4830
+ },
4831
+ {
4832
+ "epoch": 0.2191649336106223,
4833
+ "grad_norm": 10.625816345214844,
4834
+ "learning_rate": 0.00035589728474695403,
4835
+ "loss": 6.1701,
4836
+ "step": 685
4837
+ },
4838
+ {
4839
+ "epoch": 0.21948488241881298,
4840
+ "grad_norm": 17.59633445739746,
4841
+ "learning_rate": 0.0003557718395908622,
4842
+ "loss": 6.1059,
4843
+ "step": 686
4844
+ },
4845
+ {
4846
+ "epoch": 0.21980483122700367,
4847
+ "grad_norm": 40.79133987426758,
4848
+ "learning_rate": 0.000355646239776317,
4849
+ "loss": 6.2505,
4850
+ "step": 687
4851
+ },
4852
+ {
4853
+ "epoch": 0.22012478003519437,
4854
+ "grad_norm": 21.789743423461914,
4855
+ "learning_rate": 0.0003555204854365751,
4856
+ "loss": 6.2508,
4857
+ "step": 688
4858
+ },
4859
+ {
4860
+ "epoch": 0.22044472884338506,
4861
+ "grad_norm": 287.25286865234375,
4862
+ "learning_rate": 0.0003553945767050572,
4863
+ "loss": 6.3592,
4864
+ "step": 689
4865
+ },
4866
+ {
4867
+ "epoch": 0.22076467765157576,
4868
+ "grad_norm": 122.58528900146484,
4869
+ "learning_rate": 0.0003552685137153477,
4870
+ "loss": 6.5598,
4871
+ "step": 690
4872
+ },
4873
+ {
4874
+ "epoch": 0.22108462645976643,
4875
+ "grad_norm": 65.58609771728516,
4876
+ "learning_rate": 0.00035514229660119475,
4877
+ "loss": 6.2963,
4878
+ "step": 691
4879
+ },
4880
+ {
4881
+ "epoch": 0.22140457526795712,
4882
+ "grad_norm": 78.26929473876953,
4883
+ "learning_rate": 0.00035501592549650986,
4884
+ "loss": 6.6145,
4885
+ "step": 692
4886
+ },
4887
+ {
4888
+ "epoch": 0.22172452407614782,
4889
+ "grad_norm": 468.92840576171875,
4890
+ "learning_rate": 0.0003548894005353682,
4891
+ "loss": 6.5893,
4892
+ "step": 693
4893
+ },
4894
+ {
4895
+ "epoch": 0.2220444728843385,
4896
+ "grad_norm": 29858.107421875,
4897
+ "learning_rate": 0.00035476272185200786,
4898
+ "loss": 6.8783,
4899
+ "step": 694
4900
+ },
4901
+ {
4902
+ "epoch": 0.2223644216925292,
4903
+ "grad_norm": 567.8423461914062,
4904
+ "learning_rate": 0.00035463588958083023,
4905
+ "loss": 7.506,
4906
+ "step": 695
4907
+ },
4908
+ {
4909
+ "epoch": 0.22268437050071987,
4910
+ "grad_norm": 269.0973815917969,
4911
+ "learning_rate": 0.00035450890385639957,
4912
+ "loss": 6.98,
4913
+ "step": 696
4914
+ },
4915
+ {
4916
+ "epoch": 0.22300431930891057,
4917
+ "grad_norm": 70.39237976074219,
4918
+ "learning_rate": 0.00035438176481344307,
4919
+ "loss": 6.6005,
4920
+ "step": 697
4921
+ },
4922
+ {
4923
+ "epoch": 0.22332426811710127,
4924
+ "grad_norm": 35.886253356933594,
4925
+ "learning_rate": 0.0003542544725868503,
4926
+ "loss": 6.3986,
4927
+ "step": 698
4928
+ },
4929
+ {
4930
+ "epoch": 0.22364421692529196,
4931
+ "grad_norm": 132.87338256835938,
4932
+ "learning_rate": 0.0003541270273116737,
4933
+ "loss": 6.4347,
4934
+ "step": 699
4935
+ },
4936
+ {
4937
+ "epoch": 0.22396416573348266,
4938
+ "grad_norm": 243.24110412597656,
4939
+ "learning_rate": 0.00035399942912312784,
4940
+ "loss": 6.6825,
4941
+ "step": 700
4942
+ },
4943
+ {
4944
+ "epoch": 0.22428411454167332,
4945
+ "grad_norm": 47.076541900634766,
4946
+ "learning_rate": 0.00035387167815658955,
4947
+ "loss": 6.5573,
4948
+ "step": 701
4949
+ },
4950
+ {
4951
+ "epoch": 0.22460406334986402,
4952
+ "grad_norm": 47.393280029296875,
4953
+ "learning_rate": 0.0003537437745475981,
4954
+ "loss": 6.5841,
4955
+ "step": 702
4956
+ },
4957
+ {
4958
+ "epoch": 0.22492401215805471,
4959
+ "grad_norm": 173.40023803710938,
4960
+ "learning_rate": 0.0003536157184318541,
4961
+ "loss": 6.5547,
4962
+ "step": 703
4963
+ },
4964
+ {
4965
+ "epoch": 0.2252439609662454,
4966
+ "grad_norm": 100.88816833496094,
4967
+ "learning_rate": 0.00035348750994522037,
4968
+ "loss": 6.5479,
4969
+ "step": 704
4970
+ },
4971
+ {
4972
+ "epoch": 0.22556390977443608,
4973
+ "grad_norm": 708.522216796875,
4974
+ "learning_rate": 0.00035335914922372135,
4975
+ "loss": 6.4429,
4976
+ "step": 705
4977
+ },
4978
+ {
4979
+ "epoch": 0.22588385858262677,
4980
+ "grad_norm": 5974.12744140625,
4981
+ "learning_rate": 0.000353230636403543,
4982
+ "loss": 6.8338,
4983
+ "step": 706
4984
+ },
4985
+ {
4986
+ "epoch": 0.22620380739081747,
4987
+ "grad_norm": 1240.005615234375,
4988
+ "learning_rate": 0.0003531019716210326,
4989
+ "loss": 7.7215,
4990
+ "step": 707
4991
+ },
4992
+ {
4993
+ "epoch": 0.22652375619900816,
4994
+ "grad_norm": 3238.5185546875,
4995
+ "learning_rate": 0.00035297315501269845,
4996
+ "loss": 10.7748,
4997
+ "step": 708
4998
+ },
4999
+ {
5000
+ "epoch": 0.22684370500719886,
5001
+ "grad_norm": 6019.43310546875,
5002
+ "learning_rate": 0.00035284418671521035,
5003
+ "loss": 10.382,
5004
+ "step": 709
5005
+ },
5006
+ {
5007
+ "epoch": 0.22716365381538953,
5008
+ "grad_norm": 4291.9306640625,
5009
+ "learning_rate": 0.00035271506686539877,
5010
+ "loss": 8.5623,
5011
+ "step": 710
5012
+ },
5013
+ {
5014
+ "epoch": 0.22748360262358022,
5015
+ "grad_norm": 1000.52294921875,
5016
+ "learning_rate": 0.00035258579560025504,
5017
+ "loss": 6.9676,
5018
+ "step": 711
5019
+ },
5020
+ {
5021
+ "epoch": 0.22780355143177092,
5022
+ "grad_norm": 653.64990234375,
5023
+ "learning_rate": 0.0003524563730569311,
5024
+ "loss": 6.8677,
5025
+ "step": 712
5026
+ },
5027
+ {
5028
+ "epoch": 0.2281235002399616,
5029
+ "grad_norm": 226.84967041015625,
5030
+ "learning_rate": 0.0003523267993727394,
5031
+ "loss": 6.5646,
5032
+ "step": 713
5033
+ },
5034
+ {
5035
+ "epoch": 0.2284434490481523,
5036
+ "grad_norm": 69.58618927001953,
5037
+ "learning_rate": 0.00035219707468515276,
5038
+ "loss": 6.8388,
5039
+ "step": 714
5040
+ },
5041
+ {
5042
+ "epoch": 0.22876339785634298,
5043
+ "grad_norm": 723.3787841796875,
5044
+ "learning_rate": 0.00035206719913180427,
5045
+ "loss": 6.8472,
5046
+ "step": 715
5047
+ },
5048
+ {
5049
+ "epoch": 0.22908334666453367,
5050
+ "grad_norm": 97.80406951904297,
5051
+ "learning_rate": 0.00035193717285048694,
5052
+ "loss": 7.5312,
5053
+ "step": 716
5054
+ },
5055
+ {
5056
+ "epoch": 0.22940329547272437,
5057
+ "grad_norm": 114.102294921875,
5058
+ "learning_rate": 0.00035180699597915383,
5059
+ "loss": 8.069,
5060
+ "step": 717
5061
+ },
5062
+ {
5063
+ "epoch": 0.22972324428091506,
5064
+ "grad_norm": 236.4305419921875,
5065
+ "learning_rate": 0.0003516766686559177,
5066
+ "loss": 8.6465,
5067
+ "step": 718
5068
+ },
5069
+ {
5070
+ "epoch": 0.23004319308910573,
5071
+ "grad_norm": 99.95079040527344,
5072
+ "learning_rate": 0.0003515461910190509,
5073
+ "loss": 7.5548,
5074
+ "step": 719
5075
+ },
5076
+ {
5077
+ "epoch": 0.23036314189729643,
5078
+ "grad_norm": 84.75758361816406,
5079
+ "learning_rate": 0.0003514155632069854,
5080
+ "loss": 6.442,
5081
+ "step": 720
5082
+ },
5083
+ {
5084
+ "epoch": 0.23068309070548712,
5085
+ "grad_norm": 212.29820251464844,
5086
+ "learning_rate": 0.00035128478535831234,
5087
+ "loss": 8.096,
5088
+ "step": 721
5089
+ },
5090
+ {
5091
+ "epoch": 0.23100303951367782,
5092
+ "grad_norm": 57.954811096191406,
5093
+ "learning_rate": 0.0003511538576117821,
5094
+ "loss": 6.924,
5095
+ "step": 722
5096
+ },
5097
+ {
5098
+ "epoch": 0.2313229883218685,
5099
+ "grad_norm": 51.535804748535156,
5100
+ "learning_rate": 0.0003510227801063042,
5101
+ "loss": 6.6562,
5102
+ "step": 723
5103
+ },
5104
+ {
5105
+ "epoch": 0.23164293713005918,
5106
+ "grad_norm": 1651.22705078125,
5107
+ "learning_rate": 0.0003508915529809469,
5108
+ "loss": 7.1549,
5109
+ "step": 724
5110
+ },
5111
+ {
5112
+ "epoch": 0.23196288593824987,
5113
+ "grad_norm": 103.06959533691406,
5114
+ "learning_rate": 0.0003507601763749372,
5115
+ "loss": 7.1778,
5116
+ "step": 725
5117
+ },
5118
+ {
5119
+ "epoch": 0.23228283474644057,
5120
+ "grad_norm": 127.42375183105469,
5121
+ "learning_rate": 0.00035062865042766086,
5122
+ "loss": 7.0844,
5123
+ "step": 726
5124
+ },
5125
+ {
5126
+ "epoch": 0.23260278355463126,
5127
+ "grad_norm": 57.47138214111328,
5128
+ "learning_rate": 0.0003504969752786619,
5129
+ "loss": 6.7034,
5130
+ "step": 727
5131
+ },
5132
+ {
5133
+ "epoch": 0.23292273236282196,
5134
+ "grad_norm": 21.57773208618164,
5135
+ "learning_rate": 0.00035036515106764277,
5136
+ "loss": 6.5883,
5137
+ "step": 728
5138
+ },
5139
+ {
5140
+ "epoch": 0.23324268117101263,
5141
+ "grad_norm": 43.577693939208984,
5142
+ "learning_rate": 0.00035023317793446396,
5143
+ "loss": 7.1802,
5144
+ "step": 729
5145
+ },
5146
+ {
5147
+ "epoch": 0.23356262997920332,
5148
+ "grad_norm": 47.857906341552734,
5149
+ "learning_rate": 0.000350101056019144,
5150
+ "loss": 7.1532,
5151
+ "step": 730
5152
+ },
5153
+ {
5154
+ "epoch": 0.23388257878739402,
5155
+ "grad_norm": 41.412353515625,
5156
+ "learning_rate": 0.0003499687854618593,
5157
+ "loss": 6.8486,
5158
+ "step": 731
5159
+ },
5160
+ {
5161
+ "epoch": 0.23420252759558471,
5162
+ "grad_norm": 194.344482421875,
5163
+ "learning_rate": 0.000349836366402944,
5164
+ "loss": 6.6898,
5165
+ "step": 732
5166
+ },
5167
+ {
5168
+ "epoch": 0.2345224764037754,
5169
+ "grad_norm": 97.9305419921875,
5170
+ "learning_rate": 0.00034970379898288976,
5171
+ "loss": 7.0291,
5172
+ "step": 733
5173
+ },
5174
+ {
5175
+ "epoch": 0.23484242521196608,
5176
+ "grad_norm": 617602.9375,
5177
+ "learning_rate": 0.00034957108334234563,
5178
+ "loss": 6.7315,
5179
+ "step": 734
5180
+ },
5181
+ {
5182
+ "epoch": 0.23516237402015677,
5183
+ "grad_norm": 82.41645050048828,
5184
+ "learning_rate": 0.00034943821962211784,
5185
+ "loss": 6.4541,
5186
+ "step": 735
5187
+ },
5188
+ {
5189
+ "epoch": 0.23548232282834747,
5190
+ "grad_norm": 112.80008697509766,
5191
+ "learning_rate": 0.0003493052079631699,
5192
+ "loss": 6.5458,
5193
+ "step": 736
5194
+ },
5195
+ {
5196
+ "epoch": 0.23580227163653816,
5197
+ "grad_norm": 57.59135437011719,
5198
+ "learning_rate": 0.00034917204850662225,
5199
+ "loss": 6.7299,
5200
+ "step": 737
5201
+ },
5202
+ {
5203
+ "epoch": 0.23612222044472883,
5204
+ "grad_norm": 183.47340393066406,
5205
+ "learning_rate": 0.0003490387413937519,
5206
+ "loss": 6.6954,
5207
+ "step": 738
5208
+ },
5209
+ {
5210
+ "epoch": 0.23644216925291953,
5211
+ "grad_norm": 95.19715118408203,
5212
+ "learning_rate": 0.00034890528676599284,
5213
+ "loss": 6.6315,
5214
+ "step": 739
5215
+ },
5216
+ {
5217
+ "epoch": 0.23676211806111022,
5218
+ "grad_norm": 77.85346221923828,
5219
+ "learning_rate": 0.00034877168476493535,
5220
+ "loss": 6.9589,
5221
+ "step": 740
5222
+ },
5223
+ {
5224
+ "epoch": 0.23708206686930092,
5225
+ "grad_norm": 208.43527221679688,
5226
+ "learning_rate": 0.00034863793553232614,
5227
+ "loss": 6.5637,
5228
+ "step": 741
5229
+ },
5230
+ {
5231
+ "epoch": 0.2374020156774916,
5232
+ "grad_norm": 156.19229125976562,
5233
+ "learning_rate": 0.0003485040392100682,
5234
+ "loss": 7.0049,
5235
+ "step": 742
5236
+ },
5237
+ {
5238
+ "epoch": 0.23772196448568228,
5239
+ "grad_norm": 199.3235321044922,
5240
+ "learning_rate": 0.00034836999594022044,
5241
+ "loss": 6.2481,
5242
+ "step": 743
5243
+ },
5244
+ {
5245
+ "epoch": 0.23804191329387298,
5246
+ "grad_norm": 67.07147979736328,
5247
+ "learning_rate": 0.0003482358058649978,
5248
+ "loss": 6.3019,
5249
+ "step": 744
5250
+ },
5251
+ {
5252
+ "epoch": 0.23836186210206367,
5253
+ "grad_norm": 166.8501434326172,
5254
+ "learning_rate": 0.00034810146912677087,
5255
+ "loss": 6.3432,
5256
+ "step": 745
5257
+ },
5258
+ {
5259
+ "epoch": 0.23868181091025437,
5260
+ "grad_norm": 97.20511627197266,
5261
+ "learning_rate": 0.0003479669858680659,
5262
+ "loss": 6.3981,
5263
+ "step": 746
5264
+ },
5265
+ {
5266
+ "epoch": 0.23900175971844506,
5267
+ "grad_norm": 57.774749755859375,
5268
+ "learning_rate": 0.0003478323562315646,
5269
+ "loss": 6.3404,
5270
+ "step": 747
5271
+ },
5272
+ {
5273
+ "epoch": 0.23932170852663573,
5274
+ "grad_norm": 90.69790649414062,
5275
+ "learning_rate": 0.0003476975803601039,
5276
+ "loss": 6.4574,
5277
+ "step": 748
5278
+ },
5279
+ {
5280
+ "epoch": 0.23964165733482642,
5281
+ "grad_norm": 170.02110290527344,
5282
+ "learning_rate": 0.000347562658396676,
5283
+ "loss": 6.6967,
5284
+ "step": 749
5285
+ },
5286
+ {
5287
+ "epoch": 0.23996160614301712,
5288
+ "grad_norm": 80.30382537841797,
5289
+ "learning_rate": 0.000347427590484428,
5290
+ "loss": 6.3286,
5291
+ "step": 750
5292
+ },
5293
+ {
5294
+ "epoch": 0.24028155495120782,
5295
+ "grad_norm": 78.86782836914062,
5296
+ "learning_rate": 0.00034729237676666194,
5297
+ "loss": 6.2999,
5298
+ "step": 751
5299
+ },
5300
+ {
5301
+ "epoch": 0.24060150375939848,
5302
+ "grad_norm": 73.93916320800781,
5303
+ "learning_rate": 0.0003471570173868345,
5304
+ "loss": 6.4426,
5305
+ "step": 752
5306
+ },
5307
+ {
5308
+ "epoch": 0.24092145256758918,
5309
+ "grad_norm": 140.0988311767578,
5310
+ "learning_rate": 0.0003470215124885569,
5311
+ "loss": 6.4757,
5312
+ "step": 753
5313
+ },
5314
+ {
5315
+ "epoch": 0.24124140137577987,
5316
+ "grad_norm": 86.3206558227539,
5317
+ "learning_rate": 0.00034688586221559467,
5318
+ "loss": 6.3304,
5319
+ "step": 754
5320
+ },
5321
+ {
5322
+ "epoch": 0.24156135018397057,
5323
+ "grad_norm": 338.0812072753906,
5324
+ "learning_rate": 0.0003467500667118678,
5325
+ "loss": 6.3679,
5326
+ "step": 755
5327
+ },
5328
+ {
5329
+ "epoch": 0.24188129899216126,
5330
+ "grad_norm": 412.3385314941406,
5331
+ "learning_rate": 0.0003466141261214501,
5332
+ "loss": 6.5072,
5333
+ "step": 756
5334
+ },
5335
+ {
5336
+ "epoch": 0.24220124780035193,
5337
+ "grad_norm": 205.6704864501953,
5338
+ "learning_rate": 0.0003464780405885695,
5339
+ "loss": 6.3448,
5340
+ "step": 757
5341
+ },
5342
+ {
5343
+ "epoch": 0.24252119660854263,
5344
+ "grad_norm": 256.4744873046875,
5345
+ "learning_rate": 0.00034634181025760765,
5346
+ "loss": 6.3772,
5347
+ "step": 758
5348
+ },
5349
+ {
5350
+ "epoch": 0.24284114541673332,
5351
+ "grad_norm": 461.74176025390625,
5352
+ "learning_rate": 0.00034620543527309983,
5353
+ "loss": 6.2274,
5354
+ "step": 759
5355
+ },
5356
+ {
5357
+ "epoch": 0.24316109422492402,
5358
+ "grad_norm": 165.07127380371094,
5359
+ "learning_rate": 0.00034606891577973475,
5360
+ "loss": 6.3089,
5361
+ "step": 760
5362
+ },
5363
+ {
5364
+ "epoch": 0.2434810430331147,
5365
+ "grad_norm": 1090.9415283203125,
5366
+ "learning_rate": 0.00034593225192235447,
5367
+ "loss": 6.5381,
5368
+ "step": 761
5369
+ },
5370
+ {
5371
+ "epoch": 0.24380099184130538,
5372
+ "grad_norm": 1298.724365234375,
5373
+ "learning_rate": 0.00034579544384595427,
5374
+ "loss": 6.4875,
5375
+ "step": 762
5376
+ },
5377
+ {
5378
+ "epoch": 0.24412094064949608,
5379
+ "grad_norm": 2974.205322265625,
5380
+ "learning_rate": 0.0003456584916956823,
5381
+ "loss": 6.609,
5382
+ "step": 763
5383
+ },
5384
+ {
5385
+ "epoch": 0.24444088945768677,
5386
+ "grad_norm": 506.7083435058594,
5387
+ "learning_rate": 0.0003455213956168397,
5388
+ "loss": 6.5206,
5389
+ "step": 764
5390
+ },
5391
+ {
5392
+ "epoch": 0.24476083826587747,
5393
+ "grad_norm": 2491.966796875,
5394
+ "learning_rate": 0.0003453841557548802,
5395
+ "loss": 6.3059,
5396
+ "step": 765
5397
+ },
5398
+ {
5399
+ "epoch": 0.24508078707406816,
5400
+ "grad_norm": 558.4273681640625,
5401
+ "learning_rate": 0.00034524677225541034,
5402
+ "loss": 6.3385,
5403
+ "step": 766
5404
+ },
5405
+ {
5406
+ "epoch": 0.24540073588225883,
5407
+ "grad_norm": 2481.155029296875,
5408
+ "learning_rate": 0.00034510924526418864,
5409
+ "loss": 6.4753,
5410
+ "step": 767
5411
+ },
5412
+ {
5413
+ "epoch": 0.24572068469044953,
5414
+ "grad_norm": 6455.59375,
5415
+ "learning_rate": 0.00034497157492712616,
5416
+ "loss": 6.2157,
5417
+ "step": 768
5418
+ },
5419
+ {
5420
+ "epoch": 0.24604063349864022,
5421
+ "grad_norm": 4837.32080078125,
5422
+ "learning_rate": 0.000344833761390286,
5423
+ "loss": 6.5173,
5424
+ "step": 769
5425
+ },
5426
+ {
5427
+ "epoch": 0.24636058230683092,
5428
+ "grad_norm": 1091.15869140625,
5429
+ "learning_rate": 0.00034469580479988315,
5430
+ "loss": 6.4935,
5431
+ "step": 770
5432
+ },
5433
+ {
5434
+ "epoch": 0.24668053111502158,
5435
+ "grad_norm": 2150.258544921875,
5436
+ "learning_rate": 0.0003445577053022843,
5437
+ "loss": 6.5266,
5438
+ "step": 771
5439
+ },
5440
+ {
5441
+ "epoch": 0.24700047992321228,
5442
+ "grad_norm": 3155.990478515625,
5443
+ "learning_rate": 0.0003444194630440079,
5444
+ "loss": 6.4712,
5445
+ "step": 772
5446
+ },
5447
+ {
5448
+ "epoch": 0.24732042873140297,
5449
+ "grad_norm": 745.5328979492188,
5450
+ "learning_rate": 0.0003442810781717238,
5451
+ "loss": 6.4966,
5452
+ "step": 773
5453
+ },
5454
+ {
5455
+ "epoch": 0.24764037753959367,
5456
+ "grad_norm": 2718.595947265625,
5457
+ "learning_rate": 0.00034414255083225315,
5458
+ "loss": 6.3514,
5459
+ "step": 774
5460
+ },
5461
+ {
5462
+ "epoch": 0.24796032634778437,
5463
+ "grad_norm": 1184.953369140625,
5464
+ "learning_rate": 0.0003440038811725683,
5465
+ "loss": 6.5564,
5466
+ "step": 775
5467
+ },
5468
+ {
5469
+ "epoch": 0.24828027515597503,
5470
+ "grad_norm": 1916.226318359375,
5471
+ "learning_rate": 0.00034386506933979243,
5472
+ "loss": 6.3485,
5473
+ "step": 776
5474
+ },
5475
+ {
5476
+ "epoch": 0.24860022396416573,
5477
+ "grad_norm": 2737.73095703125,
5478
+ "learning_rate": 0.0003437261154811997,
5479
+ "loss": 6.4106,
5480
+ "step": 777
5481
+ },
5482
+ {
5483
+ "epoch": 0.24892017277235642,
5484
+ "grad_norm": 821.8926391601562,
5485
+ "learning_rate": 0.00034358701974421523,
5486
+ "loss": 6.3447,
5487
+ "step": 778
5488
+ },
5489
+ {
5490
+ "epoch": 0.24924012158054712,
5491
+ "grad_norm": 781.9716796875,
5492
+ "learning_rate": 0.000343447782276414,
5493
+ "loss": 6.2201,
5494
+ "step": 779
5495
+ },
5496
+ {
5497
+ "epoch": 0.24956007038873781,
5498
+ "grad_norm": 2429.21484375,
5499
+ "learning_rate": 0.0003433084032255219,
5500
+ "loss": 6.4331,
5501
+ "step": 780
5502
+ },
5503
+ {
5504
+ "epoch": 0.24988001919692848,
5505
+ "grad_norm": 7888.99853515625,
5506
+ "learning_rate": 0.0003431688827394149,
5507
+ "loss": 6.4502,
5508
+ "step": 781
5509
+ },
5510
+ {
5511
+ "epoch": 0.2501999680051192,
5512
+ "grad_norm": 728.1339721679688,
5513
+ "learning_rate": 0.000343029220966119,
5514
+ "loss": 6.5406,
5515
+ "step": 782
5516
+ },
5517
+ {
5518
+ "epoch": 0.2505199168133099,
5519
+ "grad_norm": 1479.98095703125,
5520
+ "learning_rate": 0.0003428894180538101,
5521
+ "loss": 6.636,
5522
+ "step": 783
5523
+ },
5524
+ {
5525
+ "epoch": 0.25083986562150057,
5526
+ "grad_norm": 322.9638366699219,
5527
+ "learning_rate": 0.0003427494741508138,
5528
+ "loss": 6.4123,
5529
+ "step": 784
5530
+ },
5531
+ {
5532
+ "epoch": 0.25115981442969126,
5533
+ "grad_norm": 567.7588500976562,
5534
+ "learning_rate": 0.00034260938940560527,
5535
+ "loss": 6.5927,
5536
+ "step": 785
5537
+ },
5538
+ {
5539
+ "epoch": 0.25147976323788196,
5540
+ "grad_norm": 912.3056640625,
5541
+ "learning_rate": 0.00034246916396680934,
5542
+ "loss": 6.3635,
5543
+ "step": 786
5544
+ },
5545
+ {
5546
+ "epoch": 0.25179971204607265,
5547
+ "grad_norm": 867.4058227539062,
5548
+ "learning_rate": 0.00034232879798319984,
5549
+ "loss": 6.4766,
5550
+ "step": 787
5551
+ },
5552
+ {
5553
+ "epoch": 0.2521196608542633,
5554
+ "grad_norm": 3383.78759765625,
5555
+ "learning_rate": 0.0003421882916036998,
5556
+ "loss": 6.5765,
5557
+ "step": 788
5558
+ },
5559
+ {
5560
+ "epoch": 0.252439609662454,
5561
+ "grad_norm": 551.5289916992188,
5562
+ "learning_rate": 0.0003420476449773813,
5563
+ "loss": 6.1571,
5564
+ "step": 789
5565
+ },
5566
+ {
5567
+ "epoch": 0.2527595584706447,
5568
+ "grad_norm": 3835.2880859375,
5569
+ "learning_rate": 0.00034190685825346504,
5570
+ "loss": 6.3987,
5571
+ "step": 790
5572
+ },
5573
+ {
5574
+ "epoch": 0.2530795072788354,
5575
+ "grad_norm": 299.2125549316406,
5576
+ "learning_rate": 0.00034176593158132055,
5577
+ "loss": 6.3278,
5578
+ "step": 791
5579
+ },
5580
+ {
5581
+ "epoch": 0.2533994560870261,
5582
+ "grad_norm": 542.0026245117188,
5583
+ "learning_rate": 0.0003416248651104656,
5584
+ "loss": 6.4289,
5585
+ "step": 792
5586
+ },
5587
+ {
5588
+ "epoch": 0.25371940489521677,
5589
+ "grad_norm": 3202.345947265625,
5590
+ "learning_rate": 0.00034148365899056655,
5591
+ "loss": 6.3677,
5592
+ "step": 793
5593
+ },
5594
+ {
5595
+ "epoch": 0.25403935370340747,
5596
+ "grad_norm": 2746.37109375,
5597
+ "learning_rate": 0.00034134231337143775,
5598
+ "loss": 6.3684,
5599
+ "step": 794
5600
+ },
5601
+ {
5602
+ "epoch": 0.25435930251159816,
5603
+ "grad_norm": 289.69354248046875,
5604
+ "learning_rate": 0.00034120082840304164,
5605
+ "loss": 6.25,
5606
+ "step": 795
5607
+ },
5608
+ {
5609
+ "epoch": 0.25467925131978886,
5610
+ "grad_norm": 5020.22607421875,
5611
+ "learning_rate": 0.00034105920423548833,
5612
+ "loss": 6.4192,
5613
+ "step": 796
5614
+ },
5615
+ {
5616
+ "epoch": 0.2549992001279795,
5617
+ "grad_norm": 21526.37109375,
5618
+ "learning_rate": 0.00034091744101903595,
5619
+ "loss": 6.7782,
5620
+ "step": 797
5621
+ },
5622
+ {
5623
+ "epoch": 0.2553191489361702,
5624
+ "grad_norm": 96381.3203125,
5625
+ "learning_rate": 0.0003407755389040898,
5626
+ "loss": 6.4677,
5627
+ "step": 798
5628
+ },
5629
+ {
5630
+ "epoch": 0.2556390977443609,
5631
+ "grad_norm": 383685.59375,
5632
+ "learning_rate": 0.00034063349804120275,
5633
+ "loss": 6.3452,
5634
+ "step": 799
5635
+ },
5636
+ {
5637
+ "epoch": 0.2559590465525516,
5638
+ "grad_norm": 1976569.875,
5639
+ "learning_rate": 0.0003404913185810748,
5640
+ "loss": 7.6792,
5641
+ "step": 800
5642
+ },
5643
+ {
5644
+ "epoch": 0.2559590465525516,
5645
+ "eval_loss": 9.59782886505127,
5646
+ "eval_runtime": 233.5229,
5647
+ "eval_samples_per_second": 5.635,
5648
+ "eval_steps_per_second": 1.409,
5649
+ "step": 800
5650
  }
5651
  ],
5652
  "logging_steps": 1,
 
5661
  "early_stopping_threshold": 0.0
5662
  },
5663
  "attributes": {
5664
+ "early_stopping_patience_counter": 1
5665
  }
5666
  },
5667
  "TrainerControl": {
 
5675
  "attributes": {}
5676
  }
5677
  },
5678
+ "total_flos": 7.391104716421202e+17,
5679
  "train_batch_size": 4,
5680
  "trial_name": null,
5681
  "trial_params": null