ErrorAI commited on
Commit
0968d15
·
verified ·
1 Parent(s): c95b1ab

Training in progress, step 1598, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:efbff42b99e39b2632609cd27693713924e820124598eac77024744f6be5e29b
3
  size 80013120
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6407ab1a98f357bb2f56078b41d18c55d4e32be183deab593de741a109d194f3
3
  size 80013120
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:0987d018bfb352826cd4a2c57762a705fb791e5c398f74b99c248c800e792bd4
3
  size 41120084
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a892b456fb6306016c02bc81c8cf10c08d42ffbb557543c7c944ad1f57e0f4c2
3
  size 41120084
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b9e03b6192bda348cc07b727c5b043f79eb6baf4f63e679d6b962f5253b4cc23
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:46266452dabee304c03ff26394dee6b60227d26e47caca8f6aff1080b24d1c26
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:bdcd175607f813759156492371263a70659a26bf645b8027131dcba00bf3dfc4
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c325a1545638f21bf398668656d35f0eaa4863b2daa719b4b45455e3cbd688e2
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.49989585503020206,
5
  "eval_steps": 500,
6
- "global_step": 1200,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -8407,6 +8407,2792 @@
8407
  "learning_rate": 1.4627233965158744e-05,
8408
  "loss": 2.2994,
8409
  "step": 1200
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
8410
  }
8411
  ],
8412
  "logging_steps": 1,
@@ -8421,12 +11207,12 @@
8421
  "should_evaluate": false,
8422
  "should_log": false,
8423
  "should_save": true,
8424
- "should_training_stop": false
8425
  },
8426
  "attributes": {}
8427
  }
8428
  },
8429
- "total_flos": 7.819625111035576e+17,
8430
  "train_batch_size": 4,
8431
  "trial_name": null,
8432
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.6656946469485524,
5
  "eval_steps": 500,
6
+ "global_step": 1598,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
8407
  "learning_rate": 1.4627233965158744e-05,
8408
  "loss": 2.2994,
8409
  "step": 1200
8410
+ },
8411
+ {
8412
+ "epoch": 0.5003124349093939,
8413
+ "grad_norm": 0.35549497604370117,
8414
+ "learning_rate": 1.4557612089349854e-05,
8415
+ "loss": 2.1406,
8416
+ "step": 1201
8417
+ },
8418
+ {
8419
+ "epoch": 0.5007290147885857,
8420
+ "grad_norm": 0.3743707239627838,
8421
+ "learning_rate": 1.4488128058544098e-05,
8422
+ "loss": 2.2135,
8423
+ "step": 1202
8424
+ },
8425
+ {
8426
+ "epoch": 0.5011455946677775,
8427
+ "grad_norm": 0.37623918056488037,
8428
+ "learning_rate": 1.4418782142983589e-05,
8429
+ "loss": 2.123,
8430
+ "step": 1203
8431
+ },
8432
+ {
8433
+ "epoch": 0.5015621745469694,
8434
+ "grad_norm": 0.38898077607154846,
8435
+ "learning_rate": 1.4349574612373312e-05,
8436
+ "loss": 2.2361,
8437
+ "step": 1204
8438
+ },
8439
+ {
8440
+ "epoch": 0.5019787544261612,
8441
+ "grad_norm": 0.36593276262283325,
8442
+ "learning_rate": 1.428050573587999e-05,
8443
+ "loss": 2.1007,
8444
+ "step": 1205
8445
+ },
8446
+ {
8447
+ "epoch": 0.5023953343053531,
8448
+ "grad_norm": 0.40702638030052185,
8449
+ "learning_rate": 1.4211575782131131e-05,
8450
+ "loss": 2.1984,
8451
+ "step": 1206
8452
+ },
8453
+ {
8454
+ "epoch": 0.5028119141845449,
8455
+ "grad_norm": 0.41245660185813904,
8456
+ "learning_rate": 1.4142785019213906e-05,
8457
+ "loss": 2.1878,
8458
+ "step": 1207
8459
+ },
8460
+ {
8461
+ "epoch": 0.5032284940637367,
8462
+ "grad_norm": 0.40169423818588257,
8463
+ "learning_rate": 1.4074133714674115e-05,
8464
+ "loss": 2.1697,
8465
+ "step": 1208
8466
+ },
8467
+ {
8468
+ "epoch": 0.5036450739429286,
8469
+ "grad_norm": 0.43156102299690247,
8470
+ "learning_rate": 1.4005622135515223e-05,
8471
+ "loss": 2.151,
8472
+ "step": 1209
8473
+ },
8474
+ {
8475
+ "epoch": 0.5040616538221204,
8476
+ "grad_norm": 0.41381898522377014,
8477
+ "learning_rate": 1.3937250548197212e-05,
8478
+ "loss": 2.1351,
8479
+ "step": 1210
8480
+ },
8481
+ {
8482
+ "epoch": 0.5044782337013122,
8483
+ "grad_norm": 0.4139593541622162,
8484
+ "learning_rate": 1.3869019218635642e-05,
8485
+ "loss": 2.23,
8486
+ "step": 1211
8487
+ },
8488
+ {
8489
+ "epoch": 0.504894813580504,
8490
+ "grad_norm": 0.408181756734848,
8491
+ "learning_rate": 1.3800928412200547e-05,
8492
+ "loss": 2.0367,
8493
+ "step": 1212
8494
+ },
8495
+ {
8496
+ "epoch": 0.5053113934596959,
8497
+ "grad_norm": 0.4455416798591614,
8498
+ "learning_rate": 1.3732978393715407e-05,
8499
+ "loss": 2.1086,
8500
+ "step": 1213
8501
+ },
8502
+ {
8503
+ "epoch": 0.5057279733388877,
8504
+ "grad_norm": 0.41871967911720276,
8505
+ "learning_rate": 1.3665169427456203e-05,
8506
+ "loss": 2.1236,
8507
+ "step": 1214
8508
+ },
8509
+ {
8510
+ "epoch": 0.5061445532180796,
8511
+ "grad_norm": 0.4171868562698364,
8512
+ "learning_rate": 1.3597501777150252e-05,
8513
+ "loss": 2.3884,
8514
+ "step": 1215
8515
+ },
8516
+ {
8517
+ "epoch": 0.5065611330972714,
8518
+ "grad_norm": 0.4312697947025299,
8519
+ "learning_rate": 1.3529975705975328e-05,
8520
+ "loss": 2.1986,
8521
+ "step": 1216
8522
+ },
8523
+ {
8524
+ "epoch": 0.5069777129764632,
8525
+ "grad_norm": 0.4134281575679779,
8526
+ "learning_rate": 1.3462591476558511e-05,
8527
+ "loss": 2.0586,
8528
+ "step": 1217
8529
+ },
8530
+ {
8531
+ "epoch": 0.5073942928556551,
8532
+ "grad_norm": 0.39930659532546997,
8533
+ "learning_rate": 1.339534935097524e-05,
8534
+ "loss": 2.2032,
8535
+ "step": 1218
8536
+ },
8537
+ {
8538
+ "epoch": 0.5078108727348469,
8539
+ "grad_norm": 0.4186604917049408,
8540
+ "learning_rate": 1.3328249590748255e-05,
8541
+ "loss": 2.1334,
8542
+ "step": 1219
8543
+ },
8544
+ {
8545
+ "epoch": 0.5082274526140388,
8546
+ "grad_norm": 0.4806564152240753,
8547
+ "learning_rate": 1.3261292456846647e-05,
8548
+ "loss": 2.1565,
8549
+ "step": 1220
8550
+ },
8551
+ {
8552
+ "epoch": 0.5086440324932305,
8553
+ "grad_norm": 0.4354822039604187,
8554
+ "learning_rate": 1.3194478209684746e-05,
8555
+ "loss": 2.1295,
8556
+ "step": 1221
8557
+ },
8558
+ {
8559
+ "epoch": 0.5090606123724224,
8560
+ "grad_norm": 0.4317784011363983,
8561
+ "learning_rate": 1.3127807109121165e-05,
8562
+ "loss": 2.2652,
8563
+ "step": 1222
8564
+ },
8565
+ {
8566
+ "epoch": 0.5094771922516143,
8567
+ "grad_norm": 0.46810969710350037,
8568
+ "learning_rate": 1.3061279414457823e-05,
8569
+ "loss": 2.2531,
8570
+ "step": 1223
8571
+ },
8572
+ {
8573
+ "epoch": 0.5098937721308061,
8574
+ "grad_norm": 0.44056519865989685,
8575
+ "learning_rate": 1.2994895384438827e-05,
8576
+ "loss": 2.1596,
8577
+ "step": 1224
8578
+ },
8579
+ {
8580
+ "epoch": 0.510310352009998,
8581
+ "grad_norm": 0.43828773498535156,
8582
+ "learning_rate": 1.2928655277249597e-05,
8583
+ "loss": 2.2656,
8584
+ "step": 1225
8585
+ },
8586
+ {
8587
+ "epoch": 0.5107269318891897,
8588
+ "grad_norm": 0.42964041233062744,
8589
+ "learning_rate": 1.2862559350515746e-05,
8590
+ "loss": 2.0963,
8591
+ "step": 1226
8592
+ },
8593
+ {
8594
+ "epoch": 0.5111435117683816,
8595
+ "grad_norm": 0.43426331877708435,
8596
+ "learning_rate": 1.2796607861302184e-05,
8597
+ "loss": 2.1752,
8598
+ "step": 1227
8599
+ },
8600
+ {
8601
+ "epoch": 0.5115600916475734,
8602
+ "grad_norm": 0.4176805019378662,
8603
+ "learning_rate": 1.2730801066112024e-05,
8604
+ "loss": 2.1394,
8605
+ "step": 1228
8606
+ },
8607
+ {
8608
+ "epoch": 0.5119766715267653,
8609
+ "grad_norm": 0.4687243700027466,
8610
+ "learning_rate": 1.2665139220885613e-05,
8611
+ "loss": 2.0872,
8612
+ "step": 1229
8613
+ },
8614
+ {
8615
+ "epoch": 0.512393251405957,
8616
+ "grad_norm": 0.45004138350486755,
8617
+ "learning_rate": 1.2599622580999605e-05,
8618
+ "loss": 2.2393,
8619
+ "step": 1230
8620
+ },
8621
+ {
8622
+ "epoch": 0.5128098312851489,
8623
+ "grad_norm": 0.4343072772026062,
8624
+ "learning_rate": 1.253425140126585e-05,
8625
+ "loss": 2.2669,
8626
+ "step": 1231
8627
+ },
8628
+ {
8629
+ "epoch": 0.5132264111643408,
8630
+ "grad_norm": 0.4603501856327057,
8631
+ "learning_rate": 1.2469025935930523e-05,
8632
+ "loss": 2.1012,
8633
+ "step": 1232
8634
+ },
8635
+ {
8636
+ "epoch": 0.5136429910435326,
8637
+ "grad_norm": 0.46814849972724915,
8638
+ "learning_rate": 1.2403946438673031e-05,
8639
+ "loss": 2.1392,
8640
+ "step": 1233
8641
+ },
8642
+ {
8643
+ "epoch": 0.5140595709227245,
8644
+ "grad_norm": 0.44013842940330505,
8645
+ "learning_rate": 1.2339013162605078e-05,
8646
+ "loss": 2.0884,
8647
+ "step": 1234
8648
+ },
8649
+ {
8650
+ "epoch": 0.5144761508019162,
8651
+ "grad_norm": 0.5072870850563049,
8652
+ "learning_rate": 1.2274226360269687e-05,
8653
+ "loss": 2.0433,
8654
+ "step": 1235
8655
+ },
8656
+ {
8657
+ "epoch": 0.5148927306811081,
8658
+ "grad_norm": 0.44100427627563477,
8659
+ "learning_rate": 1.2209586283640206e-05,
8660
+ "loss": 2.2232,
8661
+ "step": 1236
8662
+ },
8663
+ {
8664
+ "epoch": 0.5153093105602999,
8665
+ "grad_norm": 0.4575675129890442,
8666
+ "learning_rate": 1.2145093184119327e-05,
8667
+ "loss": 2.1936,
8668
+ "step": 1237
8669
+ },
8670
+ {
8671
+ "epoch": 0.5157258904394918,
8672
+ "grad_norm": 0.4817796051502228,
8673
+ "learning_rate": 1.2080747312538083e-05,
8674
+ "loss": 2.2495,
8675
+ "step": 1238
8676
+ },
8677
+ {
8678
+ "epoch": 0.5161424703186837,
8679
+ "grad_norm": 0.5097609162330627,
8680
+ "learning_rate": 1.2016548919154947e-05,
8681
+ "loss": 2.0267,
8682
+ "step": 1239
8683
+ },
8684
+ {
8685
+ "epoch": 0.5165590501978754,
8686
+ "grad_norm": 0.5130468606948853,
8687
+ "learning_rate": 1.1952498253654754e-05,
8688
+ "loss": 2.1539,
8689
+ "step": 1240
8690
+ },
8691
+ {
8692
+ "epoch": 0.5169756300770673,
8693
+ "grad_norm": 0.47017228603363037,
8694
+ "learning_rate": 1.1888595565147836e-05,
8695
+ "loss": 2.231,
8696
+ "step": 1241
8697
+ },
8698
+ {
8699
+ "epoch": 0.5173922099562591,
8700
+ "grad_norm": 0.49151870608329773,
8701
+ "learning_rate": 1.1824841102168965e-05,
8702
+ "loss": 2.202,
8703
+ "step": 1242
8704
+ },
8705
+ {
8706
+ "epoch": 0.517808789835451,
8707
+ "grad_norm": 0.5390906929969788,
8708
+ "learning_rate": 1.1761235112676433e-05,
8709
+ "loss": 2.1915,
8710
+ "step": 1243
8711
+ },
8712
+ {
8713
+ "epoch": 0.5182253697146428,
8714
+ "grad_norm": 0.5682397484779358,
8715
+ "learning_rate": 1.1697777844051105e-05,
8716
+ "loss": 2.3685,
8717
+ "step": 1244
8718
+ },
8719
+ {
8720
+ "epoch": 0.5186419495938346,
8721
+ "grad_norm": 0.5339843034744263,
8722
+ "learning_rate": 1.1634469543095383e-05,
8723
+ "loss": 2.22,
8724
+ "step": 1245
8725
+ },
8726
+ {
8727
+ "epoch": 0.5190585294730264,
8728
+ "grad_norm": 0.5852044820785522,
8729
+ "learning_rate": 1.1571310456032342e-05,
8730
+ "loss": 2.1708,
8731
+ "step": 1246
8732
+ },
8733
+ {
8734
+ "epoch": 0.5194751093522183,
8735
+ "grad_norm": 0.5521949529647827,
8736
+ "learning_rate": 1.150830082850468e-05,
8737
+ "loss": 2.1607,
8738
+ "step": 1247
8739
+ },
8740
+ {
8741
+ "epoch": 0.5198916892314102,
8742
+ "grad_norm": 0.5825779438018799,
8743
+ "learning_rate": 1.1445440905573856e-05,
8744
+ "loss": 2.2721,
8745
+ "step": 1248
8746
+ },
8747
+ {
8748
+ "epoch": 0.5203082691106019,
8749
+ "grad_norm": 0.6723480820655823,
8750
+ "learning_rate": 1.1382730931719043e-05,
8751
+ "loss": 2.3048,
8752
+ "step": 1249
8753
+ },
8754
+ {
8755
+ "epoch": 0.5207248489897938,
8756
+ "grad_norm": 0.7712786793708801,
8757
+ "learning_rate": 1.1320171150836228e-05,
8758
+ "loss": 2.2836,
8759
+ "step": 1250
8760
+ },
8761
+ {
8762
+ "epoch": 0.5211414288689856,
8763
+ "grad_norm": 0.362064003944397,
8764
+ "learning_rate": 1.1257761806237299e-05,
8765
+ "loss": 2.1024,
8766
+ "step": 1251
8767
+ },
8768
+ {
8769
+ "epoch": 0.5215580087481775,
8770
+ "grad_norm": 0.3768676817417145,
8771
+ "learning_rate": 1.1195503140648984e-05,
8772
+ "loss": 2.0597,
8773
+ "step": 1252
8774
+ },
8775
+ {
8776
+ "epoch": 0.5219745886273693,
8777
+ "grad_norm": 0.39301928877830505,
8778
+ "learning_rate": 1.1133395396212049e-05,
8779
+ "loss": 2.0886,
8780
+ "step": 1253
8781
+ },
8782
+ {
8783
+ "epoch": 0.5223911685065611,
8784
+ "grad_norm": 0.37058496475219727,
8785
+ "learning_rate": 1.1071438814480239e-05,
8786
+ "loss": 2.167,
8787
+ "step": 1254
8788
+ },
8789
+ {
8790
+ "epoch": 0.522807748385753,
8791
+ "grad_norm": 0.3886200189590454,
8792
+ "learning_rate": 1.100963363641943e-05,
8793
+ "loss": 2.1336,
8794
+ "step": 1255
8795
+ },
8796
+ {
8797
+ "epoch": 0.5232243282649448,
8798
+ "grad_norm": 0.4241747260093689,
8799
+ "learning_rate": 1.0947980102406596e-05,
8800
+ "loss": 1.9278,
8801
+ "step": 1256
8802
+ },
8803
+ {
8804
+ "epoch": 0.5236409081441367,
8805
+ "grad_norm": 0.41185516119003296,
8806
+ "learning_rate": 1.0886478452228988e-05,
8807
+ "loss": 2.1514,
8808
+ "step": 1257
8809
+ },
8810
+ {
8811
+ "epoch": 0.5240574880233285,
8812
+ "grad_norm": 0.40949538350105286,
8813
+ "learning_rate": 1.0825128925083089e-05,
8814
+ "loss": 2.2136,
8815
+ "step": 1258
8816
+ },
8817
+ {
8818
+ "epoch": 0.5244740679025203,
8819
+ "grad_norm": 0.42916616797447205,
8820
+ "learning_rate": 1.0763931759573736e-05,
8821
+ "loss": 2.2336,
8822
+ "step": 1259
8823
+ },
8824
+ {
8825
+ "epoch": 0.5248906477817121,
8826
+ "grad_norm": 0.39636459946632385,
8827
+ "learning_rate": 1.070288719371324e-05,
8828
+ "loss": 2.1677,
8829
+ "step": 1260
8830
+ },
8831
+ {
8832
+ "epoch": 0.525307227660904,
8833
+ "grad_norm": 0.445295125246048,
8834
+ "learning_rate": 1.0641995464920346e-05,
8835
+ "loss": 2.1093,
8836
+ "step": 1261
8837
+ },
8838
+ {
8839
+ "epoch": 0.5257238075400958,
8840
+ "grad_norm": 0.43316540122032166,
8841
+ "learning_rate": 1.0581256810019435e-05,
8842
+ "loss": 2.2007,
8843
+ "step": 1262
8844
+ },
8845
+ {
8846
+ "epoch": 0.5261403874192877,
8847
+ "grad_norm": 0.4185689091682434,
8848
+ "learning_rate": 1.0520671465239495e-05,
8849
+ "loss": 2.0491,
8850
+ "step": 1263
8851
+ },
8852
+ {
8853
+ "epoch": 0.5265569672984795,
8854
+ "grad_norm": 0.4575265049934387,
8855
+ "learning_rate": 1.0460239666213262e-05,
8856
+ "loss": 2.2749,
8857
+ "step": 1264
8858
+ },
8859
+ {
8860
+ "epoch": 0.5269735471776713,
8861
+ "grad_norm": 0.44808733463287354,
8862
+ "learning_rate": 1.0399961647976314e-05,
8863
+ "loss": 2.124,
8864
+ "step": 1265
8865
+ },
8866
+ {
8867
+ "epoch": 0.5273901270568632,
8868
+ "grad_norm": 0.43795716762542725,
8869
+ "learning_rate": 1.0339837644966099e-05,
8870
+ "loss": 2.1715,
8871
+ "step": 1266
8872
+ },
8873
+ {
8874
+ "epoch": 0.527806706936055,
8875
+ "grad_norm": 0.4253341257572174,
8876
+ "learning_rate": 1.02798678910211e-05,
8877
+ "loss": 2.2266,
8878
+ "step": 1267
8879
+ },
8880
+ {
8881
+ "epoch": 0.5282232868152468,
8882
+ "grad_norm": 0.44820019602775574,
8883
+ "learning_rate": 1.0220052619379843e-05,
8884
+ "loss": 2.2208,
8885
+ "step": 1268
8886
+ },
8887
+ {
8888
+ "epoch": 0.5286398666944386,
8889
+ "grad_norm": 0.4370150566101074,
8890
+ "learning_rate": 1.0160392062680057e-05,
8891
+ "loss": 2.2378,
8892
+ "step": 1269
8893
+ },
8894
+ {
8895
+ "epoch": 0.5290564465736305,
8896
+ "grad_norm": 0.60475754737854,
8897
+ "learning_rate": 1.0100886452957714e-05,
8898
+ "loss": 2.1901,
8899
+ "step": 1270
8900
+ },
8901
+ {
8902
+ "epoch": 0.5294730264528223,
8903
+ "grad_norm": 0.4462258517742157,
8904
+ "learning_rate": 1.0041536021646204e-05,
8905
+ "loss": 2.2266,
8906
+ "step": 1271
8907
+ },
8908
+ {
8909
+ "epoch": 0.5298896063320142,
8910
+ "grad_norm": 0.452957421541214,
8911
+ "learning_rate": 9.982340999575335e-06,
8912
+ "loss": 2.1806,
8913
+ "step": 1272
8914
+ },
8915
+ {
8916
+ "epoch": 0.530306186211206,
8917
+ "grad_norm": 0.434084951877594,
8918
+ "learning_rate": 9.92330161697051e-06,
8919
+ "loss": 2.1724,
8920
+ "step": 1273
8921
+ },
8922
+ {
8923
+ "epoch": 0.5307227660903978,
8924
+ "grad_norm": 0.4277683198451996,
8925
+ "learning_rate": 9.864418103451828e-06,
8926
+ "loss": 2.2438,
8927
+ "step": 1274
8928
+ },
8929
+ {
8930
+ "epoch": 0.5311393459695897,
8931
+ "grad_norm": 0.435316801071167,
8932
+ "learning_rate": 9.805690688033114e-06,
8933
+ "loss": 2.2084,
8934
+ "step": 1275
8935
+ },
8936
+ {
8937
+ "epoch": 0.5315559258487815,
8938
+ "grad_norm": 0.45000767707824707,
8939
+ "learning_rate": 9.747119599121163e-06,
8940
+ "loss": 2.1589,
8941
+ "step": 1276
8942
+ },
8943
+ {
8944
+ "epoch": 0.5319725057279734,
8945
+ "grad_norm": 0.45371347665786743,
8946
+ "learning_rate": 9.688705064514703e-06,
8947
+ "loss": 2.2112,
8948
+ "step": 1277
8949
+ },
8950
+ {
8951
+ "epoch": 0.5323890856071651,
8952
+ "grad_norm": 0.44338762760162354,
8953
+ "learning_rate": 9.630447311403623e-06,
8954
+ "loss": 2.277,
8955
+ "step": 1278
8956
+ },
8957
+ {
8958
+ "epoch": 0.532805665486357,
8959
+ "grad_norm": 0.4100877344608307,
8960
+ "learning_rate": 9.57234656636804e-06,
8961
+ "loss": 2.1358,
8962
+ "step": 1279
8963
+ },
8964
+ {
8965
+ "epoch": 0.5332222453655489,
8966
+ "grad_norm": 0.4822656214237213,
8967
+ "learning_rate": 9.514403055377386e-06,
8968
+ "loss": 2.2666,
8969
+ "step": 1280
8970
+ },
8971
+ {
8972
+ "epoch": 0.5336388252447407,
8973
+ "grad_norm": 0.4593331217765808,
8974
+ "learning_rate": 9.456617003789642e-06,
8975
+ "loss": 2.1719,
8976
+ "step": 1281
8977
+ },
8978
+ {
8979
+ "epoch": 0.5340554051239326,
8980
+ "grad_norm": 0.5039366483688354,
8981
+ "learning_rate": 9.398988636350303e-06,
8982
+ "loss": 2.1991,
8983
+ "step": 1282
8984
+ },
8985
+ {
8986
+ "epoch": 0.5344719850031243,
8987
+ "grad_norm": 0.4868943989276886,
8988
+ "learning_rate": 9.34151817719166e-06,
8989
+ "loss": 2.2524,
8990
+ "step": 1283
8991
+ },
8992
+ {
8993
+ "epoch": 0.5348885648823162,
8994
+ "grad_norm": 0.48140257596969604,
8995
+ "learning_rate": 9.284205849831817e-06,
8996
+ "loss": 2.2549,
8997
+ "step": 1284
8998
+ },
8999
+ {
9000
+ "epoch": 0.535305144761508,
9001
+ "grad_norm": 0.4989936649799347,
9002
+ "learning_rate": 9.227051877173859e-06,
9003
+ "loss": 2.2195,
9004
+ "step": 1285
9005
+ },
9006
+ {
9007
+ "epoch": 0.5357217246406999,
9008
+ "grad_norm": 0.4500278830528259,
9009
+ "learning_rate": 9.170056481504996e-06,
9010
+ "loss": 2.1515,
9011
+ "step": 1286
9012
+ },
9013
+ {
9014
+ "epoch": 0.5361383045198916,
9015
+ "grad_norm": 0.4891306459903717,
9016
+ "learning_rate": 9.1132198844957e-06,
9017
+ "loss": 2.1373,
9018
+ "step": 1287
9019
+ },
9020
+ {
9021
+ "epoch": 0.5365548843990835,
9022
+ "grad_norm": 0.4580099284648895,
9023
+ "learning_rate": 9.056542307198823e-06,
9024
+ "loss": 2.2233,
9025
+ "step": 1288
9026
+ },
9027
+ {
9028
+ "epoch": 0.5369714642782754,
9029
+ "grad_norm": 0.4709134101867676,
9030
+ "learning_rate": 9.000023970048726e-06,
9031
+ "loss": 2.1904,
9032
+ "step": 1289
9033
+ },
9034
+ {
9035
+ "epoch": 0.5373880441574672,
9036
+ "grad_norm": 0.492691308259964,
9037
+ "learning_rate": 8.943665092860488e-06,
9038
+ "loss": 2.2083,
9039
+ "step": 1290
9040
+ },
9041
+ {
9042
+ "epoch": 0.5378046240366591,
9043
+ "grad_norm": 0.5778969526290894,
9044
+ "learning_rate": 8.88746589482895e-06,
9045
+ "loss": 2.2656,
9046
+ "step": 1291
9047
+ },
9048
+ {
9049
+ "epoch": 0.5382212039158508,
9050
+ "grad_norm": 0.5076452493667603,
9051
+ "learning_rate": 8.831426594527975e-06,
9052
+ "loss": 2.2225,
9053
+ "step": 1292
9054
+ },
9055
+ {
9056
+ "epoch": 0.5386377837950427,
9057
+ "grad_norm": 0.5400701761245728,
9058
+ "learning_rate": 8.775547409909502e-06,
9059
+ "loss": 2.1506,
9060
+ "step": 1293
9061
+ },
9062
+ {
9063
+ "epoch": 0.5390543636742345,
9064
+ "grad_norm": 0.4912501573562622,
9065
+ "learning_rate": 8.719828558302733e-06,
9066
+ "loss": 2.2068,
9067
+ "step": 1294
9068
+ },
9069
+ {
9070
+ "epoch": 0.5394709435534264,
9071
+ "grad_norm": 0.5658887028694153,
9072
+ "learning_rate": 8.664270256413332e-06,
9073
+ "loss": 2.1972,
9074
+ "step": 1295
9075
+ },
9076
+ {
9077
+ "epoch": 0.5398875234326183,
9078
+ "grad_norm": 0.5720379948616028,
9079
+ "learning_rate": 8.60887272032248e-06,
9080
+ "loss": 2.113,
9081
+ "step": 1296
9082
+ },
9083
+ {
9084
+ "epoch": 0.54030410331181,
9085
+ "grad_norm": 0.5988136529922485,
9086
+ "learning_rate": 8.553636165486173e-06,
9087
+ "loss": 2.2126,
9088
+ "step": 1297
9089
+ },
9090
+ {
9091
+ "epoch": 0.5407206831910019,
9092
+ "grad_norm": 0.5860940217971802,
9093
+ "learning_rate": 8.498560806734229e-06,
9094
+ "loss": 2.244,
9095
+ "step": 1298
9096
+ },
9097
+ {
9098
+ "epoch": 0.5411372630701937,
9099
+ "grad_norm": 0.6165693402290344,
9100
+ "learning_rate": 8.443646858269604e-06,
9101
+ "loss": 2.3292,
9102
+ "step": 1299
9103
+ },
9104
+ {
9105
+ "epoch": 0.5415538429493856,
9106
+ "grad_norm": 0.7384406924247742,
9107
+ "learning_rate": 8.38889453366743e-06,
9108
+ "loss": 2.3799,
9109
+ "step": 1300
9110
+ },
9111
+ {
9112
+ "epoch": 0.5419704228285773,
9113
+ "grad_norm": 0.3716765344142914,
9114
+ "learning_rate": 8.334304045874247e-06,
9115
+ "loss": 2.0695,
9116
+ "step": 1301
9117
+ },
9118
+ {
9119
+ "epoch": 0.5423870027077692,
9120
+ "grad_norm": 0.386123925447464,
9121
+ "learning_rate": 8.279875607207227e-06,
9122
+ "loss": 2.0412,
9123
+ "step": 1302
9124
+ },
9125
+ {
9126
+ "epoch": 0.542803582586961,
9127
+ "grad_norm": 0.37405717372894287,
9128
+ "learning_rate": 8.225609429353187e-06,
9129
+ "loss": 2.147,
9130
+ "step": 1303
9131
+ },
9132
+ {
9133
+ "epoch": 0.5432201624661529,
9134
+ "grad_norm": 0.40637415647506714,
9135
+ "learning_rate": 8.171505723367961e-06,
9136
+ "loss": 2.1846,
9137
+ "step": 1304
9138
+ },
9139
+ {
9140
+ "epoch": 0.5436367423453448,
9141
+ "grad_norm": 0.4203828275203705,
9142
+ "learning_rate": 8.117564699675433e-06,
9143
+ "loss": 2.0723,
9144
+ "step": 1305
9145
+ },
9146
+ {
9147
+ "epoch": 0.5440533222245365,
9148
+ "grad_norm": 0.4045223891735077,
9149
+ "learning_rate": 8.063786568066806e-06,
9150
+ "loss": 2.2134,
9151
+ "step": 1306
9152
+ },
9153
+ {
9154
+ "epoch": 0.5444699021037284,
9155
+ "grad_norm": 0.42567864060401917,
9156
+ "learning_rate": 8.010171537699712e-06,
9157
+ "loss": 2.178,
9158
+ "step": 1307
9159
+ },
9160
+ {
9161
+ "epoch": 0.5448864819829202,
9162
+ "grad_norm": 0.39315065741539,
9163
+ "learning_rate": 7.956719817097492e-06,
9164
+ "loss": 2.1352,
9165
+ "step": 1308
9166
+ },
9167
+ {
9168
+ "epoch": 0.5453030618621121,
9169
+ "grad_norm": 0.4117122292518616,
9170
+ "learning_rate": 7.903431614148277e-06,
9171
+ "loss": 2.0137,
9172
+ "step": 1309
9173
+ },
9174
+ {
9175
+ "epoch": 0.5457196417413039,
9176
+ "grad_norm": 0.41751304268836975,
9177
+ "learning_rate": 7.850307136104247e-06,
9178
+ "loss": 2.0473,
9179
+ "step": 1310
9180
+ },
9181
+ {
9182
+ "epoch": 0.5461362216204957,
9183
+ "grad_norm": 0.42515861988067627,
9184
+ "learning_rate": 7.79734658958085e-06,
9185
+ "loss": 2.1861,
9186
+ "step": 1311
9187
+ },
9188
+ {
9189
+ "epoch": 0.5465528014996875,
9190
+ "grad_norm": 0.42132726311683655,
9191
+ "learning_rate": 7.744550180555905e-06,
9192
+ "loss": 2.1065,
9193
+ "step": 1312
9194
+ },
9195
+ {
9196
+ "epoch": 0.5469693813788794,
9197
+ "grad_norm": 0.43172234296798706,
9198
+ "learning_rate": 7.691918114368907e-06,
9199
+ "loss": 2.1498,
9200
+ "step": 1313
9201
+ },
9202
+ {
9203
+ "epoch": 0.5473859612580713,
9204
+ "grad_norm": 0.41604796051979065,
9205
+ "learning_rate": 7.639450595720137e-06,
9206
+ "loss": 2.1492,
9207
+ "step": 1314
9208
+ },
9209
+ {
9210
+ "epoch": 0.5478025411372631,
9211
+ "grad_norm": 0.42018142342567444,
9212
+ "learning_rate": 7.587147828669916e-06,
9213
+ "loss": 2.2407,
9214
+ "step": 1315
9215
+ },
9216
+ {
9217
+ "epoch": 0.5482191210164549,
9218
+ "grad_norm": 0.4484560489654541,
9219
+ "learning_rate": 7.535010016637828e-06,
9220
+ "loss": 2.1838,
9221
+ "step": 1316
9222
+ },
9223
+ {
9224
+ "epoch": 0.5486357008956467,
9225
+ "grad_norm": 0.4491097629070282,
9226
+ "learning_rate": 7.483037362401857e-06,
9227
+ "loss": 2.1785,
9228
+ "step": 1317
9229
+ },
9230
+ {
9231
+ "epoch": 0.5490522807748386,
9232
+ "grad_norm": 0.4612688422203064,
9233
+ "learning_rate": 7.4312300680977e-06,
9234
+ "loss": 2.1611,
9235
+ "step": 1318
9236
+ },
9237
+ {
9238
+ "epoch": 0.5494688606540304,
9239
+ "grad_norm": 0.44412896037101746,
9240
+ "learning_rate": 7.379588335217874e-06,
9241
+ "loss": 2.194,
9242
+ "step": 1319
9243
+ },
9244
+ {
9245
+ "epoch": 0.5498854405332222,
9246
+ "grad_norm": 0.4443187415599823,
9247
+ "learning_rate": 7.328112364611012e-06,
9248
+ "loss": 2.1786,
9249
+ "step": 1320
9250
+ },
9251
+ {
9252
+ "epoch": 0.550302020412414,
9253
+ "grad_norm": 0.4697517454624176,
9254
+ "learning_rate": 7.2768023564810165e-06,
9255
+ "loss": 2.153,
9256
+ "step": 1321
9257
+ },
9258
+ {
9259
+ "epoch": 0.5507186002916059,
9260
+ "grad_norm": 0.4328586161136627,
9261
+ "learning_rate": 7.225658510386385e-06,
9262
+ "loss": 2.1508,
9263
+ "step": 1322
9264
+ },
9265
+ {
9266
+ "epoch": 0.5511351801707978,
9267
+ "grad_norm": 0.4476320147514343,
9268
+ "learning_rate": 7.1746810252393e-06,
9269
+ "loss": 2.3088,
9270
+ "step": 1323
9271
+ },
9272
+ {
9273
+ "epoch": 0.5515517600499896,
9274
+ "grad_norm": 0.42715781927108765,
9275
+ "learning_rate": 7.123870099304941e-06,
9276
+ "loss": 2.2181,
9277
+ "step": 1324
9278
+ },
9279
+ {
9280
+ "epoch": 0.5519683399291814,
9281
+ "grad_norm": 0.4416360855102539,
9282
+ "learning_rate": 7.073225930200722e-06,
9283
+ "loss": 2.2013,
9284
+ "step": 1325
9285
+ },
9286
+ {
9287
+ "epoch": 0.5523849198083732,
9288
+ "grad_norm": 0.4616955518722534,
9289
+ "learning_rate": 7.022748714895444e-06,
9290
+ "loss": 2.0927,
9291
+ "step": 1326
9292
+ },
9293
+ {
9294
+ "epoch": 0.5528014996875651,
9295
+ "grad_norm": 0.47019249200820923,
9296
+ "learning_rate": 6.97243864970864e-06,
9297
+ "loss": 2.1574,
9298
+ "step": 1327
9299
+ },
9300
+ {
9301
+ "epoch": 0.553218079566757,
9302
+ "grad_norm": 0.46532902121543884,
9303
+ "learning_rate": 6.922295930309691e-06,
9304
+ "loss": 2.1184,
9305
+ "step": 1328
9306
+ },
9307
+ {
9308
+ "epoch": 0.5536346594459488,
9309
+ "grad_norm": 0.4631338119506836,
9310
+ "learning_rate": 6.872320751717176e-06,
9311
+ "loss": 2.1675,
9312
+ "step": 1329
9313
+ },
9314
+ {
9315
+ "epoch": 0.5540512393251406,
9316
+ "grad_norm": 0.45464131236076355,
9317
+ "learning_rate": 6.8225133082980284e-06,
9318
+ "loss": 2.1569,
9319
+ "step": 1330
9320
+ },
9321
+ {
9322
+ "epoch": 0.5544678192043324,
9323
+ "grad_norm": 0.48318782448768616,
9324
+ "learning_rate": 6.772873793766815e-06,
9325
+ "loss": 2.2317,
9326
+ "step": 1331
9327
+ },
9328
+ {
9329
+ "epoch": 0.5548843990835243,
9330
+ "grad_norm": 0.46803736686706543,
9331
+ "learning_rate": 6.723402401185014e-06,
9332
+ "loss": 2.1849,
9333
+ "step": 1332
9334
+ },
9335
+ {
9336
+ "epoch": 0.5553009789627161,
9337
+ "grad_norm": 0.5041208863258362,
9338
+ "learning_rate": 6.6740993229601864e-06,
9339
+ "loss": 2.1887,
9340
+ "step": 1333
9341
+ },
9342
+ {
9343
+ "epoch": 0.555717558841908,
9344
+ "grad_norm": 0.4831056594848633,
9345
+ "learning_rate": 6.624964750845325e-06,
9346
+ "loss": 2.3047,
9347
+ "step": 1334
9348
+ },
9349
+ {
9350
+ "epoch": 0.5561341387210997,
9351
+ "grad_norm": 0.475440114736557,
9352
+ "learning_rate": 6.575998875938017e-06,
9353
+ "loss": 2.2391,
9354
+ "step": 1335
9355
+ },
9356
+ {
9357
+ "epoch": 0.5565507186002916,
9358
+ "grad_norm": 0.5054152607917786,
9359
+ "learning_rate": 6.527201888679746e-06,
9360
+ "loss": 2.2116,
9361
+ "step": 1336
9362
+ },
9363
+ {
9364
+ "epoch": 0.5569672984794835,
9365
+ "grad_norm": 0.5019363760948181,
9366
+ "learning_rate": 6.478573978855146e-06,
9367
+ "loss": 2.232,
9368
+ "step": 1337
9369
+ },
9370
+ {
9371
+ "epoch": 0.5573838783586753,
9372
+ "grad_norm": 0.5251423716545105,
9373
+ "learning_rate": 6.4301153355912916e-06,
9374
+ "loss": 2.2459,
9375
+ "step": 1338
9376
+ },
9377
+ {
9378
+ "epoch": 0.5578004582378671,
9379
+ "grad_norm": 0.4702129662036896,
9380
+ "learning_rate": 6.381826147356906e-06,
9381
+ "loss": 2.3169,
9382
+ "step": 1339
9383
+ },
9384
+ {
9385
+ "epoch": 0.5582170381170589,
9386
+ "grad_norm": 0.5291473865509033,
9387
+ "learning_rate": 6.333706601961642e-06,
9388
+ "loss": 2.1435,
9389
+ "step": 1340
9390
+ },
9391
+ {
9392
+ "epoch": 0.5586336179962508,
9393
+ "grad_norm": 0.5018637776374817,
9394
+ "learning_rate": 6.285756886555422e-06,
9395
+ "loss": 2.1405,
9396
+ "step": 1341
9397
+ },
9398
+ {
9399
+ "epoch": 0.5590501978754426,
9400
+ "grad_norm": 0.4844542443752289,
9401
+ "learning_rate": 6.237977187627586e-06,
9402
+ "loss": 2.1674,
9403
+ "step": 1342
9404
+ },
9405
+ {
9406
+ "epoch": 0.5594667777546345,
9407
+ "grad_norm": 0.5339523553848267,
9408
+ "learning_rate": 6.190367691006288e-06,
9409
+ "loss": 2.236,
9410
+ "step": 1343
9411
+ },
9412
+ {
9413
+ "epoch": 0.5598833576338262,
9414
+ "grad_norm": 0.5443533658981323,
9415
+ "learning_rate": 6.142928581857693e-06,
9416
+ "loss": 2.3391,
9417
+ "step": 1344
9418
+ },
9419
+ {
9420
+ "epoch": 0.5602999375130181,
9421
+ "grad_norm": 0.534054160118103,
9422
+ "learning_rate": 6.095660044685275e-06,
9423
+ "loss": 2.2016,
9424
+ "step": 1345
9425
+ },
9426
+ {
9427
+ "epoch": 0.56071651739221,
9428
+ "grad_norm": 0.5672020316123962,
9429
+ "learning_rate": 6.048562263329138e-06,
9430
+ "loss": 2.2499,
9431
+ "step": 1346
9432
+ },
9433
+ {
9434
+ "epoch": 0.5611330972714018,
9435
+ "grad_norm": 0.5929094552993774,
9436
+ "learning_rate": 6.001635420965235e-06,
9437
+ "loss": 2.2559,
9438
+ "step": 1347
9439
+ },
9440
+ {
9441
+ "epoch": 0.5615496771505937,
9442
+ "grad_norm": 0.5988344550132751,
9443
+ "learning_rate": 5.954879700104732e-06,
9444
+ "loss": 2.0733,
9445
+ "step": 1348
9446
+ },
9447
+ {
9448
+ "epoch": 0.5619662570297854,
9449
+ "grad_norm": 0.6177953481674194,
9450
+ "learning_rate": 5.908295282593207e-06,
9451
+ "loss": 2.2322,
9452
+ "step": 1349
9453
+ },
9454
+ {
9455
+ "epoch": 0.5623828369089773,
9456
+ "grad_norm": 0.7406448721885681,
9457
+ "learning_rate": 5.861882349610042e-06,
9458
+ "loss": 2.327,
9459
+ "step": 1350
9460
+ },
9461
+ {
9462
+ "epoch": 0.5627994167881691,
9463
+ "grad_norm": 0.3616834878921509,
9464
+ "learning_rate": 5.81564108166765e-06,
9465
+ "loss": 2.1104,
9466
+ "step": 1351
9467
+ },
9468
+ {
9469
+ "epoch": 0.563215996667361,
9470
+ "grad_norm": 0.41988110542297363,
9471
+ "learning_rate": 5.769571658610762e-06,
9472
+ "loss": 2.1414,
9473
+ "step": 1352
9474
+ },
9475
+ {
9476
+ "epoch": 0.5636325765465529,
9477
+ "grad_norm": 0.39019477367401123,
9478
+ "learning_rate": 5.72367425961583e-06,
9479
+ "loss": 2.2014,
9480
+ "step": 1353
9481
+ },
9482
+ {
9483
+ "epoch": 0.5640491564257446,
9484
+ "grad_norm": 0.3775304853916168,
9485
+ "learning_rate": 5.677949063190169e-06,
9486
+ "loss": 2.1051,
9487
+ "step": 1354
9488
+ },
9489
+ {
9490
+ "epoch": 0.5644657363049365,
9491
+ "grad_norm": 0.40709546208381653,
9492
+ "learning_rate": 5.6323962471714286e-06,
9493
+ "loss": 2.2534,
9494
+ "step": 1355
9495
+ },
9496
+ {
9497
+ "epoch": 0.5648823161841283,
9498
+ "grad_norm": 0.4010683298110962,
9499
+ "learning_rate": 5.587015988726774e-06,
9500
+ "loss": 2.1041,
9501
+ "step": 1356
9502
+ },
9503
+ {
9504
+ "epoch": 0.5652988960633202,
9505
+ "grad_norm": 0.4118007719516754,
9506
+ "learning_rate": 5.541808464352277e-06,
9507
+ "loss": 2.0971,
9508
+ "step": 1357
9509
+ },
9510
+ {
9511
+ "epoch": 0.5657154759425119,
9512
+ "grad_norm": 0.40107977390289307,
9513
+ "learning_rate": 5.496773849872183e-06,
9514
+ "loss": 2.2204,
9515
+ "step": 1358
9516
+ },
9517
+ {
9518
+ "epoch": 0.5661320558217038,
9519
+ "grad_norm": 0.39281153678894043,
9520
+ "learning_rate": 5.4519123204382625e-06,
9521
+ "loss": 2.1446,
9522
+ "step": 1359
9523
+ },
9524
+ {
9525
+ "epoch": 0.5665486357008956,
9526
+ "grad_norm": 0.4124067723751068,
9527
+ "learning_rate": 5.407224050529097e-06,
9528
+ "loss": 2.2212,
9529
+ "step": 1360
9530
+ },
9531
+ {
9532
+ "epoch": 0.5669652155800875,
9533
+ "grad_norm": 0.390995591878891,
9534
+ "learning_rate": 5.362709213949396e-06,
9535
+ "loss": 2.138,
9536
+ "step": 1361
9537
+ },
9538
+ {
9539
+ "epoch": 0.5673817954592794,
9540
+ "grad_norm": 0.4064914286136627,
9541
+ "learning_rate": 5.318367983829392e-06,
9542
+ "loss": 2.1965,
9543
+ "step": 1362
9544
+ },
9545
+ {
9546
+ "epoch": 0.5677983753384711,
9547
+ "grad_norm": 0.4465165436267853,
9548
+ "learning_rate": 5.2742005326240575e-06,
9549
+ "loss": 2.1492,
9550
+ "step": 1363
9551
+ },
9552
+ {
9553
+ "epoch": 0.568214955217663,
9554
+ "grad_norm": 0.422794371843338,
9555
+ "learning_rate": 5.23020703211255e-06,
9556
+ "loss": 2.3525,
9557
+ "step": 1364
9558
+ },
9559
+ {
9560
+ "epoch": 0.5686315350968548,
9561
+ "grad_norm": 0.4358288645744324,
9562
+ "learning_rate": 5.186387653397435e-06,
9563
+ "loss": 2.2029,
9564
+ "step": 1365
9565
+ },
9566
+ {
9567
+ "epoch": 0.5690481149760467,
9568
+ "grad_norm": 0.46458449959754944,
9569
+ "learning_rate": 5.142742566904079e-06,
9570
+ "loss": 2.1966,
9571
+ "step": 1366
9572
+ },
9573
+ {
9574
+ "epoch": 0.5694646948552385,
9575
+ "grad_norm": 0.4231399595737457,
9576
+ "learning_rate": 5.0992719423800236e-06,
9577
+ "loss": 2.2435,
9578
+ "step": 1367
9579
+ },
9580
+ {
9581
+ "epoch": 0.5698812747344303,
9582
+ "grad_norm": 0.44632214307785034,
9583
+ "learning_rate": 5.055975948894226e-06,
9584
+ "loss": 2.261,
9585
+ "step": 1368
9586
+ },
9587
+ {
9588
+ "epoch": 0.5702978546136221,
9589
+ "grad_norm": 0.41880112886428833,
9590
+ "learning_rate": 5.012854754836488e-06,
9591
+ "loss": 2.0232,
9592
+ "step": 1369
9593
+ },
9594
+ {
9595
+ "epoch": 0.570714434492814,
9596
+ "grad_norm": 0.43773967027664185,
9597
+ "learning_rate": 4.969908527916766e-06,
9598
+ "loss": 2.1273,
9599
+ "step": 1370
9600
+ },
9601
+ {
9602
+ "epoch": 0.5711310143720059,
9603
+ "grad_norm": 0.4529377520084381,
9604
+ "learning_rate": 4.9271374351645024e-06,
9605
+ "loss": 2.1708,
9606
+ "step": 1371
9607
+ },
9608
+ {
9609
+ "epoch": 0.5715475942511977,
9610
+ "grad_norm": 0.4359259307384491,
9611
+ "learning_rate": 4.884541642928009e-06,
9612
+ "loss": 1.9911,
9613
+ "step": 1372
9614
+ },
9615
+ {
9616
+ "epoch": 0.5719641741303895,
9617
+ "grad_norm": 0.4691868722438812,
9618
+ "learning_rate": 4.842121316873821e-06,
9619
+ "loss": 2.1426,
9620
+ "step": 1373
9621
+ },
9622
+ {
9623
+ "epoch": 0.5723807540095813,
9624
+ "grad_norm": 0.4630512297153473,
9625
+ "learning_rate": 4.799876621986021e-06,
9626
+ "loss": 2.2009,
9627
+ "step": 1374
9628
+ },
9629
+ {
9630
+ "epoch": 0.5727973338887732,
9631
+ "grad_norm": 0.456673264503479,
9632
+ "learning_rate": 4.757807722565605e-06,
9633
+ "loss": 2.124,
9634
+ "step": 1375
9635
+ },
9636
+ {
9637
+ "epoch": 0.573213913767965,
9638
+ "grad_norm": 0.44640928506851196,
9639
+ "learning_rate": 4.71591478222988e-06,
9640
+ "loss": 2.1812,
9641
+ "step": 1376
9642
+ },
9643
+ {
9644
+ "epoch": 0.5736304936471568,
9645
+ "grad_norm": 0.4493945837020874,
9646
+ "learning_rate": 4.674197963911775e-06,
9647
+ "loss": 2.0659,
9648
+ "step": 1377
9649
+ },
9650
+ {
9651
+ "epoch": 0.5740470735263487,
9652
+ "grad_norm": 0.4972690939903259,
9653
+ "learning_rate": 4.632657429859266e-06,
9654
+ "loss": 2.1043,
9655
+ "step": 1378
9656
+ },
9657
+ {
9658
+ "epoch": 0.5744636534055405,
9659
+ "grad_norm": 0.48750877380371094,
9660
+ "learning_rate": 4.591293341634661e-06,
9661
+ "loss": 2.2463,
9662
+ "step": 1379
9663
+ },
9664
+ {
9665
+ "epoch": 0.5748802332847324,
9666
+ "grad_norm": 0.47315627336502075,
9667
+ "learning_rate": 4.550105860114085e-06,
9668
+ "loss": 2.1493,
9669
+ "step": 1380
9670
+ },
9671
+ {
9672
+ "epoch": 0.5752968131639242,
9673
+ "grad_norm": 0.5010528564453125,
9674
+ "learning_rate": 4.509095145486736e-06,
9675
+ "loss": 2.1929,
9676
+ "step": 1381
9677
+ },
9678
+ {
9679
+ "epoch": 0.575713393043116,
9680
+ "grad_norm": 0.4589388966560364,
9681
+ "learning_rate": 4.468261357254339e-06,
9682
+ "loss": 2.1532,
9683
+ "step": 1382
9684
+ },
9685
+ {
9686
+ "epoch": 0.5761299729223078,
9687
+ "grad_norm": 0.47072404623031616,
9688
+ "learning_rate": 4.4276046542305276e-06,
9689
+ "loss": 2.096,
9690
+ "step": 1383
9691
+ },
9692
+ {
9693
+ "epoch": 0.5765465528014997,
9694
+ "grad_norm": 0.49293652176856995,
9695
+ "learning_rate": 4.387125194540159e-06,
9696
+ "loss": 2.2295,
9697
+ "step": 1384
9698
+ },
9699
+ {
9700
+ "epoch": 0.5769631326806915,
9701
+ "grad_norm": 0.4684501588344574,
9702
+ "learning_rate": 4.346823135618788e-06,
9703
+ "loss": 2.2086,
9704
+ "step": 1385
9705
+ },
9706
+ {
9707
+ "epoch": 0.5773797125598834,
9708
+ "grad_norm": 0.48839181661605835,
9709
+ "learning_rate": 4.306698634211976e-06,
9710
+ "loss": 2.1639,
9711
+ "step": 1386
9712
+ },
9713
+ {
9714
+ "epoch": 0.5777962924390752,
9715
+ "grad_norm": 0.501790463924408,
9716
+ "learning_rate": 4.266751846374734e-06,
9717
+ "loss": 2.2215,
9718
+ "step": 1387
9719
+ },
9720
+ {
9721
+ "epoch": 0.578212872318267,
9722
+ "grad_norm": 0.5091081857681274,
9723
+ "learning_rate": 4.226982927470874e-06,
9724
+ "loss": 2.2341,
9725
+ "step": 1388
9726
+ },
9727
+ {
9728
+ "epoch": 0.5786294521974589,
9729
+ "grad_norm": 0.5062838792800903,
9730
+ "learning_rate": 4.187392032172471e-06,
9731
+ "loss": 2.1799,
9732
+ "step": 1389
9733
+ },
9734
+ {
9735
+ "epoch": 0.5790460320766507,
9736
+ "grad_norm": 0.5266156792640686,
9737
+ "learning_rate": 4.1479793144591775e-06,
9738
+ "loss": 2.2925,
9739
+ "step": 1390
9740
+ },
9741
+ {
9742
+ "epoch": 0.5794626119558426,
9743
+ "grad_norm": 0.5020082592964172,
9744
+ "learning_rate": 4.108744927617669e-06,
9745
+ "loss": 2.2214,
9746
+ "step": 1391
9747
+ },
9748
+ {
9749
+ "epoch": 0.5798791918350343,
9750
+ "grad_norm": 0.5312255620956421,
9751
+ "learning_rate": 4.06968902424108e-06,
9752
+ "loss": 2.3272,
9753
+ "step": 1392
9754
+ },
9755
+ {
9756
+ "epoch": 0.5802957717142262,
9757
+ "grad_norm": 0.5147542953491211,
9758
+ "learning_rate": 4.030811756228331e-06,
9759
+ "loss": 2.3233,
9760
+ "step": 1393
9761
+ },
9762
+ {
9763
+ "epoch": 0.580712351593418,
9764
+ "grad_norm": 0.5263500213623047,
9765
+ "learning_rate": 3.99211327478361e-06,
9766
+ "loss": 2.2691,
9767
+ "step": 1394
9768
+ },
9769
+ {
9770
+ "epoch": 0.5811289314726099,
9771
+ "grad_norm": 0.5341267585754395,
9772
+ "learning_rate": 3.953593730415745e-06,
9773
+ "loss": 2.144,
9774
+ "step": 1395
9775
+ },
9776
+ {
9777
+ "epoch": 0.5815455113518017,
9778
+ "grad_norm": 0.5725787281990051,
9779
+ "learning_rate": 3.915253272937613e-06,
9780
+ "loss": 2.1749,
9781
+ "step": 1396
9782
+ },
9783
+ {
9784
+ "epoch": 0.5819620912309935,
9785
+ "grad_norm": 0.5373120307922363,
9786
+ "learning_rate": 3.877092051465614e-06,
9787
+ "loss": 2.1293,
9788
+ "step": 1397
9789
+ },
9790
+ {
9791
+ "epoch": 0.5823786711101854,
9792
+ "grad_norm": 0.5862066149711609,
9793
+ "learning_rate": 3.839110214419017e-06,
9794
+ "loss": 2.2286,
9795
+ "step": 1398
9796
+ },
9797
+ {
9798
+ "epoch": 0.5827952509893772,
9799
+ "grad_norm": 0.6132252216339111,
9800
+ "learning_rate": 3.8013079095194304e-06,
9801
+ "loss": 2.2992,
9802
+ "step": 1399
9803
+ },
9804
+ {
9805
+ "epoch": 0.5832118308685691,
9806
+ "grad_norm": 1.0293792486190796,
9807
+ "learning_rate": 3.763685283790208e-06,
9808
+ "loss": 2.2717,
9809
+ "step": 1400
9810
+ },
9811
+ {
9812
+ "epoch": 0.5836284107477608,
9813
+ "grad_norm": 0.3628023564815521,
9814
+ "learning_rate": 3.7262424835558917e-06,
9815
+ "loss": 2.1814,
9816
+ "step": 1401
9817
+ },
9818
+ {
9819
+ "epoch": 0.5840449906269527,
9820
+ "grad_norm": 0.38038867712020874,
9821
+ "learning_rate": 3.6889796544416267e-06,
9822
+ "loss": 2.1976,
9823
+ "step": 1402
9824
+ },
9825
+ {
9826
+ "epoch": 0.5844615705061446,
9827
+ "grad_norm": 0.395766943693161,
9828
+ "learning_rate": 3.6518969413725903e-06,
9829
+ "loss": 2.2299,
9830
+ "step": 1403
9831
+ },
9832
+ {
9833
+ "epoch": 0.5848781503853364,
9834
+ "grad_norm": 0.44534817337989807,
9835
+ "learning_rate": 3.6149944885734756e-06,
9836
+ "loss": 2.1294,
9837
+ "step": 1404
9838
+ },
9839
+ {
9840
+ "epoch": 0.5852947302645283,
9841
+ "grad_norm": 0.4051525890827179,
9842
+ "learning_rate": 3.578272439567848e-06,
9843
+ "loss": 2.2731,
9844
+ "step": 1405
9845
+ },
9846
+ {
9847
+ "epoch": 0.58571131014372,
9848
+ "grad_norm": 0.37931153178215027,
9849
+ "learning_rate": 3.5417309371776675e-06,
9850
+ "loss": 2.1129,
9851
+ "step": 1406
9852
+ },
9853
+ {
9854
+ "epoch": 0.5861278900229119,
9855
+ "grad_norm": 0.44215741753578186,
9856
+ "learning_rate": 3.505370123522689e-06,
9857
+ "loss": 2.0779,
9858
+ "step": 1407
9859
+ },
9860
+ {
9861
+ "epoch": 0.5865444699021037,
9862
+ "grad_norm": 0.4249580502510071,
9863
+ "learning_rate": 3.4691901400199235e-06,
9864
+ "loss": 2.2216,
9865
+ "step": 1408
9866
+ },
9867
+ {
9868
+ "epoch": 0.5869610497812956,
9869
+ "grad_norm": 0.4146334230899811,
9870
+ "learning_rate": 3.4331911273830784e-06,
9871
+ "loss": 2.1824,
9872
+ "step": 1409
9873
+ },
9874
+ {
9875
+ "epoch": 0.5873776296604873,
9876
+ "grad_norm": 0.3934686481952667,
9877
+ "learning_rate": 3.3973732256220246e-06,
9878
+ "loss": 2.1035,
9879
+ "step": 1410
9880
+ },
9881
+ {
9882
+ "epoch": 0.5877942095396792,
9883
+ "grad_norm": 0.4455997943878174,
9884
+ "learning_rate": 3.3617365740422456e-06,
9885
+ "loss": 2.1365,
9886
+ "step": 1411
9887
+ },
9888
+ {
9889
+ "epoch": 0.5882107894188711,
9890
+ "grad_norm": 0.4235437214374542,
9891
+ "learning_rate": 3.326281311244267e-06,
9892
+ "loss": 2.2011,
9893
+ "step": 1412
9894
+ },
9895
+ {
9896
+ "epoch": 0.5886273692980629,
9897
+ "grad_norm": 0.4142230153083801,
9898
+ "learning_rate": 3.2910075751231895e-06,
9899
+ "loss": 2.1224,
9900
+ "step": 1413
9901
+ },
9902
+ {
9903
+ "epoch": 0.5890439491772548,
9904
+ "grad_norm": 0.42072489857673645,
9905
+ "learning_rate": 3.255915502868062e-06,
9906
+ "loss": 2.1745,
9907
+ "step": 1414
9908
+ },
9909
+ {
9910
+ "epoch": 0.5894605290564465,
9911
+ "grad_norm": 0.43629273772239685,
9912
+ "learning_rate": 3.2210052309614437e-06,
9913
+ "loss": 2.1543,
9914
+ "step": 1415
9915
+ },
9916
+ {
9917
+ "epoch": 0.5898771089356384,
9918
+ "grad_norm": 0.42446547746658325,
9919
+ "learning_rate": 3.186276895178775e-06,
9920
+ "loss": 2.117,
9921
+ "step": 1416
9922
+ },
9923
+ {
9924
+ "epoch": 0.5902936888148302,
9925
+ "grad_norm": 0.43842992186546326,
9926
+ "learning_rate": 3.151730630587912e-06,
9927
+ "loss": 2.0253,
9928
+ "step": 1417
9929
+ },
9930
+ {
9931
+ "epoch": 0.5907102686940221,
9932
+ "grad_norm": 0.44594523310661316,
9933
+ "learning_rate": 3.117366571548608e-06,
9934
+ "loss": 2.3175,
9935
+ "step": 1418
9936
+ },
9937
+ {
9938
+ "epoch": 0.591126848573214,
9939
+ "grad_norm": 0.43836236000061035,
9940
+ "learning_rate": 3.0831848517119454e-06,
9941
+ "loss": 2.1398,
9942
+ "step": 1419
9943
+ },
9944
+ {
9945
+ "epoch": 0.5915434284524057,
9946
+ "grad_norm": 0.42096608877182007,
9947
+ "learning_rate": 3.0491856040198606e-06,
9948
+ "loss": 2.2345,
9949
+ "step": 1420
9950
+ },
9951
+ {
9952
+ "epoch": 0.5919600083315976,
9953
+ "grad_norm": 0.4303555190563202,
9954
+ "learning_rate": 3.0153689607045845e-06,
9955
+ "loss": 2.0476,
9956
+ "step": 1421
9957
+ },
9958
+ {
9959
+ "epoch": 0.5923765882107894,
9960
+ "grad_norm": 0.49172818660736084,
9961
+ "learning_rate": 2.981735053288165e-06,
9962
+ "loss": 2.2606,
9963
+ "step": 1422
9964
+ },
9965
+ {
9966
+ "epoch": 0.5927931680899813,
9967
+ "grad_norm": 0.4514530599117279,
9968
+ "learning_rate": 2.9482840125819254e-06,
9969
+ "loss": 2.2732,
9970
+ "step": 1423
9971
+ },
9972
+ {
9973
+ "epoch": 0.5932097479691731,
9974
+ "grad_norm": 0.46950235962867737,
9975
+ "learning_rate": 2.915015968686002e-06,
9976
+ "loss": 2.2154,
9977
+ "step": 1424
9978
+ },
9979
+ {
9980
+ "epoch": 0.5936263278483649,
9981
+ "grad_norm": 0.6510283946990967,
9982
+ "learning_rate": 2.8819310509887844e-06,
9983
+ "loss": 2.2183,
9984
+ "step": 1425
9985
+ },
9986
+ {
9987
+ "epoch": 0.5940429077275567,
9988
+ "grad_norm": 0.4346058964729309,
9989
+ "learning_rate": 2.8490293881664187e-06,
9990
+ "loss": 2.2303,
9991
+ "step": 1426
9992
+ },
9993
+ {
9994
+ "epoch": 0.5944594876067486,
9995
+ "grad_norm": 0.46655917167663574,
9996
+ "learning_rate": 2.816311108182368e-06,
9997
+ "loss": 2.2119,
9998
+ "step": 1427
9999
+ },
10000
+ {
10001
+ "epoch": 0.5948760674859405,
10002
+ "grad_norm": 0.4653722941875458,
10003
+ "learning_rate": 2.7837763382868255e-06,
10004
+ "loss": 2.2797,
10005
+ "step": 1428
10006
+ },
10007
+ {
10008
+ "epoch": 0.5952926473651322,
10009
+ "grad_norm": 0.436707466840744,
10010
+ "learning_rate": 2.7514252050163e-06,
10011
+ "loss": 2.1124,
10012
+ "step": 1429
10013
+ },
10014
+ {
10015
+ "epoch": 0.5957092272443241,
10016
+ "grad_norm": 0.48595985770225525,
10017
+ "learning_rate": 2.7192578341930618e-06,
10018
+ "loss": 2.1141,
10019
+ "step": 1430
10020
+ },
10021
+ {
10022
+ "epoch": 0.5961258071235159,
10023
+ "grad_norm": 0.45693573355674744,
10024
+ "learning_rate": 2.6872743509246957e-06,
10025
+ "loss": 2.1458,
10026
+ "step": 1431
10027
+ },
10028
+ {
10029
+ "epoch": 0.5965423870027078,
10030
+ "grad_norm": 0.505688488483429,
10031
+ "learning_rate": 2.6554748796035866e-06,
10032
+ "loss": 2.2593,
10033
+ "step": 1432
10034
+ },
10035
+ {
10036
+ "epoch": 0.5969589668818996,
10037
+ "grad_norm": 0.48864802718162537,
10038
+ "learning_rate": 2.6238595439064484e-06,
10039
+ "loss": 2.2106,
10040
+ "step": 1433
10041
+ },
10042
+ {
10043
+ "epoch": 0.5973755467610914,
10044
+ "grad_norm": 0.49326953291893005,
10045
+ "learning_rate": 2.5924284667938614e-06,
10046
+ "loss": 2.2302,
10047
+ "step": 1434
10048
+ },
10049
+ {
10050
+ "epoch": 0.5977921266402833,
10051
+ "grad_norm": 0.46278807520866394,
10052
+ "learning_rate": 2.561181770509741e-06,
10053
+ "loss": 2.0505,
10054
+ "step": 1435
10055
+ },
10056
+ {
10057
+ "epoch": 0.5982087065194751,
10058
+ "grad_norm": 0.440238356590271,
10059
+ "learning_rate": 2.530119576580936e-06,
10060
+ "loss": 2.2414,
10061
+ "step": 1436
10062
+ },
10063
+ {
10064
+ "epoch": 0.598625286398667,
10065
+ "grad_norm": 0.4914673864841461,
10066
+ "learning_rate": 2.4992420058166765e-06,
10067
+ "loss": 2.1614,
10068
+ "step": 1437
10069
+ },
10070
+ {
10071
+ "epoch": 0.5990418662778588,
10072
+ "grad_norm": 0.4985724985599518,
10073
+ "learning_rate": 2.4685491783081714e-06,
10074
+ "loss": 2.2197,
10075
+ "step": 1438
10076
+ },
10077
+ {
10078
+ "epoch": 0.5994584461570506,
10079
+ "grad_norm": 0.5183117389678955,
10080
+ "learning_rate": 2.4380412134280884e-06,
10081
+ "loss": 2.2139,
10082
+ "step": 1439
10083
+ },
10084
+ {
10085
+ "epoch": 0.5998750260362424,
10086
+ "grad_norm": 0.5157926082611084,
10087
+ "learning_rate": 2.4077182298301416e-06,
10088
+ "loss": 2.3266,
10089
+ "step": 1440
10090
+ },
10091
+ {
10092
+ "epoch": 0.6002916059154343,
10093
+ "grad_norm": 0.5392321348190308,
10094
+ "learning_rate": 2.3775803454485934e-06,
10095
+ "loss": 2.2959,
10096
+ "step": 1441
10097
+ },
10098
+ {
10099
+ "epoch": 0.6007081857946261,
10100
+ "grad_norm": 0.5534506440162659,
10101
+ "learning_rate": 2.347627677497788e-06,
10102
+ "loss": 2.27,
10103
+ "step": 1442
10104
+ },
10105
+ {
10106
+ "epoch": 0.601124765673818,
10107
+ "grad_norm": 0.5261732339859009,
10108
+ "learning_rate": 2.3178603424717395e-06,
10109
+ "loss": 2.2333,
10110
+ "step": 1443
10111
+ },
10112
+ {
10113
+ "epoch": 0.6015413455530098,
10114
+ "grad_norm": 0.5616102814674377,
10115
+ "learning_rate": 2.2882784561436275e-06,
10116
+ "loss": 2.282,
10117
+ "step": 1444
10118
+ },
10119
+ {
10120
+ "epoch": 0.6019579254322016,
10121
+ "grad_norm": 0.5356156229972839,
10122
+ "learning_rate": 2.258882133565404e-06,
10123
+ "loss": 2.0994,
10124
+ "step": 1445
10125
+ },
10126
+ {
10127
+ "epoch": 0.6023745053113935,
10128
+ "grad_norm": 0.5574761629104614,
10129
+ "learning_rate": 2.229671489067281e-06,
10130
+ "loss": 2.2651,
10131
+ "step": 1446
10132
+ },
10133
+ {
10134
+ "epoch": 0.6027910851905853,
10135
+ "grad_norm": 0.561643123626709,
10136
+ "learning_rate": 2.2006466362573306e-06,
10137
+ "loss": 2.2072,
10138
+ "step": 1447
10139
+ },
10140
+ {
10141
+ "epoch": 0.6032076650697771,
10142
+ "grad_norm": 0.5972204208374023,
10143
+ "learning_rate": 2.1718076880210327e-06,
10144
+ "loss": 2.3453,
10145
+ "step": 1448
10146
+ },
10147
+ {
10148
+ "epoch": 0.6036242449489689,
10149
+ "grad_norm": 0.5803166627883911,
10150
+ "learning_rate": 2.143154756520832e-06,
10151
+ "loss": 2.2736,
10152
+ "step": 1449
10153
+ },
10154
+ {
10155
+ "epoch": 0.6040408248281608,
10156
+ "grad_norm": 0.6789401769638062,
10157
+ "learning_rate": 2.1146879531957155e-06,
10158
+ "loss": 2.3797,
10159
+ "step": 1450
10160
+ },
10161
+ {
10162
+ "epoch": 0.6044574047073527,
10163
+ "grad_norm": 0.37630099058151245,
10164
+ "learning_rate": 2.0864073887607416e-06,
10165
+ "loss": 2.0858,
10166
+ "step": 1451
10167
+ },
10168
+ {
10169
+ "epoch": 0.6048739845865445,
10170
+ "grad_norm": 0.3744637370109558,
10171
+ "learning_rate": 2.058313173206661e-06,
10172
+ "loss": 2.1679,
10173
+ "step": 1452
10174
+ },
10175
+ {
10176
+ "epoch": 0.6052905644657363,
10177
+ "grad_norm": 0.3858438730239868,
10178
+ "learning_rate": 2.0304054157994525e-06,
10179
+ "loss": 2.1499,
10180
+ "step": 1453
10181
+ },
10182
+ {
10183
+ "epoch": 0.6057071443449281,
10184
+ "grad_norm": 0.4133443832397461,
10185
+ "learning_rate": 2.0026842250799038e-06,
10186
+ "loss": 2.1605,
10187
+ "step": 1454
10188
+ },
10189
+ {
10190
+ "epoch": 0.60612372422412,
10191
+ "grad_norm": 0.40560242533683777,
10192
+ "learning_rate": 1.975149708863205e-06,
10193
+ "loss": 2.0838,
10194
+ "step": 1455
10195
+ },
10196
+ {
10197
+ "epoch": 0.6065403041033118,
10198
+ "grad_norm": 0.391827791929245,
10199
+ "learning_rate": 1.9478019742385113e-06,
10200
+ "loss": 2.1384,
10201
+ "step": 1456
10202
+ },
10203
+ {
10204
+ "epoch": 0.6069568839825037,
10205
+ "grad_norm": 0.4195277988910675,
10206
+ "learning_rate": 1.92064112756854e-06,
10207
+ "loss": 2.0542,
10208
+ "step": 1457
10209
+ },
10210
+ {
10211
+ "epoch": 0.6073734638616954,
10212
+ "grad_norm": 0.40138891339302063,
10213
+ "learning_rate": 1.893667274489136e-06,
10214
+ "loss": 2.1876,
10215
+ "step": 1458
10216
+ },
10217
+ {
10218
+ "epoch": 0.6077900437408873,
10219
+ "grad_norm": 0.42072543501853943,
10220
+ "learning_rate": 1.866880519908909e-06,
10221
+ "loss": 2.1337,
10222
+ "step": 1459
10223
+ },
10224
+ {
10225
+ "epoch": 0.6082066236200792,
10226
+ "grad_norm": 0.4126233458518982,
10227
+ "learning_rate": 1.8402809680087452e-06,
10228
+ "loss": 2.1252,
10229
+ "step": 1460
10230
+ },
10231
+ {
10232
+ "epoch": 0.608623203499271,
10233
+ "grad_norm": 0.4317125380039215,
10234
+ "learning_rate": 1.8138687222414962e-06,
10235
+ "loss": 2.2389,
10236
+ "step": 1461
10237
+ },
10238
+ {
10239
+ "epoch": 0.6090397833784629,
10240
+ "grad_norm": 0.4322243928909302,
10241
+ "learning_rate": 1.787643885331497e-06,
10242
+ "loss": 2.1097,
10243
+ "step": 1462
10244
+ },
10245
+ {
10246
+ "epoch": 0.6094563632576546,
10247
+ "grad_norm": 0.3994523882865906,
10248
+ "learning_rate": 1.7616065592742038e-06,
10249
+ "loss": 2.1334,
10250
+ "step": 1463
10251
+ },
10252
+ {
10253
+ "epoch": 0.6098729431368465,
10254
+ "grad_norm": 0.439184308052063,
10255
+ "learning_rate": 1.735756845335812e-06,
10256
+ "loss": 2.2396,
10257
+ "step": 1464
10258
+ },
10259
+ {
10260
+ "epoch": 0.6102895230160383,
10261
+ "grad_norm": 0.42550763487815857,
10262
+ "learning_rate": 1.710094844052812e-06,
10263
+ "loss": 2.2612,
10264
+ "step": 1465
10265
+ },
10266
+ {
10267
+ "epoch": 0.6107061028952302,
10268
+ "grad_norm": 0.4296604096889496,
10269
+ "learning_rate": 1.6846206552316612e-06,
10270
+ "loss": 2.1427,
10271
+ "step": 1466
10272
+ },
10273
+ {
10274
+ "epoch": 0.6111226827744219,
10275
+ "grad_norm": 0.47978174686431885,
10276
+ "learning_rate": 1.6593343779483517e-06,
10277
+ "loss": 2.1704,
10278
+ "step": 1467
10279
+ },
10280
+ {
10281
+ "epoch": 0.6115392626536138,
10282
+ "grad_norm": 0.43665987253189087,
10283
+ "learning_rate": 1.6342361105480096e-06,
10284
+ "loss": 2.1245,
10285
+ "step": 1468
10286
+ },
10287
+ {
10288
+ "epoch": 0.6119558425328057,
10289
+ "grad_norm": 0.467197060585022,
10290
+ "learning_rate": 1.6093259506445913e-06,
10291
+ "loss": 2.2824,
10292
+ "step": 1469
10293
+ },
10294
+ {
10295
+ "epoch": 0.6123724224119975,
10296
+ "grad_norm": 0.4877012073993683,
10297
+ "learning_rate": 1.5846039951204096e-06,
10298
+ "loss": 2.1825,
10299
+ "step": 1470
10300
+ },
10301
+ {
10302
+ "epoch": 0.6127890022911894,
10303
+ "grad_norm": 0.42274004220962524,
10304
+ "learning_rate": 1.5600703401258298e-06,
10305
+ "loss": 2.2681,
10306
+ "step": 1471
10307
+ },
10308
+ {
10309
+ "epoch": 0.6132055821703811,
10310
+ "grad_norm": 0.44951850175857544,
10311
+ "learning_rate": 1.5357250810788314e-06,
10312
+ "loss": 2.1808,
10313
+ "step": 1472
10314
+ },
10315
+ {
10316
+ "epoch": 0.613622162049573,
10317
+ "grad_norm": 0.46898871660232544,
10318
+ "learning_rate": 1.5115683126647073e-06,
10319
+ "loss": 2.3322,
10320
+ "step": 1473
10321
+ },
10322
+ {
10323
+ "epoch": 0.6140387419287648,
10324
+ "grad_norm": 0.47944626212120056,
10325
+ "learning_rate": 1.4876001288356312e-06,
10326
+ "loss": 2.2514,
10327
+ "step": 1474
10328
+ },
10329
+ {
10330
+ "epoch": 0.6144553218079567,
10331
+ "grad_norm": 0.472414493560791,
10332
+ "learning_rate": 1.4638206228103413e-06,
10333
+ "loss": 2.1953,
10334
+ "step": 1475
10335
+ },
10336
+ {
10337
+ "epoch": 0.6148719016871486,
10338
+ "grad_norm": 0.4496370255947113,
10339
+ "learning_rate": 1.4402298870737519e-06,
10340
+ "loss": 2.1316,
10341
+ "step": 1476
10342
+ },
10343
+ {
10344
+ "epoch": 0.6152884815663403,
10345
+ "grad_norm": 0.47646018862724304,
10346
+ "learning_rate": 1.416828013376581e-06,
10347
+ "loss": 2.2501,
10348
+ "step": 1477
10349
+ },
10350
+ {
10351
+ "epoch": 0.6157050614455322,
10352
+ "grad_norm": 0.46072840690612793,
10353
+ "learning_rate": 1.39361509273504e-06,
10354
+ "loss": 2.2411,
10355
+ "step": 1478
10356
+ },
10357
+ {
10358
+ "epoch": 0.616121641324724,
10359
+ "grad_norm": 0.4801056385040283,
10360
+ "learning_rate": 1.3705912154304224e-06,
10361
+ "loss": 2.1061,
10362
+ "step": 1479
10363
+ },
10364
+ {
10365
+ "epoch": 0.6165382212039159,
10366
+ "grad_norm": 0.4991438388824463,
10367
+ "learning_rate": 1.3477564710088098e-06,
10368
+ "loss": 2.1523,
10369
+ "step": 1480
10370
+ },
10371
+ {
10372
+ "epoch": 0.6169548010831077,
10373
+ "grad_norm": 0.46082231402397156,
10374
+ "learning_rate": 1.3251109482806666e-06,
10375
+ "loss": 2.0674,
10376
+ "step": 1481
10377
+ },
10378
+ {
10379
+ "epoch": 0.6173713809622995,
10380
+ "grad_norm": 0.5152682065963745,
10381
+ "learning_rate": 1.302654735320552e-06,
10382
+ "loss": 2.1793,
10383
+ "step": 1482
10384
+ },
10385
+ {
10386
+ "epoch": 0.6177879608414913,
10387
+ "grad_norm": 0.47470808029174805,
10388
+ "learning_rate": 1.2803879194667246e-06,
10389
+ "loss": 2.1302,
10390
+ "step": 1483
10391
+ },
10392
+ {
10393
+ "epoch": 0.6182045407206832,
10394
+ "grad_norm": 0.4618239402770996,
10395
+ "learning_rate": 1.2583105873208267e-06,
10396
+ "loss": 2.0966,
10397
+ "step": 1484
10398
+ },
10399
+ {
10400
+ "epoch": 0.6186211205998751,
10401
+ "grad_norm": 0.483643501996994,
10402
+ "learning_rate": 1.2364228247475683e-06,
10403
+ "loss": 2.2631,
10404
+ "step": 1485
10405
+ },
10406
+ {
10407
+ "epoch": 0.6190377004790668,
10408
+ "grad_norm": 0.4786933660507202,
10409
+ "learning_rate": 1.2147247168743547e-06,
10410
+ "loss": 2.0714,
10411
+ "step": 1486
10412
+ },
10413
+ {
10414
+ "epoch": 0.6194542803582587,
10415
+ "grad_norm": 0.5250565409660339,
10416
+ "learning_rate": 1.1932163480909865e-06,
10417
+ "loss": 2.265,
10418
+ "step": 1487
10419
+ },
10420
+ {
10421
+ "epoch": 0.6198708602374505,
10422
+ "grad_norm": 0.5278326272964478,
10423
+ "learning_rate": 1.1718978020492988e-06,
10424
+ "loss": 2.3252,
10425
+ "step": 1488
10426
+ },
10427
+ {
10428
+ "epoch": 0.6202874401166424,
10429
+ "grad_norm": 0.4978008568286896,
10430
+ "learning_rate": 1.150769161662868e-06,
10431
+ "loss": 2.1351,
10432
+ "step": 1489
10433
+ },
10434
+ {
10435
+ "epoch": 0.6207040199958342,
10436
+ "grad_norm": 0.503657341003418,
10437
+ "learning_rate": 1.1298305091066664e-06,
10438
+ "loss": 2.1816,
10439
+ "step": 1490
10440
+ },
10441
+ {
10442
+ "epoch": 0.621120599875026,
10443
+ "grad_norm": 0.4968448281288147,
10444
+ "learning_rate": 1.1090819258167795e-06,
10445
+ "loss": 2.1719,
10446
+ "step": 1491
10447
+ },
10448
+ {
10449
+ "epoch": 0.6215371797542179,
10450
+ "grad_norm": 0.47265180945396423,
10451
+ "learning_rate": 1.0885234924900233e-06,
10452
+ "loss": 2.1128,
10453
+ "step": 1492
10454
+ },
10455
+ {
10456
+ "epoch": 0.6219537596334097,
10457
+ "grad_norm": 0.5009278059005737,
10458
+ "learning_rate": 1.0681552890836944e-06,
10459
+ "loss": 2.1928,
10460
+ "step": 1493
10461
+ },
10462
+ {
10463
+ "epoch": 0.6223703395126016,
10464
+ "grad_norm": 0.5196132063865662,
10465
+ "learning_rate": 1.0479773948152306e-06,
10466
+ "loss": 2.1684,
10467
+ "step": 1494
10468
+ },
10469
+ {
10470
+ "epoch": 0.6227869193917934,
10471
+ "grad_norm": 0.5334997177124023,
10472
+ "learning_rate": 1.027989888161901e-06,
10473
+ "loss": 2.2935,
10474
+ "step": 1495
10475
+ },
10476
+ {
10477
+ "epoch": 0.6232034992709852,
10478
+ "grad_norm": 0.5558013319969177,
10479
+ "learning_rate": 1.0081928468605118e-06,
10480
+ "loss": 2.2524,
10481
+ "step": 1496
10482
+ },
10483
+ {
10484
+ "epoch": 0.623620079150177,
10485
+ "grad_norm": 0.5635661482810974,
10486
+ "learning_rate": 9.88586347907089e-07,
10487
+ "loss": 2.0852,
10488
+ "step": 1497
10489
+ },
10490
+ {
10491
+ "epoch": 0.6240366590293689,
10492
+ "grad_norm": 0.5811219811439514,
10493
+ "learning_rate": 9.691704675565905e-07,
10494
+ "loss": 2.2478,
10495
+ "step": 1498
10496
+ },
10497
+ {
10498
+ "epoch": 0.6244532389085607,
10499
+ "grad_norm": 0.6354938745498657,
10500
+ "learning_rate": 9.499452813226284e-07,
10501
+ "loss": 2.2547,
10502
+ "step": 1499
10503
+ },
10504
+ {
10505
+ "epoch": 0.6248698187877526,
10506
+ "grad_norm": 0.7180959582328796,
10507
+ "learning_rate": 9.309108639771136e-07,
10508
+ "loss": 2.3821,
10509
+ "step": 1500
10510
+ },
10511
+ {
10512
+ "epoch": 0.6252863986669444,
10513
+ "grad_norm": 0.34574657678604126,
10514
+ "learning_rate": 9.120672895500393e-07,
10515
+ "loss": 2.0427,
10516
+ "step": 1501
10517
+ },
10518
+ {
10519
+ "epoch": 0.6257029785461362,
10520
+ "grad_norm": 0.3725878596305847,
10521
+ "learning_rate": 8.934146313291425e-07,
10522
+ "loss": 2.0809,
10523
+ "step": 1502
10524
+ },
10525
+ {
10526
+ "epoch": 0.6261195584253281,
10527
+ "grad_norm": 0.3956831097602844,
10528
+ "learning_rate": 8.749529618596486e-07,
10529
+ "loss": 2.1458,
10530
+ "step": 1503
10531
+ },
10532
+ {
10533
+ "epoch": 0.6265361383045199,
10534
+ "grad_norm": 0.4244229793548584,
10535
+ "learning_rate": 8.56682352943966e-07,
10536
+ "loss": 2.1551,
10537
+ "step": 1504
10538
+ },
10539
+ {
10540
+ "epoch": 0.6269527181837117,
10541
+ "grad_norm": 0.4060150384902954,
10542
+ "learning_rate": 8.386028756414089e-07,
10543
+ "loss": 2.0259,
10544
+ "step": 1505
10545
+ },
10546
+ {
10547
+ "epoch": 0.6273692980629035,
10548
+ "grad_norm": 0.3999885022640228,
10549
+ "learning_rate": 8.207146002679523e-07,
10550
+ "loss": 2.1497,
10551
+ "step": 1506
10552
+ },
10553
+ {
10554
+ "epoch": 0.6277858779420954,
10555
+ "grad_norm": 0.4191332757472992,
10556
+ "learning_rate": 8.030175963959108e-07,
10557
+ "loss": 2.1944,
10558
+ "step": 1507
10559
+ },
10560
+ {
10561
+ "epoch": 0.6282024578212873,
10562
+ "grad_norm": 0.43755659461021423,
10563
+ "learning_rate": 7.855119328537109e-07,
10564
+ "loss": 2.1872,
10565
+ "step": 1508
10566
+ },
10567
+ {
10568
+ "epoch": 0.6286190377004791,
10569
+ "grad_norm": 0.43631330132484436,
10570
+ "learning_rate": 7.681976777255961e-07,
10571
+ "loss": 2.2692,
10572
+ "step": 1509
10573
+ },
10574
+ {
10575
+ "epoch": 0.6290356175796709,
10576
+ "grad_norm": 0.44572728872299194,
10577
+ "learning_rate": 7.510748983513783e-07,
10578
+ "loss": 2.2305,
10579
+ "step": 1510
10580
+ },
10581
+ {
10582
+ "epoch": 0.6294521974588627,
10583
+ "grad_norm": 0.41270124912261963,
10584
+ "learning_rate": 7.341436613261532e-07,
10585
+ "loss": 2.1961,
10586
+ "step": 1511
10587
+ },
10588
+ {
10589
+ "epoch": 0.6298687773380546,
10590
+ "grad_norm": 0.4134480655193329,
10591
+ "learning_rate": 7.174040325000797e-07,
10592
+ "loss": 2.187,
10593
+ "step": 1512
10594
+ },
10595
+ {
10596
+ "epoch": 0.6302853572172464,
10597
+ "grad_norm": 0.43170493841171265,
10598
+ "learning_rate": 7.008560769780792e-07,
10599
+ "loss": 2.12,
10600
+ "step": 1513
10601
+ },
10602
+ {
10603
+ "epoch": 0.6307019370964383,
10604
+ "grad_norm": 0.4855658710002899,
10605
+ "learning_rate": 6.844998591196138e-07,
10606
+ "loss": 2.1298,
10607
+ "step": 1514
10608
+ },
10609
+ {
10610
+ "epoch": 0.63111851697563,
10611
+ "grad_norm": 0.4488075077533722,
10612
+ "learning_rate": 6.683354425384259e-07,
10613
+ "loss": 2.1919,
10614
+ "step": 1515
10615
+ },
10616
+ {
10617
+ "epoch": 0.6315350968548219,
10618
+ "grad_norm": 0.4441848397254944,
10619
+ "learning_rate": 6.523628901022927e-07,
10620
+ "loss": 2.1476,
10621
+ "step": 1516
10622
+ },
10623
+ {
10624
+ "epoch": 0.6319516767340138,
10625
+ "grad_norm": 0.4448429048061371,
10626
+ "learning_rate": 6.365822639327723e-07,
10627
+ "loss": 2.065,
10628
+ "step": 1517
10629
+ },
10630
+ {
10631
+ "epoch": 0.6323682566132056,
10632
+ "grad_norm": 0.4354341924190521,
10633
+ "learning_rate": 6.209936254049809e-07,
10634
+ "loss": 2.1896,
10635
+ "step": 1518
10636
+ },
10637
+ {
10638
+ "epoch": 0.6327848364923974,
10639
+ "grad_norm": 0.44121915102005005,
10640
+ "learning_rate": 6.055970351473261e-07,
10641
+ "loss": 2.0895,
10642
+ "step": 1519
10643
+ },
10644
+ {
10645
+ "epoch": 0.6332014163715892,
10646
+ "grad_norm": 0.44546177983283997,
10647
+ "learning_rate": 5.903925530413135e-07,
10648
+ "loss": 2.0544,
10649
+ "step": 1520
10650
+ },
10651
+ {
10652
+ "epoch": 0.6336179962507811,
10653
+ "grad_norm": 0.4857303202152252,
10654
+ "learning_rate": 5.753802382212625e-07,
10655
+ "loss": 2.1827,
10656
+ "step": 1521
10657
+ },
10658
+ {
10659
+ "epoch": 0.6340345761299729,
10660
+ "grad_norm": 0.4315418004989624,
10661
+ "learning_rate": 5.605601490741241e-07,
10662
+ "loss": 2.1325,
10663
+ "step": 1522
10664
+ },
10665
+ {
10666
+ "epoch": 0.6344511560091648,
10667
+ "grad_norm": 0.46684661507606506,
10668
+ "learning_rate": 5.459323432392083e-07,
10669
+ "loss": 2.1638,
10670
+ "step": 1523
10671
+ },
10672
+ {
10673
+ "epoch": 0.6348677358883565,
10674
+ "grad_norm": 0.49080562591552734,
10675
+ "learning_rate": 5.314968776080009e-07,
10676
+ "loss": 2.2624,
10677
+ "step": 1524
10678
+ },
10679
+ {
10680
+ "epoch": 0.6352843157675484,
10681
+ "grad_norm": 0.4543081820011139,
10682
+ "learning_rate": 5.172538083239197e-07,
10683
+ "loss": 2.218,
10684
+ "step": 1525
10685
+ },
10686
+ {
10687
+ "epoch": 0.6357008956467403,
10688
+ "grad_norm": 0.4865744113922119,
10689
+ "learning_rate": 5.032031907821089e-07,
10690
+ "loss": 2.0499,
10691
+ "step": 1526
10692
+ },
10693
+ {
10694
+ "epoch": 0.6361174755259321,
10695
+ "grad_norm": 0.4952188730239868,
10696
+ "learning_rate": 4.893450796291999e-07,
10697
+ "loss": 2.2702,
10698
+ "step": 1527
10699
+ },
10700
+ {
10701
+ "epoch": 0.636534055405124,
10702
+ "grad_norm": 0.4662850499153137,
10703
+ "learning_rate": 4.7567952876312884e-07,
10704
+ "loss": 2.0191,
10705
+ "step": 1528
10706
+ },
10707
+ {
10708
+ "epoch": 0.6369506352843157,
10709
+ "grad_norm": 0.4703667163848877,
10710
+ "learning_rate": 4.6220659133290325e-07,
10711
+ "loss": 2.1969,
10712
+ "step": 1529
10713
+ },
10714
+ {
10715
+ "epoch": 0.6373672151635076,
10716
+ "grad_norm": 0.4602733850479126,
10717
+ "learning_rate": 4.48926319738413e-07,
10718
+ "loss": 2.1302,
10719
+ "step": 1530
10720
+ },
10721
+ {
10722
+ "epoch": 0.6377837950426994,
10723
+ "grad_norm": 0.49774935841560364,
10724
+ "learning_rate": 4.358387656302143e-07,
10725
+ "loss": 2.1577,
10726
+ "step": 1531
10727
+ },
10728
+ {
10729
+ "epoch": 0.6382003749218913,
10730
+ "grad_norm": 0.4763321876525879,
10731
+ "learning_rate": 4.2294397990932934e-07,
10732
+ "loss": 2.262,
10733
+ "step": 1532
10734
+ },
10735
+ {
10736
+ "epoch": 0.6386169548010832,
10737
+ "grad_norm": 0.5135960578918457,
10738
+ "learning_rate": 4.10242012727069e-07,
10739
+ "loss": 2.1379,
10740
+ "step": 1533
10741
+ },
10742
+ {
10743
+ "epoch": 0.6390335346802749,
10744
+ "grad_norm": 0.4936571419239044,
10745
+ "learning_rate": 3.9773291348479405e-07,
10746
+ "loss": 2.1328,
10747
+ "step": 1534
10748
+ },
10749
+ {
10750
+ "epoch": 0.6394501145594668,
10751
+ "grad_norm": 0.4480665624141693,
10752
+ "learning_rate": 3.854167308337708e-07,
10753
+ "loss": 2.1657,
10754
+ "step": 1535
10755
+ },
10756
+ {
10757
+ "epoch": 0.6398666944386586,
10758
+ "grad_norm": 0.5286336541175842,
10759
+ "learning_rate": 3.732935126749604e-07,
10760
+ "loss": 2.2341,
10761
+ "step": 1536
10762
+ },
10763
+ {
10764
+ "epoch": 0.6402832743178505,
10765
+ "grad_norm": 0.48503080010414124,
10766
+ "learning_rate": 3.613633061588184e-07,
10767
+ "loss": 2.1333,
10768
+ "step": 1537
10769
+ },
10770
+ {
10771
+ "epoch": 0.6406998541970422,
10772
+ "grad_norm": 0.47150424122810364,
10773
+ "learning_rate": 3.4962615768513453e-07,
10774
+ "loss": 2.1284,
10775
+ "step": 1538
10776
+ },
10777
+ {
10778
+ "epoch": 0.6411164340762341,
10779
+ "grad_norm": 0.5344295501708984,
10780
+ "learning_rate": 3.380821129028489e-07,
10781
+ "loss": 2.1414,
10782
+ "step": 1539
10783
+ },
10784
+ {
10785
+ "epoch": 0.641533013955426,
10786
+ "grad_norm": 0.5570894479751587,
10787
+ "learning_rate": 3.2673121670986907e-07,
10788
+ "loss": 2.1852,
10789
+ "step": 1540
10790
+ },
10791
+ {
10792
+ "epoch": 0.6419495938346178,
10793
+ "grad_norm": 0.5436847805976868,
10794
+ "learning_rate": 3.1557351325287586e-07,
10795
+ "loss": 2.1047,
10796
+ "step": 1541
10797
+ },
10798
+ {
10799
+ "epoch": 0.6423661737138097,
10800
+ "grad_norm": 0.515598475933075,
10801
+ "learning_rate": 3.046090459271955e-07,
10802
+ "loss": 2.1226,
10803
+ "step": 1542
10804
+ },
10805
+ {
10806
+ "epoch": 0.6427827535930014,
10807
+ "grad_norm": 0.5310966372489929,
10808
+ "learning_rate": 2.9383785737659985e-07,
10809
+ "loss": 2.1434,
10810
+ "step": 1543
10811
+ },
10812
+ {
10813
+ "epoch": 0.6431993334721933,
10814
+ "grad_norm": 0.52982097864151,
10815
+ "learning_rate": 2.8325998949314536e-07,
10816
+ "loss": 2.1901,
10817
+ "step": 1544
10818
+ },
10819
+ {
10820
+ "epoch": 0.6436159133513851,
10821
+ "grad_norm": 0.533441960811615,
10822
+ "learning_rate": 2.728754834170066e-07,
10823
+ "loss": 2.2461,
10824
+ "step": 1545
10825
+ },
10826
+ {
10827
+ "epoch": 0.644032493230577,
10828
+ "grad_norm": 0.5676113963127136,
10829
+ "learning_rate": 2.626843795363321e-07,
10830
+ "loss": 2.3176,
10831
+ "step": 1546
10832
+ },
10833
+ {
10834
+ "epoch": 0.6444490731097688,
10835
+ "grad_norm": 0.5590258240699768,
10836
+ "learning_rate": 2.526867174870717e-07,
10837
+ "loss": 2.1459,
10838
+ "step": 1547
10839
+ },
10840
+ {
10841
+ "epoch": 0.6448656529889606,
10842
+ "grad_norm": 0.6203082799911499,
10843
+ "learning_rate": 2.428825361528275e-07,
10844
+ "loss": 2.2837,
10845
+ "step": 1548
10846
+ },
10847
+ {
10848
+ "epoch": 0.6452822328681524,
10849
+ "grad_norm": 0.5960795879364014,
10850
+ "learning_rate": 2.3327187366470883e-07,
10851
+ "loss": 2.3547,
10852
+ "step": 1549
10853
+ },
10854
+ {
10855
+ "epoch": 0.6456988127473443,
10856
+ "grad_norm": 0.699540376663208,
10857
+ "learning_rate": 2.238547674011715e-07,
10858
+ "loss": 2.2972,
10859
+ "step": 1550
10860
+ },
10861
+ {
10862
+ "epoch": 0.6461153926265362,
10863
+ "grad_norm": 0.37149208784103394,
10864
+ "learning_rate": 2.1463125398787364e-07,
10865
+ "loss": 2.0706,
10866
+ "step": 1551
10867
+ },
10868
+ {
10869
+ "epoch": 0.646531972505728,
10870
+ "grad_norm": 0.38026919960975647,
10871
+ "learning_rate": 2.0560136929755892e-07,
10872
+ "loss": 2.0399,
10873
+ "step": 1552
10874
+ },
10875
+ {
10876
+ "epoch": 0.6469485523849198,
10877
+ "grad_norm": 0.7115801572799683,
10878
+ "learning_rate": 1.9676514844987337e-07,
10879
+ "loss": 2.0709,
10880
+ "step": 1553
10881
+ },
10882
+ {
10883
+ "epoch": 0.6473651322641116,
10884
+ "grad_norm": 0.38469597697257996,
10885
+ "learning_rate": 1.8812262581126562e-07,
10886
+ "loss": 2.0582,
10887
+ "step": 1554
10888
+ },
10889
+ {
10890
+ "epoch": 0.6477817121433035,
10891
+ "grad_norm": 0.38373446464538574,
10892
+ "learning_rate": 1.796738349948368e-07,
10893
+ "loss": 2.0111,
10894
+ "step": 1555
10895
+ },
10896
+ {
10897
+ "epoch": 0.6481982920224953,
10898
+ "grad_norm": 0.4103526771068573,
10899
+ "learning_rate": 1.714188088602131e-07,
10900
+ "loss": 2.0758,
10901
+ "step": 1556
10902
+ },
10903
+ {
10904
+ "epoch": 0.6486148719016871,
10905
+ "grad_norm": 0.4074265956878662,
10906
+ "learning_rate": 1.633575795134179e-07,
10907
+ "loss": 2.1847,
10908
+ "step": 1557
10909
+ },
10910
+ {
10911
+ "epoch": 0.649031451780879,
10912
+ "grad_norm": 0.4106631577014923,
10913
+ "learning_rate": 1.5549017830674418e-07,
10914
+ "loss": 2.0789,
10915
+ "step": 1558
10916
+ },
10917
+ {
10918
+ "epoch": 0.6494480316600708,
10919
+ "grad_norm": 0.4176217317581177,
10920
+ "learning_rate": 1.4781663583863793e-07,
10921
+ "loss": 2.1993,
10922
+ "step": 1559
10923
+ },
10924
+ {
10925
+ "epoch": 0.6498646115392627,
10926
+ "grad_norm": 0.4449746012687683,
10927
+ "learning_rate": 1.4033698195357048e-07,
10928
+ "loss": 2.1613,
10929
+ "step": 1560
10930
+ },
10931
+ {
10932
+ "epoch": 0.6502811914184545,
10933
+ "grad_norm": 0.40782734751701355,
10934
+ "learning_rate": 1.3305124574193305e-07,
10935
+ "loss": 2.2605,
10936
+ "step": 1561
10937
+ },
10938
+ {
10939
+ "epoch": 0.6506977712976463,
10940
+ "grad_norm": 0.4028443992137909,
10941
+ "learning_rate": 1.2595945553992573e-07,
10942
+ "loss": 2.0443,
10943
+ "step": 1562
10944
+ },
10945
+ {
10946
+ "epoch": 0.6511143511768381,
10947
+ "grad_norm": 0.4169761836528778,
10948
+ "learning_rate": 1.1906163892942967e-07,
10949
+ "loss": 2.0504,
10950
+ "step": 1563
10951
+ },
10952
+ {
10953
+ "epoch": 0.65153093105603,
10954
+ "grad_norm": 0.3908756673336029,
10955
+ "learning_rate": 1.123578227379074e-07,
10956
+ "loss": 2.1973,
10957
+ "step": 1564
10958
+ },
10959
+ {
10960
+ "epoch": 0.6519475109352219,
10961
+ "grad_norm": 0.4227580726146698,
10962
+ "learning_rate": 1.0584803303831381e-07,
10963
+ "loss": 2.1167,
10964
+ "step": 1565
10965
+ },
10966
+ {
10967
+ "epoch": 0.6523640908144137,
10968
+ "grad_norm": 0.4246922731399536,
10969
+ "learning_rate": 9.953229514897411e-08,
10970
+ "loss": 2.1459,
10971
+ "step": 1566
10972
+ },
10973
+ {
10974
+ "epoch": 0.6527806706936055,
10975
+ "grad_norm": 0.4376825988292694,
10976
+ "learning_rate": 9.341063363349501e-08,
10977
+ "loss": 2.1834,
10978
+ "step": 1567
10979
+ },
10980
+ {
10981
+ "epoch": 0.6531972505727973,
10982
+ "grad_norm": 0.43723276257514954,
10983
+ "learning_rate": 8.748307230067588e-08,
10984
+ "loss": 2.165,
10985
+ "step": 1568
10986
+ },
10987
+ {
10988
+ "epoch": 0.6536138304519892,
10989
+ "grad_norm": 0.44601333141326904,
10990
+ "learning_rate": 8.174963420439218e-08,
10991
+ "loss": 2.1801,
10992
+ "step": 1569
10993
+ },
10994
+ {
10995
+ "epoch": 0.654030410331181,
10996
+ "grad_norm": 0.4556887745857239,
10997
+ "learning_rate": 7.621034164353447e-08,
10998
+ "loss": 2.2955,
10999
+ "step": 1570
11000
+ },
11001
+ {
11002
+ "epoch": 0.6544469902103729,
11003
+ "grad_norm": 0.48959264159202576,
11004
+ "learning_rate": 7.086521616190279e-08,
11005
+ "loss": 2.2596,
11006
+ "step": 1571
11007
+ },
11008
+ {
11009
+ "epoch": 0.6548635700895646,
11010
+ "grad_norm": 0.47076231241226196,
11011
+ "learning_rate": 6.571427854813461e-08,
11012
+ "loss": 2.0837,
11013
+ "step": 1572
11014
+ },
11015
+ {
11016
+ "epoch": 0.6552801499687565,
11017
+ "grad_norm": 0.46404242515563965,
11018
+ "learning_rate": 6.075754883561602e-08,
11019
+ "loss": 2.0958,
11020
+ "step": 1573
11021
+ },
11022
+ {
11023
+ "epoch": 0.6556967298479484,
11024
+ "grad_norm": 0.4356656074523926,
11025
+ "learning_rate": 5.599504630239838e-08,
11026
+ "loss": 2.1906,
11027
+ "step": 1574
11028
+ },
11029
+ {
11030
+ "epoch": 0.6561133097271402,
11031
+ "grad_norm": 0.48961523175239563,
11032
+ "learning_rate": 5.1426789471142876e-08,
11033
+ "loss": 2.1936,
11034
+ "step": 1575
11035
+ },
11036
+ {
11037
+ "epoch": 0.656529889606332,
11038
+ "grad_norm": 0.4800525903701782,
11039
+ "learning_rate": 4.705279610903168e-08,
11040
+ "loss": 2.1767,
11041
+ "step": 1576
11042
+ },
11043
+ {
11044
+ "epoch": 0.6569464694855238,
11045
+ "grad_norm": 0.461904913187027,
11046
+ "learning_rate": 4.287308322770689e-08,
11047
+ "loss": 2.0721,
11048
+ "step": 1577
11049
+ },
11050
+ {
11051
+ "epoch": 0.6573630493647157,
11052
+ "grad_norm": 0.48440995812416077,
11053
+ "learning_rate": 3.8887667083198356e-08,
11054
+ "loss": 2.2816,
11055
+ "step": 1578
11056
+ },
11057
+ {
11058
+ "epoch": 0.6577796292439075,
11059
+ "grad_norm": 0.4660238027572632,
11060
+ "learning_rate": 3.509656317585708e-08,
11061
+ "loss": 2.1412,
11062
+ "step": 1579
11063
+ },
11064
+ {
11065
+ "epoch": 0.6581962091230994,
11066
+ "grad_norm": 0.4756726324558258,
11067
+ "learning_rate": 3.149978625032191e-08,
11068
+ "loss": 2.0979,
11069
+ "step": 1580
11070
+ },
11071
+ {
11072
+ "epoch": 0.6586127890022911,
11073
+ "grad_norm": 0.44779303669929504,
11074
+ "learning_rate": 2.809735029541405e-08,
11075
+ "loss": 2.2678,
11076
+ "step": 1581
11077
+ },
11078
+ {
11079
+ "epoch": 0.659029368881483,
11080
+ "grad_norm": 0.4502517879009247,
11081
+ "learning_rate": 2.4889268544131538e-08,
11082
+ "loss": 2.1124,
11083
+ "step": 1582
11084
+ },
11085
+ {
11086
+ "epoch": 0.6594459487606749,
11087
+ "grad_norm": 0.501974880695343,
11088
+ "learning_rate": 2.1875553473565956e-08,
11089
+ "loss": 2.1945,
11090
+ "step": 1583
11091
+ },
11092
+ {
11093
+ "epoch": 0.6598625286398667,
11094
+ "grad_norm": 0.48524612188339233,
11095
+ "learning_rate": 1.9056216804874683e-08,
11096
+ "loss": 2.2147,
11097
+ "step": 1584
11098
+ },
11099
+ {
11100
+ "epoch": 0.6602791085190586,
11101
+ "grad_norm": 0.47237899899482727,
11102
+ "learning_rate": 1.6431269503208724e-08,
11103
+ "loss": 2.1895,
11104
+ "step": 1585
11105
+ },
11106
+ {
11107
+ "epoch": 0.6606956883982503,
11108
+ "grad_norm": 0.514725923538208,
11109
+ "learning_rate": 1.400072177770162e-08,
11110
+ "loss": 2.161,
11111
+ "step": 1586
11112
+ },
11113
+ {
11114
+ "epoch": 0.6611122682774422,
11115
+ "grad_norm": 0.528115451335907,
11116
+ "learning_rate": 1.1764583081408375e-08,
11117
+ "loss": 2.2763,
11118
+ "step": 1587
11119
+ },
11120
+ {
11121
+ "epoch": 0.661528848156634,
11122
+ "grad_norm": 0.510019063949585,
11123
+ "learning_rate": 9.722862111277709e-09,
11124
+ "loss": 2.1913,
11125
+ "step": 1588
11126
+ },
11127
+ {
11128
+ "epoch": 0.6619454280358259,
11129
+ "grad_norm": 0.5159466862678528,
11130
+ "learning_rate": 7.875566808107637e-09,
11131
+ "loss": 2.2889,
11132
+ "step": 1589
11133
+ },
11134
+ {
11135
+ "epoch": 0.6623620079150178,
11136
+ "grad_norm": 0.5133629441261292,
11137
+ "learning_rate": 6.2227043565288305e-09,
11138
+ "loss": 2.2818,
11139
+ "step": 1590
11140
+ },
11141
+ {
11142
+ "epoch": 0.6627785877942095,
11143
+ "grad_norm": 0.5215743184089661,
11144
+ "learning_rate": 4.764281184971298e-09,
11145
+ "loss": 2.1326,
11146
+ "step": 1591
11147
+ },
11148
+ {
11149
+ "epoch": 0.6631951676734014,
11150
+ "grad_norm": 0.5067861676216125,
11151
+ "learning_rate": 3.500302965636637e-09,
11152
+ "loss": 2.2611,
11153
+ "step": 1592
11154
+ },
11155
+ {
11156
+ "epoch": 0.6636117475525932,
11157
+ "grad_norm": 0.5310625433921814,
11158
+ "learning_rate": 2.430774614470277e-09,
11159
+ "loss": 2.1011,
11160
+ "step": 1593
11161
+ },
11162
+ {
11163
+ "epoch": 0.6640283274317851,
11164
+ "grad_norm": 0.5508378148078918,
11165
+ "learning_rate": 1.5557002911670281e-09,
11166
+ "loss": 2.1273,
11167
+ "step": 1594
11168
+ },
11169
+ {
11170
+ "epoch": 0.6644449073109768,
11171
+ "grad_norm": 0.5138291120529175,
11172
+ "learning_rate": 8.750833991155727e-10,
11173
+ "loss": 2.2155,
11174
+ "step": 1595
11175
+ },
11176
+ {
11177
+ "epoch": 0.6648614871901687,
11178
+ "grad_norm": 0.5404055118560791,
11179
+ "learning_rate": 3.889265854317703e-10,
11180
+ "loss": 2.1549,
11181
+ "step": 1596
11182
+ },
11183
+ {
11184
+ "epoch": 0.6652780670693605,
11185
+ "grad_norm": 0.56361985206604,
11186
+ "learning_rate": 9.723174089759646e-11,
11187
+ "loss": 2.0773,
11188
+ "step": 1597
11189
+ },
11190
+ {
11191
+ "epoch": 0.6656946469485524,
11192
+ "grad_norm": 0.6100237965583801,
11193
+ "learning_rate": 0.0,
11194
+ "loss": 2.3351,
11195
+ "step": 1598
11196
  }
11197
  ],
11198
  "logging_steps": 1,
 
11207
  "should_evaluate": false,
11208
  "should_log": false,
11209
  "should_save": true,
11210
+ "should_training_stop": true
11211
  },
11212
  "attributes": {}
11213
  }
11214
  },
11215
+ "total_flos": 1.0412593904363766e+18,
11216
  "train_batch_size": 4,
11217
  "trial_name": null,
11218
  "trial_params": null