Ba2han commited on
Commit
3a9ca6a
·
verified ·
1 Parent(s): da8b07a

Training in progress, step 1422, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a93ca9a3c2c5275d4318d95d4585e3cf1a20228f9b3ade8814812eb5f9ebb43d
3
  size 195125192
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2ede535db8a810ce9fb2aa5a7eb1b672ece64d74f6757610be67ecc0c91415aa
3
  size 195125192
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:bfd783687c6b4a13b916205ba539963cf390f5ee542b586962234bcb59d54f00
3
  size 99831781
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:570fd83bc0bae2a7b50e9b70be935dcee8b3db3cf98f901c96efc7ab465d04e2
3
  size 99831781
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:181c5f0270cf39930062ddfa3767a2481d0c360f120b11f8e25dbf533a1cdaba
3
  size 14645
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3d6d8fafcd1ee268414be5acf0366296af5b03d60871978712eac1979cb42d65
3
  size 14645
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a613ca082cb9052c62c993a6002811e8846d405f49f9c503e710985b03d5048c
3
  size 1465
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6f21374c25f9f9af3295300d053f8f4a6e967c8bc8059c5c4e45da73a44f75b2
3
  size 1465
last-checkpoint/trainer_state.json CHANGED
@@ -2,9 +2,9 @@
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
- "epoch": 0.46094937093539173,
6
  "eval_steps": 474,
7
- "global_step": 948,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
@@ -6660,6 +6660,3332 @@
6660
  "eval_samples_per_second": 22.111,
6661
  "eval_steps_per_second": 5.532,
6662
  "step": 948
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6663
  }
6664
  ],
6665
  "logging_steps": 1,
@@ -6679,7 +10005,7 @@
6679
  "attributes": {}
6680
  }
6681
  },
6682
- "total_flos": 2.6475404112731136e+17,
6683
  "train_batch_size": 4,
6684
  "trial_name": null,
6685
  "trial_params": null
 
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
+ "epoch": 0.6914240564030876,
6
  "eval_steps": 474,
7
+ "global_step": 1422,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
 
6660
  "eval_samples_per_second": 22.111,
6661
  "eval_steps_per_second": 5.532,
6662
  "step": 948
6663
+ },
6664
+ {
6665
+ "epoch": 0.46143560444903664,
6666
+ "grad_norm": 0.01333213597536087,
6667
+ "learning_rate": 0.00030705933304460805,
6668
+ "loss": 0.037060752511024475,
6669
+ "step": 949
6670
+ },
6671
+ {
6672
+ "epoch": 0.4619218379626816,
6673
+ "grad_norm": 0.014666610397398472,
6674
+ "learning_rate": 0.0003068427890861845,
6675
+ "loss": 0.039563264697790146,
6676
+ "step": 950
6677
+ },
6678
+ {
6679
+ "epoch": 0.4624080714763265,
6680
+ "grad_norm": 0.014413428492844105,
6681
+ "learning_rate": 0.0003066262451277609,
6682
+ "loss": 0.03490311652421951,
6683
+ "step": 951
6684
+ },
6685
+ {
6686
+ "epoch": 0.4628943049899714,
6687
+ "grad_norm": 0.014327336102724075,
6688
+ "learning_rate": 0.0003064097011693374,
6689
+ "loss": 0.03744923323392868,
6690
+ "step": 952
6691
+ },
6692
+ {
6693
+ "epoch": 0.4633805385036164,
6694
+ "grad_norm": 0.013454711064696312,
6695
+ "learning_rate": 0.00030619315721091384,
6696
+ "loss": 0.03523600846529007,
6697
+ "step": 953
6698
+ },
6699
+ {
6700
+ "epoch": 0.4638667720172613,
6701
+ "grad_norm": 0.013872881419956684,
6702
+ "learning_rate": 0.00030597661325249025,
6703
+ "loss": 0.036383256316185,
6704
+ "step": 954
6705
+ },
6706
+ {
6707
+ "epoch": 0.4643530055309062,
6708
+ "grad_norm": 0.013156497851014137,
6709
+ "learning_rate": 0.0003057600692940667,
6710
+ "loss": 0.03556698188185692,
6711
+ "step": 955
6712
+ },
6713
+ {
6714
+ "epoch": 0.46483923904455116,
6715
+ "grad_norm": 0.01402540784329176,
6716
+ "learning_rate": 0.0003055435253356432,
6717
+ "loss": 0.0337364487349987,
6718
+ "step": 956
6719
+ },
6720
+ {
6721
+ "epoch": 0.46532547255819606,
6722
+ "grad_norm": 0.014185097999870777,
6723
+ "learning_rate": 0.0003053269813772196,
6724
+ "loss": 0.034214798361063004,
6725
+ "step": 957
6726
+ },
6727
+ {
6728
+ "epoch": 0.465811706071841,
6729
+ "grad_norm": 0.01380988396704197,
6730
+ "learning_rate": 0.000305110437418796,
6731
+ "loss": 0.03797744959592819,
6732
+ "step": 958
6733
+ },
6734
+ {
6735
+ "epoch": 0.46629793958548593,
6736
+ "grad_norm": 0.015561358071863651,
6737
+ "learning_rate": 0.00030489389346037246,
6738
+ "loss": 0.03637092933058739,
6739
+ "step": 959
6740
+ },
6741
+ {
6742
+ "epoch": 0.46678417309913084,
6743
+ "grad_norm": 0.01449553668498993,
6744
+ "learning_rate": 0.0003046773495019489,
6745
+ "loss": 0.03891671076416969,
6746
+ "step": 960
6747
+ },
6748
+ {
6749
+ "epoch": 0.4672704066127758,
6750
+ "grad_norm": 0.01277115661650896,
6751
+ "learning_rate": 0.0003044608055435253,
6752
+ "loss": 0.03399049863219261,
6753
+ "step": 961
6754
+ },
6755
+ {
6756
+ "epoch": 0.4677566401264207,
6757
+ "grad_norm": 0.013732589781284332,
6758
+ "learning_rate": 0.0003042442615851018,
6759
+ "loss": 0.03488261625170708,
6760
+ "step": 962
6761
+ },
6762
+ {
6763
+ "epoch": 0.4682428736400656,
6764
+ "grad_norm": 0.013535597361624241,
6765
+ "learning_rate": 0.00030402771762667825,
6766
+ "loss": 0.03977413475513458,
6767
+ "step": 963
6768
+ },
6769
+ {
6770
+ "epoch": 0.4687291071537106,
6771
+ "grad_norm": 0.014227787964046001,
6772
+ "learning_rate": 0.00030381117366825466,
6773
+ "loss": 0.039457306265830994,
6774
+ "step": 964
6775
+ },
6776
+ {
6777
+ "epoch": 0.4692153406673555,
6778
+ "grad_norm": 0.013504140079021454,
6779
+ "learning_rate": 0.0003035946297098311,
6780
+ "loss": 0.03363119810819626,
6781
+ "step": 965
6782
+ },
6783
+ {
6784
+ "epoch": 0.46970157418100045,
6785
+ "grad_norm": 0.013607289642095566,
6786
+ "learning_rate": 0.00030337808575140753,
6787
+ "loss": 0.037966132164001465,
6788
+ "step": 966
6789
+ },
6790
+ {
6791
+ "epoch": 0.47018780769464535,
6792
+ "grad_norm": 0.013094695284962654,
6793
+ "learning_rate": 0.000303161541792984,
6794
+ "loss": 0.03316368907690048,
6795
+ "step": 967
6796
+ },
6797
+ {
6798
+ "epoch": 0.47067404120829026,
6799
+ "grad_norm": 0.013641368597745895,
6800
+ "learning_rate": 0.0003029449978345604,
6801
+ "loss": 0.03873325139284134,
6802
+ "step": 968
6803
+ },
6804
+ {
6805
+ "epoch": 0.4711602747219352,
6806
+ "grad_norm": 0.01359693892300129,
6807
+ "learning_rate": 0.00030272845387613686,
6808
+ "loss": 0.039252910763025284,
6809
+ "step": 969
6810
+ },
6811
+ {
6812
+ "epoch": 0.47164650823558013,
6813
+ "grad_norm": 0.0134733272716403,
6814
+ "learning_rate": 0.0003025119099177133,
6815
+ "loss": 0.03847449645400047,
6816
+ "step": 970
6817
+ },
6818
+ {
6819
+ "epoch": 0.47213274174922504,
6820
+ "grad_norm": 0.013345838524401188,
6821
+ "learning_rate": 0.00030229536595928973,
6822
+ "loss": 0.039488643407821655,
6823
+ "step": 971
6824
+ },
6825
+ {
6826
+ "epoch": 0.47261897526287,
6827
+ "grad_norm": 0.01357495877891779,
6828
+ "learning_rate": 0.0003020788220008662,
6829
+ "loss": 0.037975043058395386,
6830
+ "step": 972
6831
+ },
6832
+ {
6833
+ "epoch": 0.4731052087765149,
6834
+ "grad_norm": 0.01503952220082283,
6835
+ "learning_rate": 0.0003018622780424426,
6836
+ "loss": 0.03439665213227272,
6837
+ "step": 973
6838
+ },
6839
+ {
6840
+ "epoch": 0.47359144229015987,
6841
+ "grad_norm": 0.014459135942161083,
6842
+ "learning_rate": 0.00030164573408401907,
6843
+ "loss": 0.036652304232120514,
6844
+ "step": 974
6845
+ },
6846
+ {
6847
+ "epoch": 0.4740776758038048,
6848
+ "grad_norm": 0.014494093134999275,
6849
+ "learning_rate": 0.0003014291901255955,
6850
+ "loss": 0.03853532671928406,
6851
+ "step": 975
6852
+ },
6853
+ {
6854
+ "epoch": 0.4745639093174497,
6855
+ "grad_norm": 0.014746518805623055,
6856
+ "learning_rate": 0.00030121264616717194,
6857
+ "loss": 0.034450870007276535,
6858
+ "step": 976
6859
+ },
6860
+ {
6861
+ "epoch": 0.47505014283109465,
6862
+ "grad_norm": 0.014133110642433167,
6863
+ "learning_rate": 0.0003009961022087484,
6864
+ "loss": 0.04049959033727646,
6865
+ "step": 977
6866
+ },
6867
+ {
6868
+ "epoch": 0.47553637634473955,
6869
+ "grad_norm": 0.014087921939790249,
6870
+ "learning_rate": 0.0003007795582503248,
6871
+ "loss": 0.0359988659620285,
6872
+ "step": 978
6873
+ },
6874
+ {
6875
+ "epoch": 0.4760226098583845,
6876
+ "grad_norm": 0.013674001209437847,
6877
+ "learning_rate": 0.00030056301429190127,
6878
+ "loss": 0.0319087952375412,
6879
+ "step": 979
6880
+ },
6881
+ {
6882
+ "epoch": 0.4765088433720294,
6883
+ "grad_norm": 0.013482606038451195,
6884
+ "learning_rate": 0.00030034647033347773,
6885
+ "loss": 0.03861702233552933,
6886
+ "step": 980
6887
+ },
6888
+ {
6889
+ "epoch": 0.47699507688567433,
6890
+ "grad_norm": 0.013383050449192524,
6891
+ "learning_rate": 0.00030012992637505414,
6892
+ "loss": 0.03758491203188896,
6893
+ "step": 981
6894
+ },
6895
+ {
6896
+ "epoch": 0.4774813103993193,
6897
+ "grad_norm": 0.014612327329814434,
6898
+ "learning_rate": 0.0002999133824166306,
6899
+ "loss": 0.03936506062746048,
6900
+ "step": 982
6901
+ },
6902
+ {
6903
+ "epoch": 0.4779675439129642,
6904
+ "grad_norm": 0.013832930475473404,
6905
+ "learning_rate": 0.000299696838458207,
6906
+ "loss": 0.03548000752925873,
6907
+ "step": 983
6908
+ },
6909
+ {
6910
+ "epoch": 0.4784537774266091,
6911
+ "grad_norm": 0.013834511861205101,
6912
+ "learning_rate": 0.00029948029449978347,
6913
+ "loss": 0.033962223678827286,
6914
+ "step": 984
6915
+ },
6916
+ {
6917
+ "epoch": 0.47894001094025407,
6918
+ "grad_norm": 0.012873651459813118,
6919
+ "learning_rate": 0.0002992637505413599,
6920
+ "loss": 0.03505862504243851,
6921
+ "step": 985
6922
+ },
6923
+ {
6924
+ "epoch": 0.479426244453899,
6925
+ "grad_norm": 0.013968316838145256,
6926
+ "learning_rate": 0.00029904720658293634,
6927
+ "loss": 0.03907528147101402,
6928
+ "step": 986
6929
+ },
6930
+ {
6931
+ "epoch": 0.47991247796754394,
6932
+ "grad_norm": 0.013454949483275414,
6933
+ "learning_rate": 0.0002988306626245128,
6934
+ "loss": 0.03765419125556946,
6935
+ "step": 987
6936
+ },
6937
+ {
6938
+ "epoch": 0.48039871148118884,
6939
+ "grad_norm": 0.014067943207919598,
6940
+ "learning_rate": 0.0002986141186660892,
6941
+ "loss": 0.03700315207242966,
6942
+ "step": 988
6943
+ },
6944
+ {
6945
+ "epoch": 0.48088494499483375,
6946
+ "grad_norm": 0.013319096527993679,
6947
+ "learning_rate": 0.0002983975747076657,
6948
+ "loss": 0.03290332108736038,
6949
+ "step": 989
6950
+ },
6951
+ {
6952
+ "epoch": 0.4813711785084787,
6953
+ "grad_norm": 0.01260996051132679,
6954
+ "learning_rate": 0.0002981810307492421,
6955
+ "loss": 0.03568773716688156,
6956
+ "step": 990
6957
+ },
6958
+ {
6959
+ "epoch": 0.4818574120221236,
6960
+ "grad_norm": 0.013793015852570534,
6961
+ "learning_rate": 0.00029796448679081855,
6962
+ "loss": 0.035640228539705276,
6963
+ "step": 991
6964
+ },
6965
+ {
6966
+ "epoch": 0.48234364553576853,
6967
+ "grad_norm": 0.01395094208419323,
6968
+ "learning_rate": 0.00029774794283239495,
6969
+ "loss": 0.037107307463884354,
6970
+ "step": 992
6971
+ },
6972
+ {
6973
+ "epoch": 0.4828298790494135,
6974
+ "grad_norm": 0.014228583313524723,
6975
+ "learning_rate": 0.0002975313988739714,
6976
+ "loss": 0.03581860661506653,
6977
+ "step": 993
6978
+ },
6979
+ {
6980
+ "epoch": 0.4833161125630584,
6981
+ "grad_norm": 0.013966365717351437,
6982
+ "learning_rate": 0.0002973148549155479,
6983
+ "loss": 0.0373714454472065,
6984
+ "step": 994
6985
+ },
6986
+ {
6987
+ "epoch": 0.48380234607670336,
6988
+ "grad_norm": 0.014881118200719357,
6989
+ "learning_rate": 0.0002970983109571243,
6990
+ "loss": 0.039440978318452835,
6991
+ "step": 995
6992
+ },
6993
+ {
6994
+ "epoch": 0.48428857959034827,
6995
+ "grad_norm": 0.01362524926662445,
6996
+ "learning_rate": 0.00029688176699870075,
6997
+ "loss": 0.03773489594459534,
6998
+ "step": 996
6999
+ },
7000
+ {
7001
+ "epoch": 0.4847748131039932,
7002
+ "grad_norm": 0.014135688543319702,
7003
+ "learning_rate": 0.0002966652230402772,
7004
+ "loss": 0.03612879291176796,
7005
+ "step": 997
7006
+ },
7007
+ {
7008
+ "epoch": 0.48526104661763814,
7009
+ "grad_norm": 0.01322716660797596,
7010
+ "learning_rate": 0.0002964486790818536,
7011
+ "loss": 0.038729891180992126,
7012
+ "step": 998
7013
+ },
7014
+ {
7015
+ "epoch": 0.48574728013128304,
7016
+ "grad_norm": 0.014626462943851948,
7017
+ "learning_rate": 0.0002962321351234301,
7018
+ "loss": 0.03782185539603233,
7019
+ "step": 999
7020
+ },
7021
+ {
7022
+ "epoch": 0.48623351364492795,
7023
+ "grad_norm": 0.014553732238709927,
7024
+ "learning_rate": 0.0002960155911650065,
7025
+ "loss": 0.03561050817370415,
7026
+ "step": 1000
7027
+ },
7028
+ {
7029
+ "epoch": 0.4867197471585729,
7030
+ "grad_norm": 0.014309097081422806,
7031
+ "learning_rate": 0.00029579904720658295,
7032
+ "loss": 0.03861964866518974,
7033
+ "step": 1001
7034
+ },
7035
+ {
7036
+ "epoch": 0.4872059806722178,
7037
+ "grad_norm": 0.012629122473299503,
7038
+ "learning_rate": 0.00029558250324815936,
7039
+ "loss": 0.03389890491962433,
7040
+ "step": 1002
7041
+ },
7042
+ {
7043
+ "epoch": 0.4876922141858628,
7044
+ "grad_norm": 0.014117905870079994,
7045
+ "learning_rate": 0.0002953659592897358,
7046
+ "loss": 0.03747197985649109,
7047
+ "step": 1003
7048
+ },
7049
+ {
7050
+ "epoch": 0.4881784476995077,
7051
+ "grad_norm": 0.013692461885511875,
7052
+ "learning_rate": 0.0002951494153313123,
7053
+ "loss": 0.03489881008863449,
7054
+ "step": 1004
7055
+ },
7056
+ {
7057
+ "epoch": 0.4886646812131526,
7058
+ "grad_norm": 0.01396162249147892,
7059
+ "learning_rate": 0.0002949328713728887,
7060
+ "loss": 0.035344578325748444,
7061
+ "step": 1005
7062
+ },
7063
+ {
7064
+ "epoch": 0.48915091472679756,
7065
+ "grad_norm": 0.013573478907346725,
7066
+ "learning_rate": 0.00029471632741446516,
7067
+ "loss": 0.03927745297551155,
7068
+ "step": 1006
7069
+ },
7070
+ {
7071
+ "epoch": 0.48963714824044247,
7072
+ "grad_norm": 0.013765616342425346,
7073
+ "learning_rate": 0.00029449978345604157,
7074
+ "loss": 0.033977653831243515,
7075
+ "step": 1007
7076
+ },
7077
+ {
7078
+ "epoch": 0.4901233817540874,
7079
+ "grad_norm": 0.013294212520122528,
7080
+ "learning_rate": 0.00029428323949761803,
7081
+ "loss": 0.034197743982076645,
7082
+ "step": 1008
7083
+ },
7084
+ {
7085
+ "epoch": 0.49060961526773234,
7086
+ "grad_norm": 0.013792756013572216,
7087
+ "learning_rate": 0.00029406669553919444,
7088
+ "loss": 0.0338798388838768,
7089
+ "step": 1009
7090
+ },
7091
+ {
7092
+ "epoch": 0.49109584878137724,
7093
+ "grad_norm": 0.014132252894341946,
7094
+ "learning_rate": 0.0002938501515807709,
7095
+ "loss": 0.03649807721376419,
7096
+ "step": 1010
7097
+ },
7098
+ {
7099
+ "epoch": 0.4915820822950222,
7100
+ "grad_norm": 0.013721713796257973,
7101
+ "learning_rate": 0.00029363360762234736,
7102
+ "loss": 0.0340237021446228,
7103
+ "step": 1011
7104
+ },
7105
+ {
7106
+ "epoch": 0.4920683158086671,
7107
+ "grad_norm": 0.015485446900129318,
7108
+ "learning_rate": 0.00029341706366392377,
7109
+ "loss": 0.03557199239730835,
7110
+ "step": 1012
7111
+ },
7112
+ {
7113
+ "epoch": 0.492554549322312,
7114
+ "grad_norm": 0.013667070306837559,
7115
+ "learning_rate": 0.00029320051970550023,
7116
+ "loss": 0.03545474633574486,
7117
+ "step": 1013
7118
+ },
7119
+ {
7120
+ "epoch": 0.493040782835957,
7121
+ "grad_norm": 0.015222440473735332,
7122
+ "learning_rate": 0.00029298397574707664,
7123
+ "loss": 0.03371709585189819,
7124
+ "step": 1014
7125
+ },
7126
+ {
7127
+ "epoch": 0.4935270163496019,
7128
+ "grad_norm": 0.012989448383450508,
7129
+ "learning_rate": 0.0002927674317886531,
7130
+ "loss": 0.03332573175430298,
7131
+ "step": 1015
7132
+ },
7133
+ {
7134
+ "epoch": 0.49401324986324685,
7135
+ "grad_norm": 0.014377813786268234,
7136
+ "learning_rate": 0.00029255088783022956,
7137
+ "loss": 0.03789186850190163,
7138
+ "step": 1016
7139
+ },
7140
+ {
7141
+ "epoch": 0.49449948337689176,
7142
+ "grad_norm": 0.01331800315529108,
7143
+ "learning_rate": 0.00029233434387180597,
7144
+ "loss": 0.035854436457157135,
7145
+ "step": 1017
7146
+ },
7147
+ {
7148
+ "epoch": 0.49498571689053666,
7149
+ "grad_norm": 0.01412629522383213,
7150
+ "learning_rate": 0.00029211779991338243,
7151
+ "loss": 0.0383642315864563,
7152
+ "step": 1018
7153
+ },
7154
+ {
7155
+ "epoch": 0.4954719504041816,
7156
+ "grad_norm": 0.013764998875558376,
7157
+ "learning_rate": 0.00029190125595495884,
7158
+ "loss": 0.039679210633039474,
7159
+ "step": 1019
7160
+ },
7161
+ {
7162
+ "epoch": 0.49595818391782653,
7163
+ "grad_norm": 0.014185120351612568,
7164
+ "learning_rate": 0.0002916847119965353,
7165
+ "loss": 0.036174945533275604,
7166
+ "step": 1020
7167
+ },
7168
+ {
7169
+ "epoch": 0.49644441743147144,
7170
+ "grad_norm": 0.014051356352865696,
7171
+ "learning_rate": 0.00029146816803811177,
7172
+ "loss": 0.036626048386096954,
7173
+ "step": 1021
7174
+ },
7175
+ {
7176
+ "epoch": 0.4969306509451164,
7177
+ "grad_norm": 0.013894816860556602,
7178
+ "learning_rate": 0.0002912516240796882,
7179
+ "loss": 0.03644995018839836,
7180
+ "step": 1022
7181
+ },
7182
+ {
7183
+ "epoch": 0.4974168844587613,
7184
+ "grad_norm": 0.013736812397837639,
7185
+ "learning_rate": 0.00029103508012126464,
7186
+ "loss": 0.03344986215233803,
7187
+ "step": 1023
7188
+ },
7189
+ {
7190
+ "epoch": 0.4979031179724063,
7191
+ "grad_norm": 0.013827759772539139,
7192
+ "learning_rate": 0.00029081853616284105,
7193
+ "loss": 0.03501196205615997,
7194
+ "step": 1024
7195
+ },
7196
+ {
7197
+ "epoch": 0.4983893514860512,
7198
+ "grad_norm": 0.01374312024563551,
7199
+ "learning_rate": 0.0002906019922044175,
7200
+ "loss": 0.03503570705652237,
7201
+ "step": 1025
7202
+ },
7203
+ {
7204
+ "epoch": 0.4988755849996961,
7205
+ "grad_norm": 0.013449519872665405,
7206
+ "learning_rate": 0.0002903854482459939,
7207
+ "loss": 0.033825989812612534,
7208
+ "step": 1026
7209
+ },
7210
+ {
7211
+ "epoch": 0.49936181851334105,
7212
+ "grad_norm": 0.013138077221810818,
7213
+ "learning_rate": 0.0002901689042875704,
7214
+ "loss": 0.0354132317006588,
7215
+ "step": 1027
7216
+ },
7217
+ {
7218
+ "epoch": 0.49984805202698596,
7219
+ "grad_norm": 0.013364890590310097,
7220
+ "learning_rate": 0.00028995236032914684,
7221
+ "loss": 0.03656283766031265,
7222
+ "step": 1028
7223
+ },
7224
+ {
7225
+ "epoch": 0.5003342855406309,
7226
+ "grad_norm": 0.013499929569661617,
7227
+ "learning_rate": 0.00028973581637072325,
7228
+ "loss": 0.038244593888521194,
7229
+ "step": 1029
7230
+ },
7231
+ {
7232
+ "epoch": 0.5008205190542758,
7233
+ "grad_norm": 0.013432961888611317,
7234
+ "learning_rate": 0.0002895192724122997,
7235
+ "loss": 0.0363604873418808,
7236
+ "step": 1030
7237
+ },
7238
+ {
7239
+ "epoch": 0.5013067525679208,
7240
+ "grad_norm": 0.014093254692852497,
7241
+ "learning_rate": 0.0002893027284538761,
7242
+ "loss": 0.0386497899889946,
7243
+ "step": 1031
7244
+ },
7245
+ {
7246
+ "epoch": 0.5017929860815656,
7247
+ "grad_norm": 0.013268879614770412,
7248
+ "learning_rate": 0.0002890861844954526,
7249
+ "loss": 0.033929694443941116,
7250
+ "step": 1032
7251
+ },
7252
+ {
7253
+ "epoch": 0.5022792195952106,
7254
+ "grad_norm": 0.01348187681287527,
7255
+ "learning_rate": 0.00028886964053702905,
7256
+ "loss": 0.03745168447494507,
7257
+ "step": 1033
7258
+ },
7259
+ {
7260
+ "epoch": 0.5027654531088556,
7261
+ "grad_norm": 0.013327261433005333,
7262
+ "learning_rate": 0.00028865309657860545,
7263
+ "loss": 0.03401700779795647,
7264
+ "step": 1034
7265
+ },
7266
+ {
7267
+ "epoch": 0.5032516866225004,
7268
+ "grad_norm": 0.012692646123468876,
7269
+ "learning_rate": 0.0002884365526201819,
7270
+ "loss": 0.03298821672797203,
7271
+ "step": 1035
7272
+ },
7273
+ {
7274
+ "epoch": 0.5037379201361454,
7275
+ "grad_norm": 0.0130177466198802,
7276
+ "learning_rate": 0.0002882200086617583,
7277
+ "loss": 0.03459744155406952,
7278
+ "step": 1036
7279
+ },
7280
+ {
7281
+ "epoch": 0.5042241536497903,
7282
+ "grad_norm": 0.01413513533771038,
7283
+ "learning_rate": 0.0002880034647033348,
7284
+ "loss": 0.03635701164603233,
7285
+ "step": 1037
7286
+ },
7287
+ {
7288
+ "epoch": 0.5047103871634352,
7289
+ "grad_norm": 0.01338459923863411,
7290
+ "learning_rate": 0.0002877869207449112,
7291
+ "loss": 0.03807484358549118,
7292
+ "step": 1038
7293
+ },
7294
+ {
7295
+ "epoch": 0.5051966206770802,
7296
+ "grad_norm": 0.013206271454691887,
7297
+ "learning_rate": 0.00028757037678648766,
7298
+ "loss": 0.03469417616724968,
7299
+ "step": 1039
7300
+ },
7301
+ {
7302
+ "epoch": 0.5056828541907251,
7303
+ "grad_norm": 0.013839577324688435,
7304
+ "learning_rate": 0.0002873538328280641,
7305
+ "loss": 0.03586322069168091,
7306
+ "step": 1040
7307
+ },
7308
+ {
7309
+ "epoch": 0.50616908770437,
7310
+ "grad_norm": 0.014376025646924973,
7311
+ "learning_rate": 0.00028713728886964053,
7312
+ "loss": 0.03774120286107063,
7313
+ "step": 1041
7314
+ },
7315
+ {
7316
+ "epoch": 0.5066553212180149,
7317
+ "grad_norm": 0.013656928203999996,
7318
+ "learning_rate": 0.000286920744911217,
7319
+ "loss": 0.03591923788189888,
7320
+ "step": 1042
7321
+ },
7322
+ {
7323
+ "epoch": 0.5071415547316599,
7324
+ "grad_norm": 0.013080078177154064,
7325
+ "learning_rate": 0.00028670420095279345,
7326
+ "loss": 0.03551328927278519,
7327
+ "step": 1043
7328
+ },
7329
+ {
7330
+ "epoch": 0.5076277882453049,
7331
+ "grad_norm": 0.0133149903267622,
7332
+ "learning_rate": 0.00028648765699436986,
7333
+ "loss": 0.03520733863115311,
7334
+ "step": 1044
7335
+ },
7336
+ {
7337
+ "epoch": 0.5081140217589497,
7338
+ "grad_norm": 0.013456271030008793,
7339
+ "learning_rate": 0.0002862711130359463,
7340
+ "loss": 0.034662459045648575,
7341
+ "step": 1045
7342
+ },
7343
+ {
7344
+ "epoch": 0.5086002552725947,
7345
+ "grad_norm": 0.0138524966314435,
7346
+ "learning_rate": 0.00028605456907752273,
7347
+ "loss": 0.03426341712474823,
7348
+ "step": 1046
7349
+ },
7350
+ {
7351
+ "epoch": 0.5090864887862396,
7352
+ "grad_norm": 0.013234579935669899,
7353
+ "learning_rate": 0.0002858380251190992,
7354
+ "loss": 0.036201220005750656,
7355
+ "step": 1047
7356
+ },
7357
+ {
7358
+ "epoch": 0.5095727222998845,
7359
+ "grad_norm": 0.01478514727205038,
7360
+ "learning_rate": 0.0002856214811606756,
7361
+ "loss": 0.03706587478518486,
7362
+ "step": 1048
7363
+ },
7364
+ {
7365
+ "epoch": 0.5100589558135294,
7366
+ "grad_norm": 0.014010661281645298,
7367
+ "learning_rate": 0.00028540493720225206,
7368
+ "loss": 0.033495090901851654,
7369
+ "step": 1049
7370
+ },
7371
+ {
7372
+ "epoch": 0.5105451893271744,
7373
+ "grad_norm": 0.014482982456684113,
7374
+ "learning_rate": 0.0002851883932438285,
7375
+ "loss": 0.03460167720913887,
7376
+ "step": 1050
7377
+ },
7378
+ {
7379
+ "epoch": 0.5110314228408193,
7380
+ "grad_norm": 0.013520138338208199,
7381
+ "learning_rate": 0.00028497184928540493,
7382
+ "loss": 0.034577250480651855,
7383
+ "step": 1051
7384
+ },
7385
+ {
7386
+ "epoch": 0.5115176563544642,
7387
+ "grad_norm": 0.013442403636872768,
7388
+ "learning_rate": 0.0002847553053269814,
7389
+ "loss": 0.03726118803024292,
7390
+ "step": 1052
7391
+ },
7392
+ {
7393
+ "epoch": 0.5120038898681092,
7394
+ "grad_norm": 0.013599686324596405,
7395
+ "learning_rate": 0.0002845387613685578,
7396
+ "loss": 0.034997228533029556,
7397
+ "step": 1053
7398
+ },
7399
+ {
7400
+ "epoch": 0.512490123381754,
7401
+ "grad_norm": 0.014052558690309525,
7402
+ "learning_rate": 0.00028432221741013427,
7403
+ "loss": 0.033227983862161636,
7404
+ "step": 1054
7405
+ },
7406
+ {
7407
+ "epoch": 0.512976356895399,
7408
+ "grad_norm": 0.014964016154408455,
7409
+ "learning_rate": 0.0002841056734517107,
7410
+ "loss": 0.03668046370148659,
7411
+ "step": 1055
7412
+ },
7413
+ {
7414
+ "epoch": 0.513462590409044,
7415
+ "grad_norm": 0.013480198569595814,
7416
+ "learning_rate": 0.00028388912949328714,
7417
+ "loss": 0.03563865274190903,
7418
+ "step": 1056
7419
+ },
7420
+ {
7421
+ "epoch": 0.5139488239226889,
7422
+ "grad_norm": 0.014785866253077984,
7423
+ "learning_rate": 0.0002836725855348636,
7424
+ "loss": 0.03554994612932205,
7425
+ "step": 1057
7426
+ },
7427
+ {
7428
+ "epoch": 0.5144350574363338,
7429
+ "grad_norm": 0.014100163243710995,
7430
+ "learning_rate": 0.00028345604157644,
7431
+ "loss": 0.036969512701034546,
7432
+ "step": 1058
7433
+ },
7434
+ {
7435
+ "epoch": 0.5149212909499787,
7436
+ "grad_norm": 0.013631733134388924,
7437
+ "learning_rate": 0.00028323949761801647,
7438
+ "loss": 0.03874921426177025,
7439
+ "step": 1059
7440
+ },
7441
+ {
7442
+ "epoch": 0.5154075244636237,
7443
+ "grad_norm": 0.01346477773040533,
7444
+ "learning_rate": 0.00028302295365959293,
7445
+ "loss": 0.03435073420405388,
7446
+ "step": 1060
7447
+ },
7448
+ {
7449
+ "epoch": 0.5158937579772686,
7450
+ "grad_norm": 0.013825018890202045,
7451
+ "learning_rate": 0.00028280640970116934,
7452
+ "loss": 0.03786073252558708,
7453
+ "step": 1061
7454
+ },
7455
+ {
7456
+ "epoch": 0.5163799914909135,
7457
+ "grad_norm": 0.013739226385951042,
7458
+ "learning_rate": 0.0002825898657427458,
7459
+ "loss": 0.03493267297744751,
7460
+ "step": 1062
7461
+ },
7462
+ {
7463
+ "epoch": 0.5168662250045585,
7464
+ "grad_norm": 0.014403737150132656,
7465
+ "learning_rate": 0.0002823733217843222,
7466
+ "loss": 0.03776548057794571,
7467
+ "step": 1063
7468
+ },
7469
+ {
7470
+ "epoch": 0.5173524585182033,
7471
+ "grad_norm": 0.013879086822271347,
7472
+ "learning_rate": 0.0002821567778258987,
7473
+ "loss": 0.03671635687351227,
7474
+ "step": 1064
7475
+ },
7476
+ {
7477
+ "epoch": 0.5178386920318483,
7478
+ "grad_norm": 0.014006221666932106,
7479
+ "learning_rate": 0.0002819402338674751,
7480
+ "loss": 0.03714973106980324,
7481
+ "step": 1065
7482
+ },
7483
+ {
7484
+ "epoch": 0.5183249255454933,
7485
+ "grad_norm": 0.013886251486837864,
7486
+ "learning_rate": 0.00028172368990905155,
7487
+ "loss": 0.0382484570145607,
7488
+ "step": 1066
7489
+ },
7490
+ {
7491
+ "epoch": 0.5188111590591381,
7492
+ "grad_norm": 0.021207468584179878,
7493
+ "learning_rate": 0.000281507145950628,
7494
+ "loss": 0.035265255719423294,
7495
+ "step": 1067
7496
+ },
7497
+ {
7498
+ "epoch": 0.5192973925727831,
7499
+ "grad_norm": 0.01562880165874958,
7500
+ "learning_rate": 0.0002812906019922044,
7501
+ "loss": 0.03547072783112526,
7502
+ "step": 1068
7503
+ },
7504
+ {
7505
+ "epoch": 0.519783626086428,
7506
+ "grad_norm": 0.014076780527830124,
7507
+ "learning_rate": 0.0002810740580337809,
7508
+ "loss": 0.03398030251264572,
7509
+ "step": 1069
7510
+ },
7511
+ {
7512
+ "epoch": 0.5202698596000729,
7513
+ "grad_norm": 0.01447069551795721,
7514
+ "learning_rate": 0.0002808575140753573,
7515
+ "loss": 0.03421202301979065,
7516
+ "step": 1070
7517
+ },
7518
+ {
7519
+ "epoch": 0.5207560931137178,
7520
+ "grad_norm": 0.01564360037446022,
7521
+ "learning_rate": 0.00028064097011693375,
7522
+ "loss": 0.03529740869998932,
7523
+ "step": 1071
7524
+ },
7525
+ {
7526
+ "epoch": 0.5212423266273628,
7527
+ "grad_norm": 0.013676514849066734,
7528
+ "learning_rate": 0.00028042442615851016,
7529
+ "loss": 0.03715941309928894,
7530
+ "step": 1072
7531
+ },
7532
+ {
7533
+ "epoch": 0.5217285601410078,
7534
+ "grad_norm": 0.015466811135411263,
7535
+ "learning_rate": 0.0002802078822000866,
7536
+ "loss": 0.037360869348049164,
7537
+ "step": 1073
7538
+ },
7539
+ {
7540
+ "epoch": 0.5222147936546526,
7541
+ "grad_norm": 0.013988148421049118,
7542
+ "learning_rate": 0.0002799913382416631,
7543
+ "loss": 0.0363808311522007,
7544
+ "step": 1074
7545
+ },
7546
+ {
7547
+ "epoch": 0.5227010271682976,
7548
+ "grad_norm": 0.01467287726700306,
7549
+ "learning_rate": 0.0002797747942832395,
7550
+ "loss": 0.03347277641296387,
7551
+ "step": 1075
7552
+ },
7553
+ {
7554
+ "epoch": 0.5231872606819425,
7555
+ "grad_norm": 0.014155564829707146,
7556
+ "learning_rate": 0.00027955825032481595,
7557
+ "loss": 0.033481333404779434,
7558
+ "step": 1076
7559
+ },
7560
+ {
7561
+ "epoch": 0.5236734941955874,
7562
+ "grad_norm": 0.015523151494562626,
7563
+ "learning_rate": 0.0002793417063663924,
7564
+ "loss": 0.038126830011606216,
7565
+ "step": 1077
7566
+ },
7567
+ {
7568
+ "epoch": 0.5241597277092324,
7569
+ "grad_norm": 0.014107078313827515,
7570
+ "learning_rate": 0.0002791251624079688,
7571
+ "loss": 0.0383860319852829,
7572
+ "step": 1078
7573
+ },
7574
+ {
7575
+ "epoch": 0.5246459612228773,
7576
+ "grad_norm": 0.013211668469011784,
7577
+ "learning_rate": 0.00027890861844954523,
7578
+ "loss": 0.037652213126420975,
7579
+ "step": 1079
7580
+ },
7581
+ {
7582
+ "epoch": 0.5251321947365222,
7583
+ "grad_norm": 0.013383075594902039,
7584
+ "learning_rate": 0.0002786920744911217,
7585
+ "loss": 0.03486897051334381,
7586
+ "step": 1080
7587
+ },
7588
+ {
7589
+ "epoch": 0.5256184282501671,
7590
+ "grad_norm": 0.01312405988574028,
7591
+ "learning_rate": 0.00027847553053269816,
7592
+ "loss": 0.03551631048321724,
7593
+ "step": 1081
7594
+ },
7595
+ {
7596
+ "epoch": 0.5261046617638121,
7597
+ "grad_norm": 0.014280078001320362,
7598
+ "learning_rate": 0.00027825898657427456,
7599
+ "loss": 0.0327209047973156,
7600
+ "step": 1082
7601
+ },
7602
+ {
7603
+ "epoch": 0.526590895277457,
7604
+ "grad_norm": 0.014230197295546532,
7605
+ "learning_rate": 0.000278042442615851,
7606
+ "loss": 0.03499278426170349,
7607
+ "step": 1083
7608
+ },
7609
+ {
7610
+ "epoch": 0.5270771287911019,
7611
+ "grad_norm": 0.0142115643247962,
7612
+ "learning_rate": 0.0002778258986574275,
7613
+ "loss": 0.03594350814819336,
7614
+ "step": 1084
7615
+ },
7616
+ {
7617
+ "epoch": 0.5275633623047469,
7618
+ "grad_norm": 0.013110818341374397,
7619
+ "learning_rate": 0.0002776093546990039,
7620
+ "loss": 0.03481375426054001,
7621
+ "step": 1085
7622
+ },
7623
+ {
7624
+ "epoch": 0.5280495958183918,
7625
+ "grad_norm": 0.01580216735601425,
7626
+ "learning_rate": 0.00027739281074058036,
7627
+ "loss": 0.03467171639204025,
7628
+ "step": 1086
7629
+ },
7630
+ {
7631
+ "epoch": 0.5285358293320367,
7632
+ "grad_norm": 0.014446753077208996,
7633
+ "learning_rate": 0.00027717626678215677,
7634
+ "loss": 0.034862712025642395,
7635
+ "step": 1087
7636
+ },
7637
+ {
7638
+ "epoch": 0.5290220628456817,
7639
+ "grad_norm": 0.013800714164972305,
7640
+ "learning_rate": 0.00027695972282373323,
7641
+ "loss": 0.03640086203813553,
7642
+ "step": 1088
7643
+ },
7644
+ {
7645
+ "epoch": 0.5295082963593266,
7646
+ "grad_norm": 0.013880511745810509,
7647
+ "learning_rate": 0.00027674317886530964,
7648
+ "loss": 0.037139032036066055,
7649
+ "step": 1089
7650
+ },
7651
+ {
7652
+ "epoch": 0.5299945298729715,
7653
+ "grad_norm": 0.03105057217180729,
7654
+ "learning_rate": 0.0002765266349068861,
7655
+ "loss": 0.036529600620269775,
7656
+ "step": 1090
7657
+ },
7658
+ {
7659
+ "epoch": 0.5304807633866164,
7660
+ "grad_norm": 0.014402316883206367,
7661
+ "learning_rate": 0.00027631009094846256,
7662
+ "loss": 0.03081696107983589,
7663
+ "step": 1091
7664
+ },
7665
+ {
7666
+ "epoch": 0.5309669969002614,
7667
+ "grad_norm": 0.014533761888742447,
7668
+ "learning_rate": 0.00027609354699003897,
7669
+ "loss": 0.034763358533382416,
7670
+ "step": 1092
7671
+ },
7672
+ {
7673
+ "epoch": 0.5314532304139062,
7674
+ "grad_norm": 0.013627896085381508,
7675
+ "learning_rate": 0.00027587700303161543,
7676
+ "loss": 0.03388526290655136,
7677
+ "step": 1093
7678
+ },
7679
+ {
7680
+ "epoch": 0.5319394639275512,
7681
+ "grad_norm": 0.013394586741924286,
7682
+ "learning_rate": 0.0002756604590731919,
7683
+ "loss": 0.03367890045046806,
7684
+ "step": 1094
7685
+ },
7686
+ {
7687
+ "epoch": 0.5324256974411962,
7688
+ "grad_norm": 0.014889057725667953,
7689
+ "learning_rate": 0.0002754439151147683,
7690
+ "loss": 0.033912476152181625,
7691
+ "step": 1095
7692
+ },
7693
+ {
7694
+ "epoch": 0.532911930954841,
7695
+ "grad_norm": 0.014293133281171322,
7696
+ "learning_rate": 0.0002752273711563447,
7697
+ "loss": 0.03397766500711441,
7698
+ "step": 1096
7699
+ },
7700
+ {
7701
+ "epoch": 0.533398164468486,
7702
+ "grad_norm": 0.013831854797899723,
7703
+ "learning_rate": 0.0002750108271979212,
7704
+ "loss": 0.03504156321287155,
7705
+ "step": 1097
7706
+ },
7707
+ {
7708
+ "epoch": 0.5338843979821309,
7709
+ "grad_norm": 0.014174986630678177,
7710
+ "learning_rate": 0.00027479428323949764,
7711
+ "loss": 0.03770895674824715,
7712
+ "step": 1098
7713
+ },
7714
+ {
7715
+ "epoch": 0.5343706314957758,
7716
+ "grad_norm": 0.01447014044970274,
7717
+ "learning_rate": 0.00027457773928107405,
7718
+ "loss": 0.036136239767074585,
7719
+ "step": 1099
7720
+ },
7721
+ {
7722
+ "epoch": 0.5348568650094208,
7723
+ "grad_norm": 0.013747083023190498,
7724
+ "learning_rate": 0.0002743611953226505,
7725
+ "loss": 0.034260399639606476,
7726
+ "step": 1100
7727
+ },
7728
+ {
7729
+ "epoch": 0.5353430985230657,
7730
+ "grad_norm": 0.013516520150005817,
7731
+ "learning_rate": 0.00027414465136422697,
7732
+ "loss": 0.034295883029699326,
7733
+ "step": 1101
7734
+ },
7735
+ {
7736
+ "epoch": 0.5358293320367107,
7737
+ "grad_norm": 0.013682578690350056,
7738
+ "learning_rate": 0.0002739281074058034,
7739
+ "loss": 0.03732244670391083,
7740
+ "step": 1102
7741
+ },
7742
+ {
7743
+ "epoch": 0.5363155655503555,
7744
+ "grad_norm": 0.014351158402860165,
7745
+ "learning_rate": 0.0002737115634473798,
7746
+ "loss": 0.034668367356061935,
7747
+ "step": 1103
7748
+ },
7749
+ {
7750
+ "epoch": 0.5368017990640005,
7751
+ "grad_norm": 0.013111933134496212,
7752
+ "learning_rate": 0.0002734950194889563,
7753
+ "loss": 0.035882238298654556,
7754
+ "step": 1104
7755
+ },
7756
+ {
7757
+ "epoch": 0.5372880325776455,
7758
+ "grad_norm": 0.013734894804656506,
7759
+ "learning_rate": 0.0002732784755305327,
7760
+ "loss": 0.03722135350108147,
7761
+ "step": 1105
7762
+ },
7763
+ {
7764
+ "epoch": 0.5377742660912903,
7765
+ "grad_norm": 0.013723678886890411,
7766
+ "learning_rate": 0.0002730619315721091,
7767
+ "loss": 0.03608832508325577,
7768
+ "step": 1106
7769
+ },
7770
+ {
7771
+ "epoch": 0.5382604996049353,
7772
+ "grad_norm": 0.014407295733690262,
7773
+ "learning_rate": 0.0002728453876136856,
7774
+ "loss": 0.036822110414505005,
7775
+ "step": 1107
7776
+ },
7777
+ {
7778
+ "epoch": 0.5387467331185802,
7779
+ "grad_norm": 0.014280757866799831,
7780
+ "learning_rate": 0.00027262884365526204,
7781
+ "loss": 0.03326963633298874,
7782
+ "step": 1108
7783
+ },
7784
+ {
7785
+ "epoch": 0.5392329666322251,
7786
+ "grad_norm": 0.01311193872243166,
7787
+ "learning_rate": 0.00027241229969683845,
7788
+ "loss": 0.031371016055345535,
7789
+ "step": 1109
7790
+ },
7791
+ {
7792
+ "epoch": 0.53971920014587,
7793
+ "grad_norm": 0.013727921061217785,
7794
+ "learning_rate": 0.0002721957557384149,
7795
+ "loss": 0.03663400560617447,
7796
+ "step": 1110
7797
+ },
7798
+ {
7799
+ "epoch": 0.540205433659515,
7800
+ "grad_norm": 0.01490043569356203,
7801
+ "learning_rate": 0.0002719792117799914,
7802
+ "loss": 0.03613126277923584,
7803
+ "step": 1111
7804
+ },
7805
+ {
7806
+ "epoch": 0.5406916671731599,
7807
+ "grad_norm": 0.014557641930878162,
7808
+ "learning_rate": 0.0002717626678215678,
7809
+ "loss": 0.03574630990624428,
7810
+ "step": 1112
7811
+ },
7812
+ {
7813
+ "epoch": 0.5411779006868048,
7814
+ "grad_norm": 0.01450525876134634,
7815
+ "learning_rate": 0.0002715461238631442,
7816
+ "loss": 0.036301519721746445,
7817
+ "step": 1113
7818
+ },
7819
+ {
7820
+ "epoch": 0.5416641342004498,
7821
+ "grad_norm": 0.01451620738953352,
7822
+ "learning_rate": 0.00027132957990472066,
7823
+ "loss": 0.03540552407503128,
7824
+ "step": 1114
7825
+ },
7826
+ {
7827
+ "epoch": 0.5421503677140946,
7828
+ "grad_norm": 0.013807685114443302,
7829
+ "learning_rate": 0.0002711130359462971,
7830
+ "loss": 0.039537493139505386,
7831
+ "step": 1115
7832
+ },
7833
+ {
7834
+ "epoch": 0.5426366012277396,
7835
+ "grad_norm": 0.01461933646351099,
7836
+ "learning_rate": 0.0002708964919878735,
7837
+ "loss": 0.034039728343486786,
7838
+ "step": 1116
7839
+ },
7840
+ {
7841
+ "epoch": 0.5431228347413846,
7842
+ "grad_norm": 0.013832468539476395,
7843
+ "learning_rate": 0.00027067994802945,
7844
+ "loss": 0.03415941447019577,
7845
+ "step": 1117
7846
+ },
7847
+ {
7848
+ "epoch": 0.5436090682550295,
7849
+ "grad_norm": 0.013654129579663277,
7850
+ "learning_rate": 0.00027046340407102645,
7851
+ "loss": 0.0373041145503521,
7852
+ "step": 1118
7853
+ },
7854
+ {
7855
+ "epoch": 0.5440953017686744,
7856
+ "grad_norm": 0.01301703229546547,
7857
+ "learning_rate": 0.00027024686011260286,
7858
+ "loss": 0.036253511905670166,
7859
+ "step": 1119
7860
+ },
7861
+ {
7862
+ "epoch": 0.5445815352823193,
7863
+ "grad_norm": 0.013760874979197979,
7864
+ "learning_rate": 0.00027003031615417927,
7865
+ "loss": 0.032219234853982925,
7866
+ "step": 1120
7867
+ },
7868
+ {
7869
+ "epoch": 0.5450677687959643,
7870
+ "grad_norm": 0.015250683762133121,
7871
+ "learning_rate": 0.0002698137721957558,
7872
+ "loss": 0.0377640575170517,
7873
+ "step": 1121
7874
+ },
7875
+ {
7876
+ "epoch": 0.5455540023096092,
7877
+ "grad_norm": 0.015328595414757729,
7878
+ "learning_rate": 0.0002695972282373322,
7879
+ "loss": 0.0361119844019413,
7880
+ "step": 1122
7881
+ },
7882
+ {
7883
+ "epoch": 0.5460402358232541,
7884
+ "grad_norm": 0.03255344182252884,
7885
+ "learning_rate": 0.0002693806842789086,
7886
+ "loss": 0.03720467910170555,
7887
+ "step": 1123
7888
+ },
7889
+ {
7890
+ "epoch": 0.5465264693368991,
7891
+ "grad_norm": 0.013812856748700142,
7892
+ "learning_rate": 0.00026916414032048506,
7893
+ "loss": 0.03531163930892944,
7894
+ "step": 1124
7895
+ },
7896
+ {
7897
+ "epoch": 0.5470127028505439,
7898
+ "grad_norm": 0.013879380188882351,
7899
+ "learning_rate": 0.0002689475963620615,
7900
+ "loss": 0.03696723282337189,
7901
+ "step": 1125
7902
+ },
7903
+ {
7904
+ "epoch": 0.5474989363641889,
7905
+ "grad_norm": 0.02719070576131344,
7906
+ "learning_rate": 0.00026873105240363793,
7907
+ "loss": 0.03985331580042839,
7908
+ "step": 1126
7909
+ },
7910
+ {
7911
+ "epoch": 0.5479851698778339,
7912
+ "grad_norm": 0.014068419113755226,
7913
+ "learning_rate": 0.0002685145084452144,
7914
+ "loss": 0.03203361853957176,
7915
+ "step": 1127
7916
+ },
7917
+ {
7918
+ "epoch": 0.5484714033914787,
7919
+ "grad_norm": 0.014416170306503773,
7920
+ "learning_rate": 0.00026829796448679086,
7921
+ "loss": 0.035285789519548416,
7922
+ "step": 1128
7923
+ },
7924
+ {
7925
+ "epoch": 0.5489576369051237,
7926
+ "grad_norm": 0.014336498454213142,
7927
+ "learning_rate": 0.00026808142052836727,
7928
+ "loss": 0.03428525850176811,
7929
+ "step": 1129
7930
+ },
7931
+ {
7932
+ "epoch": 0.5494438704187686,
7933
+ "grad_norm": 0.05851925164461136,
7934
+ "learning_rate": 0.0002678648765699437,
7935
+ "loss": 0.03579060360789299,
7936
+ "step": 1130
7937
+ },
7938
+ {
7939
+ "epoch": 0.5499301039324136,
7940
+ "grad_norm": 0.07212135195732117,
7941
+ "learning_rate": 0.00026764833261152014,
7942
+ "loss": 0.037139203399419785,
7943
+ "step": 1131
7944
+ },
7945
+ {
7946
+ "epoch": 0.5504163374460584,
7947
+ "grad_norm": 0.025306610390543938,
7948
+ "learning_rate": 0.0002674317886530966,
7949
+ "loss": 0.03558531403541565,
7950
+ "step": 1132
7951
+ },
7952
+ {
7953
+ "epoch": 0.5509025709597034,
7954
+ "grad_norm": 0.016330786049365997,
7955
+ "learning_rate": 0.000267215244694673,
7956
+ "loss": 0.03798871859908104,
7957
+ "step": 1133
7958
+ },
7959
+ {
7960
+ "epoch": 0.5513888044733484,
7961
+ "grad_norm": 0.02563410997390747,
7962
+ "learning_rate": 0.00026699870073624947,
7963
+ "loss": 0.035177167505025864,
7964
+ "step": 1134
7965
+ },
7966
+ {
7967
+ "epoch": 0.5518750379869932,
7968
+ "grad_norm": 0.034003619104623795,
7969
+ "learning_rate": 0.00026678215677782593,
7970
+ "loss": 0.03756334260106087,
7971
+ "step": 1135
7972
+ },
7973
+ {
7974
+ "epoch": 0.5523612715006382,
7975
+ "grad_norm": 0.10675495862960815,
7976
+ "learning_rate": 0.00026656561281940234,
7977
+ "loss": 0.037493519484996796,
7978
+ "step": 1136
7979
+ },
7980
+ {
7981
+ "epoch": 0.5528475050142831,
7982
+ "grad_norm": 0.015743186697363853,
7983
+ "learning_rate": 0.00026634906886097875,
7984
+ "loss": 0.03329642489552498,
7985
+ "step": 1137
7986
+ },
7987
+ {
7988
+ "epoch": 0.553333738527928,
7989
+ "grad_norm": 0.025118406862020493,
7990
+ "learning_rate": 0.00026613252490255526,
7991
+ "loss": 0.03610823675990105,
7992
+ "step": 1138
7993
+ },
7994
+ {
7995
+ "epoch": 0.553819972041573,
7996
+ "grad_norm": 0.03117513842880726,
7997
+ "learning_rate": 0.0002659159809441317,
7998
+ "loss": 0.03637993335723877,
7999
+ "step": 1139
8000
+ },
8001
+ {
8002
+ "epoch": 0.5543062055552179,
8003
+ "grad_norm": 0.02941029518842697,
8004
+ "learning_rate": 0.0002656994369857081,
8005
+ "loss": 0.035395268350839615,
8006
+ "step": 1140
8007
+ },
8008
+ {
8009
+ "epoch": 0.5547924390688628,
8010
+ "grad_norm": 0.01681404374539852,
8011
+ "learning_rate": 0.00026548289302728454,
8012
+ "loss": 0.03673194721341133,
8013
+ "step": 1141
8014
+ },
8015
+ {
8016
+ "epoch": 0.5552786725825077,
8017
+ "grad_norm": 0.01851377636194229,
8018
+ "learning_rate": 0.000265266349068861,
8019
+ "loss": 0.03434037044644356,
8020
+ "step": 1142
8021
+ },
8022
+ {
8023
+ "epoch": 0.5557649060961527,
8024
+ "grad_norm": 0.016019780188798904,
8025
+ "learning_rate": 0.0002650498051104374,
8026
+ "loss": 0.03344109654426575,
8027
+ "step": 1143
8028
+ },
8029
+ {
8030
+ "epoch": 0.5562511396097976,
8031
+ "grad_norm": 0.015543187968432903,
8032
+ "learning_rate": 0.0002648332611520138,
8033
+ "loss": 0.03443222865462303,
8034
+ "step": 1144
8035
+ },
8036
+ {
8037
+ "epoch": 0.5567373731234425,
8038
+ "grad_norm": 0.016184071078896523,
8039
+ "learning_rate": 0.00026461671719359034,
8040
+ "loss": 0.03171855956315994,
8041
+ "step": 1145
8042
+ },
8043
+ {
8044
+ "epoch": 0.5572236066370875,
8045
+ "grad_norm": 0.015442226082086563,
8046
+ "learning_rate": 0.00026440017323516675,
8047
+ "loss": 0.03837261721491814,
8048
+ "step": 1146
8049
+ },
8050
+ {
8051
+ "epoch": 0.5577098401507324,
8052
+ "grad_norm": 0.014598467387259007,
8053
+ "learning_rate": 0.00026418362927674316,
8054
+ "loss": 0.03551751747727394,
8055
+ "step": 1147
8056
+ },
8057
+ {
8058
+ "epoch": 0.5581960736643773,
8059
+ "grad_norm": 0.01574649289250374,
8060
+ "learning_rate": 0.0002639670853183196,
8061
+ "loss": 0.03703949600458145,
8062
+ "step": 1148
8063
+ },
8064
+ {
8065
+ "epoch": 0.5586823071780223,
8066
+ "grad_norm": 0.01476812269538641,
8067
+ "learning_rate": 0.0002637505413598961,
8068
+ "loss": 0.036938779056072235,
8069
+ "step": 1149
8070
+ },
8071
+ {
8072
+ "epoch": 0.5591685406916672,
8073
+ "grad_norm": 0.015625180676579475,
8074
+ "learning_rate": 0.0002635339974014725,
8075
+ "loss": 0.03427194431424141,
8076
+ "step": 1150
8077
+ },
8078
+ {
8079
+ "epoch": 0.5596547742053121,
8080
+ "grad_norm": 0.015583393163979053,
8081
+ "learning_rate": 0.00026331745344304895,
8082
+ "loss": 0.03499074652791023,
8083
+ "step": 1151
8084
+ },
8085
+ {
8086
+ "epoch": 0.560141007718957,
8087
+ "grad_norm": 0.015638794749975204,
8088
+ "learning_rate": 0.0002631009094846254,
8089
+ "loss": 0.03275633603334427,
8090
+ "step": 1152
8091
+ },
8092
+ {
8093
+ "epoch": 0.560627241232602,
8094
+ "grad_norm": 0.013819956220686436,
8095
+ "learning_rate": 0.0002628843655262018,
8096
+ "loss": 0.03441233187913895,
8097
+ "step": 1153
8098
+ },
8099
+ {
8100
+ "epoch": 0.5611134747462468,
8101
+ "grad_norm": 0.015144738368690014,
8102
+ "learning_rate": 0.00026266782156777823,
8103
+ "loss": 0.03544919192790985,
8104
+ "step": 1154
8105
+ },
8106
+ {
8107
+ "epoch": 0.5615997082598918,
8108
+ "grad_norm": 0.014519906602799892,
8109
+ "learning_rate": 0.00026245127760935475,
8110
+ "loss": 0.03368879482150078,
8111
+ "step": 1155
8112
+ },
8113
+ {
8114
+ "epoch": 0.5620859417735368,
8115
+ "grad_norm": 0.015124383382499218,
8116
+ "learning_rate": 0.00026223473365093115,
8117
+ "loss": 0.03450941666960716,
8118
+ "step": 1156
8119
+ },
8120
+ {
8121
+ "epoch": 0.5625721752871816,
8122
+ "grad_norm": 0.014417370781302452,
8123
+ "learning_rate": 0.00026201818969250756,
8124
+ "loss": 0.03814588487148285,
8125
+ "step": 1157
8126
+ },
8127
+ {
8128
+ "epoch": 0.5630584088008266,
8129
+ "grad_norm": 0.016265632584691048,
8130
+ "learning_rate": 0.000261801645734084,
8131
+ "loss": 0.03617558628320694,
8132
+ "step": 1158
8133
+ },
8134
+ {
8135
+ "epoch": 0.5635446423144715,
8136
+ "grad_norm": 0.014344267547130585,
8137
+ "learning_rate": 0.0002615851017756605,
8138
+ "loss": 0.03676125034689903,
8139
+ "step": 1159
8140
+ },
8141
+ {
8142
+ "epoch": 0.5640308758281165,
8143
+ "grad_norm": 0.016097700223326683,
8144
+ "learning_rate": 0.0002613685578172369,
8145
+ "loss": 0.03329729288816452,
8146
+ "step": 1160
8147
+ },
8148
+ {
8149
+ "epoch": 0.5645171093417614,
8150
+ "grad_norm": 0.015015493147075176,
8151
+ "learning_rate": 0.0002611520138588133,
8152
+ "loss": 0.036959245800971985,
8153
+ "step": 1161
8154
+ },
8155
+ {
8156
+ "epoch": 0.5650033428554063,
8157
+ "grad_norm": 0.015185183845460415,
8158
+ "learning_rate": 0.0002609354699003898,
8159
+ "loss": 0.03682759404182434,
8160
+ "step": 1162
8161
+ },
8162
+ {
8163
+ "epoch": 0.5654895763690513,
8164
+ "grad_norm": 0.014621437527239323,
8165
+ "learning_rate": 0.00026071892594196623,
8166
+ "loss": 0.035395123064517975,
8167
+ "step": 1163
8168
+ },
8169
+ {
8170
+ "epoch": 0.5659758098826961,
8171
+ "grad_norm": 0.015326340682804585,
8172
+ "learning_rate": 0.00026050238198354264,
8173
+ "loss": 0.03279733657836914,
8174
+ "step": 1164
8175
+ },
8176
+ {
8177
+ "epoch": 0.5664620433963411,
8178
+ "grad_norm": 0.014678249135613441,
8179
+ "learning_rate": 0.0002602858380251191,
8180
+ "loss": 0.03424302488565445,
8181
+ "step": 1165
8182
+ },
8183
+ {
8184
+ "epoch": 0.5669482769099861,
8185
+ "grad_norm": 0.014298009686172009,
8186
+ "learning_rate": 0.00026006929406669556,
8187
+ "loss": 0.035760778933763504,
8188
+ "step": 1166
8189
+ },
8190
+ {
8191
+ "epoch": 0.5674345104236309,
8192
+ "grad_norm": 0.014259879477322102,
8193
+ "learning_rate": 0.00025985275010827197,
8194
+ "loss": 0.03151150047779083,
8195
+ "step": 1167
8196
+ },
8197
+ {
8198
+ "epoch": 0.5679207439372759,
8199
+ "grad_norm": 0.014827264472842216,
8200
+ "learning_rate": 0.0002596362061498484,
8201
+ "loss": 0.03375959396362305,
8202
+ "step": 1168
8203
+ },
8204
+ {
8205
+ "epoch": 0.5684069774509208,
8206
+ "grad_norm": 0.013862174935638905,
8207
+ "learning_rate": 0.0002594196621914249,
8208
+ "loss": 0.034797750413417816,
8209
+ "step": 1169
8210
+ },
8211
+ {
8212
+ "epoch": 0.5688932109645657,
8213
+ "grad_norm": 0.013984517194330692,
8214
+ "learning_rate": 0.0002592031182330013,
8215
+ "loss": 0.03391830623149872,
8216
+ "step": 1170
8217
+ },
8218
+ {
8219
+ "epoch": 0.5693794444782107,
8220
+ "grad_norm": 0.015051658265292645,
8221
+ "learning_rate": 0.0002589865742745777,
8222
+ "loss": 0.03376283496618271,
8223
+ "step": 1171
8224
+ },
8225
+ {
8226
+ "epoch": 0.5698656779918556,
8227
+ "grad_norm": 0.015616999007761478,
8228
+ "learning_rate": 0.00025877003031615423,
8229
+ "loss": 0.03637155145406723,
8230
+ "step": 1172
8231
+ },
8232
+ {
8233
+ "epoch": 0.5703519115055005,
8234
+ "grad_norm": 0.015244786627590656,
8235
+ "learning_rate": 0.00025855348635773064,
8236
+ "loss": 0.03279532864689827,
8237
+ "step": 1173
8238
+ },
8239
+ {
8240
+ "epoch": 0.5708381450191454,
8241
+ "grad_norm": 0.015110467560589314,
8242
+ "learning_rate": 0.00025833694239930704,
8243
+ "loss": 0.028855204582214355,
8244
+ "step": 1174
8245
+ },
8246
+ {
8247
+ "epoch": 0.5713243785327904,
8248
+ "grad_norm": 0.014544975012540817,
8249
+ "learning_rate": 0.0002581203984408835,
8250
+ "loss": 0.0331791490316391,
8251
+ "step": 1175
8252
+ },
8253
+ {
8254
+ "epoch": 0.5718106120464354,
8255
+ "grad_norm": 0.016088686883449554,
8256
+ "learning_rate": 0.00025790385448245997,
8257
+ "loss": 0.035294558852910995,
8258
+ "step": 1176
8259
+ },
8260
+ {
8261
+ "epoch": 0.5722968455600802,
8262
+ "grad_norm": 0.015287506394088268,
8263
+ "learning_rate": 0.0002576873105240364,
8264
+ "loss": 0.0316205769777298,
8265
+ "step": 1177
8266
+ },
8267
+ {
8268
+ "epoch": 0.5727830790737252,
8269
+ "grad_norm": 0.014967241324484348,
8270
+ "learning_rate": 0.0002574707665656128,
8271
+ "loss": 0.035786937922239304,
8272
+ "step": 1178
8273
+ },
8274
+ {
8275
+ "epoch": 0.5732693125873701,
8276
+ "grad_norm": 0.013769371435046196,
8277
+ "learning_rate": 0.0002572542226071893,
8278
+ "loss": 0.034682467579841614,
8279
+ "step": 1179
8280
+ },
8281
+ {
8282
+ "epoch": 0.573755546101015,
8283
+ "grad_norm": 0.013882031664252281,
8284
+ "learning_rate": 0.0002570376786487657,
8285
+ "loss": 0.031522758305072784,
8286
+ "step": 1180
8287
+ },
8288
+ {
8289
+ "epoch": 0.5742417796146599,
8290
+ "grad_norm": 0.014171222224831581,
8291
+ "learning_rate": 0.0002568211346903421,
8292
+ "loss": 0.0348481647670269,
8293
+ "step": 1181
8294
+ },
8295
+ {
8296
+ "epoch": 0.5747280131283049,
8297
+ "grad_norm": 0.014809303916990757,
8298
+ "learning_rate": 0.00025660459073191863,
8299
+ "loss": 0.0344531424343586,
8300
+ "step": 1182
8301
+ },
8302
+ {
8303
+ "epoch": 0.5752142466419498,
8304
+ "grad_norm": 0.014414481818675995,
8305
+ "learning_rate": 0.00025638804677349504,
8306
+ "loss": 0.037036582827568054,
8307
+ "step": 1183
8308
+ },
8309
+ {
8310
+ "epoch": 0.5757004801555947,
8311
+ "grad_norm": 0.016130995005369186,
8312
+ "learning_rate": 0.00025617150281507145,
8313
+ "loss": 0.03491906449198723,
8314
+ "step": 1184
8315
+ },
8316
+ {
8317
+ "epoch": 0.5761867136692397,
8318
+ "grad_norm": 0.014523262158036232,
8319
+ "learning_rate": 0.00025595495885664786,
8320
+ "loss": 0.033943112939596176,
8321
+ "step": 1185
8322
+ },
8323
+ {
8324
+ "epoch": 0.5766729471828845,
8325
+ "grad_norm": 0.014005020260810852,
8326
+ "learning_rate": 0.0002557384148982244,
8327
+ "loss": 0.03315407782793045,
8328
+ "step": 1186
8329
+ },
8330
+ {
8331
+ "epoch": 0.5771591806965295,
8332
+ "grad_norm": 0.014882663264870644,
8333
+ "learning_rate": 0.0002555218709398008,
8334
+ "loss": 0.03499560058116913,
8335
+ "step": 1187
8336
+ },
8337
+ {
8338
+ "epoch": 0.5776454142101745,
8339
+ "grad_norm": 0.014436531811952591,
8340
+ "learning_rate": 0.0002553053269813772,
8341
+ "loss": 0.03628615289926529,
8342
+ "step": 1188
8343
+ },
8344
+ {
8345
+ "epoch": 0.5781316477238194,
8346
+ "grad_norm": 0.014366181567311287,
8347
+ "learning_rate": 0.0002550887830229537,
8348
+ "loss": 0.0350048765540123,
8349
+ "step": 1189
8350
+ },
8351
+ {
8352
+ "epoch": 0.5786178812374643,
8353
+ "grad_norm": 0.01463479083031416,
8354
+ "learning_rate": 0.0002548722390645301,
8355
+ "loss": 0.037951964884996414,
8356
+ "step": 1190
8357
+ },
8358
+ {
8359
+ "epoch": 0.5791041147511092,
8360
+ "grad_norm": 0.014090332202613354,
8361
+ "learning_rate": 0.0002546556951061065,
8362
+ "loss": 0.035452209413051605,
8363
+ "step": 1191
8364
+ },
8365
+ {
8366
+ "epoch": 0.5795903482647542,
8367
+ "grad_norm": 0.014285637997090816,
8368
+ "learning_rate": 0.000254439151147683,
8369
+ "loss": 0.03433792665600777,
8370
+ "step": 1192
8371
+ },
8372
+ {
8373
+ "epoch": 0.580076581778399,
8374
+ "grad_norm": 0.015341908670961857,
8375
+ "learning_rate": 0.00025422260718925945,
8376
+ "loss": 0.03899161145091057,
8377
+ "step": 1193
8378
+ },
8379
+ {
8380
+ "epoch": 0.580562815292044,
8381
+ "grad_norm": 0.014338607899844646,
8382
+ "learning_rate": 0.00025400606323083586,
8383
+ "loss": 0.028708798810839653,
8384
+ "step": 1194
8385
+ },
8386
+ {
8387
+ "epoch": 0.581049048805689,
8388
+ "grad_norm": 0.014068455435335636,
8389
+ "learning_rate": 0.00025378951927241227,
8390
+ "loss": 0.03241080045700073,
8391
+ "step": 1195
8392
+ },
8393
+ {
8394
+ "epoch": 0.5815352823193338,
8395
+ "grad_norm": 0.014995142817497253,
8396
+ "learning_rate": 0.0002535729753139888,
8397
+ "loss": 0.03661258518695831,
8398
+ "step": 1196
8399
+ },
8400
+ {
8401
+ "epoch": 0.5820215158329788,
8402
+ "grad_norm": 0.014894435182213783,
8403
+ "learning_rate": 0.0002533564313555652,
8404
+ "loss": 0.03713268041610718,
8405
+ "step": 1197
8406
+ },
8407
+ {
8408
+ "epoch": 0.5825077493466237,
8409
+ "grad_norm": 0.014744212850928307,
8410
+ "learning_rate": 0.0002531398873971416,
8411
+ "loss": 0.031973473727703094,
8412
+ "step": 1198
8413
+ },
8414
+ {
8415
+ "epoch": 0.5829939828602686,
8416
+ "grad_norm": 0.014299332164227962,
8417
+ "learning_rate": 0.0002529233434387181,
8418
+ "loss": 0.03431545943021774,
8419
+ "step": 1199
8420
+ },
8421
+ {
8422
+ "epoch": 0.5834802163739136,
8423
+ "grad_norm": 0.014882242307066917,
8424
+ "learning_rate": 0.0002527067994802945,
8425
+ "loss": 0.03584323078393936,
8426
+ "step": 1200
8427
+ },
8428
+ {
8429
+ "epoch": 0.5839664498875585,
8430
+ "grad_norm": 0.014170056208968163,
8431
+ "learning_rate": 0.00025249025552187093,
8432
+ "loss": 0.034378085285425186,
8433
+ "step": 1201
8434
+ },
8435
+ {
8436
+ "epoch": 0.5844526834012034,
8437
+ "grad_norm": 0.014155167154967785,
8438
+ "learning_rate": 0.00025227371156344734,
8439
+ "loss": 0.034098751842975616,
8440
+ "step": 1202
8441
+ },
8442
+ {
8443
+ "epoch": 0.5849389169148483,
8444
+ "grad_norm": 0.015772607177495956,
8445
+ "learning_rate": 0.00025205716760502386,
8446
+ "loss": 0.031616367399692535,
8447
+ "step": 1203
8448
+ },
8449
+ {
8450
+ "epoch": 0.5854251504284933,
8451
+ "grad_norm": 0.013857257552444935,
8452
+ "learning_rate": 0.00025184062364660026,
8453
+ "loss": 0.034753598272800446,
8454
+ "step": 1204
8455
+ },
8456
+ {
8457
+ "epoch": 0.5859113839421383,
8458
+ "grad_norm": 0.01471875049173832,
8459
+ "learning_rate": 0.00025162407968817667,
8460
+ "loss": 0.03113594464957714,
8461
+ "step": 1205
8462
+ },
8463
+ {
8464
+ "epoch": 0.5863976174557831,
8465
+ "grad_norm": 0.014296879060566425,
8466
+ "learning_rate": 0.0002514075357297532,
8467
+ "loss": 0.03316786140203476,
8468
+ "step": 1206
8469
+ },
8470
+ {
8471
+ "epoch": 0.5868838509694281,
8472
+ "grad_norm": 0.013809135183691978,
8473
+ "learning_rate": 0.0002511909917713296,
8474
+ "loss": 0.03172443062067032,
8475
+ "step": 1207
8476
+ },
8477
+ {
8478
+ "epoch": 0.587370084483073,
8479
+ "grad_norm": 0.014519846998155117,
8480
+ "learning_rate": 0.000250974447812906,
8481
+ "loss": 0.03601034730672836,
8482
+ "step": 1208
8483
+ },
8484
+ {
8485
+ "epoch": 0.5878563179967179,
8486
+ "grad_norm": 0.01552652195096016,
8487
+ "learning_rate": 0.0002507579038544824,
8488
+ "loss": 0.03719080239534378,
8489
+ "step": 1209
8490
+ },
8491
+ {
8492
+ "epoch": 0.5883425515103629,
8493
+ "grad_norm": 0.015220316126942635,
8494
+ "learning_rate": 0.00025054135989605893,
8495
+ "loss": 0.03144580125808716,
8496
+ "step": 1210
8497
+ },
8498
+ {
8499
+ "epoch": 0.5888287850240078,
8500
+ "grad_norm": 0.01446231734007597,
8501
+ "learning_rate": 0.00025032481593763534,
8502
+ "loss": 0.03810115531086922,
8503
+ "step": 1211
8504
+ },
8505
+ {
8506
+ "epoch": 0.5893150185376527,
8507
+ "grad_norm": 0.014120371080935001,
8508
+ "learning_rate": 0.00025010827197921175,
8509
+ "loss": 0.03405807167291641,
8510
+ "step": 1212
8511
+ },
8512
+ {
8513
+ "epoch": 0.5898012520512976,
8514
+ "grad_norm": 0.014574095606803894,
8515
+ "learning_rate": 0.0002498917280207882,
8516
+ "loss": 0.032808732241392136,
8517
+ "step": 1213
8518
+ },
8519
+ {
8520
+ "epoch": 0.5902874855649426,
8521
+ "grad_norm": 0.01470918022096157,
8522
+ "learning_rate": 0.00024967518406236467,
8523
+ "loss": 0.035265203565359116,
8524
+ "step": 1214
8525
+ },
8526
+ {
8527
+ "epoch": 0.5907737190785874,
8528
+ "grad_norm": 0.014463575556874275,
8529
+ "learning_rate": 0.0002494586401039411,
8530
+ "loss": 0.03249891847372055,
8531
+ "step": 1215
8532
+ },
8533
+ {
8534
+ "epoch": 0.5912599525922324,
8535
+ "grad_norm": 0.01371840015053749,
8536
+ "learning_rate": 0.00024924209614551754,
8537
+ "loss": 0.03212244436144829,
8538
+ "step": 1216
8539
+ },
8540
+ {
8541
+ "epoch": 0.5917461861058774,
8542
+ "grad_norm": 0.013899889774620533,
8543
+ "learning_rate": 0.000249025552187094,
8544
+ "loss": 0.033638618886470795,
8545
+ "step": 1217
8546
+ },
8547
+ {
8548
+ "epoch": 0.5922324196195222,
8549
+ "grad_norm": 0.014456473290920258,
8550
+ "learning_rate": 0.0002488090082286704,
8551
+ "loss": 0.03235378488898277,
8552
+ "step": 1218
8553
+ },
8554
+ {
8555
+ "epoch": 0.5927186531331672,
8556
+ "grad_norm": 0.014223506674170494,
8557
+ "learning_rate": 0.0002485924642702469,
8558
+ "loss": 0.03393813222646713,
8559
+ "step": 1219
8560
+ },
8561
+ {
8562
+ "epoch": 0.5932048866468121,
8563
+ "grad_norm": 0.0147509491071105,
8564
+ "learning_rate": 0.0002483759203118233,
8565
+ "loss": 0.03550096973776817,
8566
+ "step": 1220
8567
+ },
8568
+ {
8569
+ "epoch": 0.5936911201604571,
8570
+ "grad_norm": 0.013944664038717747,
8571
+ "learning_rate": 0.00024815937635339975,
8572
+ "loss": 0.0346209742128849,
8573
+ "step": 1221
8574
+ },
8575
+ {
8576
+ "epoch": 0.594177353674102,
8577
+ "grad_norm": 0.017330098897218704,
8578
+ "learning_rate": 0.0002479428323949762,
8579
+ "loss": 0.03434748202562332,
8580
+ "step": 1222
8581
+ },
8582
+ {
8583
+ "epoch": 0.5946635871877469,
8584
+ "grad_norm": 0.013888601213693619,
8585
+ "learning_rate": 0.0002477262884365526,
8586
+ "loss": 0.03292950987815857,
8587
+ "step": 1223
8588
+ },
8589
+ {
8590
+ "epoch": 0.5951498207013919,
8591
+ "grad_norm": 0.013507389463484287,
8592
+ "learning_rate": 0.0002475097444781291,
8593
+ "loss": 0.030300376936793327,
8594
+ "step": 1224
8595
+ },
8596
+ {
8597
+ "epoch": 0.5956360542150367,
8598
+ "grad_norm": 0.014849923551082611,
8599
+ "learning_rate": 0.0002472932005197055,
8600
+ "loss": 0.03718724846839905,
8601
+ "step": 1225
8602
+ },
8603
+ {
8604
+ "epoch": 0.5961222877286817,
8605
+ "grad_norm": 0.013127702288329601,
8606
+ "learning_rate": 0.00024707665656128195,
8607
+ "loss": 0.03642948344349861,
8608
+ "step": 1226
8609
+ },
8610
+ {
8611
+ "epoch": 0.5966085212423267,
8612
+ "grad_norm": 0.014370061457157135,
8613
+ "learning_rate": 0.00024686011260285836,
8614
+ "loss": 0.036296501755714417,
8615
+ "step": 1227
8616
+ },
8617
+ {
8618
+ "epoch": 0.5970947547559715,
8619
+ "grad_norm": 0.014229833148419857,
8620
+ "learning_rate": 0.0002466435686444348,
8621
+ "loss": 0.03772621974349022,
8622
+ "step": 1228
8623
+ },
8624
+ {
8625
+ "epoch": 0.5975809882696165,
8626
+ "grad_norm": 0.014395033940672874,
8627
+ "learning_rate": 0.0002464270246860113,
8628
+ "loss": 0.03394228592514992,
8629
+ "step": 1229
8630
+ },
8631
+ {
8632
+ "epoch": 0.5980672217832614,
8633
+ "grad_norm": 0.014203759841620922,
8634
+ "learning_rate": 0.0002462104807275877,
8635
+ "loss": 0.03398077189922333,
8636
+ "step": 1230
8637
+ },
8638
+ {
8639
+ "epoch": 0.5985534552969063,
8640
+ "grad_norm": 0.014437762089073658,
8641
+ "learning_rate": 0.00024599393676916415,
8642
+ "loss": 0.028665797784924507,
8643
+ "step": 1231
8644
+ },
8645
+ {
8646
+ "epoch": 0.5990396888105513,
8647
+ "grad_norm": 0.014124961569905281,
8648
+ "learning_rate": 0.00024577739281074056,
8649
+ "loss": 0.035838231444358826,
8650
+ "step": 1232
8651
+ },
8652
+ {
8653
+ "epoch": 0.5995259223241962,
8654
+ "grad_norm": 0.013696972280740738,
8655
+ "learning_rate": 0.000245560848852317,
8656
+ "loss": 0.034617070108652115,
8657
+ "step": 1233
8658
+ },
8659
+ {
8660
+ "epoch": 0.6000121558378412,
8661
+ "grad_norm": 0.013875085860490799,
8662
+ "learning_rate": 0.0002453443048938935,
8663
+ "loss": 0.03617449849843979,
8664
+ "step": 1234
8665
+ },
8666
+ {
8667
+ "epoch": 0.600498389351486,
8668
+ "grad_norm": 0.01313305739313364,
8669
+ "learning_rate": 0.0002451277609354699,
8670
+ "loss": 0.03542593866586685,
8671
+ "step": 1235
8672
+ },
8673
+ {
8674
+ "epoch": 0.600984622865131,
8675
+ "grad_norm": 0.014472343027591705,
8676
+ "learning_rate": 0.00024491121697704636,
8677
+ "loss": 0.032386451959609985,
8678
+ "step": 1236
8679
+ },
8680
+ {
8681
+ "epoch": 0.601470856378776,
8682
+ "grad_norm": 0.014684909023344517,
8683
+ "learning_rate": 0.00024469467301862276,
8684
+ "loss": 0.0343945138156414,
8685
+ "step": 1237
8686
+ },
8687
+ {
8688
+ "epoch": 0.6019570898924208,
8689
+ "grad_norm": 0.014352599158883095,
8690
+ "learning_rate": 0.0002444781290601992,
8691
+ "loss": 0.03243408724665642,
8692
+ "step": 1238
8693
+ },
8694
+ {
8695
+ "epoch": 0.6024433234060658,
8696
+ "grad_norm": 0.014815051108598709,
8697
+ "learning_rate": 0.00024426158510177564,
8698
+ "loss": 0.036052584648132324,
8699
+ "step": 1239
8700
+ },
8701
+ {
8702
+ "epoch": 0.6029295569197107,
8703
+ "grad_norm": 0.015110349282622337,
8704
+ "learning_rate": 0.0002440450411433521,
8705
+ "loss": 0.035057857632637024,
8706
+ "step": 1240
8707
+ },
8708
+ {
8709
+ "epoch": 0.6034157904333556,
8710
+ "grad_norm": 0.01499603409320116,
8711
+ "learning_rate": 0.00024382849718492856,
8712
+ "loss": 0.03447789326310158,
8713
+ "step": 1241
8714
+ },
8715
+ {
8716
+ "epoch": 0.6039020239470005,
8717
+ "grad_norm": 0.013547827489674091,
8718
+ "learning_rate": 0.00024361195322650497,
8719
+ "loss": 0.036869995296001434,
8720
+ "step": 1242
8721
+ },
8722
+ {
8723
+ "epoch": 0.6043882574606455,
8724
+ "grad_norm": 0.014528974890708923,
8725
+ "learning_rate": 0.00024339540926808143,
8726
+ "loss": 0.03351128101348877,
8727
+ "step": 1243
8728
+ },
8729
+ {
8730
+ "epoch": 0.6048744909742904,
8731
+ "grad_norm": 0.013727253302931786,
8732
+ "learning_rate": 0.00024317886530965787,
8733
+ "loss": 0.031914278864860535,
8734
+ "step": 1244
8735
+ },
8736
+ {
8737
+ "epoch": 0.6053607244879353,
8738
+ "grad_norm": 0.013836268335580826,
8739
+ "learning_rate": 0.0002429623213512343,
8740
+ "loss": 0.03593692183494568,
8741
+ "step": 1245
8742
+ },
8743
+ {
8744
+ "epoch": 0.6058469580015803,
8745
+ "grad_norm": 0.013676434755325317,
8746
+ "learning_rate": 0.00024274577739281076,
8747
+ "loss": 0.030865518376231194,
8748
+ "step": 1246
8749
+ },
8750
+ {
8751
+ "epoch": 0.6063331915152251,
8752
+ "grad_norm": 0.014790666289627552,
8753
+ "learning_rate": 0.00024252923343438717,
8754
+ "loss": 0.03735022619366646,
8755
+ "step": 1247
8756
+ },
8757
+ {
8758
+ "epoch": 0.6068194250288701,
8759
+ "grad_norm": 0.013988127000629902,
8760
+ "learning_rate": 0.00024231268947596363,
8761
+ "loss": 0.03215673193335533,
8762
+ "step": 1248
8763
+ },
8764
+ {
8765
+ "epoch": 0.6073056585425151,
8766
+ "grad_norm": 0.013941338285803795,
8767
+ "learning_rate": 0.00024209614551754007,
8768
+ "loss": 0.037025727331638336,
8769
+ "step": 1249
8770
+ },
8771
+ {
8772
+ "epoch": 0.60779189205616,
8773
+ "grad_norm": 0.013766956515610218,
8774
+ "learning_rate": 0.0002418796015591165,
8775
+ "loss": 0.03790061175823212,
8776
+ "step": 1250
8777
+ },
8778
+ {
8779
+ "epoch": 0.6082781255698049,
8780
+ "grad_norm": 0.01456359587609768,
8781
+ "learning_rate": 0.00024166305760069297,
8782
+ "loss": 0.03590507432818413,
8783
+ "step": 1251
8784
+ },
8785
+ {
8786
+ "epoch": 0.6087643590834498,
8787
+ "grad_norm": 0.014707593247294426,
8788
+ "learning_rate": 0.00024144651364226938,
8789
+ "loss": 0.03497236222028732,
8790
+ "step": 1252
8791
+ },
8792
+ {
8793
+ "epoch": 0.6092505925970948,
8794
+ "grad_norm": 0.0143510140478611,
8795
+ "learning_rate": 0.00024122996968384584,
8796
+ "loss": 0.031629275530576706,
8797
+ "step": 1253
8798
+ },
8799
+ {
8800
+ "epoch": 0.6097368261107396,
8801
+ "grad_norm": 0.014503378421068192,
8802
+ "learning_rate": 0.00024101342572542225,
8803
+ "loss": 0.033413030207157135,
8804
+ "step": 1254
8805
+ },
8806
+ {
8807
+ "epoch": 0.6102230596243846,
8808
+ "grad_norm": 0.014512976631522179,
8809
+ "learning_rate": 0.0002407968817669987,
8810
+ "loss": 0.03332623839378357,
8811
+ "step": 1255
8812
+ },
8813
+ {
8814
+ "epoch": 0.6107092931380296,
8815
+ "grad_norm": 0.013471649959683418,
8816
+ "learning_rate": 0.00024058033780857514,
8817
+ "loss": 0.03274286910891533,
8818
+ "step": 1256
8819
+ },
8820
+ {
8821
+ "epoch": 0.6111955266516744,
8822
+ "grad_norm": 0.014295383356511593,
8823
+ "learning_rate": 0.00024036379385015158,
8824
+ "loss": 0.033239275217056274,
8825
+ "step": 1257
8826
+ },
8827
+ {
8828
+ "epoch": 0.6116817601653194,
8829
+ "grad_norm": 0.015325219370424747,
8830
+ "learning_rate": 0.00024014724989172804,
8831
+ "loss": 0.03931151330471039,
8832
+ "step": 1258
8833
+ },
8834
+ {
8835
+ "epoch": 0.6121679936789644,
8836
+ "grad_norm": 0.014009041711688042,
8837
+ "learning_rate": 0.00023993070593330445,
8838
+ "loss": 0.035900142043828964,
8839
+ "step": 1259
8840
+ },
8841
+ {
8842
+ "epoch": 0.6126542271926092,
8843
+ "grad_norm": 0.013827085494995117,
8844
+ "learning_rate": 0.0002397141619748809,
8845
+ "loss": 0.03658423200249672,
8846
+ "step": 1260
8847
+ },
8848
+ {
8849
+ "epoch": 0.6131404607062542,
8850
+ "grad_norm": 0.024001143872737885,
8851
+ "learning_rate": 0.00023949761801645735,
8852
+ "loss": 0.035441312938928604,
8853
+ "step": 1261
8854
+ },
8855
+ {
8856
+ "epoch": 0.6136266942198991,
8857
+ "grad_norm": 0.013768965378403664,
8858
+ "learning_rate": 0.00023928107405803378,
8859
+ "loss": 0.036932703107595444,
8860
+ "step": 1262
8861
+ },
8862
+ {
8863
+ "epoch": 0.6141129277335441,
8864
+ "grad_norm": 0.013339557684957981,
8865
+ "learning_rate": 0.00023906453009961024,
8866
+ "loss": 0.03353942558169365,
8867
+ "step": 1263
8868
+ },
8869
+ {
8870
+ "epoch": 0.6145991612471889,
8871
+ "grad_norm": 0.014980307780206203,
8872
+ "learning_rate": 0.00023884798614118665,
8873
+ "loss": 0.03243682160973549,
8874
+ "step": 1264
8875
+ },
8876
+ {
8877
+ "epoch": 0.6150853947608339,
8878
+ "grad_norm": 0.014316984452307224,
8879
+ "learning_rate": 0.00023863144218276312,
8880
+ "loss": 0.03328140079975128,
8881
+ "step": 1265
8882
+ },
8883
+ {
8884
+ "epoch": 0.6155716282744789,
8885
+ "grad_norm": 0.014322753064334393,
8886
+ "learning_rate": 0.00023841489822433955,
8887
+ "loss": 0.03490499034523964,
8888
+ "step": 1266
8889
+ },
8890
+ {
8891
+ "epoch": 0.6160578617881237,
8892
+ "grad_norm": 0.01352720521390438,
8893
+ "learning_rate": 0.00023819835426591599,
8894
+ "loss": 0.03322020545601845,
8895
+ "step": 1267
8896
+ },
8897
+ {
8898
+ "epoch": 0.6165440953017687,
8899
+ "grad_norm": 0.01417227741330862,
8900
+ "learning_rate": 0.00023798181030749242,
8901
+ "loss": 0.034942928701639175,
8902
+ "step": 1268
8903
+ },
8904
+ {
8905
+ "epoch": 0.6170303288154136,
8906
+ "grad_norm": 0.014059393666684628,
8907
+ "learning_rate": 0.00023776526634906886,
8908
+ "loss": 0.03696153685450554,
8909
+ "step": 1269
8910
+ },
8911
+ {
8912
+ "epoch": 0.6175165623290585,
8913
+ "grad_norm": 0.014172044582664967,
8914
+ "learning_rate": 0.00023754872239064532,
8915
+ "loss": 0.039092909544706345,
8916
+ "step": 1270
8917
+ },
8918
+ {
8919
+ "epoch": 0.6180027958427035,
8920
+ "grad_norm": 0.01400654949247837,
8921
+ "learning_rate": 0.00023733217843222175,
8922
+ "loss": 0.036471493542194366,
8923
+ "step": 1271
8924
+ },
8925
+ {
8926
+ "epoch": 0.6184890293563484,
8927
+ "grad_norm": 0.013951717875897884,
8928
+ "learning_rate": 0.0002371156344737982,
8929
+ "loss": 0.03401320427656174,
8930
+ "step": 1272
8931
+ },
8932
+ {
8933
+ "epoch": 0.6189752628699933,
8934
+ "grad_norm": 0.014873258769512177,
8935
+ "learning_rate": 0.00023689909051537462,
8936
+ "loss": 0.03410210460424423,
8937
+ "step": 1273
8938
+ },
8939
+ {
8940
+ "epoch": 0.6194614963836382,
8941
+ "grad_norm": 0.014345663599669933,
8942
+ "learning_rate": 0.00023668254655695106,
8943
+ "loss": 0.03397146239876747,
8944
+ "step": 1274
8945
+ },
8946
+ {
8947
+ "epoch": 0.6199477298972832,
8948
+ "grad_norm": 0.014295048080384731,
8949
+ "learning_rate": 0.00023646600259852752,
8950
+ "loss": 0.030897531658411026,
8951
+ "step": 1275
8952
+ },
8953
+ {
8954
+ "epoch": 0.620433963410928,
8955
+ "grad_norm": 0.014968395233154297,
8956
+ "learning_rate": 0.00023624945864010393,
8957
+ "loss": 0.03531058877706528,
8958
+ "step": 1276
8959
+ },
8960
+ {
8961
+ "epoch": 0.620920196924573,
8962
+ "grad_norm": 0.013523002155125141,
8963
+ "learning_rate": 0.0002360329146816804,
8964
+ "loss": 0.036181703209877014,
8965
+ "step": 1277
8966
+ },
8967
+ {
8968
+ "epoch": 0.621406430438218,
8969
+ "grad_norm": 0.014598391018807888,
8970
+ "learning_rate": 0.00023581637072325683,
8971
+ "loss": 0.03319678455591202,
8972
+ "step": 1278
8973
+ },
8974
+ {
8975
+ "epoch": 0.6218926639518629,
8976
+ "grad_norm": 0.015035644173622131,
8977
+ "learning_rate": 0.00023559982676483326,
8978
+ "loss": 0.03545587882399559,
8979
+ "step": 1279
8980
+ },
8981
+ {
8982
+ "epoch": 0.6223788974655078,
8983
+ "grad_norm": 0.01414641086012125,
8984
+ "learning_rate": 0.0002353832828064097,
8985
+ "loss": 0.03653448820114136,
8986
+ "step": 1280
8987
+ },
8988
+ {
8989
+ "epoch": 0.6228651309791527,
8990
+ "grad_norm": 0.014127531088888645,
8991
+ "learning_rate": 0.00023516673884798613,
8992
+ "loss": 0.034944504499435425,
8993
+ "step": 1281
8994
+ },
8995
+ {
8996
+ "epoch": 0.6233513644927977,
8997
+ "grad_norm": 0.013686790131032467,
8998
+ "learning_rate": 0.0002349501948895626,
8999
+ "loss": 0.03326250612735748,
9000
+ "step": 1282
9001
+ },
9002
+ {
9003
+ "epoch": 0.6238375980064426,
9004
+ "grad_norm": 0.013996295630931854,
9005
+ "learning_rate": 0.00023473365093113903,
9006
+ "loss": 0.03417070955038071,
9007
+ "step": 1283
9008
+ },
9009
+ {
9010
+ "epoch": 0.6243238315200875,
9011
+ "grad_norm": 0.014012682251632214,
9012
+ "learning_rate": 0.00023451710697271547,
9013
+ "loss": 0.033247947692871094,
9014
+ "step": 1284
9015
+ },
9016
+ {
9017
+ "epoch": 0.6248100650337325,
9018
+ "grad_norm": 0.013572361320257187,
9019
+ "learning_rate": 0.0002343005630142919,
9020
+ "loss": 0.03197130188345909,
9021
+ "step": 1285
9022
+ },
9023
+ {
9024
+ "epoch": 0.6252962985473773,
9025
+ "grad_norm": 0.014377618208527565,
9026
+ "learning_rate": 0.00023408401905586834,
9027
+ "loss": 0.03632620722055435,
9028
+ "step": 1286
9029
+ },
9030
+ {
9031
+ "epoch": 0.6257825320610223,
9032
+ "grad_norm": 0.014611482620239258,
9033
+ "learning_rate": 0.0002338674750974448,
9034
+ "loss": 0.03583304584026337,
9035
+ "step": 1287
9036
+ },
9037
+ {
9038
+ "epoch": 0.6262687655746673,
9039
+ "grad_norm": 0.014583008363842964,
9040
+ "learning_rate": 0.00023365093113902123,
9041
+ "loss": 0.03570983558893204,
9042
+ "step": 1288
9043
+ },
9044
+ {
9045
+ "epoch": 0.6267549990883121,
9046
+ "grad_norm": 0.015231940895318985,
9047
+ "learning_rate": 0.00023343438718059767,
9048
+ "loss": 0.03442798927426338,
9049
+ "step": 1289
9050
+ },
9051
+ {
9052
+ "epoch": 0.6272412326019571,
9053
+ "grad_norm": 0.013659853488206863,
9054
+ "learning_rate": 0.0002332178432221741,
9055
+ "loss": 0.033729713410139084,
9056
+ "step": 1290
9057
+ },
9058
+ {
9059
+ "epoch": 0.627727466115602,
9060
+ "grad_norm": 0.014678172767162323,
9061
+ "learning_rate": 0.00023300129926375054,
9062
+ "loss": 0.03621881455183029,
9063
+ "step": 1291
9064
+ },
9065
+ {
9066
+ "epoch": 0.6282136996292469,
9067
+ "grad_norm": 0.013895882293581963,
9068
+ "learning_rate": 0.00023278475530532698,
9069
+ "loss": 0.03388817980885506,
9070
+ "step": 1292
9071
+ },
9072
+ {
9073
+ "epoch": 0.6286999331428919,
9074
+ "grad_norm": 0.014055908657610416,
9075
+ "learning_rate": 0.0002325682113469034,
9076
+ "loss": 0.0349176786839962,
9077
+ "step": 1293
9078
+ },
9079
+ {
9080
+ "epoch": 0.6291861666565368,
9081
+ "grad_norm": 0.013777400366961956,
9082
+ "learning_rate": 0.00023235166738847987,
9083
+ "loss": 0.037194207310676575,
9084
+ "step": 1294
9085
+ },
9086
+ {
9087
+ "epoch": 0.6296724001701818,
9088
+ "grad_norm": 0.013084378093481064,
9089
+ "learning_rate": 0.0002321351234300563,
9090
+ "loss": 0.03343290463089943,
9091
+ "step": 1295
9092
+ },
9093
+ {
9094
+ "epoch": 0.6301586336838266,
9095
+ "grad_norm": 0.014204435981810093,
9096
+ "learning_rate": 0.00023191857947163274,
9097
+ "loss": 0.03391396999359131,
9098
+ "step": 1296
9099
+ },
9100
+ {
9101
+ "epoch": 0.6306448671974716,
9102
+ "grad_norm": 0.01398822944611311,
9103
+ "learning_rate": 0.00023170203551320918,
9104
+ "loss": 0.031173840165138245,
9105
+ "step": 1297
9106
+ },
9107
+ {
9108
+ "epoch": 0.6311311007111166,
9109
+ "grad_norm": 0.014111969619989395,
9110
+ "learning_rate": 0.00023148549155478561,
9111
+ "loss": 0.03307380527257919,
9112
+ "step": 1298
9113
+ },
9114
+ {
9115
+ "epoch": 0.6316173342247614,
9116
+ "grad_norm": 0.014751107431948185,
9117
+ "learning_rate": 0.00023126894759636208,
9118
+ "loss": 0.034384749829769135,
9119
+ "step": 1299
9120
+ },
9121
+ {
9122
+ "epoch": 0.6321035677384064,
9123
+ "grad_norm": 0.01362798921763897,
9124
+ "learning_rate": 0.0002310524036379385,
9125
+ "loss": 0.03027649223804474,
9126
+ "step": 1300
9127
+ },
9128
+ {
9129
+ "epoch": 0.6325898012520513,
9130
+ "grad_norm": 0.015399159863591194,
9131
+ "learning_rate": 0.00023083585967951495,
9132
+ "loss": 0.03429962694644928,
9133
+ "step": 1301
9134
+ },
9135
+ {
9136
+ "epoch": 0.6330760347656962,
9137
+ "grad_norm": 0.014143045991659164,
9138
+ "learning_rate": 0.00023061931572109138,
9139
+ "loss": 0.03496836498379707,
9140
+ "step": 1302
9141
+ },
9142
+ {
9143
+ "epoch": 0.6335622682793411,
9144
+ "grad_norm": 0.013887948356568813,
9145
+ "learning_rate": 0.00023040277176266782,
9146
+ "loss": 0.03378382325172424,
9147
+ "step": 1303
9148
+ },
9149
+ {
9150
+ "epoch": 0.6340485017929861,
9151
+ "grad_norm": 0.014969154261052608,
9152
+ "learning_rate": 0.00023018622780424425,
9153
+ "loss": 0.03367835655808449,
9154
+ "step": 1304
9155
+ },
9156
+ {
9157
+ "epoch": 0.634534735306631,
9158
+ "grad_norm": 0.014439153485000134,
9159
+ "learning_rate": 0.00022996968384582072,
9160
+ "loss": 0.036455463618040085,
9161
+ "step": 1305
9162
+ },
9163
+ {
9164
+ "epoch": 0.6350209688202759,
9165
+ "grad_norm": 0.014308437705039978,
9166
+ "learning_rate": 0.00022975313988739715,
9167
+ "loss": 0.03467040881514549,
9168
+ "step": 1306
9169
+ },
9170
+ {
9171
+ "epoch": 0.6355072023339209,
9172
+ "grad_norm": 0.01413166057318449,
9173
+ "learning_rate": 0.0002295365959289736,
9174
+ "loss": 0.03561070188879967,
9175
+ "step": 1307
9176
+ },
9177
+ {
9178
+ "epoch": 0.6359934358475658,
9179
+ "grad_norm": 0.013942469842731953,
9180
+ "learning_rate": 0.00022932005197055002,
9181
+ "loss": 0.0382116436958313,
9182
+ "step": 1308
9183
+ },
9184
+ {
9185
+ "epoch": 0.6364796693612107,
9186
+ "grad_norm": 0.014691284857690334,
9187
+ "learning_rate": 0.00022910350801212646,
9188
+ "loss": 0.03597237169742584,
9189
+ "step": 1309
9190
+ },
9191
+ {
9192
+ "epoch": 0.6369659028748557,
9193
+ "grad_norm": 0.013743284158408642,
9194
+ "learning_rate": 0.00022888696405370292,
9195
+ "loss": 0.03499186411499977,
9196
+ "step": 1310
9197
+ },
9198
+ {
9199
+ "epoch": 0.6374521363885006,
9200
+ "grad_norm": 0.013684669509530067,
9201
+ "learning_rate": 0.00022867042009527935,
9202
+ "loss": 0.037170108407735825,
9203
+ "step": 1311
9204
+ },
9205
+ {
9206
+ "epoch": 0.6379383699021455,
9207
+ "grad_norm": 0.01366688683629036,
9208
+ "learning_rate": 0.0002284538761368558,
9209
+ "loss": 0.035437971353530884,
9210
+ "step": 1312
9211
+ },
9212
+ {
9213
+ "epoch": 0.6384246034157904,
9214
+ "grad_norm": 0.014581129886209965,
9215
+ "learning_rate": 0.00022823733217843223,
9216
+ "loss": 0.03337923437356949,
9217
+ "step": 1313
9218
+ },
9219
+ {
9220
+ "epoch": 0.6389108369294354,
9221
+ "grad_norm": 0.013359768316149712,
9222
+ "learning_rate": 0.00022802078822000866,
9223
+ "loss": 0.032357357442379,
9224
+ "step": 1314
9225
+ },
9226
+ {
9227
+ "epoch": 0.6393970704430803,
9228
+ "grad_norm": 0.014213671907782555,
9229
+ "learning_rate": 0.0002278042442615851,
9230
+ "loss": 0.03423149138689041,
9231
+ "step": 1315
9232
+ },
9233
+ {
9234
+ "epoch": 0.6398833039567252,
9235
+ "grad_norm": 0.014577810652554035,
9236
+ "learning_rate": 0.00022758770030316156,
9237
+ "loss": 0.03380856662988663,
9238
+ "step": 1316
9239
+ },
9240
+ {
9241
+ "epoch": 0.6403695374703702,
9242
+ "grad_norm": 0.01257399097084999,
9243
+ "learning_rate": 0.000227371156344738,
9244
+ "loss": 0.03570931404829025,
9245
+ "step": 1317
9246
+ },
9247
+ {
9248
+ "epoch": 0.640855770984015,
9249
+ "grad_norm": 0.014166644774377346,
9250
+ "learning_rate": 0.00022715461238631443,
9251
+ "loss": 0.03312509506940842,
9252
+ "step": 1318
9253
+ },
9254
+ {
9255
+ "epoch": 0.64134200449766,
9256
+ "grad_norm": 0.013939057476818562,
9257
+ "learning_rate": 0.00022693806842789086,
9258
+ "loss": 0.034664127975702286,
9259
+ "step": 1319
9260
+ },
9261
+ {
9262
+ "epoch": 0.641828238011305,
9263
+ "grad_norm": 0.013967418111860752,
9264
+ "learning_rate": 0.0002267215244694673,
9265
+ "loss": 0.03376214951276779,
9266
+ "step": 1320
9267
+ },
9268
+ {
9269
+ "epoch": 0.6423144715249498,
9270
+ "grad_norm": 0.01414591632783413,
9271
+ "learning_rate": 0.00022650498051104373,
9272
+ "loss": 0.03443095460534096,
9273
+ "step": 1321
9274
+ },
9275
+ {
9276
+ "epoch": 0.6428007050385948,
9277
+ "grad_norm": 0.01348118856549263,
9278
+ "learning_rate": 0.0002262884365526202,
9279
+ "loss": 0.03514254838228226,
9280
+ "step": 1322
9281
+ },
9282
+ {
9283
+ "epoch": 0.6432869385522397,
9284
+ "grad_norm": 0.014731802977621555,
9285
+ "learning_rate": 0.00022607189259419663,
9286
+ "loss": 0.032584674656391144,
9287
+ "step": 1323
9288
+ },
9289
+ {
9290
+ "epoch": 0.6437731720658847,
9291
+ "grad_norm": 0.01589735597372055,
9292
+ "learning_rate": 0.00022585534863577307,
9293
+ "loss": 0.03588491305708885,
9294
+ "step": 1324
9295
+ },
9296
+ {
9297
+ "epoch": 0.6442594055795295,
9298
+ "grad_norm": 0.013818907551467419,
9299
+ "learning_rate": 0.0002256388046773495,
9300
+ "loss": 0.03400437533855438,
9301
+ "step": 1325
9302
+ },
9303
+ {
9304
+ "epoch": 0.6447456390931745,
9305
+ "grad_norm": 0.014179420657455921,
9306
+ "learning_rate": 0.00022542226071892594,
9307
+ "loss": 0.033515866845846176,
9308
+ "step": 1326
9309
+ },
9310
+ {
9311
+ "epoch": 0.6452318726068195,
9312
+ "grad_norm": 0.014600992202758789,
9313
+ "learning_rate": 0.0002252057167605024,
9314
+ "loss": 0.036238547414541245,
9315
+ "step": 1327
9316
+ },
9317
+ {
9318
+ "epoch": 0.6457181061204643,
9319
+ "grad_norm": 0.013533315621316433,
9320
+ "learning_rate": 0.00022498917280207884,
9321
+ "loss": 0.03574304282665253,
9322
+ "step": 1328
9323
+ },
9324
+ {
9325
+ "epoch": 0.6462043396341093,
9326
+ "grad_norm": 0.014975950121879578,
9327
+ "learning_rate": 0.00022477262884365527,
9328
+ "loss": 0.03604700788855553,
9329
+ "step": 1329
9330
+ },
9331
+ {
9332
+ "epoch": 0.6466905731477542,
9333
+ "grad_norm": 0.014431072399020195,
9334
+ "learning_rate": 0.0002245560848852317,
9335
+ "loss": 0.03493282198905945,
9336
+ "step": 1330
9337
+ },
9338
+ {
9339
+ "epoch": 0.6471768066613991,
9340
+ "grad_norm": 0.013177242130041122,
9341
+ "learning_rate": 0.00022433954092680814,
9342
+ "loss": 0.03511972725391388,
9343
+ "step": 1331
9344
+ },
9345
+ {
9346
+ "epoch": 0.6476630401750441,
9347
+ "grad_norm": 0.013923943042755127,
9348
+ "learning_rate": 0.00022412299696838458,
9349
+ "loss": 0.03779950365424156,
9350
+ "step": 1332
9351
+ },
9352
+ {
9353
+ "epoch": 0.648149273688689,
9354
+ "grad_norm": 0.014116371050477028,
9355
+ "learning_rate": 0.000223906453009961,
9356
+ "loss": 0.0330006442964077,
9357
+ "step": 1333
9358
+ },
9359
+ {
9360
+ "epoch": 0.6486355072023339,
9361
+ "grad_norm": 0.014254424721002579,
9362
+ "learning_rate": 0.00022368990905153747,
9363
+ "loss": 0.033680692315101624,
9364
+ "step": 1334
9365
+ },
9366
+ {
9367
+ "epoch": 0.6491217407159788,
9368
+ "grad_norm": 0.013696153648197651,
9369
+ "learning_rate": 0.0002234733650931139,
9370
+ "loss": 0.028675612062215805,
9371
+ "step": 1335
9372
+ },
9373
+ {
9374
+ "epoch": 0.6496079742296238,
9375
+ "grad_norm": 0.013288403861224651,
9376
+ "learning_rate": 0.00022325682113469035,
9377
+ "loss": 0.032354529947042465,
9378
+ "step": 1336
9379
+ },
9380
+ {
9381
+ "epoch": 0.6500942077432688,
9382
+ "grad_norm": 0.013923591002821922,
9383
+ "learning_rate": 0.00022304027717626678,
9384
+ "loss": 0.03523080423474312,
9385
+ "step": 1337
9386
+ },
9387
+ {
9388
+ "epoch": 0.6505804412569136,
9389
+ "grad_norm": 0.014102572575211525,
9390
+ "learning_rate": 0.00022282373321784322,
9391
+ "loss": 0.033881984651088715,
9392
+ "step": 1338
9393
+ },
9394
+ {
9395
+ "epoch": 0.6510666747705586,
9396
+ "grad_norm": 0.01488335058093071,
9397
+ "learning_rate": 0.00022260718925941968,
9398
+ "loss": 0.03664050251245499,
9399
+ "step": 1339
9400
+ },
9401
+ {
9402
+ "epoch": 0.6515529082842035,
9403
+ "grad_norm": 0.013973576948046684,
9404
+ "learning_rate": 0.0002223906453009961,
9405
+ "loss": 0.03544414043426514,
9406
+ "step": 1340
9407
+ },
9408
+ {
9409
+ "epoch": 0.6520391417978484,
9410
+ "grad_norm": 0.013649104163050652,
9411
+ "learning_rate": 0.00022217410134257255,
9412
+ "loss": 0.03692401200532913,
9413
+ "step": 1341
9414
+ },
9415
+ {
9416
+ "epoch": 0.6525253753114933,
9417
+ "grad_norm": 0.013818228617310524,
9418
+ "learning_rate": 0.00022195755738414898,
9419
+ "loss": 0.03479582071304321,
9420
+ "step": 1342
9421
+ },
9422
+ {
9423
+ "epoch": 0.6530116088251383,
9424
+ "grad_norm": 0.013529524207115173,
9425
+ "learning_rate": 0.00022174101342572542,
9426
+ "loss": 0.028599372133612633,
9427
+ "step": 1343
9428
+ },
9429
+ {
9430
+ "epoch": 0.6534978423387832,
9431
+ "grad_norm": 0.013865238055586815,
9432
+ "learning_rate": 0.00022152446946730188,
9433
+ "loss": 0.03413660079240799,
9434
+ "step": 1344
9435
+ },
9436
+ {
9437
+ "epoch": 0.6539840758524281,
9438
+ "grad_norm": 0.014652731828391552,
9439
+ "learning_rate": 0.0002213079255088783,
9440
+ "loss": 0.032668400555849075,
9441
+ "step": 1345
9442
+ },
9443
+ {
9444
+ "epoch": 0.6544703093660731,
9445
+ "grad_norm": 0.013993294909596443,
9446
+ "learning_rate": 0.00022109138155045475,
9447
+ "loss": 0.03704202175140381,
9448
+ "step": 1346
9449
+ },
9450
+ {
9451
+ "epoch": 0.6549565428797179,
9452
+ "grad_norm": 0.014167597517371178,
9453
+ "learning_rate": 0.0002208748375920312,
9454
+ "loss": 0.03735867515206337,
9455
+ "step": 1347
9456
+ },
9457
+ {
9458
+ "epoch": 0.6554427763933629,
9459
+ "grad_norm": 0.01378459669649601,
9460
+ "learning_rate": 0.00022065829363360762,
9461
+ "loss": 0.031136203557252884,
9462
+ "step": 1348
9463
+ },
9464
+ {
9465
+ "epoch": 0.6559290099070079,
9466
+ "grad_norm": 0.014771642163395882,
9467
+ "learning_rate": 0.00022044174967518409,
9468
+ "loss": 0.03363046050071716,
9469
+ "step": 1349
9470
+ },
9471
+ {
9472
+ "epoch": 0.6564152434206527,
9473
+ "grad_norm": 0.013304132968187332,
9474
+ "learning_rate": 0.0002202252057167605,
9475
+ "loss": 0.03345319628715515,
9476
+ "step": 1350
9477
+ },
9478
+ {
9479
+ "epoch": 0.6569014769342977,
9480
+ "grad_norm": 0.01402937900274992,
9481
+ "learning_rate": 0.00022000866175833696,
9482
+ "loss": 0.03416682034730911,
9483
+ "step": 1351
9484
+ },
9485
+ {
9486
+ "epoch": 0.6573877104479426,
9487
+ "grad_norm": 0.01340491883456707,
9488
+ "learning_rate": 0.0002197921177999134,
9489
+ "loss": 0.03456851467490196,
9490
+ "step": 1352
9491
+ },
9492
+ {
9493
+ "epoch": 0.6578739439615876,
9494
+ "grad_norm": 0.014131614938378334,
9495
+ "learning_rate": 0.00021957557384148983,
9496
+ "loss": 0.035455308854579926,
9497
+ "step": 1353
9498
+ },
9499
+ {
9500
+ "epoch": 0.6583601774752325,
9501
+ "grad_norm": 0.01379065215587616,
9502
+ "learning_rate": 0.00021935902988306626,
9503
+ "loss": 0.03642420470714569,
9504
+ "step": 1354
9505
+ },
9506
+ {
9507
+ "epoch": 0.6588464109888774,
9508
+ "grad_norm": 0.013627709820866585,
9509
+ "learning_rate": 0.0002191424859246427,
9510
+ "loss": 0.03162863850593567,
9511
+ "step": 1355
9512
+ },
9513
+ {
9514
+ "epoch": 0.6593326445025224,
9515
+ "grad_norm": 0.013729275204241276,
9516
+ "learning_rate": 0.00021892594196621916,
9517
+ "loss": 0.03523639217019081,
9518
+ "step": 1356
9519
+ },
9520
+ {
9521
+ "epoch": 0.6598188780161672,
9522
+ "grad_norm": 0.013532226905226707,
9523
+ "learning_rate": 0.00021870939800779557,
9524
+ "loss": 0.035823140293359756,
9525
+ "step": 1357
9526
+ },
9527
+ {
9528
+ "epoch": 0.6603051115298122,
9529
+ "grad_norm": 0.014047990553081036,
9530
+ "learning_rate": 0.00021849285404937203,
9531
+ "loss": 0.03442424535751343,
9532
+ "step": 1358
9533
+ },
9534
+ {
9535
+ "epoch": 0.6607913450434572,
9536
+ "grad_norm": 0.01441075000911951,
9537
+ "learning_rate": 0.00021827631009094847,
9538
+ "loss": 0.03327252343297005,
9539
+ "step": 1359
9540
+ },
9541
+ {
9542
+ "epoch": 0.661277578557102,
9543
+ "grad_norm": 0.013950358144938946,
9544
+ "learning_rate": 0.0002180597661325249,
9545
+ "loss": 0.03601973131299019,
9546
+ "step": 1360
9547
+ },
9548
+ {
9549
+ "epoch": 0.661763812070747,
9550
+ "grad_norm": 0.014807157218456268,
9551
+ "learning_rate": 0.00021784322217410136,
9552
+ "loss": 0.03429421782493591,
9553
+ "step": 1361
9554
+ },
9555
+ {
9556
+ "epoch": 0.6622500455843919,
9557
+ "grad_norm": 0.01571790501475334,
9558
+ "learning_rate": 0.00021762667821567777,
9559
+ "loss": 0.03395929932594299,
9560
+ "step": 1362
9561
+ },
9562
+ {
9563
+ "epoch": 0.6627362790980368,
9564
+ "grad_norm": 0.01437438651919365,
9565
+ "learning_rate": 0.00021741013425725423,
9566
+ "loss": 0.03499199450016022,
9567
+ "step": 1363
9568
+ },
9569
+ {
9570
+ "epoch": 0.6632225126116817,
9571
+ "grad_norm": 0.015335733070969582,
9572
+ "learning_rate": 0.00021719359029883067,
9573
+ "loss": 0.03179340064525604,
9574
+ "step": 1364
9575
+ },
9576
+ {
9577
+ "epoch": 0.6637087461253267,
9578
+ "grad_norm": 0.015314069576561451,
9579
+ "learning_rate": 0.0002169770463404071,
9580
+ "loss": 0.03426148369908333,
9581
+ "step": 1365
9582
+ },
9583
+ {
9584
+ "epoch": 0.6641949796389716,
9585
+ "grad_norm": 0.014002913609147072,
9586
+ "learning_rate": 0.00021676050238198357,
9587
+ "loss": 0.035752829164266586,
9588
+ "step": 1366
9589
+ },
9590
+ {
9591
+ "epoch": 0.6646812131526165,
9592
+ "grad_norm": 0.014220299199223518,
9593
+ "learning_rate": 0.00021654395842355997,
9594
+ "loss": 0.03339208662509918,
9595
+ "step": 1367
9596
+ },
9597
+ {
9598
+ "epoch": 0.6651674466662615,
9599
+ "grad_norm": 0.014346009120345116,
9600
+ "learning_rate": 0.00021632741446513644,
9601
+ "loss": 0.03166678920388222,
9602
+ "step": 1368
9603
+ },
9604
+ {
9605
+ "epoch": 0.6656536801799064,
9606
+ "grad_norm": 0.014936978928744793,
9607
+ "learning_rate": 0.00021611087050671287,
9608
+ "loss": 0.03593449667096138,
9609
+ "step": 1369
9610
+ },
9611
+ {
9612
+ "epoch": 0.6661399136935513,
9613
+ "grad_norm": 0.014874998480081558,
9614
+ "learning_rate": 0.0002158943265482893,
9615
+ "loss": 0.035512425005435944,
9616
+ "step": 1370
9617
+ },
9618
+ {
9619
+ "epoch": 0.6666261472071963,
9620
+ "grad_norm": 0.0144179193302989,
9621
+ "learning_rate": 0.00021567778258986577,
9622
+ "loss": 0.03279472514986992,
9623
+ "step": 1371
9624
+ },
9625
+ {
9626
+ "epoch": 0.6671123807208412,
9627
+ "grad_norm": 0.014313534833490849,
9628
+ "learning_rate": 0.00021546123863144218,
9629
+ "loss": 0.03635512664914131,
9630
+ "step": 1372
9631
+ },
9632
+ {
9633
+ "epoch": 0.6675986142344861,
9634
+ "grad_norm": 0.014254770241677761,
9635
+ "learning_rate": 0.00021524469467301864,
9636
+ "loss": 0.03417997062206268,
9637
+ "step": 1373
9638
+ },
9639
+ {
9640
+ "epoch": 0.668084847748131,
9641
+ "grad_norm": 0.013667783699929714,
9642
+ "learning_rate": 0.00021502815071459505,
9643
+ "loss": 0.03116200864315033,
9644
+ "step": 1374
9645
+ },
9646
+ {
9647
+ "epoch": 0.668571081261776,
9648
+ "grad_norm": 0.014955972321331501,
9649
+ "learning_rate": 0.0002148116067561715,
9650
+ "loss": 0.03064017742872238,
9651
+ "step": 1375
9652
+ },
9653
+ {
9654
+ "epoch": 0.6690573147754209,
9655
+ "grad_norm": 0.014537026174366474,
9656
+ "learning_rate": 0.00021459506279774795,
9657
+ "loss": 0.03849161043763161,
9658
+ "step": 1376
9659
+ },
9660
+ {
9661
+ "epoch": 0.6695435482890658,
9662
+ "grad_norm": 0.013870895840227604,
9663
+ "learning_rate": 0.00021437851883932438,
9664
+ "loss": 0.030646931380033493,
9665
+ "step": 1377
9666
+ },
9667
+ {
9668
+ "epoch": 0.6700297818027108,
9669
+ "grad_norm": 0.013801373541355133,
9670
+ "learning_rate": 0.00021416197488090084,
9671
+ "loss": 0.03465121239423752,
9672
+ "step": 1378
9673
+ },
9674
+ {
9675
+ "epoch": 0.6705160153163556,
9676
+ "grad_norm": 0.013270103372633457,
9677
+ "learning_rate": 0.00021394543092247725,
9678
+ "loss": 0.033292222768068314,
9679
+ "step": 1379
9680
+ },
9681
+ {
9682
+ "epoch": 0.6710022488300006,
9683
+ "grad_norm": 0.01431484054774046,
9684
+ "learning_rate": 0.00021372888696405371,
9685
+ "loss": 0.03248829022049904,
9686
+ "step": 1380
9687
+ },
9688
+ {
9689
+ "epoch": 0.6714884823436456,
9690
+ "grad_norm": 0.013586247339844704,
9691
+ "learning_rate": 0.00021351234300563015,
9692
+ "loss": 0.036313146352767944,
9693
+ "step": 1381
9694
+ },
9695
+ {
9696
+ "epoch": 0.6719747158572905,
9697
+ "grad_norm": 0.013846389949321747,
9698
+ "learning_rate": 0.00021329579904720659,
9699
+ "loss": 0.03729093447327614,
9700
+ "step": 1382
9701
+ },
9702
+ {
9703
+ "epoch": 0.6724609493709354,
9704
+ "grad_norm": 0.014342756010591984,
9705
+ "learning_rate": 0.00021307925508878305,
9706
+ "loss": 0.03507140278816223,
9707
+ "step": 1383
9708
+ },
9709
+ {
9710
+ "epoch": 0.6729471828845803,
9711
+ "grad_norm": 0.015145371668040752,
9712
+ "learning_rate": 0.00021286271113035946,
9713
+ "loss": 0.0366177037358284,
9714
+ "step": 1384
9715
+ },
9716
+ {
9717
+ "epoch": 0.6734334163982253,
9718
+ "grad_norm": 0.013105987571179867,
9719
+ "learning_rate": 0.00021264616717193592,
9720
+ "loss": 0.03000234067440033,
9721
+ "step": 1385
9722
+ },
9723
+ {
9724
+ "epoch": 0.6739196499118701,
9725
+ "grad_norm": 0.014528613537549973,
9726
+ "learning_rate": 0.00021242962321351233,
9727
+ "loss": 0.03557267785072327,
9728
+ "step": 1386
9729
+ },
9730
+ {
9731
+ "epoch": 0.6744058834255151,
9732
+ "grad_norm": 0.014234558679163456,
9733
+ "learning_rate": 0.0002122130792550888,
9734
+ "loss": 0.035209693014621735,
9735
+ "step": 1387
9736
+ },
9737
+ {
9738
+ "epoch": 0.6748921169391601,
9739
+ "grad_norm": 0.015100352466106415,
9740
+ "learning_rate": 0.00021199653529666525,
9741
+ "loss": 0.03626418113708496,
9742
+ "step": 1388
9743
+ },
9744
+ {
9745
+ "epoch": 0.6753783504528049,
9746
+ "grad_norm": 0.014857640489935875,
9747
+ "learning_rate": 0.00021177999133824166,
9748
+ "loss": 0.03384890779852867,
9749
+ "step": 1389
9750
+ },
9751
+ {
9752
+ "epoch": 0.6758645839664499,
9753
+ "grad_norm": 0.014490040950477123,
9754
+ "learning_rate": 0.00021156344737981812,
9755
+ "loss": 0.031536661088466644,
9756
+ "step": 1390
9757
+ },
9758
+ {
9759
+ "epoch": 0.6763508174800948,
9760
+ "grad_norm": 0.014538592658936977,
9761
+ "learning_rate": 0.00021134690342139453,
9762
+ "loss": 0.03946738690137863,
9763
+ "step": 1391
9764
+ },
9765
+ {
9766
+ "epoch": 0.6768370509937397,
9767
+ "grad_norm": 0.013940773904323578,
9768
+ "learning_rate": 0.000211130359462971,
9769
+ "loss": 0.03681372106075287,
9770
+ "step": 1392
9771
+ },
9772
+ {
9773
+ "epoch": 0.6773232845073847,
9774
+ "grad_norm": 0.013929001055657864,
9775
+ "learning_rate": 0.00021091381550454743,
9776
+ "loss": 0.036155663430690765,
9777
+ "step": 1393
9778
+ },
9779
+ {
9780
+ "epoch": 0.6778095180210296,
9781
+ "grad_norm": 0.01500175055116415,
9782
+ "learning_rate": 0.00021069727154612386,
9783
+ "loss": 0.03327430784702301,
9784
+ "step": 1394
9785
+ },
9786
+ {
9787
+ "epoch": 0.6782957515346745,
9788
+ "grad_norm": 0.014348408207297325,
9789
+ "learning_rate": 0.00021048072758770033,
9790
+ "loss": 0.03527160733938217,
9791
+ "step": 1395
9792
+ },
9793
+ {
9794
+ "epoch": 0.6787819850483194,
9795
+ "grad_norm": 0.014366855844855309,
9796
+ "learning_rate": 0.00021026418362927673,
9797
+ "loss": 0.03398943692445755,
9798
+ "step": 1396
9799
+ },
9800
+ {
9801
+ "epoch": 0.6792682185619644,
9802
+ "grad_norm": 0.013865748420357704,
9803
+ "learning_rate": 0.0002100476396708532,
9804
+ "loss": 0.03580952808260918,
9805
+ "step": 1397
9806
+ },
9807
+ {
9808
+ "epoch": 0.6797544520756094,
9809
+ "grad_norm": 0.014454754069447517,
9810
+ "learning_rate": 0.0002098310957124296,
9811
+ "loss": 0.0344514362514019,
9812
+ "step": 1398
9813
+ },
9814
+ {
9815
+ "epoch": 0.6802406855892542,
9816
+ "grad_norm": 0.013905288651585579,
9817
+ "learning_rate": 0.00020961455175400607,
9818
+ "loss": 0.03444414958357811,
9819
+ "step": 1399
9820
+ },
9821
+ {
9822
+ "epoch": 0.6807269191028992,
9823
+ "grad_norm": 0.01423436775803566,
9824
+ "learning_rate": 0.00020939800779558253,
9825
+ "loss": 0.03654969856142998,
9826
+ "step": 1400
9827
+ },
9828
+ {
9829
+ "epoch": 0.6812131526165441,
9830
+ "grad_norm": 0.01422138512134552,
9831
+ "learning_rate": 0.00020918146383715894,
9832
+ "loss": 0.03397469222545624,
9833
+ "step": 1401
9834
+ },
9835
+ {
9836
+ "epoch": 0.681699386130189,
9837
+ "grad_norm": 0.014388046227395535,
9838
+ "learning_rate": 0.0002089649198787354,
9839
+ "loss": 0.036142874509096146,
9840
+ "step": 1402
9841
+ },
9842
+ {
9843
+ "epoch": 0.682185619643834,
9844
+ "grad_norm": 0.014639279805123806,
9845
+ "learning_rate": 0.0002087483759203118,
9846
+ "loss": 0.029921941459178925,
9847
+ "step": 1403
9848
+ },
9849
+ {
9850
+ "epoch": 0.6826718531574789,
9851
+ "grad_norm": 0.014388429932296276,
9852
+ "learning_rate": 0.00020853183196188827,
9853
+ "loss": 0.03260527178645134,
9854
+ "step": 1404
9855
+ },
9856
+ {
9857
+ "epoch": 0.6831580866711238,
9858
+ "grad_norm": 0.016170000657439232,
9859
+ "learning_rate": 0.00020831528800346473,
9860
+ "loss": 0.029670415446162224,
9861
+ "step": 1405
9862
+ },
9863
+ {
9864
+ "epoch": 0.6836443201847687,
9865
+ "grad_norm": 0.013937766663730145,
9866
+ "learning_rate": 0.00020809874404504114,
9867
+ "loss": 0.036622799932956696,
9868
+ "step": 1406
9869
+ },
9870
+ {
9871
+ "epoch": 0.6841305536984137,
9872
+ "grad_norm": 0.014217172749340534,
9873
+ "learning_rate": 0.0002078822000866176,
9874
+ "loss": 0.034993477165699005,
9875
+ "step": 1407
9876
+ },
9877
+ {
9878
+ "epoch": 0.6846167872120585,
9879
+ "grad_norm": 0.013956526294350624,
9880
+ "learning_rate": 0.000207665656128194,
9881
+ "loss": 0.03437182679772377,
9882
+ "step": 1408
9883
+ },
9884
+ {
9885
+ "epoch": 0.6851030207257035,
9886
+ "grad_norm": 0.013690595515072346,
9887
+ "learning_rate": 0.00020744911216977047,
9888
+ "loss": 0.03555164113640785,
9889
+ "step": 1409
9890
+ },
9891
+ {
9892
+ "epoch": 0.6855892542393485,
9893
+ "grad_norm": 0.014545619487762451,
9894
+ "learning_rate": 0.00020723256821134688,
9895
+ "loss": 0.030868198722600937,
9896
+ "step": 1410
9897
+ },
9898
+ {
9899
+ "epoch": 0.6860754877529934,
9900
+ "grad_norm": 0.014318596571683884,
9901
+ "learning_rate": 0.00020701602425292334,
9902
+ "loss": 0.032924726605415344,
9903
+ "step": 1411
9904
+ },
9905
+ {
9906
+ "epoch": 0.6865617212666383,
9907
+ "grad_norm": 0.013988622464239597,
9908
+ "learning_rate": 0.0002067994802944998,
9909
+ "loss": 0.0356634259223938,
9910
+ "step": 1412
9911
+ },
9912
+ {
9913
+ "epoch": 0.6870479547802832,
9914
+ "grad_norm": 0.014085984788835049,
9915
+ "learning_rate": 0.00020658293633607621,
9916
+ "loss": 0.03102702833712101,
9917
+ "step": 1413
9918
+ },
9919
+ {
9920
+ "epoch": 0.6875341882939282,
9921
+ "grad_norm": 0.014302864670753479,
9922
+ "learning_rate": 0.00020636639237765268,
9923
+ "loss": 0.03341764956712723,
9924
+ "step": 1414
9925
+ },
9926
+ {
9927
+ "epoch": 0.6880204218075731,
9928
+ "grad_norm": 0.013568436726927757,
9929
+ "learning_rate": 0.00020614984841922908,
9930
+ "loss": 0.03309115767478943,
9931
+ "step": 1415
9932
+ },
9933
+ {
9934
+ "epoch": 0.688506655321218,
9935
+ "grad_norm": 0.014550761319696903,
9936
+ "learning_rate": 0.00020593330446080555,
9937
+ "loss": 0.03668435662984848,
9938
+ "step": 1416
9939
+ },
9940
+ {
9941
+ "epoch": 0.688992888834863,
9942
+ "grad_norm": 0.014469129964709282,
9943
+ "learning_rate": 0.000205716760502382,
9944
+ "loss": 0.03193166106939316,
9945
+ "step": 1417
9946
+ },
9947
+ {
9948
+ "epoch": 0.6894791223485078,
9949
+ "grad_norm": 0.014508143998682499,
9950
+ "learning_rate": 0.00020550021654395842,
9951
+ "loss": 0.030632685869932175,
9952
+ "step": 1418
9953
+ },
9954
+ {
9955
+ "epoch": 0.6899653558621528,
9956
+ "grad_norm": 0.014048706740140915,
9957
+ "learning_rate": 0.00020528367258553488,
9958
+ "loss": 0.03671274334192276,
9959
+ "step": 1419
9960
+ },
9961
+ {
9962
+ "epoch": 0.6904515893757978,
9963
+ "grad_norm": 0.01405914407223463,
9964
+ "learning_rate": 0.0002050671286271113,
9965
+ "loss": 0.03378705307841301,
9966
+ "step": 1420
9967
+ },
9968
+ {
9969
+ "epoch": 0.6909378228894426,
9970
+ "grad_norm": 0.014757314696907997,
9971
+ "learning_rate": 0.00020485058466868775,
9972
+ "loss": 0.036013372242450714,
9973
+ "step": 1421
9974
+ },
9975
+ {
9976
+ "epoch": 0.6914240564030876,
9977
+ "grad_norm": 0.013872887939214706,
9978
+ "learning_rate": 0.00020463404071026419,
9979
+ "loss": 0.03474874421954155,
9980
+ "step": 1422
9981
+ },
9982
+ {
9983
+ "epoch": 0.6914240564030876,
9984
+ "eval_loss": 0.03418760001659393,
9985
+ "eval_runtime": 162.5503,
9986
+ "eval_samples_per_second": 22.104,
9987
+ "eval_steps_per_second": 5.531,
9988
+ "step": 1422
9989
  }
9990
  ],
9991
  "logging_steps": 1,
 
10005
  "attributes": {}
10006
  }
10007
  },
10008
+ "total_flos": 3.971522304451891e+17,
10009
  "train_batch_size": 4,
10010
  "trial_name": null,
10011
  "trial_params": null