CocoRoF commited on
Commit
e910aee
·
verified ·
1 Parent(s): bda831f

Training in progress, step 15000, checkpoint

Browse files
last-checkpoint/model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:6e353d75e2a88b53cc5b7957a8bbd476d908ee776a621f196a60ca19dfae6e70
3
  size 306619286
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6f373582976d1956b2adacaa9790d35a15e2ac8bfa5e191ca43010f1c2968b03
3
  size 306619286
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:445f15d739100eeaf24df8fb3313d7052613482e95521da3cb503acef67af416
3
  size 919972410
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5c0bb19542ae52096c047421eb4fe0a1f9474910bfbb60e796399a92ff1ef2e8
3
  size 919972410
last-checkpoint/rng_state_0.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:74386f26f36ed67f56395205881e5db2d0c28ffcbeed50dd95b28771d2dac588
3
  size 15984
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0c461c9d337dfc684e9352ec72bfa344e2f5d377f7cfc4475de9acae294dca89
3
  size 15984
last-checkpoint/rng_state_1.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:41c88f9de084200454883a13c3717941ea3fd433e2f8735507fc30611f9c5501
3
  size 15984
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fae392ec6232cbf9da21d6ed12bc8247d0d24e7f3a3606acd23be00f3e8bbfc5
3
  size 15984
last-checkpoint/rng_state_2.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:965b00d4cb4710ebab57c8787b9925bb3f77b8eeba94a186ec4bc1c2f326ef3f
3
  size 15984
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cbf3e7ca9991a58b0b16574a3c653483c551c270aa05aba06c162ea593f7b0f2
3
  size 15984
last-checkpoint/rng_state_3.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d5dc374b8b9a4c45c950f9d136feab85a767081fa59f0c7d68ed3a62060c4949
3
  size 15984
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c695bebf6bcb75cbe26378bfe0ab7e2a33c49f713b9d6e4d10632b24322977e7
3
  size 15984
last-checkpoint/rng_state_4.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5c7c212fb779217f1edac0baf44f67b608eefc1e0e4e3f5a9dd7eb557032c1bc
3
  size 15984
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d5ebb13c71265c5464c9aa9bb9b66f07764d73befe6cd63a2aaf8e781bf0a374
3
  size 15984
last-checkpoint/rng_state_5.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:86e1effd626ce1e95dd68a0c8089fe19218f2b24dfe9e45ed2cab1c0ebc10ba1
3
  size 15984
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:12cc6e245e189be568c8dfd43a4dd8f04bb3dbd9f17f41458107935d2c2a6a9d
3
  size 15984
last-checkpoint/rng_state_6.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:799cc83f60dfc1c4243cfd6403592112414a2eec494e6832f10221c96ff62c20
3
  size 15984
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:36086646e9a8f76fea69f8a227112e83bb63524964ccdfb82f4cdad88b90e5e4
3
  size 15984
last-checkpoint/rng_state_7.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:586777c398770c3255d3a1f48c7fef44ea9d89117c627c9ea490e16bfd9a49ba
3
  size 15984
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9b44153bacf860d0ca6ce4c6b9380a199feab8a72ca613e6745bfb671b02c4e4
3
  size 15984
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:752104e5f42ef9ab9568e176b971896ce7b2e769095b0c32d0db8665bee22cee
3
  size 1000
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8f2df6d70b5170ad5f7fbfdd1443cce32f9e75727c4f2973f33ec9362abb0dd0
3
  size 1000
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.18557308447982704,
5
  "eval_steps": 5000,
6
- "global_step": 10000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -7023,6 +7023,3514 @@
7023
  "eval_samples_per_second": 3192.564,
7024
  "eval_steps_per_second": 49.885,
7025
  "step": 10000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7026
  }
7027
  ],
7028
  "logging_steps": 10,
@@ -7042,7 +10550,7 @@
7042
  "attributes": {}
7043
  }
7044
  },
7045
- "total_flos": 1.745522759041024e+18,
7046
  "train_batch_size": 8,
7047
  "trial_name": null,
7048
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.27835962671974057,
5
  "eval_steps": 5000,
6
+ "global_step": 15000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
7023
  "eval_samples_per_second": 3192.564,
7024
  "eval_steps_per_second": 49.885,
7025
  "step": 10000
7026
+ },
7027
+ {
7028
+ "epoch": 0.18575865756430687,
7029
+ "grad_norm": 34.6875,
7030
+ "learning_rate": 9.970975218171543e-06,
7031
+ "loss": 24.2771,
7032
+ "step": 10010
7033
+ },
7034
+ {
7035
+ "epoch": 0.1859442306487867,
7036
+ "grad_norm": 35.9375,
7037
+ "learning_rate": 9.9709462223855e-06,
7038
+ "loss": 23.6828,
7039
+ "step": 10020
7040
+ },
7041
+ {
7042
+ "epoch": 0.1861298037332665,
7043
+ "grad_norm": 34.8125,
7044
+ "learning_rate": 9.97091722659946e-06,
7045
+ "loss": 23.3928,
7046
+ "step": 10030
7047
+ },
7048
+ {
7049
+ "epoch": 0.18631537681774635,
7050
+ "grad_norm": 35.125,
7051
+ "learning_rate": 9.970888230813417e-06,
7052
+ "loss": 23.5511,
7053
+ "step": 10040
7054
+ },
7055
+ {
7056
+ "epoch": 0.18650094990222618,
7057
+ "grad_norm": 35.46875,
7058
+ "learning_rate": 9.970859235027375e-06,
7059
+ "loss": 23.9068,
7060
+ "step": 10050
7061
+ },
7062
+ {
7063
+ "epoch": 0.18668652298670602,
7064
+ "grad_norm": 34.25,
7065
+ "learning_rate": 9.970830239241332e-06,
7066
+ "loss": 23.9531,
7067
+ "step": 10060
7068
+ },
7069
+ {
7070
+ "epoch": 0.18687209607118582,
7071
+ "grad_norm": 35.53125,
7072
+ "learning_rate": 9.97080124345529e-06,
7073
+ "loss": 23.9918,
7074
+ "step": 10070
7075
+ },
7076
+ {
7077
+ "epoch": 0.18705766915566566,
7078
+ "grad_norm": 35.03125,
7079
+ "learning_rate": 9.970772247669247e-06,
7080
+ "loss": 23.7854,
7081
+ "step": 10080
7082
+ },
7083
+ {
7084
+ "epoch": 0.1872432422401455,
7085
+ "grad_norm": 35.0625,
7086
+ "learning_rate": 9.970743251883204e-06,
7087
+ "loss": 23.7965,
7088
+ "step": 10090
7089
+ },
7090
+ {
7091
+ "epoch": 0.18742881532462533,
7092
+ "grad_norm": 35.25,
7093
+ "learning_rate": 9.970714256097163e-06,
7094
+ "loss": 23.72,
7095
+ "step": 10100
7096
+ },
7097
+ {
7098
+ "epoch": 0.18761438840910513,
7099
+ "grad_norm": 34.71875,
7100
+ "learning_rate": 9.970685260311119e-06,
7101
+ "loss": 23.7046,
7102
+ "step": 10110
7103
+ },
7104
+ {
7105
+ "epoch": 0.18779996149358497,
7106
+ "grad_norm": 34.75,
7107
+ "learning_rate": 9.970656264525076e-06,
7108
+ "loss": 24.0583,
7109
+ "step": 10120
7110
+ },
7111
+ {
7112
+ "epoch": 0.1879855345780648,
7113
+ "grad_norm": 35.21875,
7114
+ "learning_rate": 9.970627268739036e-06,
7115
+ "loss": 23.5673,
7116
+ "step": 10130
7117
+ },
7118
+ {
7119
+ "epoch": 0.18817110766254463,
7120
+ "grad_norm": 35.0625,
7121
+ "learning_rate": 9.970598272952993e-06,
7122
+ "loss": 23.5273,
7123
+ "step": 10140
7124
+ },
7125
+ {
7126
+ "epoch": 0.18835668074702444,
7127
+ "grad_norm": 35.625,
7128
+ "learning_rate": 9.97056927716695e-06,
7129
+ "loss": 23.8089,
7130
+ "step": 10150
7131
+ },
7132
+ {
7133
+ "epoch": 0.18854225383150428,
7134
+ "grad_norm": 35.0,
7135
+ "learning_rate": 9.970540281380908e-06,
7136
+ "loss": 23.5046,
7137
+ "step": 10160
7138
+ },
7139
+ {
7140
+ "epoch": 0.1887278269159841,
7141
+ "grad_norm": 35.75,
7142
+ "learning_rate": 9.970511285594865e-06,
7143
+ "loss": 23.674,
7144
+ "step": 10170
7145
+ },
7146
+ {
7147
+ "epoch": 0.18891340000046394,
7148
+ "grad_norm": 33.59375,
7149
+ "learning_rate": 9.970482289808823e-06,
7150
+ "loss": 23.2634,
7151
+ "step": 10180
7152
+ },
7153
+ {
7154
+ "epoch": 0.18909897308494375,
7155
+ "grad_norm": 36.53125,
7156
+ "learning_rate": 9.97045329402278e-06,
7157
+ "loss": 23.6953,
7158
+ "step": 10190
7159
+ },
7160
+ {
7161
+ "epoch": 0.18928454616942358,
7162
+ "grad_norm": 36.4375,
7163
+ "learning_rate": 9.970424298236739e-06,
7164
+ "loss": 23.4264,
7165
+ "step": 10200
7166
+ },
7167
+ {
7168
+ "epoch": 0.18947011925390342,
7169
+ "grad_norm": 35.3125,
7170
+ "learning_rate": 9.970395302450696e-06,
7171
+ "loss": 23.1557,
7172
+ "step": 10210
7173
+ },
7174
+ {
7175
+ "epoch": 0.18965569233838325,
7176
+ "grad_norm": 34.90625,
7177
+ "learning_rate": 9.970366306664652e-06,
7178
+ "loss": 23.539,
7179
+ "step": 10220
7180
+ },
7181
+ {
7182
+ "epoch": 0.18984126542286306,
7183
+ "grad_norm": 34.09375,
7184
+ "learning_rate": 9.970337310878611e-06,
7185
+ "loss": 23.8074,
7186
+ "step": 10230
7187
+ },
7188
+ {
7189
+ "epoch": 0.1900268385073429,
7190
+ "grad_norm": 37.5625,
7191
+ "learning_rate": 9.970308315092569e-06,
7192
+ "loss": 23.6492,
7193
+ "step": 10240
7194
+ },
7195
+ {
7196
+ "epoch": 0.19021241159182273,
7197
+ "grad_norm": 33.40625,
7198
+ "learning_rate": 9.970279319306526e-06,
7199
+ "loss": 23.5333,
7200
+ "step": 10250
7201
+ },
7202
+ {
7203
+ "epoch": 0.19039798467630256,
7204
+ "grad_norm": 35.15625,
7205
+ "learning_rate": 9.970250323520484e-06,
7206
+ "loss": 23.7081,
7207
+ "step": 10260
7208
+ },
7209
+ {
7210
+ "epoch": 0.19058355776078237,
7211
+ "grad_norm": 36.21875,
7212
+ "learning_rate": 9.970221327734441e-06,
7213
+ "loss": 23.0549,
7214
+ "step": 10270
7215
+ },
7216
+ {
7217
+ "epoch": 0.1907691308452622,
7218
+ "grad_norm": 37.1875,
7219
+ "learning_rate": 9.970192331948398e-06,
7220
+ "loss": 23.529,
7221
+ "step": 10280
7222
+ },
7223
+ {
7224
+ "epoch": 0.19095470392974204,
7225
+ "grad_norm": 35.6875,
7226
+ "learning_rate": 9.970163336162356e-06,
7227
+ "loss": 23.6286,
7228
+ "step": 10290
7229
+ },
7230
+ {
7231
+ "epoch": 0.19114027701422187,
7232
+ "grad_norm": 36.9375,
7233
+ "learning_rate": 9.970134340376315e-06,
7234
+ "loss": 23.9015,
7235
+ "step": 10300
7236
+ },
7237
+ {
7238
+ "epoch": 0.19132585009870168,
7239
+ "grad_norm": 35.1875,
7240
+ "learning_rate": 9.970105344590272e-06,
7241
+ "loss": 23.5723,
7242
+ "step": 10310
7243
+ },
7244
+ {
7245
+ "epoch": 0.1915114231831815,
7246
+ "grad_norm": 33.78125,
7247
+ "learning_rate": 9.97007634880423e-06,
7248
+ "loss": 23.5897,
7249
+ "step": 10320
7250
+ },
7251
+ {
7252
+ "epoch": 0.19169699626766135,
7253
+ "grad_norm": 33.90625,
7254
+ "learning_rate": 9.970047353018187e-06,
7255
+ "loss": 24.0946,
7256
+ "step": 10330
7257
+ },
7258
+ {
7259
+ "epoch": 0.19188256935214115,
7260
+ "grad_norm": 35.15625,
7261
+ "learning_rate": 9.970018357232144e-06,
7262
+ "loss": 23.9352,
7263
+ "step": 10340
7264
+ },
7265
+ {
7266
+ "epoch": 0.192068142436621,
7267
+ "grad_norm": 37.9375,
7268
+ "learning_rate": 9.969989361446102e-06,
7269
+ "loss": 23.9665,
7270
+ "step": 10350
7271
+ },
7272
+ {
7273
+ "epoch": 0.19225371552110082,
7274
+ "grad_norm": 33.53125,
7275
+ "learning_rate": 9.96996036566006e-06,
7276
+ "loss": 23.3916,
7277
+ "step": 10360
7278
+ },
7279
+ {
7280
+ "epoch": 0.19243928860558066,
7281
+ "grad_norm": 34.3125,
7282
+ "learning_rate": 9.969931369874017e-06,
7283
+ "loss": 23.5357,
7284
+ "step": 10370
7285
+ },
7286
+ {
7287
+ "epoch": 0.19262486169006046,
7288
+ "grad_norm": 32.90625,
7289
+ "learning_rate": 9.969902374087974e-06,
7290
+ "loss": 24.2098,
7291
+ "step": 10380
7292
+ },
7293
+ {
7294
+ "epoch": 0.1928104347745403,
7295
+ "grad_norm": 36.4375,
7296
+ "learning_rate": 9.969873378301931e-06,
7297
+ "loss": 23.3536,
7298
+ "step": 10390
7299
+ },
7300
+ {
7301
+ "epoch": 0.19299600785902013,
7302
+ "grad_norm": 34.96875,
7303
+ "learning_rate": 9.969844382515889e-06,
7304
+ "loss": 23.5672,
7305
+ "step": 10400
7306
+ },
7307
+ {
7308
+ "epoch": 0.19318158094349996,
7309
+ "grad_norm": 35.21875,
7310
+ "learning_rate": 9.969815386729848e-06,
7311
+ "loss": 23.262,
7312
+ "step": 10410
7313
+ },
7314
+ {
7315
+ "epoch": 0.19336715402797977,
7316
+ "grad_norm": 34.9375,
7317
+ "learning_rate": 9.969786390943805e-06,
7318
+ "loss": 23.7718,
7319
+ "step": 10420
7320
+ },
7321
+ {
7322
+ "epoch": 0.1935527271124596,
7323
+ "grad_norm": 35.1875,
7324
+ "learning_rate": 9.969757395157763e-06,
7325
+ "loss": 23.3401,
7326
+ "step": 10430
7327
+ },
7328
+ {
7329
+ "epoch": 0.19373830019693944,
7330
+ "grad_norm": 33.28125,
7331
+ "learning_rate": 9.96972839937172e-06,
7332
+ "loss": 23.7594,
7333
+ "step": 10440
7334
+ },
7335
+ {
7336
+ "epoch": 0.19392387328141927,
7337
+ "grad_norm": 35.8125,
7338
+ "learning_rate": 9.969699403585678e-06,
7339
+ "loss": 23.7115,
7340
+ "step": 10450
7341
+ },
7342
+ {
7343
+ "epoch": 0.19410944636589908,
7344
+ "grad_norm": 35.6875,
7345
+ "learning_rate": 9.969670407799635e-06,
7346
+ "loss": 23.6501,
7347
+ "step": 10460
7348
+ },
7349
+ {
7350
+ "epoch": 0.19429501945037891,
7351
+ "grad_norm": 34.15625,
7352
+ "learning_rate": 9.969641412013592e-06,
7353
+ "loss": 23.6335,
7354
+ "step": 10470
7355
+ },
7356
+ {
7357
+ "epoch": 0.19448059253485875,
7358
+ "grad_norm": 33.75,
7359
+ "learning_rate": 9.969612416227552e-06,
7360
+ "loss": 24.3264,
7361
+ "step": 10480
7362
+ },
7363
+ {
7364
+ "epoch": 0.19466616561933858,
7365
+ "grad_norm": 34.46875,
7366
+ "learning_rate": 9.969583420441507e-06,
7367
+ "loss": 23.7675,
7368
+ "step": 10490
7369
+ },
7370
+ {
7371
+ "epoch": 0.1948517387038184,
7372
+ "grad_norm": 35.3125,
7373
+ "learning_rate": 9.969554424655465e-06,
7374
+ "loss": 23.1986,
7375
+ "step": 10500
7376
+ },
7377
+ {
7378
+ "epoch": 0.19503731178829822,
7379
+ "grad_norm": 33.8125,
7380
+ "learning_rate": 9.969525428869424e-06,
7381
+ "loss": 23.6049,
7382
+ "step": 10510
7383
+ },
7384
+ {
7385
+ "epoch": 0.19522288487277806,
7386
+ "grad_norm": 34.34375,
7387
+ "learning_rate": 9.969496433083381e-06,
7388
+ "loss": 23.5584,
7389
+ "step": 10520
7390
+ },
7391
+ {
7392
+ "epoch": 0.1954084579572579,
7393
+ "grad_norm": 35.65625,
7394
+ "learning_rate": 9.969467437297339e-06,
7395
+ "loss": 23.4357,
7396
+ "step": 10530
7397
+ },
7398
+ {
7399
+ "epoch": 0.1955940310417377,
7400
+ "grad_norm": 32.65625,
7401
+ "learning_rate": 9.969438441511296e-06,
7402
+ "loss": 23.708,
7403
+ "step": 10540
7404
+ },
7405
+ {
7406
+ "epoch": 0.19577960412621753,
7407
+ "grad_norm": 34.25,
7408
+ "learning_rate": 9.969409445725253e-06,
7409
+ "loss": 23.0793,
7410
+ "step": 10550
7411
+ },
7412
+ {
7413
+ "epoch": 0.19596517721069737,
7414
+ "grad_norm": 35.15625,
7415
+ "learning_rate": 9.96938044993921e-06,
7416
+ "loss": 23.6577,
7417
+ "step": 10560
7418
+ },
7419
+ {
7420
+ "epoch": 0.1961507502951772,
7421
+ "grad_norm": 34.03125,
7422
+ "learning_rate": 9.969351454153168e-06,
7423
+ "loss": 23.9597,
7424
+ "step": 10570
7425
+ },
7426
+ {
7427
+ "epoch": 0.196336323379657,
7428
+ "grad_norm": 34.15625,
7429
+ "learning_rate": 9.969322458367127e-06,
7430
+ "loss": 23.5803,
7431
+ "step": 10580
7432
+ },
7433
+ {
7434
+ "epoch": 0.19652189646413684,
7435
+ "grad_norm": 31.96875,
7436
+ "learning_rate": 9.969293462581085e-06,
7437
+ "loss": 23.3744,
7438
+ "step": 10590
7439
+ },
7440
+ {
7441
+ "epoch": 0.19670746954861668,
7442
+ "grad_norm": 34.9375,
7443
+ "learning_rate": 9.96926446679504e-06,
7444
+ "loss": 23.2254,
7445
+ "step": 10600
7446
+ },
7447
+ {
7448
+ "epoch": 0.19689304263309648,
7449
+ "grad_norm": 35.9375,
7450
+ "learning_rate": 9.969235471009e-06,
7451
+ "loss": 23.7611,
7452
+ "step": 10610
7453
+ },
7454
+ {
7455
+ "epoch": 0.19707861571757632,
7456
+ "grad_norm": 36.28125,
7457
+ "learning_rate": 9.969206475222957e-06,
7458
+ "loss": 23.9757,
7459
+ "step": 10620
7460
+ },
7461
+ {
7462
+ "epoch": 0.19726418880205615,
7463
+ "grad_norm": 35.53125,
7464
+ "learning_rate": 9.969177479436914e-06,
7465
+ "loss": 23.0914,
7466
+ "step": 10630
7467
+ },
7468
+ {
7469
+ "epoch": 0.19744976188653598,
7470
+ "grad_norm": 37.25,
7471
+ "learning_rate": 9.969148483650872e-06,
7472
+ "loss": 23.5468,
7473
+ "step": 10640
7474
+ },
7475
+ {
7476
+ "epoch": 0.1976353349710158,
7477
+ "grad_norm": 33.375,
7478
+ "learning_rate": 9.96911948786483e-06,
7479
+ "loss": 23.446,
7480
+ "step": 10650
7481
+ },
7482
+ {
7483
+ "epoch": 0.19782090805549563,
7484
+ "grad_norm": 35.09375,
7485
+ "learning_rate": 9.969090492078787e-06,
7486
+ "loss": 23.2178,
7487
+ "step": 10660
7488
+ },
7489
+ {
7490
+ "epoch": 0.19800648113997546,
7491
+ "grad_norm": 36.5,
7492
+ "learning_rate": 9.969061496292744e-06,
7493
+ "loss": 23.965,
7494
+ "step": 10670
7495
+ },
7496
+ {
7497
+ "epoch": 0.1981920542244553,
7498
+ "grad_norm": 34.21875,
7499
+ "learning_rate": 9.969032500506703e-06,
7500
+ "loss": 23.7035,
7501
+ "step": 10680
7502
+ },
7503
+ {
7504
+ "epoch": 0.1983776273089351,
7505
+ "grad_norm": 33.21875,
7506
+ "learning_rate": 9.96900350472066e-06,
7507
+ "loss": 23.758,
7508
+ "step": 10690
7509
+ },
7510
+ {
7511
+ "epoch": 0.19856320039341493,
7512
+ "grad_norm": 34.84375,
7513
+ "learning_rate": 9.968974508934616e-06,
7514
+ "loss": 23.4742,
7515
+ "step": 10700
7516
+ },
7517
+ {
7518
+ "epoch": 0.19874877347789477,
7519
+ "grad_norm": 34.46875,
7520
+ "learning_rate": 9.968945513148575e-06,
7521
+ "loss": 23.8078,
7522
+ "step": 10710
7523
+ },
7524
+ {
7525
+ "epoch": 0.1989343465623746,
7526
+ "grad_norm": 34.4375,
7527
+ "learning_rate": 9.968916517362533e-06,
7528
+ "loss": 23.9313,
7529
+ "step": 10720
7530
+ },
7531
+ {
7532
+ "epoch": 0.1991199196468544,
7533
+ "grad_norm": 34.59375,
7534
+ "learning_rate": 9.96888752157649e-06,
7535
+ "loss": 24.0837,
7536
+ "step": 10730
7537
+ },
7538
+ {
7539
+ "epoch": 0.19930549273133424,
7540
+ "grad_norm": 35.1875,
7541
+ "learning_rate": 9.968858525790448e-06,
7542
+ "loss": 23.7037,
7543
+ "step": 10740
7544
+ },
7545
+ {
7546
+ "epoch": 0.19949106581581408,
7547
+ "grad_norm": 33.5625,
7548
+ "learning_rate": 9.968829530004407e-06,
7549
+ "loss": 23.7664,
7550
+ "step": 10750
7551
+ },
7552
+ {
7553
+ "epoch": 0.1996766389002939,
7554
+ "grad_norm": 33.9375,
7555
+ "learning_rate": 9.968800534218362e-06,
7556
+ "loss": 23.1647,
7557
+ "step": 10760
7558
+ },
7559
+ {
7560
+ "epoch": 0.19986221198477372,
7561
+ "grad_norm": 33.8125,
7562
+ "learning_rate": 9.96877153843232e-06,
7563
+ "loss": 23.4258,
7564
+ "step": 10770
7565
+ },
7566
+ {
7567
+ "epoch": 0.20004778506925355,
7568
+ "grad_norm": 34.09375,
7569
+ "learning_rate": 9.968742542646279e-06,
7570
+ "loss": 23.2949,
7571
+ "step": 10780
7572
+ },
7573
+ {
7574
+ "epoch": 0.2002333581537334,
7575
+ "grad_norm": 35.25,
7576
+ "learning_rate": 9.968713546860236e-06,
7577
+ "loss": 23.2747,
7578
+ "step": 10790
7579
+ },
7580
+ {
7581
+ "epoch": 0.20041893123821322,
7582
+ "grad_norm": 34.4375,
7583
+ "learning_rate": 9.968684551074194e-06,
7584
+ "loss": 23.3498,
7585
+ "step": 10800
7586
+ },
7587
+ {
7588
+ "epoch": 0.20060450432269303,
7589
+ "grad_norm": 34.6875,
7590
+ "learning_rate": 9.968655555288151e-06,
7591
+ "loss": 23.1578,
7592
+ "step": 10810
7593
+ },
7594
+ {
7595
+ "epoch": 0.20079007740717286,
7596
+ "grad_norm": 35.1875,
7597
+ "learning_rate": 9.968626559502108e-06,
7598
+ "loss": 23.6403,
7599
+ "step": 10820
7600
+ },
7601
+ {
7602
+ "epoch": 0.2009756504916527,
7603
+ "grad_norm": 38.40625,
7604
+ "learning_rate": 9.968597563716066e-06,
7605
+ "loss": 23.2563,
7606
+ "step": 10830
7607
+ },
7608
+ {
7609
+ "epoch": 0.20116122357613253,
7610
+ "grad_norm": 33.375,
7611
+ "learning_rate": 9.968568567930023e-06,
7612
+ "loss": 23.6925,
7613
+ "step": 10840
7614
+ },
7615
+ {
7616
+ "epoch": 0.20134679666061234,
7617
+ "grad_norm": 36.0,
7618
+ "learning_rate": 9.96853957214398e-06,
7619
+ "loss": 23.2151,
7620
+ "step": 10850
7621
+ },
7622
+ {
7623
+ "epoch": 0.20153236974509217,
7624
+ "grad_norm": 34.09375,
7625
+ "learning_rate": 9.968510576357938e-06,
7626
+ "loss": 23.1649,
7627
+ "step": 10860
7628
+ },
7629
+ {
7630
+ "epoch": 0.201717942829572,
7631
+ "grad_norm": 35.3125,
7632
+ "learning_rate": 9.968481580571896e-06,
7633
+ "loss": 23.6179,
7634
+ "step": 10870
7635
+ },
7636
+ {
7637
+ "epoch": 0.2019035159140518,
7638
+ "grad_norm": 32.59375,
7639
+ "learning_rate": 9.968452584785855e-06,
7640
+ "loss": 23.1651,
7641
+ "step": 10880
7642
+ },
7643
+ {
7644
+ "epoch": 0.20208908899853165,
7645
+ "grad_norm": 35.21875,
7646
+ "learning_rate": 9.968423588999812e-06,
7647
+ "loss": 23.2298,
7648
+ "step": 10890
7649
+ },
7650
+ {
7651
+ "epoch": 0.20227466208301148,
7652
+ "grad_norm": 36.4375,
7653
+ "learning_rate": 9.96839459321377e-06,
7654
+ "loss": 23.0713,
7655
+ "step": 10900
7656
+ },
7657
+ {
7658
+ "epoch": 0.20246023516749131,
7659
+ "grad_norm": 34.8125,
7660
+ "learning_rate": 9.968365597427727e-06,
7661
+ "loss": 23.2793,
7662
+ "step": 10910
7663
+ },
7664
+ {
7665
+ "epoch": 0.20264580825197112,
7666
+ "grad_norm": 34.53125,
7667
+ "learning_rate": 9.968336601641684e-06,
7668
+ "loss": 23.8128,
7669
+ "step": 10920
7670
+ },
7671
+ {
7672
+ "epoch": 0.20283138133645096,
7673
+ "grad_norm": 35.59375,
7674
+ "learning_rate": 9.968307605855642e-06,
7675
+ "loss": 23.302,
7676
+ "step": 10930
7677
+ },
7678
+ {
7679
+ "epoch": 0.2030169544209308,
7680
+ "grad_norm": 34.5,
7681
+ "learning_rate": 9.968278610069599e-06,
7682
+ "loss": 23.4782,
7683
+ "step": 10940
7684
+ },
7685
+ {
7686
+ "epoch": 0.20320252750541062,
7687
+ "grad_norm": 35.875,
7688
+ "learning_rate": 9.968249614283556e-06,
7689
+ "loss": 23.7409,
7690
+ "step": 10950
7691
+ },
7692
+ {
7693
+ "epoch": 0.20338810058989043,
7694
+ "grad_norm": 37.84375,
7695
+ "learning_rate": 9.968220618497516e-06,
7696
+ "loss": 23.5444,
7697
+ "step": 10960
7698
+ },
7699
+ {
7700
+ "epoch": 0.20357367367437026,
7701
+ "grad_norm": 31.90625,
7702
+ "learning_rate": 9.968191622711471e-06,
7703
+ "loss": 23.3963,
7704
+ "step": 10970
7705
+ },
7706
+ {
7707
+ "epoch": 0.2037592467588501,
7708
+ "grad_norm": 34.125,
7709
+ "learning_rate": 9.968162626925429e-06,
7710
+ "loss": 22.8245,
7711
+ "step": 10980
7712
+ },
7713
+ {
7714
+ "epoch": 0.20394481984332993,
7715
+ "grad_norm": 33.375,
7716
+ "learning_rate": 9.968133631139388e-06,
7717
+ "loss": 23.3189,
7718
+ "step": 10990
7719
+ },
7720
+ {
7721
+ "epoch": 0.20413039292780974,
7722
+ "grad_norm": 35.28125,
7723
+ "learning_rate": 9.968104635353345e-06,
7724
+ "loss": 23.5008,
7725
+ "step": 11000
7726
+ },
7727
+ {
7728
+ "epoch": 0.20431596601228957,
7729
+ "grad_norm": 35.75,
7730
+ "learning_rate": 9.968075639567303e-06,
7731
+ "loss": 23.534,
7732
+ "step": 11010
7733
+ },
7734
+ {
7735
+ "epoch": 0.2045015390967694,
7736
+ "grad_norm": 32.78125,
7737
+ "learning_rate": 9.96804664378126e-06,
7738
+ "loss": 23.4768,
7739
+ "step": 11020
7740
+ },
7741
+ {
7742
+ "epoch": 0.20468711218124924,
7743
+ "grad_norm": 36.46875,
7744
+ "learning_rate": 9.968017647995217e-06,
7745
+ "loss": 23.6789,
7746
+ "step": 11030
7747
+ },
7748
+ {
7749
+ "epoch": 0.20487268526572905,
7750
+ "grad_norm": 32.9375,
7751
+ "learning_rate": 9.967988652209175e-06,
7752
+ "loss": 23.4918,
7753
+ "step": 11040
7754
+ },
7755
+ {
7756
+ "epoch": 0.20505825835020888,
7757
+ "grad_norm": 35.03125,
7758
+ "learning_rate": 9.967959656423132e-06,
7759
+ "loss": 22.996,
7760
+ "step": 11050
7761
+ },
7762
+ {
7763
+ "epoch": 0.20524383143468872,
7764
+ "grad_norm": 34.53125,
7765
+ "learning_rate": 9.967930660637091e-06,
7766
+ "loss": 23.3215,
7767
+ "step": 11060
7768
+ },
7769
+ {
7770
+ "epoch": 0.20542940451916855,
7771
+ "grad_norm": 35.0,
7772
+ "learning_rate": 9.967901664851049e-06,
7773
+ "loss": 22.972,
7774
+ "step": 11070
7775
+ },
7776
+ {
7777
+ "epoch": 0.20561497760364836,
7778
+ "grad_norm": 36.0,
7779
+ "learning_rate": 9.967872669065004e-06,
7780
+ "loss": 22.7126,
7781
+ "step": 11080
7782
+ },
7783
+ {
7784
+ "epoch": 0.2058005506881282,
7785
+ "grad_norm": 35.875,
7786
+ "learning_rate": 9.967843673278964e-06,
7787
+ "loss": 23.8109,
7788
+ "step": 11090
7789
+ },
7790
+ {
7791
+ "epoch": 0.20598612377260803,
7792
+ "grad_norm": 32.96875,
7793
+ "learning_rate": 9.967814677492921e-06,
7794
+ "loss": 23.2342,
7795
+ "step": 11100
7796
+ },
7797
+ {
7798
+ "epoch": 0.20617169685708786,
7799
+ "grad_norm": 37.65625,
7800
+ "learning_rate": 9.967785681706878e-06,
7801
+ "loss": 23.8215,
7802
+ "step": 11110
7803
+ },
7804
+ {
7805
+ "epoch": 0.20635726994156767,
7806
+ "grad_norm": 37.1875,
7807
+ "learning_rate": 9.967756685920836e-06,
7808
+ "loss": 23.4363,
7809
+ "step": 11120
7810
+ },
7811
+ {
7812
+ "epoch": 0.2065428430260475,
7813
+ "grad_norm": 34.5,
7814
+ "learning_rate": 9.967727690134793e-06,
7815
+ "loss": 23.4552,
7816
+ "step": 11130
7817
+ },
7818
+ {
7819
+ "epoch": 0.20672841611052734,
7820
+ "grad_norm": 34.125,
7821
+ "learning_rate": 9.96769869434875e-06,
7822
+ "loss": 23.5466,
7823
+ "step": 11140
7824
+ },
7825
+ {
7826
+ "epoch": 0.20691398919500717,
7827
+ "grad_norm": 34.5625,
7828
+ "learning_rate": 9.967669698562708e-06,
7829
+ "loss": 23.4444,
7830
+ "step": 11150
7831
+ },
7832
+ {
7833
+ "epoch": 0.20709956227948698,
7834
+ "grad_norm": 35.28125,
7835
+ "learning_rate": 9.967640702776667e-06,
7836
+ "loss": 23.0774,
7837
+ "step": 11160
7838
+ },
7839
+ {
7840
+ "epoch": 0.2072851353639668,
7841
+ "grad_norm": 35.53125,
7842
+ "learning_rate": 9.967611706990624e-06,
7843
+ "loss": 23.1711,
7844
+ "step": 11170
7845
+ },
7846
+ {
7847
+ "epoch": 0.20747070844844664,
7848
+ "grad_norm": 33.75,
7849
+ "learning_rate": 9.967582711204582e-06,
7850
+ "loss": 23.2173,
7851
+ "step": 11180
7852
+ },
7853
+ {
7854
+ "epoch": 0.20765628153292645,
7855
+ "grad_norm": 35.84375,
7856
+ "learning_rate": 9.96755371541854e-06,
7857
+ "loss": 23.6226,
7858
+ "step": 11190
7859
+ },
7860
+ {
7861
+ "epoch": 0.20784185461740629,
7862
+ "grad_norm": 34.96875,
7863
+ "learning_rate": 9.967524719632497e-06,
7864
+ "loss": 22.9892,
7865
+ "step": 11200
7866
+ },
7867
+ {
7868
+ "epoch": 0.20802742770188612,
7869
+ "grad_norm": 34.0625,
7870
+ "learning_rate": 9.967495723846454e-06,
7871
+ "loss": 23.2622,
7872
+ "step": 11210
7873
+ },
7874
+ {
7875
+ "epoch": 0.20821300078636595,
7876
+ "grad_norm": 34.03125,
7877
+ "learning_rate": 9.967466728060412e-06,
7878
+ "loss": 22.9742,
7879
+ "step": 11220
7880
+ },
7881
+ {
7882
+ "epoch": 0.20839857387084576,
7883
+ "grad_norm": 34.84375,
7884
+ "learning_rate": 9.96743773227437e-06,
7885
+ "loss": 23.3746,
7886
+ "step": 11230
7887
+ },
7888
+ {
7889
+ "epoch": 0.2085841469553256,
7890
+ "grad_norm": 33.71875,
7891
+ "learning_rate": 9.967408736488326e-06,
7892
+ "loss": 23.0632,
7893
+ "step": 11240
7894
+ },
7895
+ {
7896
+ "epoch": 0.20876972003980543,
7897
+ "grad_norm": 36.875,
7898
+ "learning_rate": 9.967379740702284e-06,
7899
+ "loss": 23.3394,
7900
+ "step": 11250
7901
+ },
7902
+ {
7903
+ "epoch": 0.20895529312428526,
7904
+ "grad_norm": 34.65625,
7905
+ "learning_rate": 9.967350744916243e-06,
7906
+ "loss": 23.298,
7907
+ "step": 11260
7908
+ },
7909
+ {
7910
+ "epoch": 0.20914086620876507,
7911
+ "grad_norm": 36.0,
7912
+ "learning_rate": 9.9673217491302e-06,
7913
+ "loss": 23.015,
7914
+ "step": 11270
7915
+ },
7916
+ {
7917
+ "epoch": 0.2093264392932449,
7918
+ "grad_norm": 35.34375,
7919
+ "learning_rate": 9.967292753344158e-06,
7920
+ "loss": 23.2773,
7921
+ "step": 11280
7922
+ },
7923
+ {
7924
+ "epoch": 0.20951201237772474,
7925
+ "grad_norm": 34.65625,
7926
+ "learning_rate": 9.967263757558115e-06,
7927
+ "loss": 23.3175,
7928
+ "step": 11290
7929
+ },
7930
+ {
7931
+ "epoch": 0.20969758546220457,
7932
+ "grad_norm": 35.96875,
7933
+ "learning_rate": 9.967234761772072e-06,
7934
+ "loss": 23.3183,
7935
+ "step": 11300
7936
+ },
7937
+ {
7938
+ "epoch": 0.20988315854668438,
7939
+ "grad_norm": 33.53125,
7940
+ "learning_rate": 9.96720576598603e-06,
7941
+ "loss": 23.4582,
7942
+ "step": 11310
7943
+ },
7944
+ {
7945
+ "epoch": 0.2100687316311642,
7946
+ "grad_norm": 34.78125,
7947
+ "learning_rate": 9.967176770199987e-06,
7948
+ "loss": 23.4951,
7949
+ "step": 11320
7950
+ },
7951
+ {
7952
+ "epoch": 0.21025430471564405,
7953
+ "grad_norm": 35.09375,
7954
+ "learning_rate": 9.967147774413945e-06,
7955
+ "loss": 23.4455,
7956
+ "step": 11330
7957
+ },
7958
+ {
7959
+ "epoch": 0.21043987780012388,
7960
+ "grad_norm": 34.59375,
7961
+ "learning_rate": 9.967118778627904e-06,
7962
+ "loss": 22.9397,
7963
+ "step": 11340
7964
+ },
7965
+ {
7966
+ "epoch": 0.2106254508846037,
7967
+ "grad_norm": 37.4375,
7968
+ "learning_rate": 9.96708978284186e-06,
7969
+ "loss": 23.5124,
7970
+ "step": 11350
7971
+ },
7972
+ {
7973
+ "epoch": 0.21081102396908352,
7974
+ "grad_norm": 33.75,
7975
+ "learning_rate": 9.967060787055819e-06,
7976
+ "loss": 23.2777,
7977
+ "step": 11360
7978
+ },
7979
+ {
7980
+ "epoch": 0.21099659705356336,
7981
+ "grad_norm": 36.375,
7982
+ "learning_rate": 9.967031791269776e-06,
7983
+ "loss": 23.5096,
7984
+ "step": 11370
7985
+ },
7986
+ {
7987
+ "epoch": 0.2111821701380432,
7988
+ "grad_norm": 35.40625,
7989
+ "learning_rate": 9.967002795483733e-06,
7990
+ "loss": 23.5407,
7991
+ "step": 11380
7992
+ },
7993
+ {
7994
+ "epoch": 0.211367743222523,
7995
+ "grad_norm": 35.375,
7996
+ "learning_rate": 9.96697379969769e-06,
7997
+ "loss": 23.0631,
7998
+ "step": 11390
7999
+ },
8000
+ {
8001
+ "epoch": 0.21155331630700283,
8002
+ "grad_norm": 33.71875,
8003
+ "learning_rate": 9.966944803911648e-06,
8004
+ "loss": 23.4863,
8005
+ "step": 11400
8006
+ },
8007
+ {
8008
+ "epoch": 0.21173888939148267,
8009
+ "grad_norm": 33.65625,
8010
+ "learning_rate": 9.966915808125606e-06,
8011
+ "loss": 22.7694,
8012
+ "step": 11410
8013
+ },
8014
+ {
8015
+ "epoch": 0.2119244624759625,
8016
+ "grad_norm": 33.84375,
8017
+ "learning_rate": 9.966886812339563e-06,
8018
+ "loss": 23.4398,
8019
+ "step": 11420
8020
+ },
8021
+ {
8022
+ "epoch": 0.2121100355604423,
8023
+ "grad_norm": 36.125,
8024
+ "learning_rate": 9.96685781655352e-06,
8025
+ "loss": 23.2906,
8026
+ "step": 11430
8027
+ },
8028
+ {
8029
+ "epoch": 0.21229560864492214,
8030
+ "grad_norm": 33.3125,
8031
+ "learning_rate": 9.96682882076748e-06,
8032
+ "loss": 23.335,
8033
+ "step": 11440
8034
+ },
8035
+ {
8036
+ "epoch": 0.21248118172940197,
8037
+ "grad_norm": 33.4375,
8038
+ "learning_rate": 9.966799824981435e-06,
8039
+ "loss": 23.3474,
8040
+ "step": 11450
8041
+ },
8042
+ {
8043
+ "epoch": 0.21266675481388178,
8044
+ "grad_norm": 35.6875,
8045
+ "learning_rate": 9.966770829195393e-06,
8046
+ "loss": 23.5648,
8047
+ "step": 11460
8048
+ },
8049
+ {
8050
+ "epoch": 0.21285232789836162,
8051
+ "grad_norm": 36.21875,
8052
+ "learning_rate": 9.966741833409352e-06,
8053
+ "loss": 23.1292,
8054
+ "step": 11470
8055
+ },
8056
+ {
8057
+ "epoch": 0.21303790098284145,
8058
+ "grad_norm": 36.78125,
8059
+ "learning_rate": 9.96671283762331e-06,
8060
+ "loss": 23.2989,
8061
+ "step": 11480
8062
+ },
8063
+ {
8064
+ "epoch": 0.21322347406732128,
8065
+ "grad_norm": 35.59375,
8066
+ "learning_rate": 9.966683841837267e-06,
8067
+ "loss": 23.4273,
8068
+ "step": 11490
8069
+ },
8070
+ {
8071
+ "epoch": 0.2134090471518011,
8072
+ "grad_norm": 35.71875,
8073
+ "learning_rate": 9.966654846051224e-06,
8074
+ "loss": 23.0285,
8075
+ "step": 11500
8076
+ },
8077
+ {
8078
+ "epoch": 0.21359462023628092,
8079
+ "grad_norm": 34.375,
8080
+ "learning_rate": 9.966625850265181e-06,
8081
+ "loss": 23.4227,
8082
+ "step": 11510
8083
+ },
8084
+ {
8085
+ "epoch": 0.21378019332076076,
8086
+ "grad_norm": 33.59375,
8087
+ "learning_rate": 9.966596854479139e-06,
8088
+ "loss": 23.3722,
8089
+ "step": 11520
8090
+ },
8091
+ {
8092
+ "epoch": 0.2139657664052406,
8093
+ "grad_norm": 34.65625,
8094
+ "learning_rate": 9.966567858693096e-06,
8095
+ "loss": 23.19,
8096
+ "step": 11530
8097
+ },
8098
+ {
8099
+ "epoch": 0.2141513394897204,
8100
+ "grad_norm": 35.375,
8101
+ "learning_rate": 9.966538862907055e-06,
8102
+ "loss": 23.5036,
8103
+ "step": 11540
8104
+ },
8105
+ {
8106
+ "epoch": 0.21433691257420023,
8107
+ "grad_norm": 34.3125,
8108
+ "learning_rate": 9.966509867121013e-06,
8109
+ "loss": 23.3387,
8110
+ "step": 11550
8111
+ },
8112
+ {
8113
+ "epoch": 0.21452248565868007,
8114
+ "grad_norm": 34.0625,
8115
+ "learning_rate": 9.966480871334968e-06,
8116
+ "loss": 23.121,
8117
+ "step": 11560
8118
+ },
8119
+ {
8120
+ "epoch": 0.2147080587431599,
8121
+ "grad_norm": 35.71875,
8122
+ "learning_rate": 9.966451875548928e-06,
8123
+ "loss": 23.4267,
8124
+ "step": 11570
8125
+ },
8126
+ {
8127
+ "epoch": 0.2148936318276397,
8128
+ "grad_norm": 36.71875,
8129
+ "learning_rate": 9.966422879762885e-06,
8130
+ "loss": 23.2037,
8131
+ "step": 11580
8132
+ },
8133
+ {
8134
+ "epoch": 0.21507920491211954,
8135
+ "grad_norm": 34.3125,
8136
+ "learning_rate": 9.966393883976842e-06,
8137
+ "loss": 23.6055,
8138
+ "step": 11590
8139
+ },
8140
+ {
8141
+ "epoch": 0.21526477799659938,
8142
+ "grad_norm": 33.5,
8143
+ "learning_rate": 9.9663648881908e-06,
8144
+ "loss": 23.0454,
8145
+ "step": 11600
8146
+ },
8147
+ {
8148
+ "epoch": 0.2154503510810792,
8149
+ "grad_norm": 35.0625,
8150
+ "learning_rate": 9.966335892404759e-06,
8151
+ "loss": 22.7495,
8152
+ "step": 11610
8153
+ },
8154
+ {
8155
+ "epoch": 0.21563592416555902,
8156
+ "grad_norm": 34.9375,
8157
+ "learning_rate": 9.966306896618715e-06,
8158
+ "loss": 23.8042,
8159
+ "step": 11620
8160
+ },
8161
+ {
8162
+ "epoch": 0.21582149725003885,
8163
+ "grad_norm": 37.03125,
8164
+ "learning_rate": 9.966277900832672e-06,
8165
+ "loss": 23.4072,
8166
+ "step": 11630
8167
+ },
8168
+ {
8169
+ "epoch": 0.21600707033451869,
8170
+ "grad_norm": 37.09375,
8171
+ "learning_rate": 9.966248905046631e-06,
8172
+ "loss": 23.2861,
8173
+ "step": 11640
8174
+ },
8175
+ {
8176
+ "epoch": 0.21619264341899852,
8177
+ "grad_norm": 34.40625,
8178
+ "learning_rate": 9.966219909260589e-06,
8179
+ "loss": 23.3566,
8180
+ "step": 11650
8181
+ },
8182
+ {
8183
+ "epoch": 0.21637821650347833,
8184
+ "grad_norm": 33.875,
8185
+ "learning_rate": 9.966190913474546e-06,
8186
+ "loss": 22.9984,
8187
+ "step": 11660
8188
+ },
8189
+ {
8190
+ "epoch": 0.21656378958795816,
8191
+ "grad_norm": 34.09375,
8192
+ "learning_rate": 9.966161917688503e-06,
8193
+ "loss": 23.0596,
8194
+ "step": 11670
8195
+ },
8196
+ {
8197
+ "epoch": 0.216749362672438,
8198
+ "grad_norm": 35.46875,
8199
+ "learning_rate": 9.96613292190246e-06,
8200
+ "loss": 23.5079,
8201
+ "step": 11680
8202
+ },
8203
+ {
8204
+ "epoch": 0.21693493575691783,
8205
+ "grad_norm": 34.96875,
8206
+ "learning_rate": 9.966103926116418e-06,
8207
+ "loss": 22.9615,
8208
+ "step": 11690
8209
+ },
8210
+ {
8211
+ "epoch": 0.21712050884139764,
8212
+ "grad_norm": 35.65625,
8213
+ "learning_rate": 9.966074930330376e-06,
8214
+ "loss": 23.3229,
8215
+ "step": 11700
8216
+ },
8217
+ {
8218
+ "epoch": 0.21730608192587747,
8219
+ "grad_norm": 33.46875,
8220
+ "learning_rate": 9.966045934544335e-06,
8221
+ "loss": 23.2428,
8222
+ "step": 11710
8223
+ },
8224
+ {
8225
+ "epoch": 0.2174916550103573,
8226
+ "grad_norm": 33.625,
8227
+ "learning_rate": 9.96601693875829e-06,
8228
+ "loss": 23.3109,
8229
+ "step": 11720
8230
+ },
8231
+ {
8232
+ "epoch": 0.21767722809483714,
8233
+ "grad_norm": 35.34375,
8234
+ "learning_rate": 9.965987942972248e-06,
8235
+ "loss": 23.313,
8236
+ "step": 11730
8237
+ },
8238
+ {
8239
+ "epoch": 0.21786280117931694,
8240
+ "grad_norm": 34.8125,
8241
+ "learning_rate": 9.965958947186207e-06,
8242
+ "loss": 22.9677,
8243
+ "step": 11740
8244
+ },
8245
+ {
8246
+ "epoch": 0.21804837426379678,
8247
+ "grad_norm": 34.46875,
8248
+ "learning_rate": 9.965929951400164e-06,
8249
+ "loss": 23.4194,
8250
+ "step": 11750
8251
+ },
8252
+ {
8253
+ "epoch": 0.2182339473482766,
8254
+ "grad_norm": 35.875,
8255
+ "learning_rate": 9.965900955614122e-06,
8256
+ "loss": 23.2412,
8257
+ "step": 11760
8258
+ },
8259
+ {
8260
+ "epoch": 0.21841952043275642,
8261
+ "grad_norm": 34.96875,
8262
+ "learning_rate": 9.965871959828079e-06,
8263
+ "loss": 23.1838,
8264
+ "step": 11770
8265
+ },
8266
+ {
8267
+ "epoch": 0.21860509351723625,
8268
+ "grad_norm": 36.4375,
8269
+ "learning_rate": 9.965842964042036e-06,
8270
+ "loss": 23.4135,
8271
+ "step": 11780
8272
+ },
8273
+ {
8274
+ "epoch": 0.2187906666017161,
8275
+ "grad_norm": 35.21875,
8276
+ "learning_rate": 9.965813968255994e-06,
8277
+ "loss": 23.0506,
8278
+ "step": 11790
8279
+ },
8280
+ {
8281
+ "epoch": 0.21897623968619592,
8282
+ "grad_norm": 34.65625,
8283
+ "learning_rate": 9.965784972469951e-06,
8284
+ "loss": 23.2738,
8285
+ "step": 11800
8286
+ },
8287
+ {
8288
+ "epoch": 0.21916181277067573,
8289
+ "grad_norm": 36.21875,
8290
+ "learning_rate": 9.96575597668391e-06,
8291
+ "loss": 23.1185,
8292
+ "step": 11810
8293
+ },
8294
+ {
8295
+ "epoch": 0.21934738585515556,
8296
+ "grad_norm": 36.46875,
8297
+ "learning_rate": 9.965726980897868e-06,
8298
+ "loss": 23.2145,
8299
+ "step": 11820
8300
+ },
8301
+ {
8302
+ "epoch": 0.2195329589396354,
8303
+ "grad_norm": 33.96875,
8304
+ "learning_rate": 9.965697985111824e-06,
8305
+ "loss": 23.4867,
8306
+ "step": 11830
8307
+ },
8308
+ {
8309
+ "epoch": 0.21971853202411523,
8310
+ "grad_norm": 36.375,
8311
+ "learning_rate": 9.965668989325783e-06,
8312
+ "loss": 22.9346,
8313
+ "step": 11840
8314
+ },
8315
+ {
8316
+ "epoch": 0.21990410510859504,
8317
+ "grad_norm": 34.34375,
8318
+ "learning_rate": 9.96563999353974e-06,
8319
+ "loss": 23.1345,
8320
+ "step": 11850
8321
+ },
8322
+ {
8323
+ "epoch": 0.22008967819307487,
8324
+ "grad_norm": 36.34375,
8325
+ "learning_rate": 9.965610997753697e-06,
8326
+ "loss": 23.0301,
8327
+ "step": 11860
8328
+ },
8329
+ {
8330
+ "epoch": 0.2202752512775547,
8331
+ "grad_norm": 35.28125,
8332
+ "learning_rate": 9.965582001967655e-06,
8333
+ "loss": 22.9159,
8334
+ "step": 11870
8335
+ },
8336
+ {
8337
+ "epoch": 0.22046082436203454,
8338
+ "grad_norm": 33.9375,
8339
+ "learning_rate": 9.965553006181612e-06,
8340
+ "loss": 23.1306,
8341
+ "step": 11880
8342
+ },
8343
+ {
8344
+ "epoch": 0.22064639744651435,
8345
+ "grad_norm": 33.9375,
8346
+ "learning_rate": 9.96552401039557e-06,
8347
+ "loss": 23.0807,
8348
+ "step": 11890
8349
+ },
8350
+ {
8351
+ "epoch": 0.22083197053099418,
8352
+ "grad_norm": 37.5625,
8353
+ "learning_rate": 9.965495014609527e-06,
8354
+ "loss": 23.1038,
8355
+ "step": 11900
8356
+ },
8357
+ {
8358
+ "epoch": 0.22101754361547402,
8359
+ "grad_norm": 36.21875,
8360
+ "learning_rate": 9.965466018823484e-06,
8361
+ "loss": 23.5351,
8362
+ "step": 11910
8363
+ },
8364
+ {
8365
+ "epoch": 0.22120311669995385,
8366
+ "grad_norm": 35.59375,
8367
+ "learning_rate": 9.965437023037444e-06,
8368
+ "loss": 23.2319,
8369
+ "step": 11920
8370
+ },
8371
+ {
8372
+ "epoch": 0.22138868978443366,
8373
+ "grad_norm": 33.125,
8374
+ "learning_rate": 9.965408027251401e-06,
8375
+ "loss": 23.1569,
8376
+ "step": 11930
8377
+ },
8378
+ {
8379
+ "epoch": 0.2215742628689135,
8380
+ "grad_norm": 35.40625,
8381
+ "learning_rate": 9.965379031465358e-06,
8382
+ "loss": 23.5166,
8383
+ "step": 11940
8384
+ },
8385
+ {
8386
+ "epoch": 0.22175983595339332,
8387
+ "grad_norm": 35.96875,
8388
+ "learning_rate": 9.965350035679316e-06,
8389
+ "loss": 23.0607,
8390
+ "step": 11950
8391
+ },
8392
+ {
8393
+ "epoch": 0.22194540903787316,
8394
+ "grad_norm": 35.0,
8395
+ "learning_rate": 9.965321039893273e-06,
8396
+ "loss": 23.1148,
8397
+ "step": 11960
8398
+ },
8399
+ {
8400
+ "epoch": 0.22213098212235297,
8401
+ "grad_norm": 36.34375,
8402
+ "learning_rate": 9.96529204410723e-06,
8403
+ "loss": 22.8368,
8404
+ "step": 11970
8405
+ },
8406
+ {
8407
+ "epoch": 0.2223165552068328,
8408
+ "grad_norm": 35.40625,
8409
+ "learning_rate": 9.965263048321188e-06,
8410
+ "loss": 22.4958,
8411
+ "step": 11980
8412
+ },
8413
+ {
8414
+ "epoch": 0.22250212829131263,
8415
+ "grad_norm": 35.96875,
8416
+ "learning_rate": 9.965234052535145e-06,
8417
+ "loss": 22.882,
8418
+ "step": 11990
8419
+ },
8420
+ {
8421
+ "epoch": 0.22268770137579247,
8422
+ "grad_norm": 37.53125,
8423
+ "learning_rate": 9.965205056749103e-06,
8424
+ "loss": 23.2451,
8425
+ "step": 12000
8426
+ },
8427
+ {
8428
+ "epoch": 0.22287327446027227,
8429
+ "grad_norm": 36.03125,
8430
+ "learning_rate": 9.96517606096306e-06,
8431
+ "loss": 22.7075,
8432
+ "step": 12010
8433
+ },
8434
+ {
8435
+ "epoch": 0.2230588475447521,
8436
+ "grad_norm": 34.5,
8437
+ "learning_rate": 9.96514706517702e-06,
8438
+ "loss": 22.9387,
8439
+ "step": 12020
8440
+ },
8441
+ {
8442
+ "epoch": 0.22324442062923194,
8443
+ "grad_norm": 34.9375,
8444
+ "learning_rate": 9.965118069390977e-06,
8445
+ "loss": 23.5015,
8446
+ "step": 12030
8447
+ },
8448
+ {
8449
+ "epoch": 0.22342999371371175,
8450
+ "grad_norm": 36.375,
8451
+ "learning_rate": 9.965089073604932e-06,
8452
+ "loss": 23.2239,
8453
+ "step": 12040
8454
+ },
8455
+ {
8456
+ "epoch": 0.22361556679819158,
8457
+ "grad_norm": 33.78125,
8458
+ "learning_rate": 9.965060077818892e-06,
8459
+ "loss": 22.8462,
8460
+ "step": 12050
8461
+ },
8462
+ {
8463
+ "epoch": 0.22380113988267142,
8464
+ "grad_norm": 35.96875,
8465
+ "learning_rate": 9.965031082032849e-06,
8466
+ "loss": 23.1589,
8467
+ "step": 12060
8468
+ },
8469
+ {
8470
+ "epoch": 0.22398671296715125,
8471
+ "grad_norm": 33.875,
8472
+ "learning_rate": 9.965002086246806e-06,
8473
+ "loss": 23.3079,
8474
+ "step": 12070
8475
+ },
8476
+ {
8477
+ "epoch": 0.22417228605163106,
8478
+ "grad_norm": 35.625,
8479
+ "learning_rate": 9.964973090460764e-06,
8480
+ "loss": 22.9087,
8481
+ "step": 12080
8482
+ },
8483
+ {
8484
+ "epoch": 0.2243578591361109,
8485
+ "grad_norm": 33.1875,
8486
+ "learning_rate": 9.964944094674723e-06,
8487
+ "loss": 23.1929,
8488
+ "step": 12090
8489
+ },
8490
+ {
8491
+ "epoch": 0.22454343222059073,
8492
+ "grad_norm": 36.125,
8493
+ "learning_rate": 9.964915098888679e-06,
8494
+ "loss": 22.967,
8495
+ "step": 12100
8496
+ },
8497
+ {
8498
+ "epoch": 0.22472900530507056,
8499
+ "grad_norm": 35.03125,
8500
+ "learning_rate": 9.964886103102636e-06,
8501
+ "loss": 22.9228,
8502
+ "step": 12110
8503
+ },
8504
+ {
8505
+ "epoch": 0.22491457838955037,
8506
+ "grad_norm": 35.03125,
8507
+ "learning_rate": 9.964857107316595e-06,
8508
+ "loss": 22.9758,
8509
+ "step": 12120
8510
+ },
8511
+ {
8512
+ "epoch": 0.2251001514740302,
8513
+ "grad_norm": 34.0625,
8514
+ "learning_rate": 9.964828111530553e-06,
8515
+ "loss": 22.2338,
8516
+ "step": 12130
8517
+ },
8518
+ {
8519
+ "epoch": 0.22528572455851004,
8520
+ "grad_norm": 36.09375,
8521
+ "learning_rate": 9.96479911574451e-06,
8522
+ "loss": 23.1649,
8523
+ "step": 12140
8524
+ },
8525
+ {
8526
+ "epoch": 0.22547129764298987,
8527
+ "grad_norm": 35.5625,
8528
+ "learning_rate": 9.964770119958467e-06,
8529
+ "loss": 23.1733,
8530
+ "step": 12150
8531
+ },
8532
+ {
8533
+ "epoch": 0.22565687072746968,
8534
+ "grad_norm": 36.53125,
8535
+ "learning_rate": 9.964741124172425e-06,
8536
+ "loss": 22.8313,
8537
+ "step": 12160
8538
+ },
8539
+ {
8540
+ "epoch": 0.2258424438119495,
8541
+ "grad_norm": 36.40625,
8542
+ "learning_rate": 9.964712128386382e-06,
8543
+ "loss": 22.7984,
8544
+ "step": 12170
8545
+ },
8546
+ {
8547
+ "epoch": 0.22602801689642935,
8548
+ "grad_norm": 34.4375,
8549
+ "learning_rate": 9.96468313260034e-06,
8550
+ "loss": 23.1878,
8551
+ "step": 12180
8552
+ },
8553
+ {
8554
+ "epoch": 0.22621358998090918,
8555
+ "grad_norm": 36.25,
8556
+ "learning_rate": 9.964654136814299e-06,
8557
+ "loss": 23.0327,
8558
+ "step": 12190
8559
+ },
8560
+ {
8561
+ "epoch": 0.226399163065389,
8562
+ "grad_norm": 36.09375,
8563
+ "learning_rate": 9.964625141028256e-06,
8564
+ "loss": 22.7311,
8565
+ "step": 12200
8566
+ },
8567
+ {
8568
+ "epoch": 0.22658473614986882,
8569
+ "grad_norm": 34.15625,
8570
+ "learning_rate": 9.964596145242212e-06,
8571
+ "loss": 22.8199,
8572
+ "step": 12210
8573
+ },
8574
+ {
8575
+ "epoch": 0.22677030923434865,
8576
+ "grad_norm": 33.9375,
8577
+ "learning_rate": 9.964567149456171e-06,
8578
+ "loss": 22.6879,
8579
+ "step": 12220
8580
+ },
8581
+ {
8582
+ "epoch": 0.2269558823188285,
8583
+ "grad_norm": 35.3125,
8584
+ "learning_rate": 9.964538153670128e-06,
8585
+ "loss": 23.2458,
8586
+ "step": 12230
8587
+ },
8588
+ {
8589
+ "epoch": 0.2271414554033083,
8590
+ "grad_norm": 32.4375,
8591
+ "learning_rate": 9.964509157884086e-06,
8592
+ "loss": 22.7513,
8593
+ "step": 12240
8594
+ },
8595
+ {
8596
+ "epoch": 0.22732702848778813,
8597
+ "grad_norm": 34.5,
8598
+ "learning_rate": 9.964480162098043e-06,
8599
+ "loss": 23.2389,
8600
+ "step": 12250
8601
+ },
8602
+ {
8603
+ "epoch": 0.22751260157226796,
8604
+ "grad_norm": 37.0625,
8605
+ "learning_rate": 9.964451166312e-06,
8606
+ "loss": 23.358,
8607
+ "step": 12260
8608
+ },
8609
+ {
8610
+ "epoch": 0.2276981746567478,
8611
+ "grad_norm": 36.75,
8612
+ "learning_rate": 9.964422170525958e-06,
8613
+ "loss": 23.0215,
8614
+ "step": 12270
8615
+ },
8616
+ {
8617
+ "epoch": 0.2278837477412276,
8618
+ "grad_norm": 34.4375,
8619
+ "learning_rate": 9.964393174739915e-06,
8620
+ "loss": 22.7708,
8621
+ "step": 12280
8622
+ },
8623
+ {
8624
+ "epoch": 0.22806932082570744,
8625
+ "grad_norm": 35.46875,
8626
+ "learning_rate": 9.964364178953874e-06,
8627
+ "loss": 23.462,
8628
+ "step": 12290
8629
+ },
8630
+ {
8631
+ "epoch": 0.22825489391018727,
8632
+ "grad_norm": 35.28125,
8633
+ "learning_rate": 9.964335183167832e-06,
8634
+ "loss": 23.129,
8635
+ "step": 12300
8636
+ },
8637
+ {
8638
+ "epoch": 0.22844046699466708,
8639
+ "grad_norm": 34.65625,
8640
+ "learning_rate": 9.964306187381788e-06,
8641
+ "loss": 23.0191,
8642
+ "step": 12310
8643
+ },
8644
+ {
8645
+ "epoch": 0.2286260400791469,
8646
+ "grad_norm": 36.09375,
8647
+ "learning_rate": 9.964277191595747e-06,
8648
+ "loss": 23.0469,
8649
+ "step": 12320
8650
+ },
8651
+ {
8652
+ "epoch": 0.22881161316362675,
8653
+ "grad_norm": 33.53125,
8654
+ "learning_rate": 9.964248195809704e-06,
8655
+ "loss": 22.6963,
8656
+ "step": 12330
8657
+ },
8658
+ {
8659
+ "epoch": 0.22899718624810658,
8660
+ "grad_norm": 35.15625,
8661
+ "learning_rate": 9.964219200023661e-06,
8662
+ "loss": 22.5734,
8663
+ "step": 12340
8664
+ },
8665
+ {
8666
+ "epoch": 0.2291827593325864,
8667
+ "grad_norm": 35.0625,
8668
+ "learning_rate": 9.964190204237619e-06,
8669
+ "loss": 22.6649,
8670
+ "step": 12350
8671
+ },
8672
+ {
8673
+ "epoch": 0.22936833241706622,
8674
+ "grad_norm": 33.59375,
8675
+ "learning_rate": 9.964161208451576e-06,
8676
+ "loss": 23.0639,
8677
+ "step": 12360
8678
+ },
8679
+ {
8680
+ "epoch": 0.22955390550154606,
8681
+ "grad_norm": 34.8125,
8682
+ "learning_rate": 9.964132212665534e-06,
8683
+ "loss": 23.0662,
8684
+ "step": 12370
8685
+ },
8686
+ {
8687
+ "epoch": 0.2297394785860259,
8688
+ "grad_norm": 34.71875,
8689
+ "learning_rate": 9.964103216879491e-06,
8690
+ "loss": 22.8609,
8691
+ "step": 12380
8692
+ },
8693
+ {
8694
+ "epoch": 0.2299250516705057,
8695
+ "grad_norm": 36.8125,
8696
+ "learning_rate": 9.96407422109345e-06,
8697
+ "loss": 23.0976,
8698
+ "step": 12390
8699
+ },
8700
+ {
8701
+ "epoch": 0.23011062475498553,
8702
+ "grad_norm": 34.75,
8703
+ "learning_rate": 9.964045225307408e-06,
8704
+ "loss": 22.8197,
8705
+ "step": 12400
8706
+ },
8707
+ {
8708
+ "epoch": 0.23029619783946537,
8709
+ "grad_norm": 35.5625,
8710
+ "learning_rate": 9.964016229521365e-06,
8711
+ "loss": 23.1144,
8712
+ "step": 12410
8713
+ },
8714
+ {
8715
+ "epoch": 0.2304817709239452,
8716
+ "grad_norm": 33.1875,
8717
+ "learning_rate": 9.963987233735322e-06,
8718
+ "loss": 22.8939,
8719
+ "step": 12420
8720
+ },
8721
+ {
8722
+ "epoch": 0.230667344008425,
8723
+ "grad_norm": 37.0,
8724
+ "learning_rate": 9.96395823794928e-06,
8725
+ "loss": 23.3261,
8726
+ "step": 12430
8727
+ },
8728
+ {
8729
+ "epoch": 0.23085291709290484,
8730
+ "grad_norm": 35.0,
8731
+ "learning_rate": 9.963929242163237e-06,
8732
+ "loss": 22.6032,
8733
+ "step": 12440
8734
+ },
8735
+ {
8736
+ "epoch": 0.23103849017738468,
8737
+ "grad_norm": 36.28125,
8738
+ "learning_rate": 9.963900246377195e-06,
8739
+ "loss": 22.7235,
8740
+ "step": 12450
8741
+ },
8742
+ {
8743
+ "epoch": 0.2312240632618645,
8744
+ "grad_norm": 34.75,
8745
+ "learning_rate": 9.963871250591152e-06,
8746
+ "loss": 22.9642,
8747
+ "step": 12460
8748
+ },
8749
+ {
8750
+ "epoch": 0.23140963634634432,
8751
+ "grad_norm": 34.78125,
8752
+ "learning_rate": 9.96384225480511e-06,
8753
+ "loss": 22.6095,
8754
+ "step": 12470
8755
+ },
8756
+ {
8757
+ "epoch": 0.23159520943082415,
8758
+ "grad_norm": 35.3125,
8759
+ "learning_rate": 9.963813259019067e-06,
8760
+ "loss": 22.7798,
8761
+ "step": 12480
8762
+ },
8763
+ {
8764
+ "epoch": 0.23178078251530398,
8765
+ "grad_norm": 37.90625,
8766
+ "learning_rate": 9.963784263233024e-06,
8767
+ "loss": 22.798,
8768
+ "step": 12490
8769
+ },
8770
+ {
8771
+ "epoch": 0.23196635559978382,
8772
+ "grad_norm": 36.6875,
8773
+ "learning_rate": 9.963755267446983e-06,
8774
+ "loss": 23.0762,
8775
+ "step": 12500
8776
+ },
8777
+ {
8778
+ "epoch": 0.23215192868426363,
8779
+ "grad_norm": 32.65625,
8780
+ "learning_rate": 9.96372627166094e-06,
8781
+ "loss": 22.8446,
8782
+ "step": 12510
8783
+ },
8784
+ {
8785
+ "epoch": 0.23233750176874346,
8786
+ "grad_norm": 35.21875,
8787
+ "learning_rate": 9.963697275874898e-06,
8788
+ "loss": 22.7945,
8789
+ "step": 12520
8790
+ },
8791
+ {
8792
+ "epoch": 0.2325230748532233,
8793
+ "grad_norm": 34.40625,
8794
+ "learning_rate": 9.963668280088856e-06,
8795
+ "loss": 22.8364,
8796
+ "step": 12530
8797
+ },
8798
+ {
8799
+ "epoch": 0.23270864793770313,
8800
+ "grad_norm": 34.96875,
8801
+ "learning_rate": 9.963639284302813e-06,
8802
+ "loss": 23.0125,
8803
+ "step": 12540
8804
+ },
8805
+ {
8806
+ "epoch": 0.23289422102218293,
8807
+ "grad_norm": 33.53125,
8808
+ "learning_rate": 9.96361028851677e-06,
8809
+ "loss": 22.2002,
8810
+ "step": 12550
8811
+ },
8812
+ {
8813
+ "epoch": 0.23307979410666277,
8814
+ "grad_norm": 33.90625,
8815
+ "learning_rate": 9.963581292730728e-06,
8816
+ "loss": 23.0257,
8817
+ "step": 12560
8818
+ },
8819
+ {
8820
+ "epoch": 0.2332653671911426,
8821
+ "grad_norm": 34.6875,
8822
+ "learning_rate": 9.963552296944687e-06,
8823
+ "loss": 22.9528,
8824
+ "step": 12570
8825
+ },
8826
+ {
8827
+ "epoch": 0.23345094027562244,
8828
+ "grad_norm": 34.0,
8829
+ "learning_rate": 9.963523301158643e-06,
8830
+ "loss": 22.9254,
8831
+ "step": 12580
8832
+ },
8833
+ {
8834
+ "epoch": 0.23363651336010224,
8835
+ "grad_norm": 38.78125,
8836
+ "learning_rate": 9.9634943053726e-06,
8837
+ "loss": 23.0386,
8838
+ "step": 12590
8839
+ },
8840
+ {
8841
+ "epoch": 0.23382208644458208,
8842
+ "grad_norm": 35.5,
8843
+ "learning_rate": 9.963465309586559e-06,
8844
+ "loss": 22.6576,
8845
+ "step": 12600
8846
+ },
8847
+ {
8848
+ "epoch": 0.2340076595290619,
8849
+ "grad_norm": 33.375,
8850
+ "learning_rate": 9.963436313800517e-06,
8851
+ "loss": 22.8264,
8852
+ "step": 12610
8853
+ },
8854
+ {
8855
+ "epoch": 0.23419323261354172,
8856
+ "grad_norm": 34.40625,
8857
+ "learning_rate": 9.963407318014474e-06,
8858
+ "loss": 22.7533,
8859
+ "step": 12620
8860
+ },
8861
+ {
8862
+ "epoch": 0.23437880569802155,
8863
+ "grad_norm": 36.84375,
8864
+ "learning_rate": 9.963378322228431e-06,
8865
+ "loss": 23.3032,
8866
+ "step": 12630
8867
+ },
8868
+ {
8869
+ "epoch": 0.2345643787825014,
8870
+ "grad_norm": 32.5,
8871
+ "learning_rate": 9.963349326442389e-06,
8872
+ "loss": 23.052,
8873
+ "step": 12640
8874
+ },
8875
+ {
8876
+ "epoch": 0.23474995186698122,
8877
+ "grad_norm": 33.28125,
8878
+ "learning_rate": 9.963320330656346e-06,
8879
+ "loss": 22.4562,
8880
+ "step": 12650
8881
+ },
8882
+ {
8883
+ "epoch": 0.23493552495146103,
8884
+ "grad_norm": 35.65625,
8885
+ "learning_rate": 9.963291334870304e-06,
8886
+ "loss": 22.9898,
8887
+ "step": 12660
8888
+ },
8889
+ {
8890
+ "epoch": 0.23512109803594086,
8891
+ "grad_norm": 33.625,
8892
+ "learning_rate": 9.963262339084263e-06,
8893
+ "loss": 22.7312,
8894
+ "step": 12670
8895
+ },
8896
+ {
8897
+ "epoch": 0.2353066711204207,
8898
+ "grad_norm": 33.09375,
8899
+ "learning_rate": 9.96323334329822e-06,
8900
+ "loss": 22.2514,
8901
+ "step": 12680
8902
+ },
8903
+ {
8904
+ "epoch": 0.23549224420490053,
8905
+ "grad_norm": 35.40625,
8906
+ "learning_rate": 9.963204347512176e-06,
8907
+ "loss": 22.7423,
8908
+ "step": 12690
8909
+ },
8910
+ {
8911
+ "epoch": 0.23567781728938034,
8912
+ "grad_norm": 33.3125,
8913
+ "learning_rate": 9.963175351726135e-06,
8914
+ "loss": 22.7989,
8915
+ "step": 12700
8916
+ },
8917
+ {
8918
+ "epoch": 0.23586339037386017,
8919
+ "grad_norm": 34.15625,
8920
+ "learning_rate": 9.963146355940092e-06,
8921
+ "loss": 23.4889,
8922
+ "step": 12710
8923
+ },
8924
+ {
8925
+ "epoch": 0.23604896345834,
8926
+ "grad_norm": 33.84375,
8927
+ "learning_rate": 9.96311736015405e-06,
8928
+ "loss": 22.6084,
8929
+ "step": 12720
8930
+ },
8931
+ {
8932
+ "epoch": 0.23623453654281984,
8933
+ "grad_norm": 35.65625,
8934
+ "learning_rate": 9.963088364368007e-06,
8935
+ "loss": 22.9018,
8936
+ "step": 12730
8937
+ },
8938
+ {
8939
+ "epoch": 0.23642010962729965,
8940
+ "grad_norm": 35.53125,
8941
+ "learning_rate": 9.963059368581965e-06,
8942
+ "loss": 22.4362,
8943
+ "step": 12740
8944
+ },
8945
+ {
8946
+ "epoch": 0.23660568271177948,
8947
+ "grad_norm": 36.25,
8948
+ "learning_rate": 9.963030372795922e-06,
8949
+ "loss": 22.874,
8950
+ "step": 12750
8951
+ },
8952
+ {
8953
+ "epoch": 0.23679125579625931,
8954
+ "grad_norm": 33.5,
8955
+ "learning_rate": 9.96300137700988e-06,
8956
+ "loss": 22.7573,
8957
+ "step": 12760
8958
+ },
8959
+ {
8960
+ "epoch": 0.23697682888073915,
8961
+ "grad_norm": 36.46875,
8962
+ "learning_rate": 9.962972381223838e-06,
8963
+ "loss": 22.9307,
8964
+ "step": 12770
8965
+ },
8966
+ {
8967
+ "epoch": 0.23716240196521896,
8968
+ "grad_norm": 35.65625,
8969
+ "learning_rate": 9.962943385437796e-06,
8970
+ "loss": 22.9256,
8971
+ "step": 12780
8972
+ },
8973
+ {
8974
+ "epoch": 0.2373479750496988,
8975
+ "grad_norm": 33.46875,
8976
+ "learning_rate": 9.962914389651752e-06,
8977
+ "loss": 22.8426,
8978
+ "step": 12790
8979
+ },
8980
+ {
8981
+ "epoch": 0.23753354813417862,
8982
+ "grad_norm": 36.28125,
8983
+ "learning_rate": 9.96288539386571e-06,
8984
+ "loss": 23.1097,
8985
+ "step": 12800
8986
+ },
8987
+ {
8988
+ "epoch": 0.23771912121865846,
8989
+ "grad_norm": 33.25,
8990
+ "learning_rate": 9.962856398079668e-06,
8991
+ "loss": 23.2849,
8992
+ "step": 12810
8993
+ },
8994
+ {
8995
+ "epoch": 0.23790469430313826,
8996
+ "grad_norm": 33.65625,
8997
+ "learning_rate": 9.962827402293625e-06,
8998
+ "loss": 22.7846,
8999
+ "step": 12820
9000
+ },
9001
+ {
9002
+ "epoch": 0.2380902673876181,
9003
+ "grad_norm": 34.6875,
9004
+ "learning_rate": 9.962798406507583e-06,
9005
+ "loss": 22.387,
9006
+ "step": 12830
9007
+ },
9008
+ {
9009
+ "epoch": 0.23827584047209793,
9010
+ "grad_norm": 37.28125,
9011
+ "learning_rate": 9.962769410721542e-06,
9012
+ "loss": 22.7212,
9013
+ "step": 12840
9014
+ },
9015
+ {
9016
+ "epoch": 0.23846141355657777,
9017
+ "grad_norm": 37.75,
9018
+ "learning_rate": 9.962740414935498e-06,
9019
+ "loss": 22.644,
9020
+ "step": 12850
9021
+ },
9022
+ {
9023
+ "epoch": 0.23864698664105757,
9024
+ "grad_norm": 37.0625,
9025
+ "learning_rate": 9.962711419149455e-06,
9026
+ "loss": 22.7497,
9027
+ "step": 12860
9028
+ },
9029
+ {
9030
+ "epoch": 0.2388325597255374,
9031
+ "grad_norm": 36.5625,
9032
+ "learning_rate": 9.962682423363414e-06,
9033
+ "loss": 22.9721,
9034
+ "step": 12870
9035
+ },
9036
+ {
9037
+ "epoch": 0.23901813281001724,
9038
+ "grad_norm": 33.46875,
9039
+ "learning_rate": 9.962653427577372e-06,
9040
+ "loss": 22.7019,
9041
+ "step": 12880
9042
+ },
9043
+ {
9044
+ "epoch": 0.23920370589449705,
9045
+ "grad_norm": 34.75,
9046
+ "learning_rate": 9.962624431791329e-06,
9047
+ "loss": 22.5389,
9048
+ "step": 12890
9049
+ },
9050
+ {
9051
+ "epoch": 0.23938927897897688,
9052
+ "grad_norm": 35.09375,
9053
+ "learning_rate": 9.962595436005286e-06,
9054
+ "loss": 22.7755,
9055
+ "step": 12900
9056
+ },
9057
+ {
9058
+ "epoch": 0.23957485206345672,
9059
+ "grad_norm": 35.6875,
9060
+ "learning_rate": 9.962566440219244e-06,
9061
+ "loss": 22.3278,
9062
+ "step": 12910
9063
+ },
9064
+ {
9065
+ "epoch": 0.23976042514793655,
9066
+ "grad_norm": 34.75,
9067
+ "learning_rate": 9.962537444433201e-06,
9068
+ "loss": 22.8705,
9069
+ "step": 12920
9070
+ },
9071
+ {
9072
+ "epoch": 0.23994599823241636,
9073
+ "grad_norm": 35.09375,
9074
+ "learning_rate": 9.962508448647159e-06,
9075
+ "loss": 22.7376,
9076
+ "step": 12930
9077
+ },
9078
+ {
9079
+ "epoch": 0.2401315713168962,
9080
+ "grad_norm": 35.5,
9081
+ "learning_rate": 9.962479452861116e-06,
9082
+ "loss": 22.7123,
9083
+ "step": 12940
9084
+ },
9085
+ {
9086
+ "epoch": 0.24031714440137603,
9087
+ "grad_norm": 32.1875,
9088
+ "learning_rate": 9.962450457075075e-06,
9089
+ "loss": 22.9982,
9090
+ "step": 12950
9091
+ },
9092
+ {
9093
+ "epoch": 0.24050271748585586,
9094
+ "grad_norm": 33.9375,
9095
+ "learning_rate": 9.962421461289031e-06,
9096
+ "loss": 22.7566,
9097
+ "step": 12960
9098
+ },
9099
+ {
9100
+ "epoch": 0.24068829057033567,
9101
+ "grad_norm": 34.15625,
9102
+ "learning_rate": 9.962392465502988e-06,
9103
+ "loss": 22.563,
9104
+ "step": 12970
9105
+ },
9106
+ {
9107
+ "epoch": 0.2408738636548155,
9108
+ "grad_norm": 33.65625,
9109
+ "learning_rate": 9.962363469716947e-06,
9110
+ "loss": 22.8709,
9111
+ "step": 12980
9112
+ },
9113
+ {
9114
+ "epoch": 0.24105943673929534,
9115
+ "grad_norm": 34.5625,
9116
+ "learning_rate": 9.962334473930905e-06,
9117
+ "loss": 22.8837,
9118
+ "step": 12990
9119
+ },
9120
+ {
9121
+ "epoch": 0.24124500982377517,
9122
+ "grad_norm": 36.375,
9123
+ "learning_rate": 9.962305478144862e-06,
9124
+ "loss": 22.7508,
9125
+ "step": 13000
9126
+ },
9127
+ {
9128
+ "epoch": 0.24143058290825498,
9129
+ "grad_norm": 34.0,
9130
+ "learning_rate": 9.96227648235882e-06,
9131
+ "loss": 23.1134,
9132
+ "step": 13010
9133
+ },
9134
+ {
9135
+ "epoch": 0.2416161559927348,
9136
+ "grad_norm": 35.25,
9137
+ "learning_rate": 9.962247486572777e-06,
9138
+ "loss": 22.9102,
9139
+ "step": 13020
9140
+ },
9141
+ {
9142
+ "epoch": 0.24180172907721464,
9143
+ "grad_norm": 34.875,
9144
+ "learning_rate": 9.962218490786734e-06,
9145
+ "loss": 22.9471,
9146
+ "step": 13030
9147
+ },
9148
+ {
9149
+ "epoch": 0.24198730216169448,
9150
+ "grad_norm": 34.53125,
9151
+ "learning_rate": 9.962189495000692e-06,
9152
+ "loss": 22.7062,
9153
+ "step": 13040
9154
+ },
9155
+ {
9156
+ "epoch": 0.24217287524617429,
9157
+ "grad_norm": 37.625,
9158
+ "learning_rate": 9.962160499214651e-06,
9159
+ "loss": 22.6628,
9160
+ "step": 13050
9161
+ },
9162
+ {
9163
+ "epoch": 0.24235844833065412,
9164
+ "grad_norm": 36.15625,
9165
+ "learning_rate": 9.962131503428607e-06,
9166
+ "loss": 22.793,
9167
+ "step": 13060
9168
+ },
9169
+ {
9170
+ "epoch": 0.24254402141513395,
9171
+ "grad_norm": 34.8125,
9172
+ "learning_rate": 9.962102507642564e-06,
9173
+ "loss": 22.6144,
9174
+ "step": 13070
9175
+ },
9176
+ {
9177
+ "epoch": 0.2427295944996138,
9178
+ "grad_norm": 35.21875,
9179
+ "learning_rate": 9.962073511856523e-06,
9180
+ "loss": 22.596,
9181
+ "step": 13080
9182
+ },
9183
+ {
9184
+ "epoch": 0.2429151675840936,
9185
+ "grad_norm": 34.9375,
9186
+ "learning_rate": 9.96204451607048e-06,
9187
+ "loss": 22.6484,
9188
+ "step": 13090
9189
+ },
9190
+ {
9191
+ "epoch": 0.24310074066857343,
9192
+ "grad_norm": 36.0,
9193
+ "learning_rate": 9.962015520284438e-06,
9194
+ "loss": 22.9452,
9195
+ "step": 13100
9196
+ },
9197
+ {
9198
+ "epoch": 0.24328631375305326,
9199
+ "grad_norm": 35.53125,
9200
+ "learning_rate": 9.961986524498395e-06,
9201
+ "loss": 23.1317,
9202
+ "step": 13110
9203
+ },
9204
+ {
9205
+ "epoch": 0.2434718868375331,
9206
+ "grad_norm": 36.03125,
9207
+ "learning_rate": 9.961957528712353e-06,
9208
+ "loss": 22.8217,
9209
+ "step": 13120
9210
+ },
9211
+ {
9212
+ "epoch": 0.2436574599220129,
9213
+ "grad_norm": 34.9375,
9214
+ "learning_rate": 9.96192853292631e-06,
9215
+ "loss": 22.6672,
9216
+ "step": 13130
9217
+ },
9218
+ {
9219
+ "epoch": 0.24384303300649274,
9220
+ "grad_norm": 36.65625,
9221
+ "learning_rate": 9.961899537140268e-06,
9222
+ "loss": 22.8079,
9223
+ "step": 13140
9224
+ },
9225
+ {
9226
+ "epoch": 0.24402860609097257,
9227
+ "grad_norm": 35.65625,
9228
+ "learning_rate": 9.961870541354227e-06,
9229
+ "loss": 22.5951,
9230
+ "step": 13150
9231
+ },
9232
+ {
9233
+ "epoch": 0.2442141791754524,
9234
+ "grad_norm": 34.875,
9235
+ "learning_rate": 9.961841545568184e-06,
9236
+ "loss": 22.7453,
9237
+ "step": 13160
9238
+ },
9239
+ {
9240
+ "epoch": 0.2443997522599322,
9241
+ "grad_norm": 35.03125,
9242
+ "learning_rate": 9.96181254978214e-06,
9243
+ "loss": 22.7423,
9244
+ "step": 13170
9245
+ },
9246
+ {
9247
+ "epoch": 0.24458532534441205,
9248
+ "grad_norm": 35.71875,
9249
+ "learning_rate": 9.961783553996099e-06,
9250
+ "loss": 22.5886,
9251
+ "step": 13180
9252
+ },
9253
+ {
9254
+ "epoch": 0.24477089842889188,
9255
+ "grad_norm": 37.09375,
9256
+ "learning_rate": 9.961754558210056e-06,
9257
+ "loss": 22.8475,
9258
+ "step": 13190
9259
+ },
9260
+ {
9261
+ "epoch": 0.2449564715133717,
9262
+ "grad_norm": 34.03125,
9263
+ "learning_rate": 9.961725562424014e-06,
9264
+ "loss": 22.7532,
9265
+ "step": 13200
9266
+ },
9267
+ {
9268
+ "epoch": 0.24514204459785152,
9269
+ "grad_norm": 35.84375,
9270
+ "learning_rate": 9.961696566637971e-06,
9271
+ "loss": 23.1457,
9272
+ "step": 13210
9273
+ },
9274
+ {
9275
+ "epoch": 0.24532761768233136,
9276
+ "grad_norm": 35.78125,
9277
+ "learning_rate": 9.961667570851929e-06,
9278
+ "loss": 22.8149,
9279
+ "step": 13220
9280
+ },
9281
+ {
9282
+ "epoch": 0.2455131907668112,
9283
+ "grad_norm": 35.8125,
9284
+ "learning_rate": 9.961638575065886e-06,
9285
+ "loss": 22.6625,
9286
+ "step": 13230
9287
+ },
9288
+ {
9289
+ "epoch": 0.245698763851291,
9290
+ "grad_norm": 34.5625,
9291
+ "learning_rate": 9.961609579279843e-06,
9292
+ "loss": 22.3682,
9293
+ "step": 13240
9294
+ },
9295
+ {
9296
+ "epoch": 0.24588433693577083,
9297
+ "grad_norm": 35.03125,
9298
+ "learning_rate": 9.961580583493802e-06,
9299
+ "loss": 22.7562,
9300
+ "step": 13250
9301
+ },
9302
+ {
9303
+ "epoch": 0.24606991002025067,
9304
+ "grad_norm": 36.03125,
9305
+ "learning_rate": 9.96155158770776e-06,
9306
+ "loss": 23.0357,
9307
+ "step": 13260
9308
+ },
9309
+ {
9310
+ "epoch": 0.2462554831047305,
9311
+ "grad_norm": 35.5625,
9312
+ "learning_rate": 9.961522591921717e-06,
9313
+ "loss": 22.7249,
9314
+ "step": 13270
9315
+ },
9316
+ {
9317
+ "epoch": 0.2464410561892103,
9318
+ "grad_norm": 34.25,
9319
+ "learning_rate": 9.961493596135675e-06,
9320
+ "loss": 22.897,
9321
+ "step": 13280
9322
+ },
9323
+ {
9324
+ "epoch": 0.24662662927369014,
9325
+ "grad_norm": 34.0,
9326
+ "learning_rate": 9.961464600349632e-06,
9327
+ "loss": 22.0965,
9328
+ "step": 13290
9329
+ },
9330
+ {
9331
+ "epoch": 0.24681220235816997,
9332
+ "grad_norm": 35.21875,
9333
+ "learning_rate": 9.96143560456359e-06,
9334
+ "loss": 22.5676,
9335
+ "step": 13300
9336
+ },
9337
+ {
9338
+ "epoch": 0.2469977754426498,
9339
+ "grad_norm": 34.28125,
9340
+ "learning_rate": 9.961406608777547e-06,
9341
+ "loss": 23.0798,
9342
+ "step": 13310
9343
+ },
9344
+ {
9345
+ "epoch": 0.24718334852712961,
9346
+ "grad_norm": 33.34375,
9347
+ "learning_rate": 9.961377612991506e-06,
9348
+ "loss": 22.7305,
9349
+ "step": 13320
9350
+ },
9351
+ {
9352
+ "epoch": 0.24736892161160945,
9353
+ "grad_norm": 34.09375,
9354
+ "learning_rate": 9.961348617205462e-06,
9355
+ "loss": 22.8526,
9356
+ "step": 13330
9357
+ },
9358
+ {
9359
+ "epoch": 0.24755449469608928,
9360
+ "grad_norm": 35.9375,
9361
+ "learning_rate": 9.961319621419419e-06,
9362
+ "loss": 22.5833,
9363
+ "step": 13340
9364
+ },
9365
+ {
9366
+ "epoch": 0.24774006778056912,
9367
+ "grad_norm": 34.46875,
9368
+ "learning_rate": 9.961290625633378e-06,
9369
+ "loss": 22.9855,
9370
+ "step": 13350
9371
+ },
9372
+ {
9373
+ "epoch": 0.24792564086504892,
9374
+ "grad_norm": 35.375,
9375
+ "learning_rate": 9.961261629847336e-06,
9376
+ "loss": 22.8834,
9377
+ "step": 13360
9378
+ },
9379
+ {
9380
+ "epoch": 0.24811121394952876,
9381
+ "grad_norm": 34.59375,
9382
+ "learning_rate": 9.961232634061293e-06,
9383
+ "loss": 22.9293,
9384
+ "step": 13370
9385
+ },
9386
+ {
9387
+ "epoch": 0.2482967870340086,
9388
+ "grad_norm": 33.9375,
9389
+ "learning_rate": 9.96120363827525e-06,
9390
+ "loss": 22.2887,
9391
+ "step": 13380
9392
+ },
9393
+ {
9394
+ "epoch": 0.24848236011848843,
9395
+ "grad_norm": 33.5625,
9396
+ "learning_rate": 9.961174642489208e-06,
9397
+ "loss": 23.0661,
9398
+ "step": 13390
9399
+ },
9400
+ {
9401
+ "epoch": 0.24866793320296823,
9402
+ "grad_norm": 36.125,
9403
+ "learning_rate": 9.961145646703165e-06,
9404
+ "loss": 23.0035,
9405
+ "step": 13400
9406
+ },
9407
+ {
9408
+ "epoch": 0.24885350628744807,
9409
+ "grad_norm": 36.875,
9410
+ "learning_rate": 9.961116650917123e-06,
9411
+ "loss": 23.2064,
9412
+ "step": 13410
9413
+ },
9414
+ {
9415
+ "epoch": 0.2490390793719279,
9416
+ "grad_norm": 34.625,
9417
+ "learning_rate": 9.96108765513108e-06,
9418
+ "loss": 22.6221,
9419
+ "step": 13420
9420
+ },
9421
+ {
9422
+ "epoch": 0.24922465245640774,
9423
+ "grad_norm": 35.21875,
9424
+ "learning_rate": 9.96105865934504e-06,
9425
+ "loss": 22.5216,
9426
+ "step": 13430
9427
+ },
9428
+ {
9429
+ "epoch": 0.24941022554088754,
9430
+ "grad_norm": 35.34375,
9431
+ "learning_rate": 9.961029663558995e-06,
9432
+ "loss": 22.5853,
9433
+ "step": 13440
9434
+ },
9435
+ {
9436
+ "epoch": 0.24959579862536738,
9437
+ "grad_norm": 36.25,
9438
+ "learning_rate": 9.961000667772954e-06,
9439
+ "loss": 22.6705,
9440
+ "step": 13450
9441
+ },
9442
+ {
9443
+ "epoch": 0.2497813717098472,
9444
+ "grad_norm": 33.9375,
9445
+ "learning_rate": 9.960971671986911e-06,
9446
+ "loss": 22.7321,
9447
+ "step": 13460
9448
+ },
9449
+ {
9450
+ "epoch": 0.24996694479432702,
9451
+ "grad_norm": 35.4375,
9452
+ "learning_rate": 9.960942676200869e-06,
9453
+ "loss": 22.6743,
9454
+ "step": 13470
9455
+ },
9456
+ {
9457
+ "epoch": 0.2501525178788069,
9458
+ "grad_norm": 33.53125,
9459
+ "learning_rate": 9.960913680414826e-06,
9460
+ "loss": 22.8717,
9461
+ "step": 13480
9462
+ },
9463
+ {
9464
+ "epoch": 0.2503380909632867,
9465
+ "grad_norm": 35.59375,
9466
+ "learning_rate": 9.960884684628784e-06,
9467
+ "loss": 22.5434,
9468
+ "step": 13490
9469
+ },
9470
+ {
9471
+ "epoch": 0.2505236640477665,
9472
+ "grad_norm": 35.40625,
9473
+ "learning_rate": 9.960855688842741e-06,
9474
+ "loss": 22.4418,
9475
+ "step": 13500
9476
+ },
9477
+ {
9478
+ "epoch": 0.25070923713224635,
9479
+ "grad_norm": 34.375,
9480
+ "learning_rate": 9.960826693056698e-06,
9481
+ "loss": 22.7085,
9482
+ "step": 13510
9483
+ },
9484
+ {
9485
+ "epoch": 0.25089481021672616,
9486
+ "grad_norm": 34.71875,
9487
+ "learning_rate": 9.960797697270656e-06,
9488
+ "loss": 22.6424,
9489
+ "step": 13520
9490
+ },
9491
+ {
9492
+ "epoch": 0.25108038330120597,
9493
+ "grad_norm": 34.46875,
9494
+ "learning_rate": 9.960768701484615e-06,
9495
+ "loss": 22.6786,
9496
+ "step": 13530
9497
+ },
9498
+ {
9499
+ "epoch": 0.25126595638568583,
9500
+ "grad_norm": 35.21875,
9501
+ "learning_rate": 9.960739705698572e-06,
9502
+ "loss": 22.7157,
9503
+ "step": 13540
9504
+ },
9505
+ {
9506
+ "epoch": 0.25145152947016564,
9507
+ "grad_norm": 34.84375,
9508
+ "learning_rate": 9.960710709912528e-06,
9509
+ "loss": 22.7138,
9510
+ "step": 13550
9511
+ },
9512
+ {
9513
+ "epoch": 0.2516371025546455,
9514
+ "grad_norm": 34.625,
9515
+ "learning_rate": 9.960681714126487e-06,
9516
+ "loss": 22.8282,
9517
+ "step": 13560
9518
+ },
9519
+ {
9520
+ "epoch": 0.2518226756391253,
9521
+ "grad_norm": 33.28125,
9522
+ "learning_rate": 9.960652718340445e-06,
9523
+ "loss": 22.7318,
9524
+ "step": 13570
9525
+ },
9526
+ {
9527
+ "epoch": 0.2520082487236051,
9528
+ "grad_norm": 35.59375,
9529
+ "learning_rate": 9.960623722554402e-06,
9530
+ "loss": 22.5847,
9531
+ "step": 13580
9532
+ },
9533
+ {
9534
+ "epoch": 0.252193821808085,
9535
+ "grad_norm": 35.0,
9536
+ "learning_rate": 9.96059472676836e-06,
9537
+ "loss": 22.6681,
9538
+ "step": 13590
9539
+ },
9540
+ {
9541
+ "epoch": 0.2523793948925648,
9542
+ "grad_norm": 35.8125,
9543
+ "learning_rate": 9.960565730982317e-06,
9544
+ "loss": 22.6368,
9545
+ "step": 13600
9546
+ },
9547
+ {
9548
+ "epoch": 0.2525649679770446,
9549
+ "grad_norm": 36.3125,
9550
+ "learning_rate": 9.960536735196274e-06,
9551
+ "loss": 22.5425,
9552
+ "step": 13610
9553
+ },
9554
+ {
9555
+ "epoch": 0.25275054106152445,
9556
+ "grad_norm": 34.78125,
9557
+ "learning_rate": 9.960507739410232e-06,
9558
+ "loss": 23.2371,
9559
+ "step": 13620
9560
+ },
9561
+ {
9562
+ "epoch": 0.25293611414600425,
9563
+ "grad_norm": 33.96875,
9564
+ "learning_rate": 9.96047874362419e-06,
9565
+ "loss": 22.8813,
9566
+ "step": 13630
9567
+ },
9568
+ {
9569
+ "epoch": 0.2531216872304841,
9570
+ "grad_norm": 34.65625,
9571
+ "learning_rate": 9.960449747838148e-06,
9572
+ "loss": 22.4802,
9573
+ "step": 13640
9574
+ },
9575
+ {
9576
+ "epoch": 0.2533072603149639,
9577
+ "grad_norm": 36.0625,
9578
+ "learning_rate": 9.960420752052104e-06,
9579
+ "loss": 22.7154,
9580
+ "step": 13650
9581
+ },
9582
+ {
9583
+ "epoch": 0.25349283339944373,
9584
+ "grad_norm": 35.21875,
9585
+ "learning_rate": 9.960391756266063e-06,
9586
+ "loss": 22.3837,
9587
+ "step": 13660
9588
+ },
9589
+ {
9590
+ "epoch": 0.2536784064839236,
9591
+ "grad_norm": 35.625,
9592
+ "learning_rate": 9.96036276048002e-06,
9593
+ "loss": 22.4617,
9594
+ "step": 13670
9595
+ },
9596
+ {
9597
+ "epoch": 0.2538639795684034,
9598
+ "grad_norm": 34.0,
9599
+ "learning_rate": 9.960333764693978e-06,
9600
+ "loss": 22.7565,
9601
+ "step": 13680
9602
+ },
9603
+ {
9604
+ "epoch": 0.2540495526528832,
9605
+ "grad_norm": 34.90625,
9606
+ "learning_rate": 9.960304768907935e-06,
9607
+ "loss": 22.7332,
9608
+ "step": 13690
9609
+ },
9610
+ {
9611
+ "epoch": 0.25423512573736307,
9612
+ "grad_norm": 34.28125,
9613
+ "learning_rate": 9.960275773121894e-06,
9614
+ "loss": 22.6901,
9615
+ "step": 13700
9616
+ },
9617
+ {
9618
+ "epoch": 0.25442069882184287,
9619
+ "grad_norm": 33.8125,
9620
+ "learning_rate": 9.96024677733585e-06,
9621
+ "loss": 22.8362,
9622
+ "step": 13710
9623
+ },
9624
+ {
9625
+ "epoch": 0.25460627190632273,
9626
+ "grad_norm": 33.78125,
9627
+ "learning_rate": 9.960217781549807e-06,
9628
+ "loss": 22.5693,
9629
+ "step": 13720
9630
+ },
9631
+ {
9632
+ "epoch": 0.25479184499080254,
9633
+ "grad_norm": 34.3125,
9634
+ "learning_rate": 9.960188785763766e-06,
9635
+ "loss": 22.2942,
9636
+ "step": 13730
9637
+ },
9638
+ {
9639
+ "epoch": 0.25497741807528235,
9640
+ "grad_norm": 35.375,
9641
+ "learning_rate": 9.960159789977724e-06,
9642
+ "loss": 23.0086,
9643
+ "step": 13740
9644
+ },
9645
+ {
9646
+ "epoch": 0.2551629911597622,
9647
+ "grad_norm": 35.90625,
9648
+ "learning_rate": 9.960130794191681e-06,
9649
+ "loss": 22.6488,
9650
+ "step": 13750
9651
+ },
9652
+ {
9653
+ "epoch": 0.255348564244242,
9654
+ "grad_norm": 35.59375,
9655
+ "learning_rate": 9.960101798405639e-06,
9656
+ "loss": 23.0556,
9657
+ "step": 13760
9658
+ },
9659
+ {
9660
+ "epoch": 0.2555341373287218,
9661
+ "grad_norm": 34.8125,
9662
+ "learning_rate": 9.960072802619596e-06,
9663
+ "loss": 22.7591,
9664
+ "step": 13770
9665
+ },
9666
+ {
9667
+ "epoch": 0.2557197104132017,
9668
+ "grad_norm": 35.59375,
9669
+ "learning_rate": 9.960043806833553e-06,
9670
+ "loss": 22.4961,
9671
+ "step": 13780
9672
+ },
9673
+ {
9674
+ "epoch": 0.2559052834976815,
9675
+ "grad_norm": 35.0,
9676
+ "learning_rate": 9.960014811047511e-06,
9677
+ "loss": 22.5756,
9678
+ "step": 13790
9679
+ },
9680
+ {
9681
+ "epoch": 0.2560908565821613,
9682
+ "grad_norm": 35.3125,
9683
+ "learning_rate": 9.95998581526147e-06,
9684
+ "loss": 22.5104,
9685
+ "step": 13800
9686
+ },
9687
+ {
9688
+ "epoch": 0.25627642966664116,
9689
+ "grad_norm": 36.6875,
9690
+ "learning_rate": 9.959956819475426e-06,
9691
+ "loss": 23.0103,
9692
+ "step": 13810
9693
+ },
9694
+ {
9695
+ "epoch": 0.25646200275112097,
9696
+ "grad_norm": 36.125,
9697
+ "learning_rate": 9.959927823689383e-06,
9698
+ "loss": 22.4589,
9699
+ "step": 13820
9700
+ },
9701
+ {
9702
+ "epoch": 0.2566475758356008,
9703
+ "grad_norm": 38.625,
9704
+ "learning_rate": 9.959898827903342e-06,
9705
+ "loss": 22.8177,
9706
+ "step": 13830
9707
+ },
9708
+ {
9709
+ "epoch": 0.25683314892008063,
9710
+ "grad_norm": 35.15625,
9711
+ "learning_rate": 9.9598698321173e-06,
9712
+ "loss": 22.5105,
9713
+ "step": 13840
9714
+ },
9715
+ {
9716
+ "epoch": 0.25701872200456044,
9717
+ "grad_norm": 35.875,
9718
+ "learning_rate": 9.959840836331257e-06,
9719
+ "loss": 22.8462,
9720
+ "step": 13850
9721
+ },
9722
+ {
9723
+ "epoch": 0.2572042950890403,
9724
+ "grad_norm": 36.1875,
9725
+ "learning_rate": 9.959811840545214e-06,
9726
+ "loss": 22.693,
9727
+ "step": 13860
9728
+ },
9729
+ {
9730
+ "epoch": 0.2573898681735201,
9731
+ "grad_norm": 35.53125,
9732
+ "learning_rate": 9.959782844759172e-06,
9733
+ "loss": 22.4419,
9734
+ "step": 13870
9735
+ },
9736
+ {
9737
+ "epoch": 0.2575754412579999,
9738
+ "grad_norm": 35.84375,
9739
+ "learning_rate": 9.95975384897313e-06,
9740
+ "loss": 22.8257,
9741
+ "step": 13880
9742
+ },
9743
+ {
9744
+ "epoch": 0.2577610143424798,
9745
+ "grad_norm": 33.9375,
9746
+ "learning_rate": 9.959724853187087e-06,
9747
+ "loss": 22.5976,
9748
+ "step": 13890
9749
+ },
9750
+ {
9751
+ "epoch": 0.2579465874269596,
9752
+ "grad_norm": 32.59375,
9753
+ "learning_rate": 9.959695857401046e-06,
9754
+ "loss": 22.5116,
9755
+ "step": 13900
9756
+ },
9757
+ {
9758
+ "epoch": 0.25813216051143945,
9759
+ "grad_norm": 34.625,
9760
+ "learning_rate": 9.959666861615003e-06,
9761
+ "loss": 22.3501,
9762
+ "step": 13910
9763
+ },
9764
+ {
9765
+ "epoch": 0.25831773359591925,
9766
+ "grad_norm": 34.09375,
9767
+ "learning_rate": 9.959637865828959e-06,
9768
+ "loss": 22.4398,
9769
+ "step": 13920
9770
+ },
9771
+ {
9772
+ "epoch": 0.25850330668039906,
9773
+ "grad_norm": 36.21875,
9774
+ "learning_rate": 9.959608870042918e-06,
9775
+ "loss": 22.5873,
9776
+ "step": 13930
9777
+ },
9778
+ {
9779
+ "epoch": 0.2586888797648789,
9780
+ "grad_norm": 36.21875,
9781
+ "learning_rate": 9.959579874256875e-06,
9782
+ "loss": 22.4183,
9783
+ "step": 13940
9784
+ },
9785
+ {
9786
+ "epoch": 0.2588744528493587,
9787
+ "grad_norm": 35.40625,
9788
+ "learning_rate": 9.959550878470833e-06,
9789
+ "loss": 22.896,
9790
+ "step": 13950
9791
+ },
9792
+ {
9793
+ "epoch": 0.25906002593383853,
9794
+ "grad_norm": 34.5,
9795
+ "learning_rate": 9.95952188268479e-06,
9796
+ "loss": 22.2744,
9797
+ "step": 13960
9798
+ },
9799
+ {
9800
+ "epoch": 0.2592455990183184,
9801
+ "grad_norm": 33.25,
9802
+ "learning_rate": 9.959492886898748e-06,
9803
+ "loss": 22.7941,
9804
+ "step": 13970
9805
+ },
9806
+ {
9807
+ "epoch": 0.2594311721027982,
9808
+ "grad_norm": 34.65625,
9809
+ "learning_rate": 9.959463891112705e-06,
9810
+ "loss": 22.2191,
9811
+ "step": 13980
9812
+ },
9813
+ {
9814
+ "epoch": 0.25961674518727806,
9815
+ "grad_norm": 35.15625,
9816
+ "learning_rate": 9.959434895326662e-06,
9817
+ "loss": 22.6185,
9818
+ "step": 13990
9819
+ },
9820
+ {
9821
+ "epoch": 0.25980231827175787,
9822
+ "grad_norm": 34.4375,
9823
+ "learning_rate": 9.95940589954062e-06,
9824
+ "loss": 22.1749,
9825
+ "step": 14000
9826
+ },
9827
+ {
9828
+ "epoch": 0.2599878913562377,
9829
+ "grad_norm": 35.25,
9830
+ "learning_rate": 9.959376903754579e-06,
9831
+ "loss": 22.8769,
9832
+ "step": 14010
9833
+ },
9834
+ {
9835
+ "epoch": 0.26017346444071754,
9836
+ "grad_norm": 33.25,
9837
+ "learning_rate": 9.959347907968536e-06,
9838
+ "loss": 22.8237,
9839
+ "step": 14020
9840
+ },
9841
+ {
9842
+ "epoch": 0.26035903752519735,
9843
+ "grad_norm": 33.4375,
9844
+ "learning_rate": 9.959318912182494e-06,
9845
+ "loss": 22.6494,
9846
+ "step": 14030
9847
+ },
9848
+ {
9849
+ "epoch": 0.26054461060967715,
9850
+ "grad_norm": 35.9375,
9851
+ "learning_rate": 9.959289916396451e-06,
9852
+ "loss": 22.4676,
9853
+ "step": 14040
9854
+ },
9855
+ {
9856
+ "epoch": 0.260730183694157,
9857
+ "grad_norm": 35.84375,
9858
+ "learning_rate": 9.959260920610409e-06,
9859
+ "loss": 22.5966,
9860
+ "step": 14050
9861
+ },
9862
+ {
9863
+ "epoch": 0.2609157567786368,
9864
+ "grad_norm": 35.46875,
9865
+ "learning_rate": 9.959231924824366e-06,
9866
+ "loss": 22.6443,
9867
+ "step": 14060
9868
+ },
9869
+ {
9870
+ "epoch": 0.2611013298631166,
9871
+ "grad_norm": 35.28125,
9872
+ "learning_rate": 9.959202929038323e-06,
9873
+ "loss": 22.7265,
9874
+ "step": 14070
9875
+ },
9876
+ {
9877
+ "epoch": 0.2612869029475965,
9878
+ "grad_norm": 33.375,
9879
+ "learning_rate": 9.95917393325228e-06,
9880
+ "loss": 22.7487,
9881
+ "step": 14080
9882
+ },
9883
+ {
9884
+ "epoch": 0.2614724760320763,
9885
+ "grad_norm": 35.6875,
9886
+ "learning_rate": 9.959144937466238e-06,
9887
+ "loss": 22.6146,
9888
+ "step": 14090
9889
+ },
9890
+ {
9891
+ "epoch": 0.26165804911655616,
9892
+ "grad_norm": 32.78125,
9893
+ "learning_rate": 9.959115941680196e-06,
9894
+ "loss": 22.4781,
9895
+ "step": 14100
9896
+ },
9897
+ {
9898
+ "epoch": 0.26184362220103596,
9899
+ "grad_norm": 33.625,
9900
+ "learning_rate": 9.959086945894155e-06,
9901
+ "loss": 22.5717,
9902
+ "step": 14110
9903
+ },
9904
+ {
9905
+ "epoch": 0.26202919528551577,
9906
+ "grad_norm": 35.625,
9907
+ "learning_rate": 9.959057950108112e-06,
9908
+ "loss": 22.8922,
9909
+ "step": 14120
9910
+ },
9911
+ {
9912
+ "epoch": 0.26221476836999563,
9913
+ "grad_norm": 34.65625,
9914
+ "learning_rate": 9.95902895432207e-06,
9915
+ "loss": 22.4869,
9916
+ "step": 14130
9917
+ },
9918
+ {
9919
+ "epoch": 0.26240034145447544,
9920
+ "grad_norm": 34.90625,
9921
+ "learning_rate": 9.958999958536027e-06,
9922
+ "loss": 22.5448,
9923
+ "step": 14140
9924
+ },
9925
+ {
9926
+ "epoch": 0.26258591453895525,
9927
+ "grad_norm": 37.15625,
9928
+ "learning_rate": 9.958970962749984e-06,
9929
+ "loss": 22.8666,
9930
+ "step": 14150
9931
+ },
9932
+ {
9933
+ "epoch": 0.2627714876234351,
9934
+ "grad_norm": 34.15625,
9935
+ "learning_rate": 9.958941966963942e-06,
9936
+ "loss": 22.4539,
9937
+ "step": 14160
9938
+ },
9939
+ {
9940
+ "epoch": 0.2629570607079149,
9941
+ "grad_norm": 34.03125,
9942
+ "learning_rate": 9.958912971177899e-06,
9943
+ "loss": 22.6467,
9944
+ "step": 14170
9945
+ },
9946
+ {
9947
+ "epoch": 0.2631426337923948,
9948
+ "grad_norm": 35.5625,
9949
+ "learning_rate": 9.958883975391858e-06,
9950
+ "loss": 22.4136,
9951
+ "step": 14180
9952
+ },
9953
+ {
9954
+ "epoch": 0.2633282068768746,
9955
+ "grad_norm": 36.6875,
9956
+ "learning_rate": 9.958854979605814e-06,
9957
+ "loss": 22.759,
9958
+ "step": 14190
9959
+ },
9960
+ {
9961
+ "epoch": 0.2635137799613544,
9962
+ "grad_norm": 34.5625,
9963
+ "learning_rate": 9.958825983819771e-06,
9964
+ "loss": 22.6078,
9965
+ "step": 14200
9966
+ },
9967
+ {
9968
+ "epoch": 0.26369935304583425,
9969
+ "grad_norm": 34.96875,
9970
+ "learning_rate": 9.95879698803373e-06,
9971
+ "loss": 22.6325,
9972
+ "step": 14210
9973
+ },
9974
+ {
9975
+ "epoch": 0.26388492613031406,
9976
+ "grad_norm": 36.59375,
9977
+ "learning_rate": 9.958767992247688e-06,
9978
+ "loss": 22.7356,
9979
+ "step": 14220
9980
+ },
9981
+ {
9982
+ "epoch": 0.26407049921479386,
9983
+ "grad_norm": 36.1875,
9984
+ "learning_rate": 9.958738996461645e-06,
9985
+ "loss": 22.3037,
9986
+ "step": 14230
9987
+ },
9988
+ {
9989
+ "epoch": 0.2642560722992737,
9990
+ "grad_norm": 35.75,
9991
+ "learning_rate": 9.958710000675603e-06,
9992
+ "loss": 22.3392,
9993
+ "step": 14240
9994
+ },
9995
+ {
9996
+ "epoch": 0.26444164538375353,
9997
+ "grad_norm": 34.0,
9998
+ "learning_rate": 9.95868100488956e-06,
9999
+ "loss": 21.9539,
10000
+ "step": 14250
10001
+ },
10002
+ {
10003
+ "epoch": 0.2646272184682334,
10004
+ "grad_norm": 34.0,
10005
+ "learning_rate": 9.958652009103518e-06,
10006
+ "loss": 22.5607,
10007
+ "step": 14260
10008
+ },
10009
+ {
10010
+ "epoch": 0.2648127915527132,
10011
+ "grad_norm": 37.40625,
10012
+ "learning_rate": 9.958623013317475e-06,
10013
+ "loss": 22.2516,
10014
+ "step": 14270
10015
+ },
10016
+ {
10017
+ "epoch": 0.264998364637193,
10018
+ "grad_norm": 35.875,
10019
+ "learning_rate": 9.958594017531434e-06,
10020
+ "loss": 21.6971,
10021
+ "step": 14280
10022
+ },
10023
+ {
10024
+ "epoch": 0.26518393772167287,
10025
+ "grad_norm": 35.46875,
10026
+ "learning_rate": 9.958565021745391e-06,
10027
+ "loss": 22.7012,
10028
+ "step": 14290
10029
+ },
10030
+ {
10031
+ "epoch": 0.2653695108061527,
10032
+ "grad_norm": 36.3125,
10033
+ "learning_rate": 9.958536025959347e-06,
10034
+ "loss": 22.4616,
10035
+ "step": 14300
10036
+ },
10037
+ {
10038
+ "epoch": 0.2655550838906325,
10039
+ "grad_norm": 37.3125,
10040
+ "learning_rate": 9.958507030173306e-06,
10041
+ "loss": 22.4242,
10042
+ "step": 14310
10043
+ },
10044
+ {
10045
+ "epoch": 0.26574065697511234,
10046
+ "grad_norm": 34.5625,
10047
+ "learning_rate": 9.958478034387264e-06,
10048
+ "loss": 22.3209,
10049
+ "step": 14320
10050
+ },
10051
+ {
10052
+ "epoch": 0.26592623005959215,
10053
+ "grad_norm": 33.09375,
10054
+ "learning_rate": 9.958449038601221e-06,
10055
+ "loss": 22.8311,
10056
+ "step": 14330
10057
+ },
10058
+ {
10059
+ "epoch": 0.26611180314407196,
10060
+ "grad_norm": 34.75,
10061
+ "learning_rate": 9.958420042815178e-06,
10062
+ "loss": 22.636,
10063
+ "step": 14340
10064
+ },
10065
+ {
10066
+ "epoch": 0.2662973762285518,
10067
+ "grad_norm": 35.78125,
10068
+ "learning_rate": 9.958391047029136e-06,
10069
+ "loss": 22.0774,
10070
+ "step": 14350
10071
+ },
10072
+ {
10073
+ "epoch": 0.2664829493130316,
10074
+ "grad_norm": 35.71875,
10075
+ "learning_rate": 9.958362051243093e-06,
10076
+ "loss": 22.4367,
10077
+ "step": 14360
10078
+ },
10079
+ {
10080
+ "epoch": 0.2666685223975115,
10081
+ "grad_norm": 35.90625,
10082
+ "learning_rate": 9.95833305545705e-06,
10083
+ "loss": 22.3071,
10084
+ "step": 14370
10085
+ },
10086
+ {
10087
+ "epoch": 0.2668540954819913,
10088
+ "grad_norm": 33.96875,
10089
+ "learning_rate": 9.95830405967101e-06,
10090
+ "loss": 22.3167,
10091
+ "step": 14380
10092
+ },
10093
+ {
10094
+ "epoch": 0.2670396685664711,
10095
+ "grad_norm": 35.5,
10096
+ "learning_rate": 9.958275063884967e-06,
10097
+ "loss": 22.671,
10098
+ "step": 14390
10099
+ },
10100
+ {
10101
+ "epoch": 0.26722524165095096,
10102
+ "grad_norm": 35.1875,
10103
+ "learning_rate": 9.958246068098923e-06,
10104
+ "loss": 22.7599,
10105
+ "step": 14400
10106
+ },
10107
+ {
10108
+ "epoch": 0.26741081473543077,
10109
+ "grad_norm": 36.8125,
10110
+ "learning_rate": 9.958217072312882e-06,
10111
+ "loss": 22.1926,
10112
+ "step": 14410
10113
+ },
10114
+ {
10115
+ "epoch": 0.2675963878199106,
10116
+ "grad_norm": 36.1875,
10117
+ "learning_rate": 9.95818807652684e-06,
10118
+ "loss": 22.4728,
10119
+ "step": 14420
10120
+ },
10121
+ {
10122
+ "epoch": 0.26778196090439044,
10123
+ "grad_norm": 35.875,
10124
+ "learning_rate": 9.958159080740797e-06,
10125
+ "loss": 22.0861,
10126
+ "step": 14430
10127
+ },
10128
+ {
10129
+ "epoch": 0.26796753398887024,
10130
+ "grad_norm": 38.03125,
10131
+ "learning_rate": 9.958130084954754e-06,
10132
+ "loss": 22.6352,
10133
+ "step": 14440
10134
+ },
10135
+ {
10136
+ "epoch": 0.2681531070733501,
10137
+ "grad_norm": 34.21875,
10138
+ "learning_rate": 9.958101089168712e-06,
10139
+ "loss": 22.3403,
10140
+ "step": 14450
10141
+ },
10142
+ {
10143
+ "epoch": 0.2683386801578299,
10144
+ "grad_norm": 34.0,
10145
+ "learning_rate": 9.958072093382669e-06,
10146
+ "loss": 22.5642,
10147
+ "step": 14460
10148
+ },
10149
+ {
10150
+ "epoch": 0.2685242532423097,
10151
+ "grad_norm": 34.71875,
10152
+ "learning_rate": 9.958043097596626e-06,
10153
+ "loss": 22.4688,
10154
+ "step": 14470
10155
+ },
10156
+ {
10157
+ "epoch": 0.2687098263267896,
10158
+ "grad_norm": 33.0625,
10159
+ "learning_rate": 9.958014101810584e-06,
10160
+ "loss": 22.3117,
10161
+ "step": 14480
10162
+ },
10163
+ {
10164
+ "epoch": 0.2688953994112694,
10165
+ "grad_norm": 34.0625,
10166
+ "learning_rate": 9.957985106024543e-06,
10167
+ "loss": 22.4656,
10168
+ "step": 14490
10169
+ },
10170
+ {
10171
+ "epoch": 0.2690809724957492,
10172
+ "grad_norm": 33.90625,
10173
+ "learning_rate": 9.9579561102385e-06,
10174
+ "loss": 22.5187,
10175
+ "step": 14500
10176
+ },
10177
+ {
10178
+ "epoch": 0.26926654558022906,
10179
+ "grad_norm": 35.84375,
10180
+ "learning_rate": 9.957927114452458e-06,
10181
+ "loss": 22.3564,
10182
+ "step": 14510
10183
+ },
10184
+ {
10185
+ "epoch": 0.26945211866470886,
10186
+ "grad_norm": 34.34375,
10187
+ "learning_rate": 9.957898118666415e-06,
10188
+ "loss": 22.2059,
10189
+ "step": 14520
10190
+ },
10191
+ {
10192
+ "epoch": 0.2696376917491887,
10193
+ "grad_norm": 36.65625,
10194
+ "learning_rate": 9.957869122880373e-06,
10195
+ "loss": 22.3464,
10196
+ "step": 14530
10197
+ },
10198
+ {
10199
+ "epoch": 0.26982326483366853,
10200
+ "grad_norm": 34.71875,
10201
+ "learning_rate": 9.95784012709433e-06,
10202
+ "loss": 22.0195,
10203
+ "step": 14540
10204
+ },
10205
+ {
10206
+ "epoch": 0.27000883791814834,
10207
+ "grad_norm": 33.46875,
10208
+ "learning_rate": 9.957811131308287e-06,
10209
+ "loss": 22.4502,
10210
+ "step": 14550
10211
+ },
10212
+ {
10213
+ "epoch": 0.2701944110026282,
10214
+ "grad_norm": 35.25,
10215
+ "learning_rate": 9.957782135522245e-06,
10216
+ "loss": 22.4365,
10217
+ "step": 14560
10218
+ },
10219
+ {
10220
+ "epoch": 0.270379984087108,
10221
+ "grad_norm": 35.5,
10222
+ "learning_rate": 9.957753139736202e-06,
10223
+ "loss": 22.2782,
10224
+ "step": 14570
10225
+ },
10226
+ {
10227
+ "epoch": 0.2705655571715878,
10228
+ "grad_norm": 35.03125,
10229
+ "learning_rate": 9.95772414395016e-06,
10230
+ "loss": 22.4778,
10231
+ "step": 14580
10232
+ },
10233
+ {
10234
+ "epoch": 0.2707511302560677,
10235
+ "grad_norm": 35.25,
10236
+ "learning_rate": 9.957695148164119e-06,
10237
+ "loss": 22.5201,
10238
+ "step": 14590
10239
+ },
10240
+ {
10241
+ "epoch": 0.2709367033405475,
10242
+ "grad_norm": 37.84375,
10243
+ "learning_rate": 9.957666152378076e-06,
10244
+ "loss": 22.5597,
10245
+ "step": 14600
10246
+ },
10247
+ {
10248
+ "epoch": 0.2711222764250273,
10249
+ "grad_norm": 35.03125,
10250
+ "learning_rate": 9.957637156592034e-06,
10251
+ "loss": 22.3051,
10252
+ "step": 14610
10253
+ },
10254
+ {
10255
+ "epoch": 0.27130784950950715,
10256
+ "grad_norm": 35.0,
10257
+ "learning_rate": 9.957608160805991e-06,
10258
+ "loss": 22.3427,
10259
+ "step": 14620
10260
+ },
10261
+ {
10262
+ "epoch": 0.27149342259398695,
10263
+ "grad_norm": 36.65625,
10264
+ "learning_rate": 9.957579165019948e-06,
10265
+ "loss": 22.1068,
10266
+ "step": 14630
10267
+ },
10268
+ {
10269
+ "epoch": 0.2716789956784668,
10270
+ "grad_norm": 35.71875,
10271
+ "learning_rate": 9.957550169233906e-06,
10272
+ "loss": 22.4494,
10273
+ "step": 14640
10274
+ },
10275
+ {
10276
+ "epoch": 0.2718645687629466,
10277
+ "grad_norm": 32.84375,
10278
+ "learning_rate": 9.957521173447863e-06,
10279
+ "loss": 22.6318,
10280
+ "step": 14650
10281
+ },
10282
+ {
10283
+ "epoch": 0.27205014184742643,
10284
+ "grad_norm": 33.78125,
10285
+ "learning_rate": 9.957492177661822e-06,
10286
+ "loss": 22.7068,
10287
+ "step": 14660
10288
+ },
10289
+ {
10290
+ "epoch": 0.2722357149319063,
10291
+ "grad_norm": 35.09375,
10292
+ "learning_rate": 9.957463181875778e-06,
10293
+ "loss": 21.9763,
10294
+ "step": 14670
10295
+ },
10296
+ {
10297
+ "epoch": 0.2724212880163861,
10298
+ "grad_norm": 35.625,
10299
+ "learning_rate": 9.957434186089735e-06,
10300
+ "loss": 22.4956,
10301
+ "step": 14680
10302
+ },
10303
+ {
10304
+ "epoch": 0.2726068611008659,
10305
+ "grad_norm": 33.40625,
10306
+ "learning_rate": 9.957405190303694e-06,
10307
+ "loss": 22.6001,
10308
+ "step": 14690
10309
+ },
10310
+ {
10311
+ "epoch": 0.27279243418534577,
10312
+ "grad_norm": 35.375,
10313
+ "learning_rate": 9.957376194517652e-06,
10314
+ "loss": 22.5121,
10315
+ "step": 14700
10316
+ },
10317
+ {
10318
+ "epoch": 0.2729780072698256,
10319
+ "grad_norm": 34.34375,
10320
+ "learning_rate": 9.95734719873161e-06,
10321
+ "loss": 22.2686,
10322
+ "step": 14710
10323
+ },
10324
+ {
10325
+ "epoch": 0.27316358035430544,
10326
+ "grad_norm": 34.90625,
10327
+ "learning_rate": 9.957318202945567e-06,
10328
+ "loss": 22.4447,
10329
+ "step": 14720
10330
+ },
10331
+ {
10332
+ "epoch": 0.27334915343878524,
10333
+ "grad_norm": 37.34375,
10334
+ "learning_rate": 9.957289207159524e-06,
10335
+ "loss": 22.6572,
10336
+ "step": 14730
10337
+ },
10338
+ {
10339
+ "epoch": 0.27353472652326505,
10340
+ "grad_norm": 35.5,
10341
+ "learning_rate": 9.957260211373482e-06,
10342
+ "loss": 22.6281,
10343
+ "step": 14740
10344
+ },
10345
+ {
10346
+ "epoch": 0.2737202996077449,
10347
+ "grad_norm": 36.125,
10348
+ "learning_rate": 9.957231215587439e-06,
10349
+ "loss": 22.1592,
10350
+ "step": 14750
10351
+ },
10352
+ {
10353
+ "epoch": 0.2739058726922247,
10354
+ "grad_norm": 35.46875,
10355
+ "learning_rate": 9.957202219801398e-06,
10356
+ "loss": 22.5348,
10357
+ "step": 14760
10358
+ },
10359
+ {
10360
+ "epoch": 0.2740914457767045,
10361
+ "grad_norm": 36.3125,
10362
+ "learning_rate": 9.957173224015355e-06,
10363
+ "loss": 22.4853,
10364
+ "step": 14770
10365
+ },
10366
+ {
10367
+ "epoch": 0.2742770188611844,
10368
+ "grad_norm": 35.84375,
10369
+ "learning_rate": 9.957144228229311e-06,
10370
+ "loss": 22.3393,
10371
+ "step": 14780
10372
+ },
10373
+ {
10374
+ "epoch": 0.2744625919456642,
10375
+ "grad_norm": 34.65625,
10376
+ "learning_rate": 9.95711523244327e-06,
10377
+ "loss": 22.3089,
10378
+ "step": 14790
10379
+ },
10380
+ {
10381
+ "epoch": 0.27464816503014405,
10382
+ "grad_norm": 34.5625,
10383
+ "learning_rate": 9.957086236657228e-06,
10384
+ "loss": 22.4888,
10385
+ "step": 14800
10386
+ },
10387
+ {
10388
+ "epoch": 0.27483373811462386,
10389
+ "grad_norm": 36.34375,
10390
+ "learning_rate": 9.957057240871185e-06,
10391
+ "loss": 21.9885,
10392
+ "step": 14810
10393
+ },
10394
+ {
10395
+ "epoch": 0.27501931119910367,
10396
+ "grad_norm": 33.75,
10397
+ "learning_rate": 9.957028245085142e-06,
10398
+ "loss": 22.3091,
10399
+ "step": 14820
10400
+ },
10401
+ {
10402
+ "epoch": 0.27520488428358353,
10403
+ "grad_norm": 35.59375,
10404
+ "learning_rate": 9.9569992492991e-06,
10405
+ "loss": 22.2194,
10406
+ "step": 14830
10407
+ },
10408
+ {
10409
+ "epoch": 0.27539045736806333,
10410
+ "grad_norm": 36.96875,
10411
+ "learning_rate": 9.956970253513057e-06,
10412
+ "loss": 22.424,
10413
+ "step": 14840
10414
+ },
10415
+ {
10416
+ "epoch": 0.27557603045254314,
10417
+ "grad_norm": 35.875,
10418
+ "learning_rate": 9.956941257727015e-06,
10419
+ "loss": 22.548,
10420
+ "step": 14850
10421
+ },
10422
+ {
10423
+ "epoch": 0.275761603537023,
10424
+ "grad_norm": 33.6875,
10425
+ "learning_rate": 9.956912261940974e-06,
10426
+ "loss": 22.2094,
10427
+ "step": 14860
10428
+ },
10429
+ {
10430
+ "epoch": 0.2759471766215028,
10431
+ "grad_norm": 36.21875,
10432
+ "learning_rate": 9.956883266154931e-06,
10433
+ "loss": 22.644,
10434
+ "step": 14870
10435
+ },
10436
+ {
10437
+ "epoch": 0.27613274970598267,
10438
+ "grad_norm": 36.1875,
10439
+ "learning_rate": 9.956854270368889e-06,
10440
+ "loss": 22.7149,
10441
+ "step": 14880
10442
+ },
10443
+ {
10444
+ "epoch": 0.2763183227904625,
10445
+ "grad_norm": 34.9375,
10446
+ "learning_rate": 9.956825274582846e-06,
10447
+ "loss": 22.0443,
10448
+ "step": 14890
10449
+ },
10450
+ {
10451
+ "epoch": 0.2765038958749423,
10452
+ "grad_norm": 34.59375,
10453
+ "learning_rate": 9.956796278796803e-06,
10454
+ "loss": 22.2534,
10455
+ "step": 14900
10456
+ },
10457
+ {
10458
+ "epoch": 0.27668946895942215,
10459
+ "grad_norm": 34.875,
10460
+ "learning_rate": 9.95676728301076e-06,
10461
+ "loss": 22.5268,
10462
+ "step": 14910
10463
+ },
10464
+ {
10465
+ "epoch": 0.27687504204390195,
10466
+ "grad_norm": 36.3125,
10467
+ "learning_rate": 9.956738287224718e-06,
10468
+ "loss": 22.2169,
10469
+ "step": 14920
10470
+ },
10471
+ {
10472
+ "epoch": 0.27706061512838176,
10473
+ "grad_norm": 34.46875,
10474
+ "learning_rate": 9.956709291438676e-06,
10475
+ "loss": 22.2188,
10476
+ "step": 14930
10477
+ },
10478
+ {
10479
+ "epoch": 0.2772461882128616,
10480
+ "grad_norm": 33.625,
10481
+ "learning_rate": 9.956680295652633e-06,
10482
+ "loss": 22.4894,
10483
+ "step": 14940
10484
+ },
10485
+ {
10486
+ "epoch": 0.27743176129734143,
10487
+ "grad_norm": 34.53125,
10488
+ "learning_rate": 9.95665129986659e-06,
10489
+ "loss": 21.8868,
10490
+ "step": 14950
10491
+ },
10492
+ {
10493
+ "epoch": 0.27761733438182123,
10494
+ "grad_norm": 35.6875,
10495
+ "learning_rate": 9.95662230408055e-06,
10496
+ "loss": 22.3338,
10497
+ "step": 14960
10498
+ },
10499
+ {
10500
+ "epoch": 0.2778029074663011,
10501
+ "grad_norm": 34.4375,
10502
+ "learning_rate": 9.956593308294507e-06,
10503
+ "loss": 22.4738,
10504
+ "step": 14970
10505
+ },
10506
+ {
10507
+ "epoch": 0.2779884805507809,
10508
+ "grad_norm": 36.6875,
10509
+ "learning_rate": 9.956564312508464e-06,
10510
+ "loss": 22.3862,
10511
+ "step": 14980
10512
+ },
10513
+ {
10514
+ "epoch": 0.27817405363526077,
10515
+ "grad_norm": 33.96875,
10516
+ "learning_rate": 9.956535316722422e-06,
10517
+ "loss": 21.9725,
10518
+ "step": 14990
10519
+ },
10520
+ {
10521
+ "epoch": 0.27835962671974057,
10522
+ "grad_norm": 34.5,
10523
+ "learning_rate": 9.95650632093638e-06,
10524
+ "loss": 22.3186,
10525
+ "step": 15000
10526
+ },
10527
+ {
10528
+ "epoch": 0.27835962671974057,
10529
+ "eval_loss": 2.7910494804382324,
10530
+ "eval_runtime": 454.4569,
10531
+ "eval_samples_per_second": 3195.28,
10532
+ "eval_steps_per_second": 49.928,
10533
+ "step": 15000
10534
  }
10535
  ],
10536
  "logging_steps": 10,
 
10550
  "attributes": {}
10551
  }
10552
  },
10553
+ "total_flos": 2.618284138561536e+18,
10554
  "train_batch_size": 8,
10555
  "trial_name": null,
10556
  "trial_params": null