joygoround commited on
Commit
1c15988
·
verified ·
1 Parent(s): dfae358

Upload folder using huggingface_hub

Browse files
Files changed (7) hide show
  1. config.json +58 -0
  2. optimizer.pt +3 -0
  3. pytorch_model.bin +3 -0
  4. rng_state.pth +3 -0
  5. scheduler.pt +3 -0
  6. trainer_state.json +3263 -0
  7. training_args.bin +3 -0
config.json ADDED
@@ -0,0 +1,58 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "Lfm2ForCausalLM"
4
+ ],
5
+ "block_auto_adjust_ff_dim": true,
6
+ "block_dim": 2048,
7
+ "block_ff_dim": 12288,
8
+ "block_ffn_dim_multiplier": 1.0,
9
+ "block_mlp_init_scale": 1.0,
10
+ "block_multiple_of": 256,
11
+ "block_norm_eps": 1e-05,
12
+ "block_out_init_scale": 1.0,
13
+ "block_use_swiglu": true,
14
+ "block_use_xavier_init": true,
15
+ "bos_token_id": 1,
16
+ "conv_L_cache": 3,
17
+ "conv_bias": false,
18
+ "conv_dim": 2048,
19
+ "conv_use_xavier_init": true,
20
+ "dtype": "bfloat16",
21
+ "eos_token_id": 7,
22
+ "hidden_size": 2048,
23
+ "initializer_range": 0.02,
24
+ "intermediate_size": 12288,
25
+ "layer_types": [
26
+ "conv",
27
+ "conv",
28
+ "full_attention",
29
+ "conv",
30
+ "conv",
31
+ "full_attention",
32
+ "conv",
33
+ "conv",
34
+ "full_attention",
35
+ "conv",
36
+ "full_attention",
37
+ "conv",
38
+ "full_attention",
39
+ "conv",
40
+ "full_attention",
41
+ "conv"
42
+ ],
43
+ "max_position_embeddings": 128000,
44
+ "model_type": "lfm2",
45
+ "norm_eps": 1e-05,
46
+ "num_attention_heads": 32,
47
+ "num_heads": 32,
48
+ "num_hidden_layers": 16,
49
+ "num_key_value_heads": 8,
50
+ "output_hidden_states": true,
51
+ "pad_token_id": 0,
52
+ "rope_theta": 1000000.0,
53
+ "tie_embedding": true,
54
+ "transformers_version": "4.57.3",
55
+ "use_cache": true,
56
+ "use_pos_enc": true,
57
+ "vocab_size": 65536
58
+ }
optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:950e2b6d52795741bf917ba3ede9bf88c91be0f8f29132c3bae8907d9f54361d
3
+ size 4681573135
pytorch_model.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ce6417d7584496cf384207663a7807933899ce1e023c9f5bbc2ad0330359ea23
3
+ size 2340784443
rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:363c5df1543d2c82b2f13164f35bdd0367ceb32e7fa1b2f67c19df073a08b17b
3
+ size 14645
scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:42c959958db0ac952e0b543b0706d5dcc92e0dabd3917896b0e12836545d4a27
3
+ size 1465
trainer_state.json ADDED
@@ -0,0 +1,3263 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": null,
3
+ "best_metric": null,
4
+ "best_model_checkpoint": null,
5
+ "epoch": 0.12569217985154357,
6
+ "eval_steps": 501,
7
+ "global_step": 4500,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 2.793159552256524e-05,
14
+ "grad_norm": 37.485023498535156,
15
+ "learning_rate": 2e-06,
16
+ "loss": 2.1306,
17
+ "step": 1
18
+ },
19
+ {
20
+ "epoch": 0.00027931595522565235,
21
+ "grad_norm": 27.45977210998535,
22
+ "learning_rate": 1.9994972347913524e-06,
23
+ "loss": 2.0875,
24
+ "step": 10
25
+ },
26
+ {
27
+ "epoch": 0.0005586319104513047,
28
+ "grad_norm": 18.15777015686035,
29
+ "learning_rate": 1.998938606781744e-06,
30
+ "loss": 1.9196,
31
+ "step": 20
32
+ },
33
+ {
34
+ "epoch": 0.0008379478656769571,
35
+ "grad_norm": 20.21579360961914,
36
+ "learning_rate": 1.9983799787721355e-06,
37
+ "loss": 1.8183,
38
+ "step": 30
39
+ },
40
+ {
41
+ "epoch": 0.0011172638209026094,
42
+ "grad_norm": 14.037498474121094,
43
+ "learning_rate": 1.9978213507625273e-06,
44
+ "loss": 1.7441,
45
+ "step": 40
46
+ },
47
+ {
48
+ "epoch": 0.001396579776128262,
49
+ "grad_norm": 13.131041526794434,
50
+ "learning_rate": 1.9972627227529187e-06,
51
+ "loss": 1.6705,
52
+ "step": 50
53
+ },
54
+ {
55
+ "epoch": 0.0016758957313539142,
56
+ "grad_norm": 14.493760108947754,
57
+ "learning_rate": 1.99670409474331e-06,
58
+ "loss": 1.7261,
59
+ "step": 60
60
+ },
61
+ {
62
+ "epoch": 0.0019552116865795667,
63
+ "grad_norm": 15.630404472351074,
64
+ "learning_rate": 1.996145466733702e-06,
65
+ "loss": 1.7375,
66
+ "step": 70
67
+ },
68
+ {
69
+ "epoch": 0.002234527641805219,
70
+ "grad_norm": 12.822752952575684,
71
+ "learning_rate": 1.9955868387240936e-06,
72
+ "loss": 1.6683,
73
+ "step": 80
74
+ },
75
+ {
76
+ "epoch": 0.0025138435970308713,
77
+ "grad_norm": 12.364542961120605,
78
+ "learning_rate": 1.995028210714485e-06,
79
+ "loss": 1.5954,
80
+ "step": 90
81
+ },
82
+ {
83
+ "epoch": 0.002793159552256524,
84
+ "grad_norm": 14.236380577087402,
85
+ "learning_rate": 1.994469582704877e-06,
86
+ "loss": 1.6029,
87
+ "step": 100
88
+ },
89
+ {
90
+ "epoch": 0.0030724755074821764,
91
+ "grad_norm": 13.032842636108398,
92
+ "learning_rate": 1.9939109546952686e-06,
93
+ "loss": 1.6026,
94
+ "step": 110
95
+ },
96
+ {
97
+ "epoch": 0.0033517914627078284,
98
+ "grad_norm": 14.683618545532227,
99
+ "learning_rate": 1.99335232668566e-06,
100
+ "loss": 1.6354,
101
+ "step": 120
102
+ },
103
+ {
104
+ "epoch": 0.003631107417933481,
105
+ "grad_norm": 12.228134155273438,
106
+ "learning_rate": 1.9927936986760517e-06,
107
+ "loss": 1.5176,
108
+ "step": 130
109
+ },
110
+ {
111
+ "epoch": 0.0039104233731591335,
112
+ "grad_norm": 14.089844703674316,
113
+ "learning_rate": 1.992235070666443e-06,
114
+ "loss": 1.5644,
115
+ "step": 140
116
+ },
117
+ {
118
+ "epoch": 0.004189739328384786,
119
+ "grad_norm": 13.192647933959961,
120
+ "learning_rate": 1.9916764426568345e-06,
121
+ "loss": 1.6016,
122
+ "step": 150
123
+ },
124
+ {
125
+ "epoch": 0.004469055283610438,
126
+ "grad_norm": 13.630595207214355,
127
+ "learning_rate": 1.9911178146472263e-06,
128
+ "loss": 1.5195,
129
+ "step": 160
130
+ },
131
+ {
132
+ "epoch": 0.00474837123883609,
133
+ "grad_norm": 12.795489311218262,
134
+ "learning_rate": 1.990559186637618e-06,
135
+ "loss": 1.4888,
136
+ "step": 170
137
+ },
138
+ {
139
+ "epoch": 0.005027687194061743,
140
+ "grad_norm": 14.711332321166992,
141
+ "learning_rate": 1.9900005586280094e-06,
142
+ "loss": 1.4658,
143
+ "step": 180
144
+ },
145
+ {
146
+ "epoch": 0.005307003149287395,
147
+ "grad_norm": 14.496808052062988,
148
+ "learning_rate": 1.989441930618401e-06,
149
+ "loss": 1.5231,
150
+ "step": 190
151
+ },
152
+ {
153
+ "epoch": 0.005586319104513048,
154
+ "grad_norm": 11.26836109161377,
155
+ "learning_rate": 1.988883302608793e-06,
156
+ "loss": 1.3865,
157
+ "step": 200
158
+ },
159
+ {
160
+ "epoch": 0.0058656350597387,
161
+ "grad_norm": 12.824557304382324,
162
+ "learning_rate": 1.9883246745991844e-06,
163
+ "loss": 1.4743,
164
+ "step": 210
165
+ },
166
+ {
167
+ "epoch": 0.006144951014964353,
168
+ "grad_norm": 13.50056266784668,
169
+ "learning_rate": 1.9877660465895757e-06,
170
+ "loss": 1.3856,
171
+ "step": 220
172
+ },
173
+ {
174
+ "epoch": 0.006424266970190004,
175
+ "grad_norm": 12.35004997253418,
176
+ "learning_rate": 1.9872074185799675e-06,
177
+ "loss": 1.4165,
178
+ "step": 230
179
+ },
180
+ {
181
+ "epoch": 0.006703582925415657,
182
+ "grad_norm": 11.969117164611816,
183
+ "learning_rate": 1.986648790570359e-06,
184
+ "loss": 1.3719,
185
+ "step": 240
186
+ },
187
+ {
188
+ "epoch": 0.006982898880641309,
189
+ "grad_norm": 12.795903205871582,
190
+ "learning_rate": 1.9860901625607507e-06,
191
+ "loss": 1.4586,
192
+ "step": 250
193
+ },
194
+ {
195
+ "epoch": 0.007262214835866962,
196
+ "grad_norm": 14.326574325561523,
197
+ "learning_rate": 1.9855315345511424e-06,
198
+ "loss": 1.4185,
199
+ "step": 260
200
+ },
201
+ {
202
+ "epoch": 0.0075415307910926144,
203
+ "grad_norm": 14.065360069274902,
204
+ "learning_rate": 1.984972906541534e-06,
205
+ "loss": 1.3441,
206
+ "step": 270
207
+ },
208
+ {
209
+ "epoch": 0.007820846746318267,
210
+ "grad_norm": 13.229423522949219,
211
+ "learning_rate": 1.9844142785319256e-06,
212
+ "loss": 1.4299,
213
+ "step": 280
214
+ },
215
+ {
216
+ "epoch": 0.00810016270154392,
217
+ "grad_norm": 10.81311321258545,
218
+ "learning_rate": 1.9838556505223174e-06,
219
+ "loss": 1.4352,
220
+ "step": 290
221
+ },
222
+ {
223
+ "epoch": 0.008379478656769572,
224
+ "grad_norm": 11.971837043762207,
225
+ "learning_rate": 1.9832970225127088e-06,
226
+ "loss": 1.3721,
227
+ "step": 300
228
+ },
229
+ {
230
+ "epoch": 0.008658794611995225,
231
+ "grad_norm": 10.858203887939453,
232
+ "learning_rate": 1.9827383945031e-06,
233
+ "loss": 1.3593,
234
+ "step": 310
235
+ },
236
+ {
237
+ "epoch": 0.008938110567220875,
238
+ "grad_norm": 13.713777542114258,
239
+ "learning_rate": 1.982179766493492e-06,
240
+ "loss": 1.3732,
241
+ "step": 320
242
+ },
243
+ {
244
+ "epoch": 0.009217426522446528,
245
+ "grad_norm": 10.59002685546875,
246
+ "learning_rate": 1.9816211384838833e-06,
247
+ "loss": 1.3841,
248
+ "step": 330
249
+ },
250
+ {
251
+ "epoch": 0.00949674247767218,
252
+ "grad_norm": 12.030527114868164,
253
+ "learning_rate": 1.981062510474275e-06,
254
+ "loss": 1.3584,
255
+ "step": 340
256
+ },
257
+ {
258
+ "epoch": 0.009776058432897833,
259
+ "grad_norm": 13.677680969238281,
260
+ "learning_rate": 1.980503882464667e-06,
261
+ "loss": 1.3468,
262
+ "step": 350
263
+ },
264
+ {
265
+ "epoch": 0.010055374388123485,
266
+ "grad_norm": 11.954497337341309,
267
+ "learning_rate": 1.9799452544550582e-06,
268
+ "loss": 1.3558,
269
+ "step": 360
270
+ },
271
+ {
272
+ "epoch": 0.010334690343349138,
273
+ "grad_norm": 11.743765830993652,
274
+ "learning_rate": 1.97938662644545e-06,
275
+ "loss": 1.33,
276
+ "step": 370
277
+ },
278
+ {
279
+ "epoch": 0.01061400629857479,
280
+ "grad_norm": 14.092965126037598,
281
+ "learning_rate": 1.978827998435842e-06,
282
+ "loss": 1.3247,
283
+ "step": 380
284
+ },
285
+ {
286
+ "epoch": 0.010893322253800443,
287
+ "grad_norm": 12.351668357849121,
288
+ "learning_rate": 1.978269370426233e-06,
289
+ "loss": 1.359,
290
+ "step": 390
291
+ },
292
+ {
293
+ "epoch": 0.011172638209026095,
294
+ "grad_norm": 12.778825759887695,
295
+ "learning_rate": 1.9777107424166245e-06,
296
+ "loss": 1.3317,
297
+ "step": 400
298
+ },
299
+ {
300
+ "epoch": 0.011451954164251748,
301
+ "grad_norm": 13.161787986755371,
302
+ "learning_rate": 1.9771521144070163e-06,
303
+ "loss": 1.3726,
304
+ "step": 410
305
+ },
306
+ {
307
+ "epoch": 0.0117312701194774,
308
+ "grad_norm": 12.683723449707031,
309
+ "learning_rate": 1.9765934863974077e-06,
310
+ "loss": 1.2869,
311
+ "step": 420
312
+ },
313
+ {
314
+ "epoch": 0.012010586074703053,
315
+ "grad_norm": 11.430862426757812,
316
+ "learning_rate": 1.9760348583877995e-06,
317
+ "loss": 1.3741,
318
+ "step": 430
319
+ },
320
+ {
321
+ "epoch": 0.012289902029928705,
322
+ "grad_norm": 12.193629264831543,
323
+ "learning_rate": 1.9754762303781913e-06,
324
+ "loss": 1.3247,
325
+ "step": 440
326
+ },
327
+ {
328
+ "epoch": 0.012569217985154356,
329
+ "grad_norm": 12.044336318969727,
330
+ "learning_rate": 1.9749176023685826e-06,
331
+ "loss": 1.3258,
332
+ "step": 450
333
+ },
334
+ {
335
+ "epoch": 0.012848533940380009,
336
+ "grad_norm": 13.162397384643555,
337
+ "learning_rate": 1.9743589743589744e-06,
338
+ "loss": 1.3035,
339
+ "step": 460
340
+ },
341
+ {
342
+ "epoch": 0.013127849895605661,
343
+ "grad_norm": 13.332141876220703,
344
+ "learning_rate": 1.9738003463493658e-06,
345
+ "loss": 1.2725,
346
+ "step": 470
347
+ },
348
+ {
349
+ "epoch": 0.013407165850831314,
350
+ "grad_norm": 11.433170318603516,
351
+ "learning_rate": 1.9732417183397576e-06,
352
+ "loss": 1.293,
353
+ "step": 480
354
+ },
355
+ {
356
+ "epoch": 0.013686481806056966,
357
+ "grad_norm": 11.537554740905762,
358
+ "learning_rate": 1.972683090330149e-06,
359
+ "loss": 1.3865,
360
+ "step": 490
361
+ },
362
+ {
363
+ "epoch": 0.013965797761282619,
364
+ "grad_norm": 13.405438423156738,
365
+ "learning_rate": 1.9721244623205407e-06,
366
+ "loss": 1.3675,
367
+ "step": 500
368
+ },
369
+ {
370
+ "epoch": 0.013993729356805184,
371
+ "eval_complexity_accuracy": 0.0,
372
+ "eval_loss": 1.3878909349441528,
373
+ "eval_runtime": 33.2902,
374
+ "eval_samples_per_second": 15.019,
375
+ "eval_steps_per_second": 1.892,
376
+ "step": 501
377
+ },
378
+ {
379
+ "epoch": 0.014245113716508271,
380
+ "grad_norm": 13.519207000732422,
381
+ "learning_rate": 1.971565834310932e-06,
382
+ "loss": 1.2924,
383
+ "step": 510
384
+ },
385
+ {
386
+ "epoch": 0.014524429671733924,
387
+ "grad_norm": 12.743926048278809,
388
+ "learning_rate": 1.971007206301324e-06,
389
+ "loss": 1.3396,
390
+ "step": 520
391
+ },
392
+ {
393
+ "epoch": 0.014803745626959576,
394
+ "grad_norm": 11.494955062866211,
395
+ "learning_rate": 1.9704485782917157e-06,
396
+ "loss": 1.3783,
397
+ "step": 530
398
+ },
399
+ {
400
+ "epoch": 0.015083061582185229,
401
+ "grad_norm": 13.423910140991211,
402
+ "learning_rate": 1.969889950282107e-06,
403
+ "loss": 1.3687,
404
+ "step": 540
405
+ },
406
+ {
407
+ "epoch": 0.015362377537410881,
408
+ "grad_norm": 12.793667793273926,
409
+ "learning_rate": 1.969331322272499e-06,
410
+ "loss": 1.3364,
411
+ "step": 550
412
+ },
413
+ {
414
+ "epoch": 0.015641693492636534,
415
+ "grad_norm": 12.060896873474121,
416
+ "learning_rate": 1.96877269426289e-06,
417
+ "loss": 1.3495,
418
+ "step": 560
419
+ },
420
+ {
421
+ "epoch": 0.015921009447862185,
422
+ "grad_norm": 10.879355430603027,
423
+ "learning_rate": 1.968214066253282e-06,
424
+ "loss": 1.2966,
425
+ "step": 570
426
+ },
427
+ {
428
+ "epoch": 0.01620032540308784,
429
+ "grad_norm": 11.109333038330078,
430
+ "learning_rate": 1.9676554382436733e-06,
431
+ "loss": 1.3587,
432
+ "step": 580
433
+ },
434
+ {
435
+ "epoch": 0.01647964135831349,
436
+ "grad_norm": 14.08962345123291,
437
+ "learning_rate": 1.967096810234065e-06,
438
+ "loss": 1.3881,
439
+ "step": 590
440
+ },
441
+ {
442
+ "epoch": 0.016758957313539144,
443
+ "grad_norm": 13.27667236328125,
444
+ "learning_rate": 1.9665381822244565e-06,
445
+ "loss": 1.3097,
446
+ "step": 600
447
+ },
448
+ {
449
+ "epoch": 0.017038273268764795,
450
+ "grad_norm": 11.379706382751465,
451
+ "learning_rate": 1.9659795542148483e-06,
452
+ "loss": 1.305,
453
+ "step": 610
454
+ },
455
+ {
456
+ "epoch": 0.01731758922399045,
457
+ "grad_norm": 12.25299072265625,
458
+ "learning_rate": 1.96542092620524e-06,
459
+ "loss": 1.3136,
460
+ "step": 620
461
+ },
462
+ {
463
+ "epoch": 0.0175969051792161,
464
+ "grad_norm": 11.619131088256836,
465
+ "learning_rate": 1.9648622981956314e-06,
466
+ "loss": 1.3265,
467
+ "step": 630
468
+ },
469
+ {
470
+ "epoch": 0.01787622113444175,
471
+ "grad_norm": 13.470244407653809,
472
+ "learning_rate": 1.9643036701860228e-06,
473
+ "loss": 1.3938,
474
+ "step": 640
475
+ },
476
+ {
477
+ "epoch": 0.018155537089667405,
478
+ "grad_norm": 12.438233375549316,
479
+ "learning_rate": 1.9637450421764146e-06,
480
+ "loss": 1.3579,
481
+ "step": 650
482
+ },
483
+ {
484
+ "epoch": 0.018434853044893056,
485
+ "grad_norm": 11.806841850280762,
486
+ "learning_rate": 1.9631864141668064e-06,
487
+ "loss": 1.3165,
488
+ "step": 660
489
+ },
490
+ {
491
+ "epoch": 0.01871416900011871,
492
+ "grad_norm": 10.943819999694824,
493
+ "learning_rate": 1.9626277861571977e-06,
494
+ "loss": 1.3435,
495
+ "step": 670
496
+ },
497
+ {
498
+ "epoch": 0.01899348495534436,
499
+ "grad_norm": 11.002156257629395,
500
+ "learning_rate": 1.9620691581475895e-06,
501
+ "loss": 1.3137,
502
+ "step": 680
503
+ },
504
+ {
505
+ "epoch": 0.019272800910570015,
506
+ "grad_norm": 11.192991256713867,
507
+ "learning_rate": 1.961510530137981e-06,
508
+ "loss": 1.341,
509
+ "step": 690
510
+ },
511
+ {
512
+ "epoch": 0.019552116865795666,
513
+ "grad_norm": 11.328652381896973,
514
+ "learning_rate": 1.9609519021283727e-06,
515
+ "loss": 1.3744,
516
+ "step": 700
517
+ },
518
+ {
519
+ "epoch": 0.01983143282102132,
520
+ "grad_norm": 11.382583618164062,
521
+ "learning_rate": 1.9603932741187645e-06,
522
+ "loss": 1.2749,
523
+ "step": 710
524
+ },
525
+ {
526
+ "epoch": 0.02011074877624697,
527
+ "grad_norm": 9.765230178833008,
528
+ "learning_rate": 1.959834646109156e-06,
529
+ "loss": 1.3148,
530
+ "step": 720
531
+ },
532
+ {
533
+ "epoch": 0.020390064731472625,
534
+ "grad_norm": 10.793863296508789,
535
+ "learning_rate": 1.959276018099547e-06,
536
+ "loss": 1.2991,
537
+ "step": 730
538
+ },
539
+ {
540
+ "epoch": 0.020669380686698276,
541
+ "grad_norm": 12.697861671447754,
542
+ "learning_rate": 1.958717390089939e-06,
543
+ "loss": 1.3673,
544
+ "step": 740
545
+ },
546
+ {
547
+ "epoch": 0.02094869664192393,
548
+ "grad_norm": 11.78731632232666,
549
+ "learning_rate": 1.9581587620803308e-06,
550
+ "loss": 1.36,
551
+ "step": 750
552
+ },
553
+ {
554
+ "epoch": 0.02122801259714958,
555
+ "grad_norm": 11.723365783691406,
556
+ "learning_rate": 1.957600134070722e-06,
557
+ "loss": 1.3558,
558
+ "step": 760
559
+ },
560
+ {
561
+ "epoch": 0.02150732855237523,
562
+ "grad_norm": 11.155319213867188,
563
+ "learning_rate": 1.957041506061114e-06,
564
+ "loss": 1.3266,
565
+ "step": 770
566
+ },
567
+ {
568
+ "epoch": 0.021786644507600886,
569
+ "grad_norm": 11.003241539001465,
570
+ "learning_rate": 1.9564828780515053e-06,
571
+ "loss": 1.3161,
572
+ "step": 780
573
+ },
574
+ {
575
+ "epoch": 0.022065960462826537,
576
+ "grad_norm": 11.691163063049316,
577
+ "learning_rate": 1.955924250041897e-06,
578
+ "loss": 1.3782,
579
+ "step": 790
580
+ },
581
+ {
582
+ "epoch": 0.02234527641805219,
583
+ "grad_norm": 13.002456665039062,
584
+ "learning_rate": 1.955365622032289e-06,
585
+ "loss": 1.3738,
586
+ "step": 800
587
+ },
588
+ {
589
+ "epoch": 0.02262459237327784,
590
+ "grad_norm": 10.829326629638672,
591
+ "learning_rate": 1.9548069940226802e-06,
592
+ "loss": 1.3089,
593
+ "step": 810
594
+ },
595
+ {
596
+ "epoch": 0.022903908328503496,
597
+ "grad_norm": 11.259895324707031,
598
+ "learning_rate": 1.9542483660130716e-06,
599
+ "loss": 1.3002,
600
+ "step": 820
601
+ },
602
+ {
603
+ "epoch": 0.023183224283729147,
604
+ "grad_norm": 12.811477661132812,
605
+ "learning_rate": 1.9536897380034634e-06,
606
+ "loss": 1.3126,
607
+ "step": 830
608
+ },
609
+ {
610
+ "epoch": 0.0234625402389548,
611
+ "grad_norm": 11.347965240478516,
612
+ "learning_rate": 1.953131109993855e-06,
613
+ "loss": 1.3364,
614
+ "step": 840
615
+ },
616
+ {
617
+ "epoch": 0.02374185619418045,
618
+ "grad_norm": 12.316996574401855,
619
+ "learning_rate": 1.9525724819842465e-06,
620
+ "loss": 1.3208,
621
+ "step": 850
622
+ },
623
+ {
624
+ "epoch": 0.024021172149406106,
625
+ "grad_norm": 11.446920394897461,
626
+ "learning_rate": 1.9520138539746383e-06,
627
+ "loss": 1.3292,
628
+ "step": 860
629
+ },
630
+ {
631
+ "epoch": 0.024300488104631757,
632
+ "grad_norm": 11.28432559967041,
633
+ "learning_rate": 1.9514552259650297e-06,
634
+ "loss": 1.3331,
635
+ "step": 870
636
+ },
637
+ {
638
+ "epoch": 0.02457980405985741,
639
+ "grad_norm": 11.215639114379883,
640
+ "learning_rate": 1.9508965979554215e-06,
641
+ "loss": 1.3026,
642
+ "step": 880
643
+ },
644
+ {
645
+ "epoch": 0.02485912001508306,
646
+ "grad_norm": 11.234190940856934,
647
+ "learning_rate": 1.950337969945813e-06,
648
+ "loss": 1.2926,
649
+ "step": 890
650
+ },
651
+ {
652
+ "epoch": 0.025138435970308712,
653
+ "grad_norm": 11.294180870056152,
654
+ "learning_rate": 1.9497793419362046e-06,
655
+ "loss": 1.3644,
656
+ "step": 900
657
+ },
658
+ {
659
+ "epoch": 0.025417751925534367,
660
+ "grad_norm": 11.346322059631348,
661
+ "learning_rate": 1.949220713926596e-06,
662
+ "loss": 1.3124,
663
+ "step": 910
664
+ },
665
+ {
666
+ "epoch": 0.025697067880760018,
667
+ "grad_norm": 11.497020721435547,
668
+ "learning_rate": 1.9486620859169878e-06,
669
+ "loss": 1.2695,
670
+ "step": 920
671
+ },
672
+ {
673
+ "epoch": 0.025976383835985672,
674
+ "grad_norm": 10.896917343139648,
675
+ "learning_rate": 1.9481034579073796e-06,
676
+ "loss": 1.3141,
677
+ "step": 930
678
+ },
679
+ {
680
+ "epoch": 0.026255699791211323,
681
+ "grad_norm": 10.956721305847168,
682
+ "learning_rate": 1.947544829897771e-06,
683
+ "loss": 1.36,
684
+ "step": 940
685
+ },
686
+ {
687
+ "epoch": 0.026535015746436977,
688
+ "grad_norm": 11.796623229980469,
689
+ "learning_rate": 1.9469862018881627e-06,
690
+ "loss": 1.3586,
691
+ "step": 950
692
+ },
693
+ {
694
+ "epoch": 0.026814331701662628,
695
+ "grad_norm": 11.082508087158203,
696
+ "learning_rate": 1.946427573878554e-06,
697
+ "loss": 1.3514,
698
+ "step": 960
699
+ },
700
+ {
701
+ "epoch": 0.027093647656888282,
702
+ "grad_norm": 11.789264678955078,
703
+ "learning_rate": 1.945868945868946e-06,
704
+ "loss": 1.328,
705
+ "step": 970
706
+ },
707
+ {
708
+ "epoch": 0.027372963612113933,
709
+ "grad_norm": 11.333861351013184,
710
+ "learning_rate": 1.9453103178593372e-06,
711
+ "loss": 1.2765,
712
+ "step": 980
713
+ },
714
+ {
715
+ "epoch": 0.027652279567339587,
716
+ "grad_norm": 12.05320930480957,
717
+ "learning_rate": 1.944751689849729e-06,
718
+ "loss": 1.3679,
719
+ "step": 990
720
+ },
721
+ {
722
+ "epoch": 0.027931595522565238,
723
+ "grad_norm": 12.946321487426758,
724
+ "learning_rate": 1.9441930618401204e-06,
725
+ "loss": 1.3105,
726
+ "step": 1000
727
+ },
728
+ {
729
+ "epoch": 0.02798745871361037,
730
+ "eval_complexity_accuracy": 0.0,
731
+ "eval_loss": 1.364721655845642,
732
+ "eval_runtime": 34.1546,
733
+ "eval_samples_per_second": 14.639,
734
+ "eval_steps_per_second": 1.845,
735
+ "step": 1002
736
+ },
737
+ {
738
+ "epoch": 0.02821091147779089,
739
+ "grad_norm": 12.720813751220703,
740
+ "learning_rate": 1.943634433830512e-06,
741
+ "loss": 1.2763,
742
+ "step": 1010
743
+ },
744
+ {
745
+ "epoch": 0.028490227433016543,
746
+ "grad_norm": 10.137106895446777,
747
+ "learning_rate": 1.943075805820904e-06,
748
+ "loss": 1.3177,
749
+ "step": 1020
750
+ },
751
+ {
752
+ "epoch": 0.028769543388242193,
753
+ "grad_norm": 11.257421493530273,
754
+ "learning_rate": 1.9425171778112953e-06,
755
+ "loss": 1.3078,
756
+ "step": 1030
757
+ },
758
+ {
759
+ "epoch": 0.029048859343467848,
760
+ "grad_norm": 11.93409538269043,
761
+ "learning_rate": 1.941958549801687e-06,
762
+ "loss": 1.3251,
763
+ "step": 1040
764
+ },
765
+ {
766
+ "epoch": 0.0293281752986935,
767
+ "grad_norm": 12.464277267456055,
768
+ "learning_rate": 1.9413999217920785e-06,
769
+ "loss": 1.3199,
770
+ "step": 1050
771
+ },
772
+ {
773
+ "epoch": 0.029607491253919153,
774
+ "grad_norm": 12.42292308807373,
775
+ "learning_rate": 1.9408412937824703e-06,
776
+ "loss": 1.2815,
777
+ "step": 1060
778
+ },
779
+ {
780
+ "epoch": 0.029886807209144804,
781
+ "grad_norm": 11.653295516967773,
782
+ "learning_rate": 1.9402826657728616e-06,
783
+ "loss": 1.2948,
784
+ "step": 1070
785
+ },
786
+ {
787
+ "epoch": 0.030166123164370458,
788
+ "grad_norm": 12.255006790161133,
789
+ "learning_rate": 1.9397240377632534e-06,
790
+ "loss": 1.3263,
791
+ "step": 1080
792
+ },
793
+ {
794
+ "epoch": 0.03044543911959611,
795
+ "grad_norm": 10.424007415771484,
796
+ "learning_rate": 1.939165409753645e-06,
797
+ "loss": 1.2892,
798
+ "step": 1090
799
+ },
800
+ {
801
+ "epoch": 0.030724755074821763,
802
+ "grad_norm": 10.664515495300293,
803
+ "learning_rate": 1.9386067817440366e-06,
804
+ "loss": 1.3407,
805
+ "step": 1100
806
+ },
807
+ {
808
+ "epoch": 0.031004071030047414,
809
+ "grad_norm": 12.733943939208984,
810
+ "learning_rate": 1.9380481537344284e-06,
811
+ "loss": 1.348,
812
+ "step": 1110
813
+ },
814
+ {
815
+ "epoch": 0.03128338698527307,
816
+ "grad_norm": 10.41376781463623,
817
+ "learning_rate": 1.9374895257248197e-06,
818
+ "loss": 1.3827,
819
+ "step": 1120
820
+ },
821
+ {
822
+ "epoch": 0.03156270294049872,
823
+ "grad_norm": 13.944782257080078,
824
+ "learning_rate": 1.9369308977152115e-06,
825
+ "loss": 1.3218,
826
+ "step": 1130
827
+ },
828
+ {
829
+ "epoch": 0.03184201889572437,
830
+ "grad_norm": 12.373078346252441,
831
+ "learning_rate": 1.936372269705603e-06,
832
+ "loss": 1.2725,
833
+ "step": 1140
834
+ },
835
+ {
836
+ "epoch": 0.03212133485095002,
837
+ "grad_norm": 11.583971977233887,
838
+ "learning_rate": 1.9358136416959947e-06,
839
+ "loss": 1.2983,
840
+ "step": 1150
841
+ },
842
+ {
843
+ "epoch": 0.03240065080617568,
844
+ "grad_norm": 12.660507202148438,
845
+ "learning_rate": 1.935255013686386e-06,
846
+ "loss": 1.278,
847
+ "step": 1160
848
+ },
849
+ {
850
+ "epoch": 0.03267996676140133,
851
+ "grad_norm": 10.222640991210938,
852
+ "learning_rate": 1.934696385676778e-06,
853
+ "loss": 1.2866,
854
+ "step": 1170
855
+ },
856
+ {
857
+ "epoch": 0.03295928271662698,
858
+ "grad_norm": 12.668971061706543,
859
+ "learning_rate": 1.934137757667169e-06,
860
+ "loss": 1.3605,
861
+ "step": 1180
862
+ },
863
+ {
864
+ "epoch": 0.03323859867185263,
865
+ "grad_norm": 10.59626579284668,
866
+ "learning_rate": 1.933579129657561e-06,
867
+ "loss": 1.321,
868
+ "step": 1190
869
+ },
870
+ {
871
+ "epoch": 0.03351791462707829,
872
+ "grad_norm": 11.953704833984375,
873
+ "learning_rate": 1.9330205016479528e-06,
874
+ "loss": 1.2852,
875
+ "step": 1200
876
+ },
877
+ {
878
+ "epoch": 0.03379723058230394,
879
+ "grad_norm": 11.2271146774292,
880
+ "learning_rate": 1.932461873638344e-06,
881
+ "loss": 1.3196,
882
+ "step": 1210
883
+ },
884
+ {
885
+ "epoch": 0.03407654653752959,
886
+ "grad_norm": 10.453490257263184,
887
+ "learning_rate": 1.9319032456287355e-06,
888
+ "loss": 1.397,
889
+ "step": 1220
890
+ },
891
+ {
892
+ "epoch": 0.03435586249275524,
893
+ "grad_norm": 13.665384292602539,
894
+ "learning_rate": 1.9313446176191273e-06,
895
+ "loss": 1.3058,
896
+ "step": 1230
897
+ },
898
+ {
899
+ "epoch": 0.0346351784479809,
900
+ "grad_norm": 10.085427284240723,
901
+ "learning_rate": 1.930785989609519e-06,
902
+ "loss": 1.3081,
903
+ "step": 1240
904
+ },
905
+ {
906
+ "epoch": 0.03491449440320655,
907
+ "grad_norm": 12.101105690002441,
908
+ "learning_rate": 1.9302273615999105e-06,
909
+ "loss": 1.345,
910
+ "step": 1250
911
+ },
912
+ {
913
+ "epoch": 0.0351938103584322,
914
+ "grad_norm": 10.636537551879883,
915
+ "learning_rate": 1.9296687335903022e-06,
916
+ "loss": 1.3293,
917
+ "step": 1260
918
+ },
919
+ {
920
+ "epoch": 0.03547312631365785,
921
+ "grad_norm": 12.76969051361084,
922
+ "learning_rate": 1.9291101055806936e-06,
923
+ "loss": 1.3403,
924
+ "step": 1270
925
+ },
926
+ {
927
+ "epoch": 0.0357524422688835,
928
+ "grad_norm": 11.625609397888184,
929
+ "learning_rate": 1.9285514775710854e-06,
930
+ "loss": 1.2967,
931
+ "step": 1280
932
+ },
933
+ {
934
+ "epoch": 0.03603175822410916,
935
+ "grad_norm": 12.158754348754883,
936
+ "learning_rate": 1.927992849561477e-06,
937
+ "loss": 1.3727,
938
+ "step": 1290
939
+ },
940
+ {
941
+ "epoch": 0.03631107417933481,
942
+ "grad_norm": 13.211498260498047,
943
+ "learning_rate": 1.9274342215518685e-06,
944
+ "loss": 1.2925,
945
+ "step": 1300
946
+ },
947
+ {
948
+ "epoch": 0.03659039013456046,
949
+ "grad_norm": 16.932209014892578,
950
+ "learning_rate": 1.92687559354226e-06,
951
+ "loss": 1.3434,
952
+ "step": 1310
953
+ },
954
+ {
955
+ "epoch": 0.03686970608978611,
956
+ "grad_norm": 10.869868278503418,
957
+ "learning_rate": 1.9263169655326517e-06,
958
+ "loss": 1.3001,
959
+ "step": 1320
960
+ },
961
+ {
962
+ "epoch": 0.03714902204501177,
963
+ "grad_norm": 11.199213027954102,
964
+ "learning_rate": 1.9257583375230435e-06,
965
+ "loss": 1.3927,
966
+ "step": 1330
967
+ },
968
+ {
969
+ "epoch": 0.03742833800023742,
970
+ "grad_norm": 11.47125244140625,
971
+ "learning_rate": 1.925199709513435e-06,
972
+ "loss": 1.3426,
973
+ "step": 1340
974
+ },
975
+ {
976
+ "epoch": 0.03770765395546307,
977
+ "grad_norm": 12.344675064086914,
978
+ "learning_rate": 1.9246410815038266e-06,
979
+ "loss": 1.3525,
980
+ "step": 1350
981
+ },
982
+ {
983
+ "epoch": 0.03798696991068872,
984
+ "grad_norm": 12.831677436828613,
985
+ "learning_rate": 1.924082453494218e-06,
986
+ "loss": 1.329,
987
+ "step": 1360
988
+ },
989
+ {
990
+ "epoch": 0.03826628586591438,
991
+ "grad_norm": 11.5836763381958,
992
+ "learning_rate": 1.92352382548461e-06,
993
+ "loss": 1.3188,
994
+ "step": 1370
995
+ },
996
+ {
997
+ "epoch": 0.03854560182114003,
998
+ "grad_norm": 10.466170310974121,
999
+ "learning_rate": 1.9229651974750016e-06,
1000
+ "loss": 1.3177,
1001
+ "step": 1380
1002
+ },
1003
+ {
1004
+ "epoch": 0.03882491777636568,
1005
+ "grad_norm": 12.394039154052734,
1006
+ "learning_rate": 1.922406569465393e-06,
1007
+ "loss": 1.3367,
1008
+ "step": 1390
1009
+ },
1010
+ {
1011
+ "epoch": 0.03910423373159133,
1012
+ "grad_norm": 10.985048294067383,
1013
+ "learning_rate": 1.9218479414557843e-06,
1014
+ "loss": 1.2887,
1015
+ "step": 1400
1016
+ },
1017
+ {
1018
+ "epoch": 0.03938354968681698,
1019
+ "grad_norm": 12.47451400756836,
1020
+ "learning_rate": 1.921289313446176e-06,
1021
+ "loss": 1.2986,
1022
+ "step": 1410
1023
+ },
1024
+ {
1025
+ "epoch": 0.03966286564204264,
1026
+ "grad_norm": 10.245006561279297,
1027
+ "learning_rate": 1.920730685436568e-06,
1028
+ "loss": 1.3413,
1029
+ "step": 1420
1030
+ },
1031
+ {
1032
+ "epoch": 0.03994218159726829,
1033
+ "grad_norm": 11.382227897644043,
1034
+ "learning_rate": 1.9201720574269593e-06,
1035
+ "loss": 1.3652,
1036
+ "step": 1430
1037
+ },
1038
+ {
1039
+ "epoch": 0.04022149755249394,
1040
+ "grad_norm": 13.765195846557617,
1041
+ "learning_rate": 1.919613429417351e-06,
1042
+ "loss": 1.3105,
1043
+ "step": 1440
1044
+ },
1045
+ {
1046
+ "epoch": 0.04050081350771959,
1047
+ "grad_norm": 10.82947063446045,
1048
+ "learning_rate": 1.9190548014077424e-06,
1049
+ "loss": 1.3128,
1050
+ "step": 1450
1051
+ },
1052
+ {
1053
+ "epoch": 0.04078012946294525,
1054
+ "grad_norm": 9.862834930419922,
1055
+ "learning_rate": 1.918496173398134e-06,
1056
+ "loss": 1.3368,
1057
+ "step": 1460
1058
+ },
1059
+ {
1060
+ "epoch": 0.0410594454181709,
1061
+ "grad_norm": 9.987138748168945,
1062
+ "learning_rate": 1.9179375453885256e-06,
1063
+ "loss": 1.3172,
1064
+ "step": 1470
1065
+ },
1066
+ {
1067
+ "epoch": 0.04133876137339655,
1068
+ "grad_norm": 10.993836402893066,
1069
+ "learning_rate": 1.9173789173789174e-06,
1070
+ "loss": 1.2961,
1071
+ "step": 1480
1072
+ },
1073
+ {
1074
+ "epoch": 0.0416180773286222,
1075
+ "grad_norm": 10.989373207092285,
1076
+ "learning_rate": 1.9168202893693087e-06,
1077
+ "loss": 1.2854,
1078
+ "step": 1490
1079
+ },
1080
+ {
1081
+ "epoch": 0.04189739328384786,
1082
+ "grad_norm": 14.129310607910156,
1083
+ "learning_rate": 1.9162616613597005e-06,
1084
+ "loss": 1.3157,
1085
+ "step": 1500
1086
+ },
1087
+ {
1088
+ "epoch": 0.04198118807041555,
1089
+ "eval_complexity_accuracy": 0.0,
1090
+ "eval_loss": 1.3546726703643799,
1091
+ "eval_runtime": 34.0455,
1092
+ "eval_samples_per_second": 14.686,
1093
+ "eval_steps_per_second": 1.85,
1094
+ "step": 1503
1095
+ },
1096
+ {
1097
+ "epoch": 0.04217670923907351,
1098
+ "grad_norm": 10.534819602966309,
1099
+ "learning_rate": 1.9157030333500923e-06,
1100
+ "loss": 1.3115,
1101
+ "step": 1510
1102
+ },
1103
+ {
1104
+ "epoch": 0.04245602519429916,
1105
+ "grad_norm": 10.998124122619629,
1106
+ "learning_rate": 1.9151444053404837e-06,
1107
+ "loss": 1.2958,
1108
+ "step": 1520
1109
+ },
1110
+ {
1111
+ "epoch": 0.04273534114952481,
1112
+ "grad_norm": 10.543405532836914,
1113
+ "learning_rate": 1.9145857773308754e-06,
1114
+ "loss": 1.2976,
1115
+ "step": 1530
1116
+ },
1117
+ {
1118
+ "epoch": 0.04301465710475046,
1119
+ "grad_norm": 11.423952102661133,
1120
+ "learning_rate": 1.914027149321267e-06,
1121
+ "loss": 1.2922,
1122
+ "step": 1540
1123
+ },
1124
+ {
1125
+ "epoch": 0.04329397305997612,
1126
+ "grad_norm": 10.33931827545166,
1127
+ "learning_rate": 1.9134685213116586e-06,
1128
+ "loss": 1.3221,
1129
+ "step": 1550
1130
+ },
1131
+ {
1132
+ "epoch": 0.04357328901520177,
1133
+ "grad_norm": 10.731399536132812,
1134
+ "learning_rate": 1.91290989330205e-06,
1135
+ "loss": 1.2949,
1136
+ "step": 1560
1137
+ },
1138
+ {
1139
+ "epoch": 0.04385260497042742,
1140
+ "grad_norm": 10.743152618408203,
1141
+ "learning_rate": 1.9123512652924418e-06,
1142
+ "loss": 1.275,
1143
+ "step": 1570
1144
+ },
1145
+ {
1146
+ "epoch": 0.04413192092565307,
1147
+ "grad_norm": 10.677448272705078,
1148
+ "learning_rate": 1.911792637282833e-06,
1149
+ "loss": 1.2822,
1150
+ "step": 1580
1151
+ },
1152
+ {
1153
+ "epoch": 0.04441123688087873,
1154
+ "grad_norm": 10.933751106262207,
1155
+ "learning_rate": 1.911234009273225e-06,
1156
+ "loss": 1.2784,
1157
+ "step": 1590
1158
+ },
1159
+ {
1160
+ "epoch": 0.04469055283610438,
1161
+ "grad_norm": 10.95008659362793,
1162
+ "learning_rate": 1.9106753812636167e-06,
1163
+ "loss": 1.337,
1164
+ "step": 1600
1165
+ },
1166
+ {
1167
+ "epoch": 0.04496986879133003,
1168
+ "grad_norm": 11.022769927978516,
1169
+ "learning_rate": 1.910116753254008e-06,
1170
+ "loss": 1.3194,
1171
+ "step": 1610
1172
+ },
1173
+ {
1174
+ "epoch": 0.04524918474655568,
1175
+ "grad_norm": 12.916274070739746,
1176
+ "learning_rate": 1.9095581252444e-06,
1177
+ "loss": 1.3023,
1178
+ "step": 1620
1179
+ },
1180
+ {
1181
+ "epoch": 0.04552850070178134,
1182
+ "grad_norm": 12.046470642089844,
1183
+ "learning_rate": 1.9089994972347912e-06,
1184
+ "loss": 1.2803,
1185
+ "step": 1630
1186
+ },
1187
+ {
1188
+ "epoch": 0.04580781665700699,
1189
+ "grad_norm": 10.913056373596191,
1190
+ "learning_rate": 1.9084408692251826e-06,
1191
+ "loss": 1.3405,
1192
+ "step": 1640
1193
+ },
1194
+ {
1195
+ "epoch": 0.04608713261223264,
1196
+ "grad_norm": 11.769244194030762,
1197
+ "learning_rate": 1.9078822412155744e-06,
1198
+ "loss": 1.2995,
1199
+ "step": 1650
1200
+ },
1201
+ {
1202
+ "epoch": 0.04636644856745829,
1203
+ "grad_norm": 11.765388488769531,
1204
+ "learning_rate": 1.907323613205966e-06,
1205
+ "loss": 1.3457,
1206
+ "step": 1660
1207
+ },
1208
+ {
1209
+ "epoch": 0.046645764522683944,
1210
+ "grad_norm": 11.881918907165527,
1211
+ "learning_rate": 1.9067649851963577e-06,
1212
+ "loss": 1.3367,
1213
+ "step": 1670
1214
+ },
1215
+ {
1216
+ "epoch": 0.0469250804779096,
1217
+ "grad_norm": 10.628633499145508,
1218
+ "learning_rate": 1.9062063571867493e-06,
1219
+ "loss": 1.3091,
1220
+ "step": 1680
1221
+ },
1222
+ {
1223
+ "epoch": 0.04720439643313525,
1224
+ "grad_norm": 11.146201133728027,
1225
+ "learning_rate": 1.9056477291771409e-06,
1226
+ "loss": 1.3041,
1227
+ "step": 1690
1228
+ },
1229
+ {
1230
+ "epoch": 0.0474837123883609,
1231
+ "grad_norm": 10.595499992370605,
1232
+ "learning_rate": 1.9050891011675325e-06,
1233
+ "loss": 1.3185,
1234
+ "step": 1700
1235
+ },
1236
+ {
1237
+ "epoch": 0.047763028343586554,
1238
+ "grad_norm": 12.041298866271973,
1239
+ "learning_rate": 1.904530473157924e-06,
1240
+ "loss": 1.3244,
1241
+ "step": 1710
1242
+ },
1243
+ {
1244
+ "epoch": 0.04804234429881221,
1245
+ "grad_norm": 11.456694602966309,
1246
+ "learning_rate": 1.9039718451483156e-06,
1247
+ "loss": 1.2795,
1248
+ "step": 1720
1249
+ },
1250
+ {
1251
+ "epoch": 0.04832166025403786,
1252
+ "grad_norm": 10.448249816894531,
1253
+ "learning_rate": 1.9034132171387072e-06,
1254
+ "loss": 1.2914,
1255
+ "step": 1730
1256
+ },
1257
+ {
1258
+ "epoch": 0.04860097620926351,
1259
+ "grad_norm": 11.16418170928955,
1260
+ "learning_rate": 1.9028545891290988e-06,
1261
+ "loss": 1.3405,
1262
+ "step": 1740
1263
+ },
1264
+ {
1265
+ "epoch": 0.048880292164489164,
1266
+ "grad_norm": 11.179234504699707,
1267
+ "learning_rate": 1.9022959611194903e-06,
1268
+ "loss": 1.3432,
1269
+ "step": 1750
1270
+ },
1271
+ {
1272
+ "epoch": 0.04915960811971482,
1273
+ "grad_norm": 10.457565307617188,
1274
+ "learning_rate": 1.9017373331098821e-06,
1275
+ "loss": 1.3358,
1276
+ "step": 1760
1277
+ },
1278
+ {
1279
+ "epoch": 0.04943892407494047,
1280
+ "grad_norm": 11.272239685058594,
1281
+ "learning_rate": 1.9011787051002737e-06,
1282
+ "loss": 1.2664,
1283
+ "step": 1770
1284
+ },
1285
+ {
1286
+ "epoch": 0.04971824003016612,
1287
+ "grad_norm": 11.015891075134277,
1288
+ "learning_rate": 1.9006200770906653e-06,
1289
+ "loss": 1.2642,
1290
+ "step": 1780
1291
+ },
1292
+ {
1293
+ "epoch": 0.049997555985391774,
1294
+ "grad_norm": 10.243793487548828,
1295
+ "learning_rate": 1.9000614490810569e-06,
1296
+ "loss": 1.2335,
1297
+ "step": 1790
1298
+ },
1299
+ {
1300
+ "epoch": 0.050276871940617425,
1301
+ "grad_norm": 11.970431327819824,
1302
+ "learning_rate": 1.8995028210714484e-06,
1303
+ "loss": 1.2568,
1304
+ "step": 1800
1305
+ },
1306
+ {
1307
+ "epoch": 0.05055618789584308,
1308
+ "grad_norm": 9.61301040649414,
1309
+ "learning_rate": 1.89894419306184e-06,
1310
+ "loss": 1.2969,
1311
+ "step": 1810
1312
+ },
1313
+ {
1314
+ "epoch": 0.050835503851068733,
1315
+ "grad_norm": 10.591397285461426,
1316
+ "learning_rate": 1.8983855650522316e-06,
1317
+ "loss": 1.3004,
1318
+ "step": 1820
1319
+ },
1320
+ {
1321
+ "epoch": 0.051114819806294384,
1322
+ "grad_norm": 15.13564682006836,
1323
+ "learning_rate": 1.8978269370426232e-06,
1324
+ "loss": 1.2676,
1325
+ "step": 1830
1326
+ },
1327
+ {
1328
+ "epoch": 0.051394135761520035,
1329
+ "grad_norm": 10.456026077270508,
1330
+ "learning_rate": 1.8972683090330148e-06,
1331
+ "loss": 1.254,
1332
+ "step": 1840
1333
+ },
1334
+ {
1335
+ "epoch": 0.05167345171674569,
1336
+ "grad_norm": 11.265973091125488,
1337
+ "learning_rate": 1.8967096810234065e-06,
1338
+ "loss": 1.2651,
1339
+ "step": 1850
1340
+ },
1341
+ {
1342
+ "epoch": 0.051952767671971344,
1343
+ "grad_norm": 10.13062858581543,
1344
+ "learning_rate": 1.8961510530137981e-06,
1345
+ "loss": 1.3549,
1346
+ "step": 1860
1347
+ },
1348
+ {
1349
+ "epoch": 0.052232083627196994,
1350
+ "grad_norm": 10.586962699890137,
1351
+ "learning_rate": 1.8955924250041897e-06,
1352
+ "loss": 1.326,
1353
+ "step": 1870
1354
+ },
1355
+ {
1356
+ "epoch": 0.052511399582422645,
1357
+ "grad_norm": 11.121024131774902,
1358
+ "learning_rate": 1.8950337969945813e-06,
1359
+ "loss": 1.2838,
1360
+ "step": 1880
1361
+ },
1362
+ {
1363
+ "epoch": 0.052790715537648296,
1364
+ "grad_norm": 10.71886920928955,
1365
+ "learning_rate": 1.8944751689849726e-06,
1366
+ "loss": 1.2793,
1367
+ "step": 1890
1368
+ },
1369
+ {
1370
+ "epoch": 0.053070031492873954,
1371
+ "grad_norm": 10.959943771362305,
1372
+ "learning_rate": 1.8939165409753644e-06,
1373
+ "loss": 1.2731,
1374
+ "step": 1900
1375
+ },
1376
+ {
1377
+ "epoch": 0.053349347448099604,
1378
+ "grad_norm": 11.72314453125,
1379
+ "learning_rate": 1.893357912965756e-06,
1380
+ "loss": 1.3049,
1381
+ "step": 1910
1382
+ },
1383
+ {
1384
+ "epoch": 0.053628663403325255,
1385
+ "grad_norm": 11.75049114227295,
1386
+ "learning_rate": 1.8927992849561476e-06,
1387
+ "loss": 1.273,
1388
+ "step": 1920
1389
+ },
1390
+ {
1391
+ "epoch": 0.053907979358550906,
1392
+ "grad_norm": 11.237908363342285,
1393
+ "learning_rate": 1.8922406569465392e-06,
1394
+ "loss": 1.3405,
1395
+ "step": 1930
1396
+ },
1397
+ {
1398
+ "epoch": 0.054187295313776564,
1399
+ "grad_norm": 13.297497749328613,
1400
+ "learning_rate": 1.891682028936931e-06,
1401
+ "loss": 1.3276,
1402
+ "step": 1940
1403
+ },
1404
+ {
1405
+ "epoch": 0.054466611269002214,
1406
+ "grad_norm": 12.209798812866211,
1407
+ "learning_rate": 1.8911234009273225e-06,
1408
+ "loss": 1.3376,
1409
+ "step": 1950
1410
+ },
1411
+ {
1412
+ "epoch": 0.054745927224227865,
1413
+ "grad_norm": 13.262669563293457,
1414
+ "learning_rate": 1.890564772917714e-06,
1415
+ "loss": 1.2976,
1416
+ "step": 1960
1417
+ },
1418
+ {
1419
+ "epoch": 0.055025243179453516,
1420
+ "grad_norm": 10.766546249389648,
1421
+ "learning_rate": 1.8900061449081055e-06,
1422
+ "loss": 1.3522,
1423
+ "step": 1970
1424
+ },
1425
+ {
1426
+ "epoch": 0.055304559134679174,
1427
+ "grad_norm": 10.29268741607666,
1428
+ "learning_rate": 1.889447516898497e-06,
1429
+ "loss": 1.28,
1430
+ "step": 1980
1431
+ },
1432
+ {
1433
+ "epoch": 0.055583875089904825,
1434
+ "grad_norm": 11.653640747070312,
1435
+ "learning_rate": 1.8888888888888888e-06,
1436
+ "loss": 1.2993,
1437
+ "step": 1990
1438
+ },
1439
+ {
1440
+ "epoch": 0.055863191045130475,
1441
+ "grad_norm": 10.069348335266113,
1442
+ "learning_rate": 1.8883302608792804e-06,
1443
+ "loss": 1.27,
1444
+ "step": 2000
1445
+ },
1446
+ {
1447
+ "epoch": 0.05597491742722074,
1448
+ "eval_complexity_accuracy": 0.0,
1449
+ "eval_loss": 1.3485850095748901,
1450
+ "eval_runtime": 34.0417,
1451
+ "eval_samples_per_second": 14.688,
1452
+ "eval_steps_per_second": 1.851,
1453
+ "step": 2004
1454
+ },
1455
+ {
1456
+ "epoch": 0.056142507000356126,
1457
+ "grad_norm": 10.894604682922363,
1458
+ "learning_rate": 1.887771632869672e-06,
1459
+ "loss": 1.3105,
1460
+ "step": 2010
1461
+ },
1462
+ {
1463
+ "epoch": 0.05642182295558178,
1464
+ "grad_norm": 11.579715728759766,
1465
+ "learning_rate": 1.8872130048600636e-06,
1466
+ "loss": 1.2776,
1467
+ "step": 2020
1468
+ },
1469
+ {
1470
+ "epoch": 0.056701138910807435,
1471
+ "grad_norm": 10.074790000915527,
1472
+ "learning_rate": 1.8866543768504553e-06,
1473
+ "loss": 1.3366,
1474
+ "step": 2030
1475
+ },
1476
+ {
1477
+ "epoch": 0.056980454866033085,
1478
+ "grad_norm": 11.219857215881348,
1479
+ "learning_rate": 1.886095748840847e-06,
1480
+ "loss": 1.2873,
1481
+ "step": 2040
1482
+ },
1483
+ {
1484
+ "epoch": 0.057259770821258736,
1485
+ "grad_norm": 10.627588272094727,
1486
+ "learning_rate": 1.8855371208312385e-06,
1487
+ "loss": 1.3311,
1488
+ "step": 2050
1489
+ },
1490
+ {
1491
+ "epoch": 0.05753908677648439,
1492
+ "grad_norm": 10.92846393585205,
1493
+ "learning_rate": 1.8849784928216299e-06,
1494
+ "loss": 1.3101,
1495
+ "step": 2060
1496
+ },
1497
+ {
1498
+ "epoch": 0.057818402731710045,
1499
+ "grad_norm": 11.262550354003906,
1500
+ "learning_rate": 1.8844198648120214e-06,
1501
+ "loss": 1.3465,
1502
+ "step": 2070
1503
+ },
1504
+ {
1505
+ "epoch": 0.058097718686935695,
1506
+ "grad_norm": 13.099771499633789,
1507
+ "learning_rate": 1.8838612368024132e-06,
1508
+ "loss": 1.3157,
1509
+ "step": 2080
1510
+ },
1511
+ {
1512
+ "epoch": 0.058377034642161346,
1513
+ "grad_norm": 9.9907865524292,
1514
+ "learning_rate": 1.8833026087928048e-06,
1515
+ "loss": 1.298,
1516
+ "step": 2090
1517
+ },
1518
+ {
1519
+ "epoch": 0.058656350597387,
1520
+ "grad_norm": 10.225235939025879,
1521
+ "learning_rate": 1.8827439807831964e-06,
1522
+ "loss": 1.2737,
1523
+ "step": 2100
1524
+ },
1525
+ {
1526
+ "epoch": 0.058935666552612655,
1527
+ "grad_norm": 14.671952247619629,
1528
+ "learning_rate": 1.882185352773588e-06,
1529
+ "loss": 1.2994,
1530
+ "step": 2110
1531
+ },
1532
+ {
1533
+ "epoch": 0.059214982507838305,
1534
+ "grad_norm": 10.452831268310547,
1535
+ "learning_rate": 1.8816267247639797e-06,
1536
+ "loss": 1.3168,
1537
+ "step": 2120
1538
+ },
1539
+ {
1540
+ "epoch": 0.059494298463063956,
1541
+ "grad_norm": 11.753946304321289,
1542
+ "learning_rate": 1.8810680967543713e-06,
1543
+ "loss": 1.3209,
1544
+ "step": 2130
1545
+ },
1546
+ {
1547
+ "epoch": 0.05977361441828961,
1548
+ "grad_norm": 11.631643295288086,
1549
+ "learning_rate": 1.8805094687447627e-06,
1550
+ "loss": 1.3339,
1551
+ "step": 2140
1552
+ },
1553
+ {
1554
+ "epoch": 0.06005293037351526,
1555
+ "grad_norm": 11.326909065246582,
1556
+ "learning_rate": 1.8799508407351543e-06,
1557
+ "loss": 1.3191,
1558
+ "step": 2150
1559
+ },
1560
+ {
1561
+ "epoch": 0.060332246328740916,
1562
+ "grad_norm": 11.047061920166016,
1563
+ "learning_rate": 1.8793922127255458e-06,
1564
+ "loss": 1.346,
1565
+ "step": 2160
1566
+ },
1567
+ {
1568
+ "epoch": 0.060611562283966566,
1569
+ "grad_norm": 11.53350830078125,
1570
+ "learning_rate": 1.8788335847159376e-06,
1571
+ "loss": 1.3125,
1572
+ "step": 2170
1573
+ },
1574
+ {
1575
+ "epoch": 0.06089087823919222,
1576
+ "grad_norm": 11.501274108886719,
1577
+ "learning_rate": 1.8782749567063292e-06,
1578
+ "loss": 1.3432,
1579
+ "step": 2180
1580
+ },
1581
+ {
1582
+ "epoch": 0.06117019419441787,
1583
+ "grad_norm": 11.525626182556152,
1584
+ "learning_rate": 1.8777163286967208e-06,
1585
+ "loss": 1.362,
1586
+ "step": 2190
1587
+ },
1588
+ {
1589
+ "epoch": 0.061449510149643526,
1590
+ "grad_norm": 13.74886703491211,
1591
+ "learning_rate": 1.8771577006871124e-06,
1592
+ "loss": 1.3157,
1593
+ "step": 2200
1594
+ },
1595
+ {
1596
+ "epoch": 0.061728826104869176,
1597
+ "grad_norm": 12.192688941955566,
1598
+ "learning_rate": 1.8765990726775042e-06,
1599
+ "loss": 1.287,
1600
+ "step": 2210
1601
+ },
1602
+ {
1603
+ "epoch": 0.06200814206009483,
1604
+ "grad_norm": 10.64345645904541,
1605
+ "learning_rate": 1.8760404446678955e-06,
1606
+ "loss": 1.2499,
1607
+ "step": 2220
1608
+ },
1609
+ {
1610
+ "epoch": 0.06228745801532048,
1611
+ "grad_norm": 11.966428756713867,
1612
+ "learning_rate": 1.875481816658287e-06,
1613
+ "loss": 1.2789,
1614
+ "step": 2230
1615
+ },
1616
+ {
1617
+ "epoch": 0.06256677397054614,
1618
+ "grad_norm": 11.889241218566895,
1619
+ "learning_rate": 1.8749231886486787e-06,
1620
+ "loss": 1.2621,
1621
+ "step": 2240
1622
+ },
1623
+ {
1624
+ "epoch": 0.06284608992577179,
1625
+ "grad_norm": 13.372054100036621,
1626
+ "learning_rate": 1.8743645606390702e-06,
1627
+ "loss": 1.3493,
1628
+ "step": 2250
1629
+ },
1630
+ {
1631
+ "epoch": 0.06312540588099744,
1632
+ "grad_norm": 10.879005432128906,
1633
+ "learning_rate": 1.873805932629462e-06,
1634
+ "loss": 1.3077,
1635
+ "step": 2260
1636
+ },
1637
+ {
1638
+ "epoch": 0.06340472183622309,
1639
+ "grad_norm": 11.956343650817871,
1640
+ "learning_rate": 1.8732473046198536e-06,
1641
+ "loss": 1.3108,
1642
+ "step": 2270
1643
+ },
1644
+ {
1645
+ "epoch": 0.06368403779144874,
1646
+ "grad_norm": 11.269684791564941,
1647
+ "learning_rate": 1.8726886766102452e-06,
1648
+ "loss": 1.2956,
1649
+ "step": 2280
1650
+ },
1651
+ {
1652
+ "epoch": 0.06396335374667439,
1653
+ "grad_norm": 13.093775749206543,
1654
+ "learning_rate": 1.8721300486006368e-06,
1655
+ "loss": 1.2553,
1656
+ "step": 2290
1657
+ },
1658
+ {
1659
+ "epoch": 0.06424266970190004,
1660
+ "grad_norm": 9.943842887878418,
1661
+ "learning_rate": 1.8715714205910286e-06,
1662
+ "loss": 1.2936,
1663
+ "step": 2300
1664
+ },
1665
+ {
1666
+ "epoch": 0.0645219856571257,
1667
+ "grad_norm": 10.660123825073242,
1668
+ "learning_rate": 1.87101279258142e-06,
1669
+ "loss": 1.3319,
1670
+ "step": 2310
1671
+ },
1672
+ {
1673
+ "epoch": 0.06480130161235136,
1674
+ "grad_norm": 11.023526191711426,
1675
+ "learning_rate": 1.8704541645718115e-06,
1676
+ "loss": 1.3441,
1677
+ "step": 2320
1678
+ },
1679
+ {
1680
+ "epoch": 0.065080617567577,
1681
+ "grad_norm": 11.04121208190918,
1682
+ "learning_rate": 1.869895536562203e-06,
1683
+ "loss": 1.3157,
1684
+ "step": 2330
1685
+ },
1686
+ {
1687
+ "epoch": 0.06535993352280266,
1688
+ "grad_norm": 10.915820121765137,
1689
+ "learning_rate": 1.8693369085525946e-06,
1690
+ "loss": 1.2891,
1691
+ "step": 2340
1692
+ },
1693
+ {
1694
+ "epoch": 0.06563924947802831,
1695
+ "grad_norm": 11.1669282913208,
1696
+ "learning_rate": 1.8687782805429864e-06,
1697
+ "loss": 1.3301,
1698
+ "step": 2350
1699
+ },
1700
+ {
1701
+ "epoch": 0.06591856543325396,
1702
+ "grad_norm": 13.473467826843262,
1703
+ "learning_rate": 1.868219652533378e-06,
1704
+ "loss": 1.3412,
1705
+ "step": 2360
1706
+ },
1707
+ {
1708
+ "epoch": 0.06619788138847961,
1709
+ "grad_norm": 9.66751480102539,
1710
+ "learning_rate": 1.8676610245237696e-06,
1711
+ "loss": 1.4053,
1712
+ "step": 2370
1713
+ },
1714
+ {
1715
+ "epoch": 0.06647719734370526,
1716
+ "grad_norm": 10.621736526489258,
1717
+ "learning_rate": 1.8671023965141612e-06,
1718
+ "loss": 1.301,
1719
+ "step": 2380
1720
+ },
1721
+ {
1722
+ "epoch": 0.06675651329893093,
1723
+ "grad_norm": 12.115357398986816,
1724
+ "learning_rate": 1.8665437685045527e-06,
1725
+ "loss": 1.3193,
1726
+ "step": 2390
1727
+ },
1728
+ {
1729
+ "epoch": 0.06703582925415658,
1730
+ "grad_norm": 10.837126731872559,
1731
+ "learning_rate": 1.8659851404949443e-06,
1732
+ "loss": 1.2737,
1733
+ "step": 2400
1734
+ },
1735
+ {
1736
+ "epoch": 0.06731514520938223,
1737
+ "grad_norm": 11.175081253051758,
1738
+ "learning_rate": 1.865426512485336e-06,
1739
+ "loss": 1.3254,
1740
+ "step": 2410
1741
+ },
1742
+ {
1743
+ "epoch": 0.06759446116460788,
1744
+ "grad_norm": 11.028107643127441,
1745
+ "learning_rate": 1.8648678844757275e-06,
1746
+ "loss": 1.3037,
1747
+ "step": 2420
1748
+ },
1749
+ {
1750
+ "epoch": 0.06787377711983353,
1751
+ "grad_norm": 11.444878578186035,
1752
+ "learning_rate": 1.864309256466119e-06,
1753
+ "loss": 1.3237,
1754
+ "step": 2430
1755
+ },
1756
+ {
1757
+ "epoch": 0.06815309307505918,
1758
+ "grad_norm": 10.279289245605469,
1759
+ "learning_rate": 1.8637506284565108e-06,
1760
+ "loss": 1.2836,
1761
+ "step": 2440
1762
+ },
1763
+ {
1764
+ "epoch": 0.06843240903028483,
1765
+ "grad_norm": 10.37401008605957,
1766
+ "learning_rate": 1.8631920004469024e-06,
1767
+ "loss": 1.3329,
1768
+ "step": 2450
1769
+ },
1770
+ {
1771
+ "epoch": 0.06871172498551048,
1772
+ "grad_norm": 9.833236694335938,
1773
+ "learning_rate": 1.862633372437294e-06,
1774
+ "loss": 1.3125,
1775
+ "step": 2460
1776
+ },
1777
+ {
1778
+ "epoch": 0.06899104094073613,
1779
+ "grad_norm": 11.059619903564453,
1780
+ "learning_rate": 1.8620747444276854e-06,
1781
+ "loss": 1.2746,
1782
+ "step": 2470
1783
+ },
1784
+ {
1785
+ "epoch": 0.0692703568959618,
1786
+ "grad_norm": 10.897518157958984,
1787
+ "learning_rate": 1.8615161164180771e-06,
1788
+ "loss": 1.2552,
1789
+ "step": 2480
1790
+ },
1791
+ {
1792
+ "epoch": 0.06954967285118745,
1793
+ "grad_norm": 12.665666580200195,
1794
+ "learning_rate": 1.8609574884084687e-06,
1795
+ "loss": 1.3093,
1796
+ "step": 2490
1797
+ },
1798
+ {
1799
+ "epoch": 0.0698289888064131,
1800
+ "grad_norm": 10.878984451293945,
1801
+ "learning_rate": 1.8603988603988603e-06,
1802
+ "loss": 1.291,
1803
+ "step": 2500
1804
+ },
1805
+ {
1806
+ "epoch": 0.06996864678402592,
1807
+ "eval_complexity_accuracy": 0.0,
1808
+ "eval_loss": 1.3446284532546997,
1809
+ "eval_runtime": 33.87,
1810
+ "eval_samples_per_second": 14.762,
1811
+ "eval_steps_per_second": 1.86,
1812
+ "step": 2505
1813
+ },
1814
+ {
1815
+ "epoch": 0.07010830476163875,
1816
+ "grad_norm": 11.848414421081543,
1817
+ "learning_rate": 1.8598402323892519e-06,
1818
+ "loss": 1.3266,
1819
+ "step": 2510
1820
+ },
1821
+ {
1822
+ "epoch": 0.0703876207168644,
1823
+ "grad_norm": 11.258633613586426,
1824
+ "learning_rate": 1.8592816043796435e-06,
1825
+ "loss": 1.2747,
1826
+ "step": 2520
1827
+ },
1828
+ {
1829
+ "epoch": 0.07066693667209005,
1830
+ "grad_norm": 12.249394416809082,
1831
+ "learning_rate": 1.8587229763700352e-06,
1832
+ "loss": 1.2717,
1833
+ "step": 2530
1834
+ },
1835
+ {
1836
+ "epoch": 0.0709462526273157,
1837
+ "grad_norm": 11.384076118469238,
1838
+ "learning_rate": 1.8581643483604268e-06,
1839
+ "loss": 1.3339,
1840
+ "step": 2540
1841
+ },
1842
+ {
1843
+ "epoch": 0.07122556858254135,
1844
+ "grad_norm": 11.27473258972168,
1845
+ "learning_rate": 1.8576057203508182e-06,
1846
+ "loss": 1.2737,
1847
+ "step": 2550
1848
+ },
1849
+ {
1850
+ "epoch": 0.071504884537767,
1851
+ "grad_norm": 11.083890914916992,
1852
+ "learning_rate": 1.8570470923412098e-06,
1853
+ "loss": 1.3492,
1854
+ "step": 2560
1855
+ },
1856
+ {
1857
+ "epoch": 0.07178420049299267,
1858
+ "grad_norm": 12.925027847290039,
1859
+ "learning_rate": 1.8564884643316015e-06,
1860
+ "loss": 1.3546,
1861
+ "step": 2570
1862
+ },
1863
+ {
1864
+ "epoch": 0.07206351644821832,
1865
+ "grad_norm": 11.500834465026855,
1866
+ "learning_rate": 1.8559298363219931e-06,
1867
+ "loss": 1.2662,
1868
+ "step": 2580
1869
+ },
1870
+ {
1871
+ "epoch": 0.07234283240344397,
1872
+ "grad_norm": 10.518533706665039,
1873
+ "learning_rate": 1.8553712083123847e-06,
1874
+ "loss": 1.2815,
1875
+ "step": 2590
1876
+ },
1877
+ {
1878
+ "epoch": 0.07262214835866962,
1879
+ "grad_norm": 12.124496459960938,
1880
+ "learning_rate": 1.8548125803027763e-06,
1881
+ "loss": 1.312,
1882
+ "step": 2600
1883
+ },
1884
+ {
1885
+ "epoch": 0.07290146431389527,
1886
+ "grad_norm": 10.693092346191406,
1887
+ "learning_rate": 1.8542539522931679e-06,
1888
+ "loss": 1.3071,
1889
+ "step": 2610
1890
+ },
1891
+ {
1892
+ "epoch": 0.07318078026912092,
1893
+ "grad_norm": 9.837552070617676,
1894
+ "learning_rate": 1.8536953242835596e-06,
1895
+ "loss": 1.2985,
1896
+ "step": 2620
1897
+ },
1898
+ {
1899
+ "epoch": 0.07346009622434657,
1900
+ "grad_norm": 11.058207511901855,
1901
+ "learning_rate": 1.8531366962739512e-06,
1902
+ "loss": 1.3406,
1903
+ "step": 2630
1904
+ },
1905
+ {
1906
+ "epoch": 0.07373941217957222,
1907
+ "grad_norm": 10.664831161499023,
1908
+ "learning_rate": 1.8525780682643426e-06,
1909
+ "loss": 1.3086,
1910
+ "step": 2640
1911
+ },
1912
+ {
1913
+ "epoch": 0.07401872813479787,
1914
+ "grad_norm": 11.020722389221191,
1915
+ "learning_rate": 1.8520194402547342e-06,
1916
+ "loss": 1.2951,
1917
+ "step": 2650
1918
+ },
1919
+ {
1920
+ "epoch": 0.07429804409002354,
1921
+ "grad_norm": 11.75809383392334,
1922
+ "learning_rate": 1.851460812245126e-06,
1923
+ "loss": 1.2933,
1924
+ "step": 2660
1925
+ },
1926
+ {
1927
+ "epoch": 0.07457736004524919,
1928
+ "grad_norm": 11.260404586791992,
1929
+ "learning_rate": 1.8509021842355175e-06,
1930
+ "loss": 1.3669,
1931
+ "step": 2670
1932
+ },
1933
+ {
1934
+ "epoch": 0.07485667600047484,
1935
+ "grad_norm": 11.38213062286377,
1936
+ "learning_rate": 1.8503435562259091e-06,
1937
+ "loss": 1.3048,
1938
+ "step": 2680
1939
+ },
1940
+ {
1941
+ "epoch": 0.07513599195570049,
1942
+ "grad_norm": 10.554960250854492,
1943
+ "learning_rate": 1.8497849282163007e-06,
1944
+ "loss": 1.3218,
1945
+ "step": 2690
1946
+ },
1947
+ {
1948
+ "epoch": 0.07541530791092614,
1949
+ "grad_norm": 13.747076034545898,
1950
+ "learning_rate": 1.8492263002066923e-06,
1951
+ "loss": 1.3201,
1952
+ "step": 2700
1953
+ },
1954
+ {
1955
+ "epoch": 0.07569462386615179,
1956
+ "grad_norm": 10.723194122314453,
1957
+ "learning_rate": 1.848667672197084e-06,
1958
+ "loss": 1.254,
1959
+ "step": 2710
1960
+ },
1961
+ {
1962
+ "epoch": 0.07597393982137744,
1963
+ "grad_norm": 11.047980308532715,
1964
+ "learning_rate": 1.8481090441874754e-06,
1965
+ "loss": 1.3657,
1966
+ "step": 2720
1967
+ },
1968
+ {
1969
+ "epoch": 0.0762532557766031,
1970
+ "grad_norm": 10.199549674987793,
1971
+ "learning_rate": 1.847550416177867e-06,
1972
+ "loss": 1.3775,
1973
+ "step": 2730
1974
+ },
1975
+ {
1976
+ "epoch": 0.07653257173182876,
1977
+ "grad_norm": 9.60568904876709,
1978
+ "learning_rate": 1.8469917881682586e-06,
1979
+ "loss": 1.3047,
1980
+ "step": 2740
1981
+ },
1982
+ {
1983
+ "epoch": 0.07681188768705441,
1984
+ "grad_norm": 10.989706993103027,
1985
+ "learning_rate": 1.8464331601586501e-06,
1986
+ "loss": 1.3228,
1987
+ "step": 2750
1988
+ },
1989
+ {
1990
+ "epoch": 0.07709120364228006,
1991
+ "grad_norm": 12.18575668334961,
1992
+ "learning_rate": 1.845874532149042e-06,
1993
+ "loss": 1.3358,
1994
+ "step": 2760
1995
+ },
1996
+ {
1997
+ "epoch": 0.07737051959750571,
1998
+ "grad_norm": 11.24397087097168,
1999
+ "learning_rate": 1.8453159041394335e-06,
2000
+ "loss": 1.3065,
2001
+ "step": 2770
2002
+ },
2003
+ {
2004
+ "epoch": 0.07764983555273136,
2005
+ "grad_norm": 10.88451862335205,
2006
+ "learning_rate": 1.844757276129825e-06,
2007
+ "loss": 1.3278,
2008
+ "step": 2780
2009
+ },
2010
+ {
2011
+ "epoch": 0.07792915150795701,
2012
+ "grad_norm": 11.730112075805664,
2013
+ "learning_rate": 1.8441986481202167e-06,
2014
+ "loss": 1.2865,
2015
+ "step": 2790
2016
+ },
2017
+ {
2018
+ "epoch": 0.07820846746318266,
2019
+ "grad_norm": 11.872193336486816,
2020
+ "learning_rate": 1.8436400201106082e-06,
2021
+ "loss": 1.2728,
2022
+ "step": 2800
2023
+ },
2024
+ {
2025
+ "epoch": 0.07848778341840831,
2026
+ "grad_norm": 13.440178871154785,
2027
+ "learning_rate": 1.8430813921009998e-06,
2028
+ "loss": 1.3169,
2029
+ "step": 2810
2030
+ },
2031
+ {
2032
+ "epoch": 0.07876709937363396,
2033
+ "grad_norm": 10.802016258239746,
2034
+ "learning_rate": 1.8425227640913914e-06,
2035
+ "loss": 1.2491,
2036
+ "step": 2820
2037
+ },
2038
+ {
2039
+ "epoch": 0.07904641532885963,
2040
+ "grad_norm": 11.56015396118164,
2041
+ "learning_rate": 1.841964136081783e-06,
2042
+ "loss": 1.313,
2043
+ "step": 2830
2044
+ },
2045
+ {
2046
+ "epoch": 0.07932573128408528,
2047
+ "grad_norm": 11.145283699035645,
2048
+ "learning_rate": 1.8414055080721745e-06,
2049
+ "loss": 1.293,
2050
+ "step": 2840
2051
+ },
2052
+ {
2053
+ "epoch": 0.07960504723931093,
2054
+ "grad_norm": 10.63716983795166,
2055
+ "learning_rate": 1.8408468800625663e-06,
2056
+ "loss": 1.3308,
2057
+ "step": 2850
2058
+ },
2059
+ {
2060
+ "epoch": 0.07988436319453658,
2061
+ "grad_norm": 11.486001968383789,
2062
+ "learning_rate": 1.840288252052958e-06,
2063
+ "loss": 1.3047,
2064
+ "step": 2860
2065
+ },
2066
+ {
2067
+ "epoch": 0.08016367914976223,
2068
+ "grad_norm": 10.340072631835938,
2069
+ "learning_rate": 1.8397296240433495e-06,
2070
+ "loss": 1.2763,
2071
+ "step": 2870
2072
+ },
2073
+ {
2074
+ "epoch": 0.08044299510498788,
2075
+ "grad_norm": 11.177892684936523,
2076
+ "learning_rate": 1.839170996033741e-06,
2077
+ "loss": 1.3218,
2078
+ "step": 2880
2079
+ },
2080
+ {
2081
+ "epoch": 0.08072231106021353,
2082
+ "grad_norm": 11.822985649108887,
2083
+ "learning_rate": 1.8386123680241326e-06,
2084
+ "loss": 1.3039,
2085
+ "step": 2890
2086
+ },
2087
+ {
2088
+ "epoch": 0.08100162701543918,
2089
+ "grad_norm": 13.245485305786133,
2090
+ "learning_rate": 1.8380537400145242e-06,
2091
+ "loss": 1.281,
2092
+ "step": 2900
2093
+ },
2094
+ {
2095
+ "epoch": 0.08128094297066484,
2096
+ "grad_norm": 11.78788948059082,
2097
+ "learning_rate": 1.8374951120049158e-06,
2098
+ "loss": 1.2176,
2099
+ "step": 2910
2100
+ },
2101
+ {
2102
+ "epoch": 0.0815602589258905,
2103
+ "grad_norm": 11.278291702270508,
2104
+ "learning_rate": 1.8369364839953074e-06,
2105
+ "loss": 1.2972,
2106
+ "step": 2920
2107
+ },
2108
+ {
2109
+ "epoch": 0.08183957488111615,
2110
+ "grad_norm": 11.119109153747559,
2111
+ "learning_rate": 1.836377855985699e-06,
2112
+ "loss": 1.2689,
2113
+ "step": 2930
2114
+ },
2115
+ {
2116
+ "epoch": 0.0821188908363418,
2117
+ "grad_norm": 11.489620208740234,
2118
+ "learning_rate": 1.8358192279760907e-06,
2119
+ "loss": 1.3288,
2120
+ "step": 2940
2121
+ },
2122
+ {
2123
+ "epoch": 0.08239820679156745,
2124
+ "grad_norm": 9.556941032409668,
2125
+ "learning_rate": 1.8352605999664823e-06,
2126
+ "loss": 1.3035,
2127
+ "step": 2950
2128
+ },
2129
+ {
2130
+ "epoch": 0.0826775227467931,
2131
+ "grad_norm": 11.121188163757324,
2132
+ "learning_rate": 1.8347019719568739e-06,
2133
+ "loss": 1.2944,
2134
+ "step": 2960
2135
+ },
2136
+ {
2137
+ "epoch": 0.08295683870201875,
2138
+ "grad_norm": 12.729305267333984,
2139
+ "learning_rate": 1.8341433439472653e-06,
2140
+ "loss": 1.3125,
2141
+ "step": 2970
2142
+ },
2143
+ {
2144
+ "epoch": 0.0832361546572444,
2145
+ "grad_norm": 11.878944396972656,
2146
+ "learning_rate": 1.833584715937657e-06,
2147
+ "loss": 1.2959,
2148
+ "step": 2980
2149
+ },
2150
+ {
2151
+ "epoch": 0.08351547061247006,
2152
+ "grad_norm": 11.5958833694458,
2153
+ "learning_rate": 1.8330260879280486e-06,
2154
+ "loss": 1.3453,
2155
+ "step": 2990
2156
+ },
2157
+ {
2158
+ "epoch": 0.08379478656769572,
2159
+ "grad_norm": 12.451947212219238,
2160
+ "learning_rate": 1.8324674599184402e-06,
2161
+ "loss": 1.2819,
2162
+ "step": 3000
2163
+ },
2164
+ {
2165
+ "epoch": 0.0839623761408311,
2166
+ "eval_complexity_accuracy": 0.0,
2167
+ "eval_loss": 1.3420253992080688,
2168
+ "eval_runtime": 33.8789,
2169
+ "eval_samples_per_second": 14.758,
2170
+ "eval_steps_per_second": 1.86,
2171
+ "step": 3006
2172
+ },
2173
+ {
2174
+ "epoch": 0.08407410252292137,
2175
+ "grad_norm": 12.807692527770996,
2176
+ "learning_rate": 1.8319088319088318e-06,
2177
+ "loss": 1.3238,
2178
+ "step": 3010
2179
+ },
2180
+ {
2181
+ "epoch": 0.08435341847814702,
2182
+ "grad_norm": 10.1639404296875,
2183
+ "learning_rate": 1.8313502038992234e-06,
2184
+ "loss": 1.2694,
2185
+ "step": 3020
2186
+ },
2187
+ {
2188
+ "epoch": 0.08463273443337267,
2189
+ "grad_norm": 11.123089790344238,
2190
+ "learning_rate": 1.8307915758896151e-06,
2191
+ "loss": 1.2404,
2192
+ "step": 3030
2193
+ },
2194
+ {
2195
+ "epoch": 0.08491205038859832,
2196
+ "grad_norm": 11.976441383361816,
2197
+ "learning_rate": 1.8302329478800067e-06,
2198
+ "loss": 1.3319,
2199
+ "step": 3040
2200
+ },
2201
+ {
2202
+ "epoch": 0.08519136634382397,
2203
+ "grad_norm": 11.400232315063477,
2204
+ "learning_rate": 1.829674319870398e-06,
2205
+ "loss": 1.2899,
2206
+ "step": 3050
2207
+ },
2208
+ {
2209
+ "epoch": 0.08547068229904962,
2210
+ "grad_norm": 9.668082237243652,
2211
+ "learning_rate": 1.8291156918607897e-06,
2212
+ "loss": 1.3343,
2213
+ "step": 3060
2214
+ },
2215
+ {
2216
+ "epoch": 0.08574999825427528,
2217
+ "grad_norm": 9.114018440246582,
2218
+ "learning_rate": 1.8285570638511814e-06,
2219
+ "loss": 1.2822,
2220
+ "step": 3070
2221
+ },
2222
+ {
2223
+ "epoch": 0.08602931420950093,
2224
+ "grad_norm": 11.763662338256836,
2225
+ "learning_rate": 1.827998435841573e-06,
2226
+ "loss": 1.303,
2227
+ "step": 3080
2228
+ },
2229
+ {
2230
+ "epoch": 0.08630863016472659,
2231
+ "grad_norm": 12.478301048278809,
2232
+ "learning_rate": 1.8274398078319646e-06,
2233
+ "loss": 1.3204,
2234
+ "step": 3090
2235
+ },
2236
+ {
2237
+ "epoch": 0.08658794611995224,
2238
+ "grad_norm": 13.733002662658691,
2239
+ "learning_rate": 1.8268811798223562e-06,
2240
+ "loss": 1.2763,
2241
+ "step": 3100
2242
+ },
2243
+ {
2244
+ "epoch": 0.08686726207517789,
2245
+ "grad_norm": 11.211143493652344,
2246
+ "learning_rate": 1.8263225518127478e-06,
2247
+ "loss": 1.3059,
2248
+ "step": 3110
2249
+ },
2250
+ {
2251
+ "epoch": 0.08714657803040354,
2252
+ "grad_norm": 10.02708911895752,
2253
+ "learning_rate": 1.8257639238031395e-06,
2254
+ "loss": 1.2576,
2255
+ "step": 3120
2256
+ },
2257
+ {
2258
+ "epoch": 0.0874258939856292,
2259
+ "grad_norm": 10.271854400634766,
2260
+ "learning_rate": 1.8252052957935311e-06,
2261
+ "loss": 1.3526,
2262
+ "step": 3130
2263
+ },
2264
+ {
2265
+ "epoch": 0.08770520994085484,
2266
+ "grad_norm": 10.915563583374023,
2267
+ "learning_rate": 1.8246466677839225e-06,
2268
+ "loss": 1.2951,
2269
+ "step": 3140
2270
+ },
2271
+ {
2272
+ "epoch": 0.0879845258960805,
2273
+ "grad_norm": 12.06615161895752,
2274
+ "learning_rate": 1.824088039774314e-06,
2275
+ "loss": 1.2678,
2276
+ "step": 3150
2277
+ },
2278
+ {
2279
+ "epoch": 0.08826384185130615,
2280
+ "grad_norm": 11.441333770751953,
2281
+ "learning_rate": 1.8235294117647058e-06,
2282
+ "loss": 1.3605,
2283
+ "step": 3160
2284
+ },
2285
+ {
2286
+ "epoch": 0.0885431578065318,
2287
+ "grad_norm": 11.135004997253418,
2288
+ "learning_rate": 1.8229707837550974e-06,
2289
+ "loss": 1.3638,
2290
+ "step": 3170
2291
+ },
2292
+ {
2293
+ "epoch": 0.08882247376175746,
2294
+ "grad_norm": 10.272753715515137,
2295
+ "learning_rate": 1.822412155745489e-06,
2296
+ "loss": 1.3748,
2297
+ "step": 3180
2298
+ },
2299
+ {
2300
+ "epoch": 0.08910178971698311,
2301
+ "grad_norm": 10.645270347595215,
2302
+ "learning_rate": 1.8218535277358806e-06,
2303
+ "loss": 1.3288,
2304
+ "step": 3190
2305
+ },
2306
+ {
2307
+ "epoch": 0.08938110567220876,
2308
+ "grad_norm": 11.341635704040527,
2309
+ "learning_rate": 1.8212948997262722e-06,
2310
+ "loss": 1.3295,
2311
+ "step": 3200
2312
+ },
2313
+ {
2314
+ "epoch": 0.08966042162743441,
2315
+ "grad_norm": 11.285005569458008,
2316
+ "learning_rate": 1.820736271716664e-06,
2317
+ "loss": 1.3094,
2318
+ "step": 3210
2319
+ },
2320
+ {
2321
+ "epoch": 0.08993973758266006,
2322
+ "grad_norm": 11.092018127441406,
2323
+ "learning_rate": 1.8201776437070553e-06,
2324
+ "loss": 1.2616,
2325
+ "step": 3220
2326
+ },
2327
+ {
2328
+ "epoch": 0.09021905353788572,
2329
+ "grad_norm": 11.833807945251465,
2330
+ "learning_rate": 1.8196190156974469e-06,
2331
+ "loss": 1.2915,
2332
+ "step": 3230
2333
+ },
2334
+ {
2335
+ "epoch": 0.09049836949311137,
2336
+ "grad_norm": 11.941621780395508,
2337
+ "learning_rate": 1.8190603876878385e-06,
2338
+ "loss": 1.2984,
2339
+ "step": 3240
2340
+ },
2341
+ {
2342
+ "epoch": 0.09077768544833702,
2343
+ "grad_norm": 11.135613441467285,
2344
+ "learning_rate": 1.8185017596782303e-06,
2345
+ "loss": 1.2638,
2346
+ "step": 3250
2347
+ },
2348
+ {
2349
+ "epoch": 0.09105700140356268,
2350
+ "grad_norm": 11.356342315673828,
2351
+ "learning_rate": 1.8179431316686218e-06,
2352
+ "loss": 1.3199,
2353
+ "step": 3260
2354
+ },
2355
+ {
2356
+ "epoch": 0.09133631735878833,
2357
+ "grad_norm": 11.519587516784668,
2358
+ "learning_rate": 1.8173845036590134e-06,
2359
+ "loss": 1.288,
2360
+ "step": 3270
2361
+ },
2362
+ {
2363
+ "epoch": 0.09161563331401398,
2364
+ "grad_norm": 11.335143089294434,
2365
+ "learning_rate": 1.816825875649405e-06,
2366
+ "loss": 1.2472,
2367
+ "step": 3280
2368
+ },
2369
+ {
2370
+ "epoch": 0.09189494926923963,
2371
+ "grad_norm": 12.195459365844727,
2372
+ "learning_rate": 1.8162672476397966e-06,
2373
+ "loss": 1.2992,
2374
+ "step": 3290
2375
+ },
2376
+ {
2377
+ "epoch": 0.09217426522446528,
2378
+ "grad_norm": 12.05800724029541,
2379
+ "learning_rate": 1.8157086196301881e-06,
2380
+ "loss": 1.3177,
2381
+ "step": 3300
2382
+ },
2383
+ {
2384
+ "epoch": 0.09245358117969094,
2385
+ "grad_norm": 10.606769561767578,
2386
+ "learning_rate": 1.8151499916205797e-06,
2387
+ "loss": 1.2693,
2388
+ "step": 3310
2389
+ },
2390
+ {
2391
+ "epoch": 0.09273289713491659,
2392
+ "grad_norm": 9.679693222045898,
2393
+ "learning_rate": 1.8145913636109713e-06,
2394
+ "loss": 1.2985,
2395
+ "step": 3320
2396
+ },
2397
+ {
2398
+ "epoch": 0.09301221309014224,
2399
+ "grad_norm": 10.03492546081543,
2400
+ "learning_rate": 1.8140327356013629e-06,
2401
+ "loss": 1.2724,
2402
+ "step": 3330
2403
+ },
2404
+ {
2405
+ "epoch": 0.09329152904536789,
2406
+ "grad_norm": 10.985275268554688,
2407
+ "learning_rate": 1.8134741075917547e-06,
2408
+ "loss": 1.2551,
2409
+ "step": 3340
2410
+ },
2411
+ {
2412
+ "epoch": 0.09357084500059355,
2413
+ "grad_norm": 11.815603256225586,
2414
+ "learning_rate": 1.8129154795821462e-06,
2415
+ "loss": 1.3062,
2416
+ "step": 3350
2417
+ },
2418
+ {
2419
+ "epoch": 0.0938501609558192,
2420
+ "grad_norm": 10.699769020080566,
2421
+ "learning_rate": 1.8123568515725378e-06,
2422
+ "loss": 1.2841,
2423
+ "step": 3360
2424
+ },
2425
+ {
2426
+ "epoch": 0.09412947691104485,
2427
+ "grad_norm": 12.014618873596191,
2428
+ "learning_rate": 1.8117982235629294e-06,
2429
+ "loss": 1.3132,
2430
+ "step": 3370
2431
+ },
2432
+ {
2433
+ "epoch": 0.0944087928662705,
2434
+ "grad_norm": 11.724242210388184,
2435
+ "learning_rate": 1.811239595553321e-06,
2436
+ "loss": 1.289,
2437
+ "step": 3380
2438
+ },
2439
+ {
2440
+ "epoch": 0.09468810882149616,
2441
+ "grad_norm": 12.180294036865234,
2442
+ "learning_rate": 1.8106809675437125e-06,
2443
+ "loss": 1.3496,
2444
+ "step": 3390
2445
+ },
2446
+ {
2447
+ "epoch": 0.0949674247767218,
2448
+ "grad_norm": 10.988664627075195,
2449
+ "learning_rate": 1.8101223395341041e-06,
2450
+ "loss": 1.3244,
2451
+ "step": 3400
2452
+ },
2453
+ {
2454
+ "epoch": 0.09524674073194746,
2455
+ "grad_norm": 12.344855308532715,
2456
+ "learning_rate": 1.8095637115244957e-06,
2457
+ "loss": 1.2996,
2458
+ "step": 3410
2459
+ },
2460
+ {
2461
+ "epoch": 0.09552605668717311,
2462
+ "grad_norm": 10.685724258422852,
2463
+ "learning_rate": 1.8090050835148873e-06,
2464
+ "loss": 1.261,
2465
+ "step": 3420
2466
+ },
2467
+ {
2468
+ "epoch": 0.09580537264239876,
2469
+ "grad_norm": 12.516709327697754,
2470
+ "learning_rate": 1.808446455505279e-06,
2471
+ "loss": 1.2756,
2472
+ "step": 3430
2473
+ },
2474
+ {
2475
+ "epoch": 0.09608468859762442,
2476
+ "grad_norm": 11.27023983001709,
2477
+ "learning_rate": 1.8078878274956706e-06,
2478
+ "loss": 1.2935,
2479
+ "step": 3440
2480
+ },
2481
+ {
2482
+ "epoch": 0.09636400455285007,
2483
+ "grad_norm": 12.012152671813965,
2484
+ "learning_rate": 1.8073291994860622e-06,
2485
+ "loss": 1.317,
2486
+ "step": 3450
2487
+ },
2488
+ {
2489
+ "epoch": 0.09664332050807573,
2490
+ "grad_norm": 11.254688262939453,
2491
+ "learning_rate": 1.8067705714764538e-06,
2492
+ "loss": 1.3272,
2493
+ "step": 3460
2494
+ },
2495
+ {
2496
+ "epoch": 0.09692263646330138,
2497
+ "grad_norm": 12.010251998901367,
2498
+ "learning_rate": 1.8062119434668452e-06,
2499
+ "loss": 1.3732,
2500
+ "step": 3470
2501
+ },
2502
+ {
2503
+ "epoch": 0.09720195241852703,
2504
+ "grad_norm": 12.29020881652832,
2505
+ "learning_rate": 1.805653315457237e-06,
2506
+ "loss": 1.2978,
2507
+ "step": 3480
2508
+ },
2509
+ {
2510
+ "epoch": 0.09748126837375268,
2511
+ "grad_norm": 12.708207130432129,
2512
+ "learning_rate": 1.8050946874476285e-06,
2513
+ "loss": 1.3173,
2514
+ "step": 3490
2515
+ },
2516
+ {
2517
+ "epoch": 0.09776058432897833,
2518
+ "grad_norm": 11.069357872009277,
2519
+ "learning_rate": 1.80453605943802e-06,
2520
+ "loss": 1.3188,
2521
+ "step": 3500
2522
+ },
2523
+ {
2524
+ "epoch": 0.0979561054976363,
2525
+ "eval_complexity_accuracy": 0.0,
2526
+ "eval_loss": 1.3392640352249146,
2527
+ "eval_runtime": 34.0525,
2528
+ "eval_samples_per_second": 14.683,
2529
+ "eval_steps_per_second": 1.85,
2530
+ "step": 3507
2531
+ },
2532
+ {
2533
+ "epoch": 0.09803990028420398,
2534
+ "grad_norm": 13.221611976623535,
2535
+ "learning_rate": 1.8039774314284117e-06,
2536
+ "loss": 1.2449,
2537
+ "step": 3510
2538
+ },
2539
+ {
2540
+ "epoch": 0.09831921623942964,
2541
+ "grad_norm": 11.22923755645752,
2542
+ "learning_rate": 1.8034188034188035e-06,
2543
+ "loss": 1.3242,
2544
+ "step": 3520
2545
+ },
2546
+ {
2547
+ "epoch": 0.0985985321946553,
2548
+ "grad_norm": 10.731654167175293,
2549
+ "learning_rate": 1.802860175409195e-06,
2550
+ "loss": 1.363,
2551
+ "step": 3530
2552
+ },
2553
+ {
2554
+ "epoch": 0.09887784814988095,
2555
+ "grad_norm": 11.269989967346191,
2556
+ "learning_rate": 1.8023015473995866e-06,
2557
+ "loss": 1.2708,
2558
+ "step": 3540
2559
+ },
2560
+ {
2561
+ "epoch": 0.0991571641051066,
2562
+ "grad_norm": 10.26361083984375,
2563
+ "learning_rate": 1.801742919389978e-06,
2564
+ "loss": 1.3219,
2565
+ "step": 3550
2566
+ },
2567
+ {
2568
+ "epoch": 0.09943648006033225,
2569
+ "grad_norm": 10.341995239257812,
2570
+ "learning_rate": 1.8011842913803696e-06,
2571
+ "loss": 1.2953,
2572
+ "step": 3560
2573
+ },
2574
+ {
2575
+ "epoch": 0.0997157960155579,
2576
+ "grad_norm": 10.96583080291748,
2577
+ "learning_rate": 1.8006256633707613e-06,
2578
+ "loss": 1.3132,
2579
+ "step": 3570
2580
+ },
2581
+ {
2582
+ "epoch": 0.09999511197078355,
2583
+ "grad_norm": 11.878289222717285,
2584
+ "learning_rate": 1.800067035361153e-06,
2585
+ "loss": 1.3109,
2586
+ "step": 3580
2587
+ },
2588
+ {
2589
+ "epoch": 0.1002744279260092,
2590
+ "grad_norm": 9.536112785339355,
2591
+ "learning_rate": 1.7995084073515445e-06,
2592
+ "loss": 1.3468,
2593
+ "step": 3590
2594
+ },
2595
+ {
2596
+ "epoch": 0.10055374388123485,
2597
+ "grad_norm": 10.972228050231934,
2598
+ "learning_rate": 1.798949779341936e-06,
2599
+ "loss": 1.2877,
2600
+ "step": 3600
2601
+ },
2602
+ {
2603
+ "epoch": 0.10083305983646051,
2604
+ "grad_norm": 13.208352088928223,
2605
+ "learning_rate": 1.7983911513323279e-06,
2606
+ "loss": 1.3701,
2607
+ "step": 3610
2608
+ },
2609
+ {
2610
+ "epoch": 0.10111237579168617,
2611
+ "grad_norm": 11.069518089294434,
2612
+ "learning_rate": 1.7978325233227194e-06,
2613
+ "loss": 1.2269,
2614
+ "step": 3620
2615
+ },
2616
+ {
2617
+ "epoch": 0.10139169174691182,
2618
+ "grad_norm": 11.275925636291504,
2619
+ "learning_rate": 1.797273895313111e-06,
2620
+ "loss": 1.3039,
2621
+ "step": 3630
2622
+ },
2623
+ {
2624
+ "epoch": 0.10167100770213747,
2625
+ "grad_norm": 9.614294052124023,
2626
+ "learning_rate": 1.7967152673035024e-06,
2627
+ "loss": 1.2987,
2628
+ "step": 3640
2629
+ },
2630
+ {
2631
+ "epoch": 0.10195032365736312,
2632
+ "grad_norm": 11.417302131652832,
2633
+ "learning_rate": 1.796156639293894e-06,
2634
+ "loss": 1.3161,
2635
+ "step": 3650
2636
+ },
2637
+ {
2638
+ "epoch": 0.10222963961258877,
2639
+ "grad_norm": 13.481733322143555,
2640
+ "learning_rate": 1.7955980112842857e-06,
2641
+ "loss": 1.277,
2642
+ "step": 3660
2643
+ },
2644
+ {
2645
+ "epoch": 0.10250895556781442,
2646
+ "grad_norm": 12.135738372802734,
2647
+ "learning_rate": 1.7950393832746773e-06,
2648
+ "loss": 1.3031,
2649
+ "step": 3670
2650
+ },
2651
+ {
2652
+ "epoch": 0.10278827152304007,
2653
+ "grad_norm": 11.81387710571289,
2654
+ "learning_rate": 1.794480755265069e-06,
2655
+ "loss": 1.3195,
2656
+ "step": 3680
2657
+ },
2658
+ {
2659
+ "epoch": 0.10306758747826572,
2660
+ "grad_norm": 12.341436386108398,
2661
+ "learning_rate": 1.7939221272554605e-06,
2662
+ "loss": 1.344,
2663
+ "step": 3690
2664
+ },
2665
+ {
2666
+ "epoch": 0.10334690343349139,
2667
+ "grad_norm": 11.813607215881348,
2668
+ "learning_rate": 1.7933634992458523e-06,
2669
+ "loss": 1.2456,
2670
+ "step": 3700
2671
+ },
2672
+ {
2673
+ "epoch": 0.10362621938871704,
2674
+ "grad_norm": 10.025679588317871,
2675
+ "learning_rate": 1.7928048712362438e-06,
2676
+ "loss": 1.3462,
2677
+ "step": 3710
2678
+ },
2679
+ {
2680
+ "epoch": 0.10390553534394269,
2681
+ "grad_norm": 11.027300834655762,
2682
+ "learning_rate": 1.7922462432266352e-06,
2683
+ "loss": 1.248,
2684
+ "step": 3720
2685
+ },
2686
+ {
2687
+ "epoch": 0.10418485129916834,
2688
+ "grad_norm": 10.462127685546875,
2689
+ "learning_rate": 1.7916876152170268e-06,
2690
+ "loss": 1.2827,
2691
+ "step": 3730
2692
+ },
2693
+ {
2694
+ "epoch": 0.10446416725439399,
2695
+ "grad_norm": 11.07565689086914,
2696
+ "learning_rate": 1.7911289872074184e-06,
2697
+ "loss": 1.3317,
2698
+ "step": 3740
2699
+ },
2700
+ {
2701
+ "epoch": 0.10474348320961964,
2702
+ "grad_norm": 10.2979097366333,
2703
+ "learning_rate": 1.7905703591978101e-06,
2704
+ "loss": 1.2484,
2705
+ "step": 3750
2706
+ },
2707
+ {
2708
+ "epoch": 0.10502279916484529,
2709
+ "grad_norm": 11.009065628051758,
2710
+ "learning_rate": 1.7900117311882017e-06,
2711
+ "loss": 1.2882,
2712
+ "step": 3760
2713
+ },
2714
+ {
2715
+ "epoch": 0.10530211512007094,
2716
+ "grad_norm": 11.308358192443848,
2717
+ "learning_rate": 1.7894531031785933e-06,
2718
+ "loss": 1.3095,
2719
+ "step": 3770
2720
+ },
2721
+ {
2722
+ "epoch": 0.10558143107529659,
2723
+ "grad_norm": 11.058066368103027,
2724
+ "learning_rate": 1.7888944751689849e-06,
2725
+ "loss": 1.3372,
2726
+ "step": 3780
2727
+ },
2728
+ {
2729
+ "epoch": 0.10586074703052226,
2730
+ "grad_norm": 13.103239059448242,
2731
+ "learning_rate": 1.7883358471593767e-06,
2732
+ "loss": 1.3124,
2733
+ "step": 3790
2734
+ },
2735
+ {
2736
+ "epoch": 0.10614006298574791,
2737
+ "grad_norm": 10.5227689743042,
2738
+ "learning_rate": 1.787777219149768e-06,
2739
+ "loss": 1.2608,
2740
+ "step": 3800
2741
+ },
2742
+ {
2743
+ "epoch": 0.10641937894097356,
2744
+ "grad_norm": 10.993918418884277,
2745
+ "learning_rate": 1.7872185911401596e-06,
2746
+ "loss": 1.259,
2747
+ "step": 3810
2748
+ },
2749
+ {
2750
+ "epoch": 0.10669869489619921,
2751
+ "grad_norm": 11.612725257873535,
2752
+ "learning_rate": 1.7866599631305512e-06,
2753
+ "loss": 1.3046,
2754
+ "step": 3820
2755
+ },
2756
+ {
2757
+ "epoch": 0.10697801085142486,
2758
+ "grad_norm": 11.200050354003906,
2759
+ "learning_rate": 1.7861013351209428e-06,
2760
+ "loss": 1.3439,
2761
+ "step": 3830
2762
+ },
2763
+ {
2764
+ "epoch": 0.10725732680665051,
2765
+ "grad_norm": 12.19509220123291,
2766
+ "learning_rate": 1.7855427071113346e-06,
2767
+ "loss": 1.3107,
2768
+ "step": 3840
2769
+ },
2770
+ {
2771
+ "epoch": 0.10753664276187616,
2772
+ "grad_norm": 11.498516082763672,
2773
+ "learning_rate": 1.7849840791017261e-06,
2774
+ "loss": 1.3341,
2775
+ "step": 3850
2776
+ },
2777
+ {
2778
+ "epoch": 0.10781595871710181,
2779
+ "grad_norm": 12.180155754089355,
2780
+ "learning_rate": 1.7844254510921177e-06,
2781
+ "loss": 1.2753,
2782
+ "step": 3860
2783
+ },
2784
+ {
2785
+ "epoch": 0.10809527467232748,
2786
+ "grad_norm": 10.637706756591797,
2787
+ "learning_rate": 1.7838668230825093e-06,
2788
+ "loss": 1.2221,
2789
+ "step": 3870
2790
+ },
2791
+ {
2792
+ "epoch": 0.10837459062755313,
2793
+ "grad_norm": 11.029936790466309,
2794
+ "learning_rate": 1.783308195072901e-06,
2795
+ "loss": 1.3397,
2796
+ "step": 3880
2797
+ },
2798
+ {
2799
+ "epoch": 0.10865390658277878,
2800
+ "grad_norm": 9.736263275146484,
2801
+ "learning_rate": 1.7827495670632924e-06,
2802
+ "loss": 1.339,
2803
+ "step": 3890
2804
+ },
2805
+ {
2806
+ "epoch": 0.10893322253800443,
2807
+ "grad_norm": 11.16982364654541,
2808
+ "learning_rate": 1.782190939053684e-06,
2809
+ "loss": 1.3309,
2810
+ "step": 3900
2811
+ },
2812
+ {
2813
+ "epoch": 0.10921253849323008,
2814
+ "grad_norm": 10.91207218170166,
2815
+ "learning_rate": 1.7816323110440756e-06,
2816
+ "loss": 1.2543,
2817
+ "step": 3910
2818
+ },
2819
+ {
2820
+ "epoch": 0.10949185444845573,
2821
+ "grad_norm": 14.678290367126465,
2822
+ "learning_rate": 1.7810736830344672e-06,
2823
+ "loss": 1.355,
2824
+ "step": 3920
2825
+ },
2826
+ {
2827
+ "epoch": 0.10977117040368138,
2828
+ "grad_norm": 11.110123634338379,
2829
+ "learning_rate": 1.780515055024859e-06,
2830
+ "loss": 1.251,
2831
+ "step": 3930
2832
+ },
2833
+ {
2834
+ "epoch": 0.11005048635890703,
2835
+ "grad_norm": 11.788151741027832,
2836
+ "learning_rate": 1.7799564270152505e-06,
2837
+ "loss": 1.2544,
2838
+ "step": 3940
2839
+ },
2840
+ {
2841
+ "epoch": 0.11032980231413268,
2842
+ "grad_norm": 10.897525787353516,
2843
+ "learning_rate": 1.7793977990056421e-06,
2844
+ "loss": 1.2932,
2845
+ "step": 3950
2846
+ },
2847
+ {
2848
+ "epoch": 0.11060911826935835,
2849
+ "grad_norm": 12.554097175598145,
2850
+ "learning_rate": 1.7788391709960337e-06,
2851
+ "loss": 1.3412,
2852
+ "step": 3960
2853
+ },
2854
+ {
2855
+ "epoch": 0.110888434224584,
2856
+ "grad_norm": 11.195846557617188,
2857
+ "learning_rate": 1.7782805429864253e-06,
2858
+ "loss": 1.311,
2859
+ "step": 3970
2860
+ },
2861
+ {
2862
+ "epoch": 0.11116775017980965,
2863
+ "grad_norm": 11.825657844543457,
2864
+ "learning_rate": 1.7777219149768168e-06,
2865
+ "loss": 1.2449,
2866
+ "step": 3980
2867
+ },
2868
+ {
2869
+ "epoch": 0.1114470661350353,
2870
+ "grad_norm": 11.154561996459961,
2871
+ "learning_rate": 1.7771632869672084e-06,
2872
+ "loss": 1.2969,
2873
+ "step": 3990
2874
+ },
2875
+ {
2876
+ "epoch": 0.11172638209026095,
2877
+ "grad_norm": 12.427309036254883,
2878
+ "learning_rate": 1.7766046589576e-06,
2879
+ "loss": 1.3205,
2880
+ "step": 4000
2881
+ },
2882
+ {
2883
+ "epoch": 0.11194983485444147,
2884
+ "eval_complexity_accuracy": 0.0,
2885
+ "eval_loss": 1.337980031967163,
2886
+ "eval_runtime": 33.7197,
2887
+ "eval_samples_per_second": 14.828,
2888
+ "eval_steps_per_second": 1.868,
2889
+ "step": 4008
2890
+ },
2891
+ {
2892
+ "epoch": 0.1120056980454866,
2893
+ "grad_norm": 11.303837776184082,
2894
+ "learning_rate": 1.7760460309479916e-06,
2895
+ "loss": 1.2941,
2896
+ "step": 4010
2897
+ },
2898
+ {
2899
+ "epoch": 0.11228501400071225,
2900
+ "grad_norm": 10.283913612365723,
2901
+ "learning_rate": 1.7754874029383834e-06,
2902
+ "loss": 1.2637,
2903
+ "step": 4020
2904
+ },
2905
+ {
2906
+ "epoch": 0.1125643299559379,
2907
+ "grad_norm": 9.881290435791016,
2908
+ "learning_rate": 1.774928774928775e-06,
2909
+ "loss": 1.2764,
2910
+ "step": 4030
2911
+ },
2912
+ {
2913
+ "epoch": 0.11284364591116355,
2914
+ "grad_norm": 10.254637718200684,
2915
+ "learning_rate": 1.7743701469191665e-06,
2916
+ "loss": 1.3215,
2917
+ "step": 4040
2918
+ },
2919
+ {
2920
+ "epoch": 0.11312296186638922,
2921
+ "grad_norm": 11.556249618530273,
2922
+ "learning_rate": 1.7738115189095579e-06,
2923
+ "loss": 1.3581,
2924
+ "step": 4050
2925
+ },
2926
+ {
2927
+ "epoch": 0.11340227782161487,
2928
+ "grad_norm": 11.59968376159668,
2929
+ "learning_rate": 1.7732528908999497e-06,
2930
+ "loss": 1.3089,
2931
+ "step": 4060
2932
+ },
2933
+ {
2934
+ "epoch": 0.11368159377684052,
2935
+ "grad_norm": 11.252206802368164,
2936
+ "learning_rate": 1.7726942628903412e-06,
2937
+ "loss": 1.242,
2938
+ "step": 4070
2939
+ },
2940
+ {
2941
+ "epoch": 0.11396090973206617,
2942
+ "grad_norm": 10.428114891052246,
2943
+ "learning_rate": 1.7721356348807328e-06,
2944
+ "loss": 1.3395,
2945
+ "step": 4080
2946
+ },
2947
+ {
2948
+ "epoch": 0.11424022568729182,
2949
+ "grad_norm": 12.992630958557129,
2950
+ "learning_rate": 1.7715770068711244e-06,
2951
+ "loss": 1.305,
2952
+ "step": 4090
2953
+ },
2954
+ {
2955
+ "epoch": 0.11451954164251747,
2956
+ "grad_norm": 10.460079193115234,
2957
+ "learning_rate": 1.771018378861516e-06,
2958
+ "loss": 1.2225,
2959
+ "step": 4100
2960
+ },
2961
+ {
2962
+ "epoch": 0.11479885759774312,
2963
+ "grad_norm": 10.601390838623047,
2964
+ "learning_rate": 1.7704597508519078e-06,
2965
+ "loss": 1.3129,
2966
+ "step": 4110
2967
+ },
2968
+ {
2969
+ "epoch": 0.11507817355296877,
2970
+ "grad_norm": 13.683563232421875,
2971
+ "learning_rate": 1.7699011228422993e-06,
2972
+ "loss": 1.3081,
2973
+ "step": 4120
2974
+ },
2975
+ {
2976
+ "epoch": 0.11535748950819444,
2977
+ "grad_norm": 12.05490493774414,
2978
+ "learning_rate": 1.769342494832691e-06,
2979
+ "loss": 1.2893,
2980
+ "step": 4130
2981
+ },
2982
+ {
2983
+ "epoch": 0.11563680546342009,
2984
+ "grad_norm": 10.546974182128906,
2985
+ "learning_rate": 1.7687838668230823e-06,
2986
+ "loss": 1.3494,
2987
+ "step": 4140
2988
+ },
2989
+ {
2990
+ "epoch": 0.11591612141864574,
2991
+ "grad_norm": 11.625492095947266,
2992
+ "learning_rate": 1.768225238813474e-06,
2993
+ "loss": 1.2876,
2994
+ "step": 4150
2995
+ },
2996
+ {
2997
+ "epoch": 0.11619543737387139,
2998
+ "grad_norm": 11.499431610107422,
2999
+ "learning_rate": 1.7676666108038656e-06,
3000
+ "loss": 1.2298,
3001
+ "step": 4160
3002
+ },
3003
+ {
3004
+ "epoch": 0.11647475332909704,
3005
+ "grad_norm": 10.968666076660156,
3006
+ "learning_rate": 1.7671079827942572e-06,
3007
+ "loss": 1.3229,
3008
+ "step": 4170
3009
+ },
3010
+ {
3011
+ "epoch": 0.11675406928432269,
3012
+ "grad_norm": 10.56057071685791,
3013
+ "learning_rate": 1.7665493547846488e-06,
3014
+ "loss": 1.2644,
3015
+ "step": 4180
3016
+ },
3017
+ {
3018
+ "epoch": 0.11703338523954834,
3019
+ "grad_norm": 10.645150184631348,
3020
+ "learning_rate": 1.7659907267750404e-06,
3021
+ "loss": 1.3216,
3022
+ "step": 4190
3023
+ },
3024
+ {
3025
+ "epoch": 0.117312701194774,
3026
+ "grad_norm": 10.945796966552734,
3027
+ "learning_rate": 1.7654320987654322e-06,
3028
+ "loss": 1.3395,
3029
+ "step": 4200
3030
+ },
3031
+ {
3032
+ "epoch": 0.11759201714999964,
3033
+ "grad_norm": 11.30075740814209,
3034
+ "learning_rate": 1.7648734707558237e-06,
3035
+ "loss": 1.3201,
3036
+ "step": 4210
3037
+ },
3038
+ {
3039
+ "epoch": 0.11787133310522531,
3040
+ "grad_norm": 11.912382125854492,
3041
+ "learning_rate": 1.764314842746215e-06,
3042
+ "loss": 1.3076,
3043
+ "step": 4220
3044
+ },
3045
+ {
3046
+ "epoch": 0.11815064906045096,
3047
+ "grad_norm": 11.546857833862305,
3048
+ "learning_rate": 1.7637562147366067e-06,
3049
+ "loss": 1.2776,
3050
+ "step": 4230
3051
+ },
3052
+ {
3053
+ "epoch": 0.11842996501567661,
3054
+ "grad_norm": 11.775701522827148,
3055
+ "learning_rate": 1.7631975867269985e-06,
3056
+ "loss": 1.3094,
3057
+ "step": 4240
3058
+ },
3059
+ {
3060
+ "epoch": 0.11870928097090226,
3061
+ "grad_norm": 11.965110778808594,
3062
+ "learning_rate": 1.76263895871739e-06,
3063
+ "loss": 1.2815,
3064
+ "step": 4250
3065
+ },
3066
+ {
3067
+ "epoch": 0.11898859692612791,
3068
+ "grad_norm": 9.932812690734863,
3069
+ "learning_rate": 1.7620803307077816e-06,
3070
+ "loss": 1.2965,
3071
+ "step": 4260
3072
+ },
3073
+ {
3074
+ "epoch": 0.11926791288135356,
3075
+ "grad_norm": 10.788895606994629,
3076
+ "learning_rate": 1.7615217026981732e-06,
3077
+ "loss": 1.3025,
3078
+ "step": 4270
3079
+ },
3080
+ {
3081
+ "epoch": 0.11954722883657921,
3082
+ "grad_norm": 12.008225440979004,
3083
+ "learning_rate": 1.7609630746885648e-06,
3084
+ "loss": 1.2758,
3085
+ "step": 4280
3086
+ },
3087
+ {
3088
+ "epoch": 0.11982654479180486,
3089
+ "grad_norm": 11.157905578613281,
3090
+ "learning_rate": 1.7604044466789566e-06,
3091
+ "loss": 1.3369,
3092
+ "step": 4290
3093
+ },
3094
+ {
3095
+ "epoch": 0.12010586074703052,
3096
+ "grad_norm": 12.967375755310059,
3097
+ "learning_rate": 1.759845818669348e-06,
3098
+ "loss": 1.3124,
3099
+ "step": 4300
3100
+ },
3101
+ {
3102
+ "epoch": 0.12038517670225618,
3103
+ "grad_norm": 13.764420509338379,
3104
+ "learning_rate": 1.7592871906597395e-06,
3105
+ "loss": 1.3243,
3106
+ "step": 4310
3107
+ },
3108
+ {
3109
+ "epoch": 0.12066449265748183,
3110
+ "grad_norm": 11.486067771911621,
3111
+ "learning_rate": 1.758728562650131e-06,
3112
+ "loss": 1.2865,
3113
+ "step": 4320
3114
+ },
3115
+ {
3116
+ "epoch": 0.12094380861270748,
3117
+ "grad_norm": 11.377238273620605,
3118
+ "learning_rate": 1.7581699346405229e-06,
3119
+ "loss": 1.2747,
3120
+ "step": 4330
3121
+ },
3122
+ {
3123
+ "epoch": 0.12122312456793313,
3124
+ "grad_norm": 11.644318580627441,
3125
+ "learning_rate": 1.7576113066309144e-06,
3126
+ "loss": 1.2855,
3127
+ "step": 4340
3128
+ },
3129
+ {
3130
+ "epoch": 0.12150244052315878,
3131
+ "grad_norm": 11.282743453979492,
3132
+ "learning_rate": 1.757052678621306e-06,
3133
+ "loss": 1.2109,
3134
+ "step": 4350
3135
+ },
3136
+ {
3137
+ "epoch": 0.12178175647838443,
3138
+ "grad_norm": 10.718985557556152,
3139
+ "learning_rate": 1.7564940506116976e-06,
3140
+ "loss": 1.3098,
3141
+ "step": 4360
3142
+ },
3143
+ {
3144
+ "epoch": 0.12206107243361008,
3145
+ "grad_norm": 10.54099178314209,
3146
+ "learning_rate": 1.7559354226020892e-06,
3147
+ "loss": 1.2253,
3148
+ "step": 4370
3149
+ },
3150
+ {
3151
+ "epoch": 0.12234038838883574,
3152
+ "grad_norm": 10.001184463500977,
3153
+ "learning_rate": 1.755376794592481e-06,
3154
+ "loss": 1.3096,
3155
+ "step": 4380
3156
+ },
3157
+ {
3158
+ "epoch": 0.1226197043440614,
3159
+ "grad_norm": 10.10665512084961,
3160
+ "learning_rate": 1.7548181665828723e-06,
3161
+ "loss": 1.3204,
3162
+ "step": 4390
3163
+ },
3164
+ {
3165
+ "epoch": 0.12289902029928705,
3166
+ "grad_norm": 13.317100524902344,
3167
+ "learning_rate": 1.754259538573264e-06,
3168
+ "loss": 1.2701,
3169
+ "step": 4400
3170
+ },
3171
+ {
3172
+ "epoch": 0.1231783362545127,
3173
+ "grad_norm": 10.948107719421387,
3174
+ "learning_rate": 1.7537009105636555e-06,
3175
+ "loss": 1.3417,
3176
+ "step": 4410
3177
+ },
3178
+ {
3179
+ "epoch": 0.12345765220973835,
3180
+ "grad_norm": 11.12563705444336,
3181
+ "learning_rate": 1.7531422825540473e-06,
3182
+ "loss": 1.2768,
3183
+ "step": 4420
3184
+ },
3185
+ {
3186
+ "epoch": 0.123736968164964,
3187
+ "grad_norm": 11.270187377929688,
3188
+ "learning_rate": 1.7525836545444389e-06,
3189
+ "loss": 1.2476,
3190
+ "step": 4430
3191
+ },
3192
+ {
3193
+ "epoch": 0.12401628412018965,
3194
+ "grad_norm": 11.370152473449707,
3195
+ "learning_rate": 1.7520250265348304e-06,
3196
+ "loss": 1.3711,
3197
+ "step": 4440
3198
+ },
3199
+ {
3200
+ "epoch": 0.1242956000754153,
3201
+ "grad_norm": 12.357138633728027,
3202
+ "learning_rate": 1.751466398525222e-06,
3203
+ "loss": 1.2697,
3204
+ "step": 4450
3205
+ },
3206
+ {
3207
+ "epoch": 0.12457491603064096,
3208
+ "grad_norm": 10.51325511932373,
3209
+ "learning_rate": 1.7509077705156136e-06,
3210
+ "loss": 1.3495,
3211
+ "step": 4460
3212
+ },
3213
+ {
3214
+ "epoch": 0.1248542319858666,
3215
+ "grad_norm": 14.585171699523926,
3216
+ "learning_rate": 1.7503491425060052e-06,
3217
+ "loss": 1.3023,
3218
+ "step": 4470
3219
+ },
3220
+ {
3221
+ "epoch": 0.12513354794109227,
3222
+ "grad_norm": 11.234824180603027,
3223
+ "learning_rate": 1.7497905144963967e-06,
3224
+ "loss": 1.2785,
3225
+ "step": 4480
3226
+ },
3227
+ {
3228
+ "epoch": 0.12541286389631792,
3229
+ "grad_norm": 10.963340759277344,
3230
+ "learning_rate": 1.7492318864867883e-06,
3231
+ "loss": 1.3196,
3232
+ "step": 4490
3233
+ },
3234
+ {
3235
+ "epoch": 0.12569217985154357,
3236
+ "grad_norm": 10.97410774230957,
3237
+ "learning_rate": 1.7486732584771799e-06,
3238
+ "loss": 1.3396,
3239
+ "step": 4500
3240
+ }
3241
+ ],
3242
+ "logging_steps": 10,
3243
+ "max_steps": 35802,
3244
+ "num_input_tokens_seen": 0,
3245
+ "num_train_epochs": 1,
3246
+ "save_steps": 500,
3247
+ "stateful_callbacks": {
3248
+ "TrainerControl": {
3249
+ "args": {
3250
+ "should_epoch_stop": false,
3251
+ "should_evaluate": false,
3252
+ "should_log": false,
3253
+ "should_save": true,
3254
+ "should_training_stop": false
3255
+ },
3256
+ "attributes": {}
3257
+ }
3258
+ },
3259
+ "total_flos": 0.0,
3260
+ "train_batch_size": 2,
3261
+ "trial_name": null,
3262
+ "trial_params": null
3263
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:502b3584797050cd50e95827a7d25e7c23ffc6ce1e17d46a8eb31367ddba8abf
3
+ size 5969