hidude562 commited on
Commit
e939a41
·
verified ·
1 Parent(s): 47c863c

Upload 8 files

Browse files
config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "hidude562/maestro-4-0619",
3
+ "architectures": [
4
+ "Qwen2ForCausalLM"
5
+ ],
6
+ "attention_dropout": 0.0,
7
+ "bos_token_id": 151643,
8
+ "eos_token_id": 151643,
9
+ "hidden_act": "silu",
10
+ "hidden_size": 1024,
11
+ "initializer_range": 0.02,
12
+ "intermediate_size": 2816,
13
+ "max_position_embeddings": 32768,
14
+ "max_window_layers": 21,
15
+ "model_type": "qwen2",
16
+ "num_attention_heads": 16,
17
+ "num_hidden_layers": 24,
18
+ "num_key_value_heads": 16,
19
+ "rms_norm_eps": 1e-06,
20
+ "rope_theta": 1000000.0,
21
+ "sliding_window": 32768,
22
+ "tie_word_embeddings": true,
23
+ "torch_dtype": "float32",
24
+ "transformers_version": "4.42.4",
25
+ "use_cache": true,
26
+ "use_sliding_window": false,
27
+ "vocab_size": 151936
28
+ }
generation_config.json ADDED
@@ -0,0 +1,6 @@
 
 
 
 
 
 
 
1
+ {
2
+ "_from_model_config": true,
3
+ "bos_token_id": 151643,
4
+ "eos_token_id": 151643,
5
+ "transformers_version": "4.42.4"
6
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:bd819371c6a9c53e128a8f49d9cd1745e699552c01897302690ce8c6b3787b04
3
+ size 1855983640
optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1d9ca622983dbaa2a1e90ba4a1924f8874b155ee001ade1ef16a147598b20b49
3
+ size 3712145082
rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1ff264f99d31b522cc7e2a4eac9d38606d0c58a34c0adc74d71e0ca8b371dc36
3
+ size 14244
scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cbb670a2619e1344c7a72f15164db3e5988e7cbe56d3bedb9568b7f4ed01a9e1
3
+ size 1064
trainer_state.json ADDED
@@ -0,0 +1,3191 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": null,
3
+ "best_model_checkpoint": null,
4
+ "epoch": 0.15151515151515152,
5
+ "eval_steps": 50000,
6
+ "global_step": 90000,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.0003367003367003367,
13
+ "grad_norm": 0.3848826289176941,
14
+ "learning_rate": 4.998316498316499e-05,
15
+ "loss": 0.483,
16
+ "step": 200
17
+ },
18
+ {
19
+ "epoch": 0.0006734006734006734,
20
+ "grad_norm": 0.28108373284339905,
21
+ "learning_rate": 4.9966329966329964e-05,
22
+ "loss": 0.4907,
23
+ "step": 400
24
+ },
25
+ {
26
+ "epoch": 0.00101010101010101,
27
+ "grad_norm": 1.1632909774780273,
28
+ "learning_rate": 4.994949494949495e-05,
29
+ "loss": 0.4656,
30
+ "step": 600
31
+ },
32
+ {
33
+ "epoch": 0.0013468013468013469,
34
+ "grad_norm": 0.38611674308776855,
35
+ "learning_rate": 4.993265993265993e-05,
36
+ "loss": 0.4801,
37
+ "step": 800
38
+ },
39
+ {
40
+ "epoch": 0.0016835016835016834,
41
+ "grad_norm": 0.44287604093551636,
42
+ "learning_rate": 4.991582491582492e-05,
43
+ "loss": 0.5212,
44
+ "step": 1000
45
+ },
46
+ {
47
+ "epoch": 0.00202020202020202,
48
+ "grad_norm": 0.3867124617099762,
49
+ "learning_rate": 4.9899074074074075e-05,
50
+ "loss": 0.4678,
51
+ "step": 1200
52
+ },
53
+ {
54
+ "epoch": 0.0023569023569023568,
55
+ "grad_norm": 0.5485501885414124,
56
+ "learning_rate": 4.988223905723906e-05,
57
+ "loss": 0.4865,
58
+ "step": 1400
59
+ },
60
+ {
61
+ "epoch": 0.0026936026936026937,
62
+ "grad_norm": 0.20481592416763306,
63
+ "learning_rate": 4.986548821548822e-05,
64
+ "loss": 0.5055,
65
+ "step": 1600
66
+ },
67
+ {
68
+ "epoch": 0.0030303030303030303,
69
+ "grad_norm": 0.2336668223142624,
70
+ "learning_rate": 4.98486531986532e-05,
71
+ "loss": 0.4695,
72
+ "step": 1800
73
+ },
74
+ {
75
+ "epoch": 0.003367003367003367,
76
+ "grad_norm": 0.5381026268005371,
77
+ "learning_rate": 4.9831818181818186e-05,
78
+ "loss": 0.4399,
79
+ "step": 2000
80
+ },
81
+ {
82
+ "epoch": 0.003703703703703704,
83
+ "grad_norm": 0.7313366532325745,
84
+ "learning_rate": 4.981498316498317e-05,
85
+ "loss": 0.4459,
86
+ "step": 2200
87
+ },
88
+ {
89
+ "epoch": 0.00404040404040404,
90
+ "grad_norm": 0.36844003200531006,
91
+ "learning_rate": 4.979814814814815e-05,
92
+ "loss": 0.4606,
93
+ "step": 2400
94
+ },
95
+ {
96
+ "epoch": 0.004377104377104377,
97
+ "grad_norm": 0.3787059187889099,
98
+ "learning_rate": 4.978131313131313e-05,
99
+ "loss": 0.5135,
100
+ "step": 2600
101
+ },
102
+ {
103
+ "epoch": 0.0047138047138047135,
104
+ "grad_norm": 0.1680217981338501,
105
+ "learning_rate": 4.9764478114478116e-05,
106
+ "loss": 0.4913,
107
+ "step": 2800
108
+ },
109
+ {
110
+ "epoch": 0.005050505050505051,
111
+ "grad_norm": 0.2730850875377655,
112
+ "learning_rate": 4.97476430976431e-05,
113
+ "loss": 0.4262,
114
+ "step": 3000
115
+ },
116
+ {
117
+ "epoch": 0.0053872053872053875,
118
+ "grad_norm": 0.9977230429649353,
119
+ "learning_rate": 4.9730808080808085e-05,
120
+ "loss": 0.4774,
121
+ "step": 3200
122
+ },
123
+ {
124
+ "epoch": 0.005723905723905724,
125
+ "grad_norm": 0.38187840580940247,
126
+ "learning_rate": 4.971397306397307e-05,
127
+ "loss": 0.4642,
128
+ "step": 3400
129
+ },
130
+ {
131
+ "epoch": 0.006060606060606061,
132
+ "grad_norm": 0.33152151107788086,
133
+ "learning_rate": 4.969713804713805e-05,
134
+ "loss": 0.4542,
135
+ "step": 3600
136
+ },
137
+ {
138
+ "epoch": 0.006397306397306397,
139
+ "grad_norm": 0.4819263815879822,
140
+ "learning_rate": 4.968030303030303e-05,
141
+ "loss": 0.456,
142
+ "step": 3800
143
+ },
144
+ {
145
+ "epoch": 0.006734006734006734,
146
+ "grad_norm": 0.7936732172966003,
147
+ "learning_rate": 4.9663468013468016e-05,
148
+ "loss": 0.5043,
149
+ "step": 4000
150
+ },
151
+ {
152
+ "epoch": 0.007070707070707071,
153
+ "grad_norm": 0.15946243703365326,
154
+ "learning_rate": 4.9646632996632993e-05,
155
+ "loss": 0.4722,
156
+ "step": 4200
157
+ },
158
+ {
159
+ "epoch": 0.007407407407407408,
160
+ "grad_norm": 0.32496747374534607,
161
+ "learning_rate": 4.9629797979797985e-05,
162
+ "loss": 0.5135,
163
+ "step": 4400
164
+ },
165
+ {
166
+ "epoch": 0.007744107744107744,
167
+ "grad_norm": 0.4165472388267517,
168
+ "learning_rate": 4.961304713804714e-05,
169
+ "loss": 0.5593,
170
+ "step": 4600
171
+ },
172
+ {
173
+ "epoch": 0.00808080808080808,
174
+ "grad_norm": 0.25771287083625793,
175
+ "learning_rate": 4.959621212121212e-05,
176
+ "loss": 0.4484,
177
+ "step": 4800
178
+ },
179
+ {
180
+ "epoch": 0.008417508417508417,
181
+ "grad_norm": 0.3406078815460205,
182
+ "learning_rate": 4.9579377104377104e-05,
183
+ "loss": 0.4823,
184
+ "step": 5000
185
+ },
186
+ {
187
+ "epoch": 0.008754208754208754,
188
+ "grad_norm": 8.295658111572266,
189
+ "learning_rate": 4.956254208754209e-05,
190
+ "loss": 0.4635,
191
+ "step": 5200
192
+ },
193
+ {
194
+ "epoch": 0.00909090909090909,
195
+ "grad_norm": 0.44405078887939453,
196
+ "learning_rate": 4.954570707070707e-05,
197
+ "loss": 0.4985,
198
+ "step": 5400
199
+ },
200
+ {
201
+ "epoch": 0.009427609427609427,
202
+ "grad_norm": 0.4546993374824524,
203
+ "learning_rate": 4.952887205387206e-05,
204
+ "loss": 0.5113,
205
+ "step": 5600
206
+ },
207
+ {
208
+ "epoch": 0.009764309764309764,
209
+ "grad_norm": 0.5952478647232056,
210
+ "learning_rate": 4.951203703703704e-05,
211
+ "loss": 0.514,
212
+ "step": 5800
213
+ },
214
+ {
215
+ "epoch": 0.010101010101010102,
216
+ "grad_norm": 0.27716225385665894,
217
+ "learning_rate": 4.9495202020202026e-05,
218
+ "loss": 0.5375,
219
+ "step": 6000
220
+ },
221
+ {
222
+ "epoch": 0.010437710437710438,
223
+ "grad_norm": 0.7038645148277283,
224
+ "learning_rate": 4.9478367003367004e-05,
225
+ "loss": 0.4905,
226
+ "step": 6200
227
+ },
228
+ {
229
+ "epoch": 0.010774410774410775,
230
+ "grad_norm": 0.48266687989234924,
231
+ "learning_rate": 4.946153198653199e-05,
232
+ "loss": 0.4924,
233
+ "step": 6400
234
+ },
235
+ {
236
+ "epoch": 0.011111111111111112,
237
+ "grad_norm": 0.5230734944343567,
238
+ "learning_rate": 4.944469696969697e-05,
239
+ "loss": 0.533,
240
+ "step": 6600
241
+ },
242
+ {
243
+ "epoch": 0.011447811447811448,
244
+ "grad_norm": 1.7186241149902344,
245
+ "learning_rate": 4.942794612794613e-05,
246
+ "loss": 0.4852,
247
+ "step": 6800
248
+ },
249
+ {
250
+ "epoch": 0.011784511784511785,
251
+ "grad_norm": 0.5641151666641235,
252
+ "learning_rate": 4.9411111111111114e-05,
253
+ "loss": 0.492,
254
+ "step": 7000
255
+ },
256
+ {
257
+ "epoch": 0.012121212121212121,
258
+ "grad_norm": 0.18955977261066437,
259
+ "learning_rate": 4.93942760942761e-05,
260
+ "loss": 0.4994,
261
+ "step": 7200
262
+ },
263
+ {
264
+ "epoch": 0.012457912457912458,
265
+ "grad_norm": 0.4500541687011719,
266
+ "learning_rate": 4.9377441077441076e-05,
267
+ "loss": 0.4761,
268
+ "step": 7400
269
+ },
270
+ {
271
+ "epoch": 0.012794612794612794,
272
+ "grad_norm": 0.5736501812934875,
273
+ "learning_rate": 4.936060606060606e-05,
274
+ "loss": 0.4835,
275
+ "step": 7600
276
+ },
277
+ {
278
+ "epoch": 0.013131313131313131,
279
+ "grad_norm": 0.12210117280483246,
280
+ "learning_rate": 4.9343771043771045e-05,
281
+ "loss": 0.4753,
282
+ "step": 7800
283
+ },
284
+ {
285
+ "epoch": 0.013468013468013467,
286
+ "grad_norm": 0.6027535796165466,
287
+ "learning_rate": 4.932693602693603e-05,
288
+ "loss": 0.442,
289
+ "step": 8000
290
+ },
291
+ {
292
+ "epoch": 0.013804713804713804,
293
+ "grad_norm": 0.6002740859985352,
294
+ "learning_rate": 4.9310101010101014e-05,
295
+ "loss": 0.4668,
296
+ "step": 8200
297
+ },
298
+ {
299
+ "epoch": 0.014141414141414142,
300
+ "grad_norm": 0.45654693245887756,
301
+ "learning_rate": 4.9293265993266e-05,
302
+ "loss": 0.4792,
303
+ "step": 8400
304
+ },
305
+ {
306
+ "epoch": 0.014478114478114479,
307
+ "grad_norm": 0.5119714736938477,
308
+ "learning_rate": 4.9276430976430976e-05,
309
+ "loss": 0.4767,
310
+ "step": 8600
311
+ },
312
+ {
313
+ "epoch": 0.014814814814814815,
314
+ "grad_norm": 0.22278934717178345,
315
+ "learning_rate": 4.925959595959596e-05,
316
+ "loss": 0.4826,
317
+ "step": 8800
318
+ },
319
+ {
320
+ "epoch": 0.015151515151515152,
321
+ "grad_norm": 0.265720933675766,
322
+ "learning_rate": 4.9242845117845124e-05,
323
+ "loss": 0.5267,
324
+ "step": 9000
325
+ },
326
+ {
327
+ "epoch": 0.015488215488215488,
328
+ "grad_norm": 0.4445594847202301,
329
+ "learning_rate": 4.922601010101011e-05,
330
+ "loss": 0.507,
331
+ "step": 9200
332
+ },
333
+ {
334
+ "epoch": 0.015824915824915825,
335
+ "grad_norm": 0.6113983988761902,
336
+ "learning_rate": 4.9209175084175086e-05,
337
+ "loss": 0.5192,
338
+ "step": 9400
339
+ },
340
+ {
341
+ "epoch": 0.01616161616161616,
342
+ "grad_norm": 0.2967589497566223,
343
+ "learning_rate": 4.919234006734007e-05,
344
+ "loss": 0.4728,
345
+ "step": 9600
346
+ },
347
+ {
348
+ "epoch": 0.016498316498316498,
349
+ "grad_norm": 1.5599192380905151,
350
+ "learning_rate": 4.9175505050505055e-05,
351
+ "loss": 0.5145,
352
+ "step": 9800
353
+ },
354
+ {
355
+ "epoch": 0.016835016835016835,
356
+ "grad_norm": 0.6804638504981995,
357
+ "learning_rate": 4.915867003367003e-05,
358
+ "loss": 0.4293,
359
+ "step": 10000
360
+ },
361
+ {
362
+ "epoch": 0.01717171717171717,
363
+ "grad_norm": 0.5212819576263428,
364
+ "learning_rate": 4.914183501683502e-05,
365
+ "loss": 0.5484,
366
+ "step": 10200
367
+ },
368
+ {
369
+ "epoch": 0.017508417508417508,
370
+ "grad_norm": 0.5872311592102051,
371
+ "learning_rate": 4.9125e-05,
372
+ "loss": 0.502,
373
+ "step": 10400
374
+ },
375
+ {
376
+ "epoch": 0.017845117845117844,
377
+ "grad_norm": 0.2819989323616028,
378
+ "learning_rate": 4.9108164983164986e-05,
379
+ "loss": 0.474,
380
+ "step": 10600
381
+ },
382
+ {
383
+ "epoch": 0.01818181818181818,
384
+ "grad_norm": 0.2001451998949051,
385
+ "learning_rate": 4.909132996632997e-05,
386
+ "loss": 0.4348,
387
+ "step": 10800
388
+ },
389
+ {
390
+ "epoch": 0.018518518518518517,
391
+ "grad_norm": 2.0528833866119385,
392
+ "learning_rate": 4.9074494949494955e-05,
393
+ "loss": 0.4569,
394
+ "step": 11000
395
+ },
396
+ {
397
+ "epoch": 0.018855218855218854,
398
+ "grad_norm": 0.7602177858352661,
399
+ "learning_rate": 4.905765993265993e-05,
400
+ "loss": 0.4319,
401
+ "step": 11200
402
+ },
403
+ {
404
+ "epoch": 0.01919191919191919,
405
+ "grad_norm": 0.2091585099697113,
406
+ "learning_rate": 4.904090909090909e-05,
407
+ "loss": 0.4193,
408
+ "step": 11400
409
+ },
410
+ {
411
+ "epoch": 0.019528619528619527,
412
+ "grad_norm": 0.20664581656455994,
413
+ "learning_rate": 4.902407407407408e-05,
414
+ "loss": 0.493,
415
+ "step": 11600
416
+ },
417
+ {
418
+ "epoch": 0.019865319865319864,
419
+ "grad_norm": 0.40701425075531006,
420
+ "learning_rate": 4.900723905723906e-05,
421
+ "loss": 0.5205,
422
+ "step": 11800
423
+ },
424
+ {
425
+ "epoch": 0.020202020202020204,
426
+ "grad_norm": 1.0059823989868164,
427
+ "learning_rate": 4.899040404040404e-05,
428
+ "loss": 0.4822,
429
+ "step": 12000
430
+ },
431
+ {
432
+ "epoch": 0.02053872053872054,
433
+ "grad_norm": 0.2437160164117813,
434
+ "learning_rate": 4.897356902356903e-05,
435
+ "loss": 0.4796,
436
+ "step": 12200
437
+ },
438
+ {
439
+ "epoch": 0.020875420875420877,
440
+ "grad_norm": 0.3996870219707489,
441
+ "learning_rate": 4.8956734006734005e-05,
442
+ "loss": 0.4243,
443
+ "step": 12400
444
+ },
445
+ {
446
+ "epoch": 0.021212121212121213,
447
+ "grad_norm": 1.2844949960708618,
448
+ "learning_rate": 4.893989898989899e-05,
449
+ "loss": 0.4628,
450
+ "step": 12600
451
+ },
452
+ {
453
+ "epoch": 0.02154882154882155,
454
+ "grad_norm": 0.5382771492004395,
455
+ "learning_rate": 4.8923063973063974e-05,
456
+ "loss": 0.5122,
457
+ "step": 12800
458
+ },
459
+ {
460
+ "epoch": 0.021885521885521887,
461
+ "grad_norm": 1.4352107048034668,
462
+ "learning_rate": 4.890622895622896e-05,
463
+ "loss": 0.4959,
464
+ "step": 13000
465
+ },
466
+ {
467
+ "epoch": 0.022222222222222223,
468
+ "grad_norm": 0.3689097464084625,
469
+ "learning_rate": 4.888939393939394e-05,
470
+ "loss": 0.4711,
471
+ "step": 13200
472
+ },
473
+ {
474
+ "epoch": 0.02255892255892256,
475
+ "grad_norm": 0.13188982009887695,
476
+ "learning_rate": 4.887255892255893e-05,
477
+ "loss": 0.4761,
478
+ "step": 13400
479
+ },
480
+ {
481
+ "epoch": 0.022895622895622896,
482
+ "grad_norm": 0.18019753694534302,
483
+ "learning_rate": 4.885572390572391e-05,
484
+ "loss": 0.4604,
485
+ "step": 13600
486
+ },
487
+ {
488
+ "epoch": 0.023232323232323233,
489
+ "grad_norm": 0.4621998071670532,
490
+ "learning_rate": 4.883888888888889e-05,
491
+ "loss": 0.5366,
492
+ "step": 13800
493
+ },
494
+ {
495
+ "epoch": 0.02356902356902357,
496
+ "grad_norm": 0.21382929384708405,
497
+ "learning_rate": 4.882205387205387e-05,
498
+ "loss": 0.4864,
499
+ "step": 14000
500
+ },
501
+ {
502
+ "epoch": 0.023905723905723906,
503
+ "grad_norm": 0.2051325887441635,
504
+ "learning_rate": 4.880521885521886e-05,
505
+ "loss": 0.458,
506
+ "step": 14200
507
+ },
508
+ {
509
+ "epoch": 0.024242424242424242,
510
+ "grad_norm": 0.3620564341545105,
511
+ "learning_rate": 4.8788468013468015e-05,
512
+ "loss": 0.499,
513
+ "step": 14400
514
+ },
515
+ {
516
+ "epoch": 0.02457912457912458,
517
+ "grad_norm": 0.9814438223838806,
518
+ "learning_rate": 4.8771632996633e-05,
519
+ "loss": 0.442,
520
+ "step": 14600
521
+ },
522
+ {
523
+ "epoch": 0.024915824915824916,
524
+ "grad_norm": 0.46618032455444336,
525
+ "learning_rate": 4.8754797979797984e-05,
526
+ "loss": 0.4635,
527
+ "step": 14800
528
+ },
529
+ {
530
+ "epoch": 0.025252525252525252,
531
+ "grad_norm": 0.2610645592212677,
532
+ "learning_rate": 4.873796296296296e-05,
533
+ "loss": 0.458,
534
+ "step": 15000
535
+ },
536
+ {
537
+ "epoch": 0.02558922558922559,
538
+ "grad_norm": 0.3188152611255646,
539
+ "learning_rate": 4.8721127946127946e-05,
540
+ "loss": 0.4726,
541
+ "step": 15200
542
+ },
543
+ {
544
+ "epoch": 0.025925925925925925,
545
+ "grad_norm": 0.3566981852054596,
546
+ "learning_rate": 4.870429292929293e-05,
547
+ "loss": 0.4847,
548
+ "step": 15400
549
+ },
550
+ {
551
+ "epoch": 0.026262626262626262,
552
+ "grad_norm": 1.0731638669967651,
553
+ "learning_rate": 4.8687457912457914e-05,
554
+ "loss": 0.4912,
555
+ "step": 15600
556
+ },
557
+ {
558
+ "epoch": 0.0265993265993266,
559
+ "grad_norm": 0.4343542456626892,
560
+ "learning_rate": 4.86706228956229e-05,
561
+ "loss": 0.471,
562
+ "step": 15800
563
+ },
564
+ {
565
+ "epoch": 0.026936026936026935,
566
+ "grad_norm": 0.37956860661506653,
567
+ "learning_rate": 4.865378787878788e-05,
568
+ "loss": 0.4797,
569
+ "step": 16000
570
+ },
571
+ {
572
+ "epoch": 0.02727272727272727,
573
+ "grad_norm": 0.49000558257102966,
574
+ "learning_rate": 4.863695286195287e-05,
575
+ "loss": 0.5084,
576
+ "step": 16200
577
+ },
578
+ {
579
+ "epoch": 0.027609427609427608,
580
+ "grad_norm": 0.28972625732421875,
581
+ "learning_rate": 4.8620117845117845e-05,
582
+ "loss": 0.493,
583
+ "step": 16400
584
+ },
585
+ {
586
+ "epoch": 0.027946127946127945,
587
+ "grad_norm": 0.5928806662559509,
588
+ "learning_rate": 4.860328282828283e-05,
589
+ "loss": 0.5001,
590
+ "step": 16600
591
+ },
592
+ {
593
+ "epoch": 0.028282828282828285,
594
+ "grad_norm": 0.4121922552585602,
595
+ "learning_rate": 4.8586447811447814e-05,
596
+ "loss": 0.448,
597
+ "step": 16800
598
+ },
599
+ {
600
+ "epoch": 0.02861952861952862,
601
+ "grad_norm": 0.3214101195335388,
602
+ "learning_rate": 4.85696127946128e-05,
603
+ "loss": 0.5098,
604
+ "step": 17000
605
+ },
606
+ {
607
+ "epoch": 0.028956228956228958,
608
+ "grad_norm": 2.317594289779663,
609
+ "learning_rate": 4.855277777777778e-05,
610
+ "loss": 0.4628,
611
+ "step": 17200
612
+ },
613
+ {
614
+ "epoch": 0.029292929292929294,
615
+ "grad_norm": 0.46101972460746765,
616
+ "learning_rate": 4.853594276094277e-05,
617
+ "loss": 0.4556,
618
+ "step": 17400
619
+ },
620
+ {
621
+ "epoch": 0.02962962962962963,
622
+ "grad_norm": 0.24499452114105225,
623
+ "learning_rate": 4.8519107744107745e-05,
624
+ "loss": 0.4103,
625
+ "step": 17600
626
+ },
627
+ {
628
+ "epoch": 0.029966329966329967,
629
+ "grad_norm": 0.21861068904399872,
630
+ "learning_rate": 4.850227272727273e-05,
631
+ "loss": 0.4887,
632
+ "step": 17800
633
+ },
634
+ {
635
+ "epoch": 0.030303030303030304,
636
+ "grad_norm": 0.6664220094680786,
637
+ "learning_rate": 4.848543771043771e-05,
638
+ "loss": 0.4822,
639
+ "step": 18000
640
+ },
641
+ {
642
+ "epoch": 0.03063973063973064,
643
+ "grad_norm": 0.5134005546569824,
644
+ "learning_rate": 4.846860269360269e-05,
645
+ "loss": 0.4432,
646
+ "step": 18200
647
+ },
648
+ {
649
+ "epoch": 0.030976430976430977,
650
+ "grad_norm": 0.31726887822151184,
651
+ "learning_rate": 4.8451851851851855e-05,
652
+ "loss": 0.4757,
653
+ "step": 18400
654
+ },
655
+ {
656
+ "epoch": 0.031313131313131314,
657
+ "grad_norm": 0.5236911177635193,
658
+ "learning_rate": 4.843501683501684e-05,
659
+ "loss": 0.4522,
660
+ "step": 18600
661
+ },
662
+ {
663
+ "epoch": 0.03164983164983165,
664
+ "grad_norm": 0.359935998916626,
665
+ "learning_rate": 4.841818181818182e-05,
666
+ "loss": 0.4901,
667
+ "step": 18800
668
+ },
669
+ {
670
+ "epoch": 0.03198653198653199,
671
+ "grad_norm": 0.5292563438415527,
672
+ "learning_rate": 4.84013468013468e-05,
673
+ "loss": 0.4962,
674
+ "step": 19000
675
+ },
676
+ {
677
+ "epoch": 0.03232323232323232,
678
+ "grad_norm": 0.5163784623146057,
679
+ "learning_rate": 4.8384511784511786e-05,
680
+ "loss": 0.4427,
681
+ "step": 19200
682
+ },
683
+ {
684
+ "epoch": 0.03265993265993266,
685
+ "grad_norm": 0.19916895031929016,
686
+ "learning_rate": 4.836767676767677e-05,
687
+ "loss": 0.4778,
688
+ "step": 19400
689
+ },
690
+ {
691
+ "epoch": 0.032996632996632996,
692
+ "grad_norm": 0.16879796981811523,
693
+ "learning_rate": 4.8350841750841755e-05,
694
+ "loss": 0.4561,
695
+ "step": 19600
696
+ },
697
+ {
698
+ "epoch": 0.03333333333333333,
699
+ "grad_norm": 0.40591439604759216,
700
+ "learning_rate": 4.833400673400674e-05,
701
+ "loss": 0.532,
702
+ "step": 19800
703
+ },
704
+ {
705
+ "epoch": 0.03367003367003367,
706
+ "grad_norm": 0.27528542280197144,
707
+ "learning_rate": 4.8317171717171723e-05,
708
+ "loss": 0.5181,
709
+ "step": 20000
710
+ },
711
+ {
712
+ "epoch": 0.034006734006734006,
713
+ "grad_norm": 0.46540895104408264,
714
+ "learning_rate": 4.83003367003367e-05,
715
+ "loss": 0.5005,
716
+ "step": 20200
717
+ },
718
+ {
719
+ "epoch": 0.03434343434343434,
720
+ "grad_norm": 0.4676566421985626,
721
+ "learning_rate": 4.8283501683501685e-05,
722
+ "loss": 0.4752,
723
+ "step": 20400
724
+ },
725
+ {
726
+ "epoch": 0.03468013468013468,
727
+ "grad_norm": 0.5396921038627625,
728
+ "learning_rate": 4.826666666666667e-05,
729
+ "loss": 0.4566,
730
+ "step": 20600
731
+ },
732
+ {
733
+ "epoch": 0.035016835016835016,
734
+ "grad_norm": 0.1875556856393814,
735
+ "learning_rate": 4.824983164983165e-05,
736
+ "loss": 0.4705,
737
+ "step": 20800
738
+ },
739
+ {
740
+ "epoch": 0.03535353535353535,
741
+ "grad_norm": 0.5470389723777771,
742
+ "learning_rate": 4.823299663299664e-05,
743
+ "loss": 0.5035,
744
+ "step": 21000
745
+ },
746
+ {
747
+ "epoch": 0.03569023569023569,
748
+ "grad_norm": 0.2772787809371948,
749
+ "learning_rate": 4.821616161616162e-05,
750
+ "loss": 0.4857,
751
+ "step": 21200
752
+ },
753
+ {
754
+ "epoch": 0.036026936026936025,
755
+ "grad_norm": 0.43938860297203064,
756
+ "learning_rate": 4.81993265993266e-05,
757
+ "loss": 0.5107,
758
+ "step": 21400
759
+ },
760
+ {
761
+ "epoch": 0.03636363636363636,
762
+ "grad_norm": 0.2839397192001343,
763
+ "learning_rate": 4.818257575757576e-05,
764
+ "loss": 0.451,
765
+ "step": 21600
766
+ },
767
+ {
768
+ "epoch": 0.0367003367003367,
769
+ "grad_norm": 0.46151599287986755,
770
+ "learning_rate": 4.816574074074074e-05,
771
+ "loss": 0.4984,
772
+ "step": 21800
773
+ },
774
+ {
775
+ "epoch": 0.037037037037037035,
776
+ "grad_norm": 0.4271756410598755,
777
+ "learning_rate": 4.814890572390573e-05,
778
+ "loss": 0.4462,
779
+ "step": 22000
780
+ },
781
+ {
782
+ "epoch": 0.03737373737373737,
783
+ "grad_norm": 0.20119212567806244,
784
+ "learning_rate": 4.813207070707071e-05,
785
+ "loss": 0.4914,
786
+ "step": 22200
787
+ },
788
+ {
789
+ "epoch": 0.03771043771043771,
790
+ "grad_norm": 0.7174796462059021,
791
+ "learning_rate": 4.8115235690235696e-05,
792
+ "loss": 0.4468,
793
+ "step": 22400
794
+ },
795
+ {
796
+ "epoch": 0.038047138047138045,
797
+ "grad_norm": 0.25557178258895874,
798
+ "learning_rate": 4.809840067340067e-05,
799
+ "loss": 0.4969,
800
+ "step": 22600
801
+ },
802
+ {
803
+ "epoch": 0.03838383838383838,
804
+ "grad_norm": 0.2094777226448059,
805
+ "learning_rate": 4.808156565656566e-05,
806
+ "loss": 0.4552,
807
+ "step": 22800
808
+ },
809
+ {
810
+ "epoch": 0.03872053872053872,
811
+ "grad_norm": 0.2642809748649597,
812
+ "learning_rate": 4.806473063973064e-05,
813
+ "loss": 0.4741,
814
+ "step": 23000
815
+ },
816
+ {
817
+ "epoch": 0.039057239057239054,
818
+ "grad_norm": 0.9128819704055786,
819
+ "learning_rate": 4.8047895622895626e-05,
820
+ "loss": 0.4964,
821
+ "step": 23200
822
+ },
823
+ {
824
+ "epoch": 0.03939393939393939,
825
+ "grad_norm": 0.6326189637184143,
826
+ "learning_rate": 4.8031060606060604e-05,
827
+ "loss": 0.4749,
828
+ "step": 23400
829
+ },
830
+ {
831
+ "epoch": 0.03973063973063973,
832
+ "grad_norm": 0.6259990334510803,
833
+ "learning_rate": 4.8014225589225595e-05,
834
+ "loss": 0.4915,
835
+ "step": 23600
836
+ },
837
+ {
838
+ "epoch": 0.040067340067340064,
839
+ "grad_norm": 0.22890082001686096,
840
+ "learning_rate": 4.799739057239058e-05,
841
+ "loss": 0.4941,
842
+ "step": 23800
843
+ },
844
+ {
845
+ "epoch": 0.04040404040404041,
846
+ "grad_norm": 0.28990963101387024,
847
+ "learning_rate": 4.798063973063973e-05,
848
+ "loss": 0.4874,
849
+ "step": 24000
850
+ },
851
+ {
852
+ "epoch": 0.040740740740740744,
853
+ "grad_norm": 0.21455387771129608,
854
+ "learning_rate": 4.7963804713804715e-05,
855
+ "loss": 0.5352,
856
+ "step": 24200
857
+ },
858
+ {
859
+ "epoch": 0.04107744107744108,
860
+ "grad_norm": 0.17958062887191772,
861
+ "learning_rate": 4.79469696969697e-05,
862
+ "loss": 0.421,
863
+ "step": 24400
864
+ },
865
+ {
866
+ "epoch": 0.04141414141414142,
867
+ "grad_norm": 0.36474618315696716,
868
+ "learning_rate": 4.793013468013468e-05,
869
+ "loss": 0.4513,
870
+ "step": 24600
871
+ },
872
+ {
873
+ "epoch": 0.041750841750841754,
874
+ "grad_norm": 0.4638340175151825,
875
+ "learning_rate": 4.791329966329967e-05,
876
+ "loss": 0.5075,
877
+ "step": 24800
878
+ },
879
+ {
880
+ "epoch": 0.04208754208754209,
881
+ "grad_norm": 0.2026415318250656,
882
+ "learning_rate": 4.789646464646465e-05,
883
+ "loss": 0.4807,
884
+ "step": 25000
885
+ },
886
+ {
887
+ "epoch": 0.04242424242424243,
888
+ "grad_norm": 0.3414445221424103,
889
+ "learning_rate": 4.787962962962963e-05,
890
+ "loss": 0.4731,
891
+ "step": 25200
892
+ },
893
+ {
894
+ "epoch": 0.04276094276094276,
895
+ "grad_norm": 0.20735152065753937,
896
+ "learning_rate": 4.7862794612794614e-05,
897
+ "loss": 0.5116,
898
+ "step": 25400
899
+ },
900
+ {
901
+ "epoch": 0.0430976430976431,
902
+ "grad_norm": 0.3263112008571625,
903
+ "learning_rate": 4.78459595959596e-05,
904
+ "loss": 0.4675,
905
+ "step": 25600
906
+ },
907
+ {
908
+ "epoch": 0.043434343434343436,
909
+ "grad_norm": 1.1240352392196655,
910
+ "learning_rate": 4.7829124579124576e-05,
911
+ "loss": 0.4651,
912
+ "step": 25800
913
+ },
914
+ {
915
+ "epoch": 0.04377104377104377,
916
+ "grad_norm": 0.47903600335121155,
917
+ "learning_rate": 4.781228956228957e-05,
918
+ "loss": 0.4696,
919
+ "step": 26000
920
+ },
921
+ {
922
+ "epoch": 0.04410774410774411,
923
+ "grad_norm": 2.3555760383605957,
924
+ "learning_rate": 4.779545454545455e-05,
925
+ "loss": 0.4826,
926
+ "step": 26200
927
+ },
928
+ {
929
+ "epoch": 0.044444444444444446,
930
+ "grad_norm": 0.22116072475910187,
931
+ "learning_rate": 4.777861952861953e-05,
932
+ "loss": 0.483,
933
+ "step": 26400
934
+ },
935
+ {
936
+ "epoch": 0.04478114478114478,
937
+ "grad_norm": 0.7030754685401917,
938
+ "learning_rate": 4.7761784511784514e-05,
939
+ "loss": 0.4317,
940
+ "step": 26600
941
+ },
942
+ {
943
+ "epoch": 0.04511784511784512,
944
+ "grad_norm": 0.3827281594276428,
945
+ "learning_rate": 4.774503367003367e-05,
946
+ "loss": 0.4292,
947
+ "step": 26800
948
+ },
949
+ {
950
+ "epoch": 0.045454545454545456,
951
+ "grad_norm": 0.8839394450187683,
952
+ "learning_rate": 4.7728198653198655e-05,
953
+ "loss": 0.4646,
954
+ "step": 27000
955
+ },
956
+ {
957
+ "epoch": 0.04579124579124579,
958
+ "grad_norm": 0.5600021481513977,
959
+ "learning_rate": 4.771136363636364e-05,
960
+ "loss": 0.5081,
961
+ "step": 27200
962
+ },
963
+ {
964
+ "epoch": 0.04612794612794613,
965
+ "grad_norm": 0.23018187284469604,
966
+ "learning_rate": 4.7694528619528624e-05,
967
+ "loss": 0.4908,
968
+ "step": 27400
969
+ },
970
+ {
971
+ "epoch": 0.046464646464646465,
972
+ "grad_norm": 0.456559419631958,
973
+ "learning_rate": 4.767769360269361e-05,
974
+ "loss": 0.4872,
975
+ "step": 27600
976
+ },
977
+ {
978
+ "epoch": 0.0468013468013468,
979
+ "grad_norm": 0.12121502310037613,
980
+ "learning_rate": 4.7660858585858586e-05,
981
+ "loss": 0.4979,
982
+ "step": 27800
983
+ },
984
+ {
985
+ "epoch": 0.04713804713804714,
986
+ "grad_norm": 0.38946759700775146,
987
+ "learning_rate": 4.764402356902357e-05,
988
+ "loss": 0.4651,
989
+ "step": 28000
990
+ },
991
+ {
992
+ "epoch": 0.047474747474747475,
993
+ "grad_norm": 2.142538547515869,
994
+ "learning_rate": 4.7627188552188555e-05,
995
+ "loss": 0.4288,
996
+ "step": 28200
997
+ },
998
+ {
999
+ "epoch": 0.04781144781144781,
1000
+ "grad_norm": 0.15298590064048767,
1001
+ "learning_rate": 4.761035353535353e-05,
1002
+ "loss": 0.4365,
1003
+ "step": 28400
1004
+ },
1005
+ {
1006
+ "epoch": 0.04814814814814815,
1007
+ "grad_norm": 0.6363445520401001,
1008
+ "learning_rate": 4.7593518518518524e-05,
1009
+ "loss": 0.4428,
1010
+ "step": 28600
1011
+ },
1012
+ {
1013
+ "epoch": 0.048484848484848485,
1014
+ "grad_norm": 0.5169795751571655,
1015
+ "learning_rate": 4.757668350168351e-05,
1016
+ "loss": 0.4666,
1017
+ "step": 28800
1018
+ },
1019
+ {
1020
+ "epoch": 0.04882154882154882,
1021
+ "grad_norm": 0.2661610245704651,
1022
+ "learning_rate": 4.7559848484848486e-05,
1023
+ "loss": 0.4492,
1024
+ "step": 29000
1025
+ },
1026
+ {
1027
+ "epoch": 0.04915824915824916,
1028
+ "grad_norm": 0.4399496018886566,
1029
+ "learning_rate": 4.754301346801347e-05,
1030
+ "loss": 0.4504,
1031
+ "step": 29200
1032
+ },
1033
+ {
1034
+ "epoch": 0.049494949494949494,
1035
+ "grad_norm": 0.31160300970077515,
1036
+ "learning_rate": 4.7526178451178454e-05,
1037
+ "loss": 0.4527,
1038
+ "step": 29400
1039
+ },
1040
+ {
1041
+ "epoch": 0.04983164983164983,
1042
+ "grad_norm": 0.6169541478157043,
1043
+ "learning_rate": 4.750934343434343e-05,
1044
+ "loss": 0.4995,
1045
+ "step": 29600
1046
+ },
1047
+ {
1048
+ "epoch": 0.05016835016835017,
1049
+ "grad_norm": 0.43009576201438904,
1050
+ "learning_rate": 4.7492508417508416e-05,
1051
+ "loss": 0.4681,
1052
+ "step": 29800
1053
+ },
1054
+ {
1055
+ "epoch": 0.050505050505050504,
1056
+ "grad_norm": 0.3901723623275757,
1057
+ "learning_rate": 4.74756734006734e-05,
1058
+ "loss": 0.4509,
1059
+ "step": 30000
1060
+ },
1061
+ {
1062
+ "epoch": 0.05084175084175084,
1063
+ "grad_norm": 0.2859044373035431,
1064
+ "learning_rate": 4.745883838383839e-05,
1065
+ "loss": 0.4262,
1066
+ "step": 30200
1067
+ },
1068
+ {
1069
+ "epoch": 0.05117845117845118,
1070
+ "grad_norm": 0.29008200764656067,
1071
+ "learning_rate": 4.744208754208754e-05,
1072
+ "loss": 0.434,
1073
+ "step": 30400
1074
+ },
1075
+ {
1076
+ "epoch": 0.051515151515151514,
1077
+ "grad_norm": 0.8030261397361755,
1078
+ "learning_rate": 4.742525252525253e-05,
1079
+ "loss": 0.5066,
1080
+ "step": 30600
1081
+ },
1082
+ {
1083
+ "epoch": 0.05185185185185185,
1084
+ "grad_norm": 0.6552255153656006,
1085
+ "learning_rate": 4.740841750841751e-05,
1086
+ "loss": 0.4888,
1087
+ "step": 30800
1088
+ },
1089
+ {
1090
+ "epoch": 0.05218855218855219,
1091
+ "grad_norm": 0.47479531168937683,
1092
+ "learning_rate": 4.7391582491582496e-05,
1093
+ "loss": 0.4886,
1094
+ "step": 31000
1095
+ },
1096
+ {
1097
+ "epoch": 0.052525252525252523,
1098
+ "grad_norm": 0.6294977068901062,
1099
+ "learning_rate": 4.737474747474748e-05,
1100
+ "loss": 0.4144,
1101
+ "step": 31200
1102
+ },
1103
+ {
1104
+ "epoch": 0.05286195286195286,
1105
+ "grad_norm": 0.346327006816864,
1106
+ "learning_rate": 4.7357912457912465e-05,
1107
+ "loss": 0.517,
1108
+ "step": 31400
1109
+ },
1110
+ {
1111
+ "epoch": 0.0531986531986532,
1112
+ "grad_norm": 0.4449813961982727,
1113
+ "learning_rate": 4.734107744107744e-05,
1114
+ "loss": 0.4681,
1115
+ "step": 31600
1116
+ },
1117
+ {
1118
+ "epoch": 0.05353535353535353,
1119
+ "grad_norm": 0.4756247401237488,
1120
+ "learning_rate": 4.7324242424242426e-05,
1121
+ "loss": 0.4772,
1122
+ "step": 31800
1123
+ },
1124
+ {
1125
+ "epoch": 0.05387205387205387,
1126
+ "grad_norm": 0.5156170129776001,
1127
+ "learning_rate": 4.730740740740741e-05,
1128
+ "loss": 0.456,
1129
+ "step": 32000
1130
+ },
1131
+ {
1132
+ "epoch": 0.054208754208754206,
1133
+ "grad_norm": 1.6009584665298462,
1134
+ "learning_rate": 4.729057239057239e-05,
1135
+ "loss": 0.4483,
1136
+ "step": 32200
1137
+ },
1138
+ {
1139
+ "epoch": 0.05454545454545454,
1140
+ "grad_norm": 0.4179598391056061,
1141
+ "learning_rate": 4.727373737373737e-05,
1142
+ "loss": 0.4438,
1143
+ "step": 32400
1144
+ },
1145
+ {
1146
+ "epoch": 0.05488215488215488,
1147
+ "grad_norm": 0.09701373428106308,
1148
+ "learning_rate": 4.725690235690236e-05,
1149
+ "loss": 0.4746,
1150
+ "step": 32600
1151
+ },
1152
+ {
1153
+ "epoch": 0.055218855218855216,
1154
+ "grad_norm": 0.4205819368362427,
1155
+ "learning_rate": 4.724006734006734e-05,
1156
+ "loss": 0.4459,
1157
+ "step": 32800
1158
+ },
1159
+ {
1160
+ "epoch": 0.05555555555555555,
1161
+ "grad_norm": 0.5670439004898071,
1162
+ "learning_rate": 4.7223232323232326e-05,
1163
+ "loss": 0.5025,
1164
+ "step": 33000
1165
+ },
1166
+ {
1167
+ "epoch": 0.05589225589225589,
1168
+ "grad_norm": 0.47377878427505493,
1169
+ "learning_rate": 4.720639730639731e-05,
1170
+ "loss": 0.4746,
1171
+ "step": 33200
1172
+ },
1173
+ {
1174
+ "epoch": 0.056228956228956226,
1175
+ "grad_norm": 0.254245400428772,
1176
+ "learning_rate": 4.718956228956229e-05,
1177
+ "loss": 0.4926,
1178
+ "step": 33400
1179
+ },
1180
+ {
1181
+ "epoch": 0.05656565656565657,
1182
+ "grad_norm": 0.299713671207428,
1183
+ "learning_rate": 4.717272727272727e-05,
1184
+ "loss": 0.4748,
1185
+ "step": 33600
1186
+ },
1187
+ {
1188
+ "epoch": 0.056902356902356906,
1189
+ "grad_norm": 0.16089321672916412,
1190
+ "learning_rate": 4.715589225589226e-05,
1191
+ "loss": 0.4813,
1192
+ "step": 33800
1193
+ },
1194
+ {
1195
+ "epoch": 0.05723905723905724,
1196
+ "grad_norm": 0.27492621541023254,
1197
+ "learning_rate": 4.713914141414142e-05,
1198
+ "loss": 0.473,
1199
+ "step": 34000
1200
+ },
1201
+ {
1202
+ "epoch": 0.05757575757575758,
1203
+ "grad_norm": 0.8170735239982605,
1204
+ "learning_rate": 4.71223063973064e-05,
1205
+ "loss": 0.4251,
1206
+ "step": 34200
1207
+ },
1208
+ {
1209
+ "epoch": 0.057912457912457915,
1210
+ "grad_norm": 0.41072168946266174,
1211
+ "learning_rate": 4.710547138047138e-05,
1212
+ "loss": 0.4692,
1213
+ "step": 34400
1214
+ },
1215
+ {
1216
+ "epoch": 0.05824915824915825,
1217
+ "grad_norm": 0.37332773208618164,
1218
+ "learning_rate": 4.708863636363637e-05,
1219
+ "loss": 0.4289,
1220
+ "step": 34600
1221
+ },
1222
+ {
1223
+ "epoch": 0.05858585858585859,
1224
+ "grad_norm": 0.3257604241371155,
1225
+ "learning_rate": 4.7071801346801345e-05,
1226
+ "loss": 0.4623,
1227
+ "step": 34800
1228
+ },
1229
+ {
1230
+ "epoch": 0.058922558922558925,
1231
+ "grad_norm": 0.23426009714603424,
1232
+ "learning_rate": 4.705496632996633e-05,
1233
+ "loss": 0.5082,
1234
+ "step": 35000
1235
+ },
1236
+ {
1237
+ "epoch": 0.05925925925925926,
1238
+ "grad_norm": 0.28719109296798706,
1239
+ "learning_rate": 4.703813131313132e-05,
1240
+ "loss": 0.4767,
1241
+ "step": 35200
1242
+ },
1243
+ {
1244
+ "epoch": 0.0595959595959596,
1245
+ "grad_norm": 0.35480618476867676,
1246
+ "learning_rate": 4.70212962962963e-05,
1247
+ "loss": 0.5006,
1248
+ "step": 35400
1249
+ },
1250
+ {
1251
+ "epoch": 0.059932659932659935,
1252
+ "grad_norm": 0.5050226449966431,
1253
+ "learning_rate": 4.700446127946128e-05,
1254
+ "loss": 0.4809,
1255
+ "step": 35600
1256
+ },
1257
+ {
1258
+ "epoch": 0.06026936026936027,
1259
+ "grad_norm": 0.2631937265396118,
1260
+ "learning_rate": 4.698762626262627e-05,
1261
+ "loss": 0.4508,
1262
+ "step": 35800
1263
+ },
1264
+ {
1265
+ "epoch": 0.06060606060606061,
1266
+ "grad_norm": 0.32295939326286316,
1267
+ "learning_rate": 4.6970791245791244e-05,
1268
+ "loss": 0.4697,
1269
+ "step": 36000
1270
+ },
1271
+ {
1272
+ "epoch": 0.060942760942760944,
1273
+ "grad_norm": 0.34667742252349854,
1274
+ "learning_rate": 4.695404040404041e-05,
1275
+ "loss": 0.4692,
1276
+ "step": 36200
1277
+ },
1278
+ {
1279
+ "epoch": 0.06127946127946128,
1280
+ "grad_norm": 0.6987492442131042,
1281
+ "learning_rate": 4.693720538720539e-05,
1282
+ "loss": 0.4596,
1283
+ "step": 36400
1284
+ },
1285
+ {
1286
+ "epoch": 0.06161616161616162,
1287
+ "grad_norm": 0.4795779883861542,
1288
+ "learning_rate": 4.692037037037037e-05,
1289
+ "loss": 0.4361,
1290
+ "step": 36600
1291
+ },
1292
+ {
1293
+ "epoch": 0.061952861952861954,
1294
+ "grad_norm": 0.5291064381599426,
1295
+ "learning_rate": 4.6903535353535355e-05,
1296
+ "loss": 0.4408,
1297
+ "step": 36800
1298
+ },
1299
+ {
1300
+ "epoch": 0.06228956228956229,
1301
+ "grad_norm": 0.46040576696395874,
1302
+ "learning_rate": 4.688670033670034e-05,
1303
+ "loss": 0.4976,
1304
+ "step": 37000
1305
+ },
1306
+ {
1307
+ "epoch": 0.06262626262626263,
1308
+ "grad_norm": 2.0511856079101562,
1309
+ "learning_rate": 4.6869865319865324e-05,
1310
+ "loss": 0.4747,
1311
+ "step": 37200
1312
+ },
1313
+ {
1314
+ "epoch": 0.06296296296296296,
1315
+ "grad_norm": 0.6845996975898743,
1316
+ "learning_rate": 4.68530303030303e-05,
1317
+ "loss": 0.4145,
1318
+ "step": 37400
1319
+ },
1320
+ {
1321
+ "epoch": 0.0632996632996633,
1322
+ "grad_norm": 0.2830463945865631,
1323
+ "learning_rate": 4.6836195286195286e-05,
1324
+ "loss": 0.4888,
1325
+ "step": 37600
1326
+ },
1327
+ {
1328
+ "epoch": 0.06363636363636363,
1329
+ "grad_norm": 0.4033803343772888,
1330
+ "learning_rate": 4.681936026936028e-05,
1331
+ "loss": 0.4584,
1332
+ "step": 37800
1333
+ },
1334
+ {
1335
+ "epoch": 0.06397306397306397,
1336
+ "grad_norm": 0.26968395709991455,
1337
+ "learning_rate": 4.6802525252525255e-05,
1338
+ "loss": 0.4246,
1339
+ "step": 38000
1340
+ },
1341
+ {
1342
+ "epoch": 0.0643097643097643,
1343
+ "grad_norm": 0.14037840068340302,
1344
+ "learning_rate": 4.678569023569024e-05,
1345
+ "loss": 0.4047,
1346
+ "step": 38200
1347
+ },
1348
+ {
1349
+ "epoch": 0.06464646464646465,
1350
+ "grad_norm": 0.2874729335308075,
1351
+ "learning_rate": 4.676885521885522e-05,
1352
+ "loss": 0.4445,
1353
+ "step": 38400
1354
+ },
1355
+ {
1356
+ "epoch": 0.06498316498316499,
1357
+ "grad_norm": 0.2633935213088989,
1358
+ "learning_rate": 4.67520202020202e-05,
1359
+ "loss": 0.4435,
1360
+ "step": 38600
1361
+ },
1362
+ {
1363
+ "epoch": 0.06531986531986532,
1364
+ "grad_norm": 0.4510101079940796,
1365
+ "learning_rate": 4.6735185185185185e-05,
1366
+ "loss": 0.4724,
1367
+ "step": 38800
1368
+ },
1369
+ {
1370
+ "epoch": 0.06565656565656566,
1371
+ "grad_norm": 0.20095351338386536,
1372
+ "learning_rate": 4.671835016835017e-05,
1373
+ "loss": 0.5128,
1374
+ "step": 39000
1375
+ },
1376
+ {
1377
+ "epoch": 0.06599326599326599,
1378
+ "grad_norm": 0.4433535635471344,
1379
+ "learning_rate": 4.670159932659933e-05,
1380
+ "loss": 0.4581,
1381
+ "step": 39200
1382
+ },
1383
+ {
1384
+ "epoch": 0.06632996632996634,
1385
+ "grad_norm": 0.5821954607963562,
1386
+ "learning_rate": 4.668476430976431e-05,
1387
+ "loss": 0.4985,
1388
+ "step": 39400
1389
+ },
1390
+ {
1391
+ "epoch": 0.06666666666666667,
1392
+ "grad_norm": 1.3577245473861694,
1393
+ "learning_rate": 4.6667929292929296e-05,
1394
+ "loss": 0.5283,
1395
+ "step": 39600
1396
+ },
1397
+ {
1398
+ "epoch": 0.06700336700336701,
1399
+ "grad_norm": 0.37699806690216064,
1400
+ "learning_rate": 4.6651094276094274e-05,
1401
+ "loss": 0.4825,
1402
+ "step": 39800
1403
+ },
1404
+ {
1405
+ "epoch": 0.06734006734006734,
1406
+ "grad_norm": 0.41804903745651245,
1407
+ "learning_rate": 4.663425925925926e-05,
1408
+ "loss": 0.4907,
1409
+ "step": 40000
1410
+ },
1411
+ {
1412
+ "epoch": 0.06767676767676768,
1413
+ "grad_norm": 0.243534654378891,
1414
+ "learning_rate": 4.661742424242425e-05,
1415
+ "loss": 0.5059,
1416
+ "step": 40200
1417
+ },
1418
+ {
1419
+ "epoch": 0.06801346801346801,
1420
+ "grad_norm": 0.1186649277806282,
1421
+ "learning_rate": 4.660058922558923e-05,
1422
+ "loss": 0.4808,
1423
+ "step": 40400
1424
+ },
1425
+ {
1426
+ "epoch": 0.06835016835016836,
1427
+ "grad_norm": 0.30161020159721375,
1428
+ "learning_rate": 4.658375420875421e-05,
1429
+ "loss": 0.4816,
1430
+ "step": 40600
1431
+ },
1432
+ {
1433
+ "epoch": 0.06868686868686869,
1434
+ "grad_norm": 0.2418268918991089,
1435
+ "learning_rate": 4.6566919191919195e-05,
1436
+ "loss": 0.4371,
1437
+ "step": 40800
1438
+ },
1439
+ {
1440
+ "epoch": 0.06902356902356903,
1441
+ "grad_norm": 0.2833971381187439,
1442
+ "learning_rate": 4.655008417508418e-05,
1443
+ "loss": 0.4686,
1444
+ "step": 41000
1445
+ },
1446
+ {
1447
+ "epoch": 0.06936026936026936,
1448
+ "grad_norm": 0.2797035276889801,
1449
+ "learning_rate": 4.653324915824916e-05,
1450
+ "loss": 0.4599,
1451
+ "step": 41200
1452
+ },
1453
+ {
1454
+ "epoch": 0.0696969696969697,
1455
+ "grad_norm": 0.3841836154460907,
1456
+ "learning_rate": 4.651641414141414e-05,
1457
+ "loss": 0.4111,
1458
+ "step": 41400
1459
+ },
1460
+ {
1461
+ "epoch": 0.07003367003367003,
1462
+ "grad_norm": 0.6590111255645752,
1463
+ "learning_rate": 4.6499579124579126e-05,
1464
+ "loss": 0.4631,
1465
+ "step": 41600
1466
+ },
1467
+ {
1468
+ "epoch": 0.07037037037037037,
1469
+ "grad_norm": 0.29527220129966736,
1470
+ "learning_rate": 4.648274410774411e-05,
1471
+ "loss": 0.4963,
1472
+ "step": 41800
1473
+ },
1474
+ {
1475
+ "epoch": 0.0707070707070707,
1476
+ "grad_norm": 0.7178300619125366,
1477
+ "learning_rate": 4.6465909090909095e-05,
1478
+ "loss": 0.4694,
1479
+ "step": 42000
1480
+ },
1481
+ {
1482
+ "epoch": 0.07104377104377105,
1483
+ "grad_norm": 0.38491058349609375,
1484
+ "learning_rate": 4.644907407407408e-05,
1485
+ "loss": 0.4437,
1486
+ "step": 42200
1487
+ },
1488
+ {
1489
+ "epoch": 0.07138047138047138,
1490
+ "grad_norm": 0.3037305772304535,
1491
+ "learning_rate": 4.643223905723906e-05,
1492
+ "loss": 0.4635,
1493
+ "step": 42400
1494
+ },
1495
+ {
1496
+ "epoch": 0.07171717171717172,
1497
+ "grad_norm": 0.4430043697357178,
1498
+ "learning_rate": 4.641540404040404e-05,
1499
+ "loss": 0.4623,
1500
+ "step": 42600
1501
+ },
1502
+ {
1503
+ "epoch": 0.07205387205387205,
1504
+ "grad_norm": 0.3590750992298126,
1505
+ "learning_rate": 4.6398569023569026e-05,
1506
+ "loss": 0.4827,
1507
+ "step": 42800
1508
+ },
1509
+ {
1510
+ "epoch": 0.0723905723905724,
1511
+ "grad_norm": 0.6161913275718689,
1512
+ "learning_rate": 4.638181818181818e-05,
1513
+ "loss": 0.4796,
1514
+ "step": 43000
1515
+ },
1516
+ {
1517
+ "epoch": 0.07272727272727272,
1518
+ "grad_norm": 0.3607730269432068,
1519
+ "learning_rate": 4.636498316498317e-05,
1520
+ "loss": 0.4801,
1521
+ "step": 43200
1522
+ },
1523
+ {
1524
+ "epoch": 0.07306397306397307,
1525
+ "grad_norm": 0.07056716829538345,
1526
+ "learning_rate": 4.634814814814815e-05,
1527
+ "loss": 0.4738,
1528
+ "step": 43400
1529
+ },
1530
+ {
1531
+ "epoch": 0.0734006734006734,
1532
+ "grad_norm": 0.09327512234449387,
1533
+ "learning_rate": 4.633131313131313e-05,
1534
+ "loss": 0.4885,
1535
+ "step": 43600
1536
+ },
1537
+ {
1538
+ "epoch": 0.07373737373737374,
1539
+ "grad_norm": 0.2519952952861786,
1540
+ "learning_rate": 4.6314478114478114e-05,
1541
+ "loss": 0.4541,
1542
+ "step": 43800
1543
+ },
1544
+ {
1545
+ "epoch": 0.07407407407407407,
1546
+ "grad_norm": 0.4618964195251465,
1547
+ "learning_rate": 4.62976430976431e-05,
1548
+ "loss": 0.4593,
1549
+ "step": 44000
1550
+ },
1551
+ {
1552
+ "epoch": 0.07441077441077441,
1553
+ "grad_norm": 0.4683738946914673,
1554
+ "learning_rate": 4.628080808080808e-05,
1555
+ "loss": 0.4536,
1556
+ "step": 44200
1557
+ },
1558
+ {
1559
+ "epoch": 0.07474747474747474,
1560
+ "grad_norm": 0.2552854120731354,
1561
+ "learning_rate": 4.626397306397307e-05,
1562
+ "loss": 0.4702,
1563
+ "step": 44400
1564
+ },
1565
+ {
1566
+ "epoch": 0.07508417508417509,
1567
+ "grad_norm": 0.33385610580444336,
1568
+ "learning_rate": 4.624713804713805e-05,
1569
+ "loss": 0.4623,
1570
+ "step": 44600
1571
+ },
1572
+ {
1573
+ "epoch": 0.07542087542087542,
1574
+ "grad_norm": 0.17833998799324036,
1575
+ "learning_rate": 4.6230303030303036e-05,
1576
+ "loss": 0.419,
1577
+ "step": 44800
1578
+ },
1579
+ {
1580
+ "epoch": 0.07575757575757576,
1581
+ "grad_norm": 0.14885468780994415,
1582
+ "learning_rate": 4.621346801346801e-05,
1583
+ "loss": 0.5132,
1584
+ "step": 45000
1585
+ },
1586
+ {
1587
+ "epoch": 0.07609427609427609,
1588
+ "grad_norm": 0.4861992597579956,
1589
+ "learning_rate": 4.6196632996633e-05,
1590
+ "loss": 0.4914,
1591
+ "step": 45200
1592
+ },
1593
+ {
1594
+ "epoch": 0.07643097643097643,
1595
+ "grad_norm": 0.20314612984657288,
1596
+ "learning_rate": 4.617979797979798e-05,
1597
+ "loss": 0.4535,
1598
+ "step": 45400
1599
+ },
1600
+ {
1601
+ "epoch": 0.07676767676767676,
1602
+ "grad_norm": 0.7097423076629639,
1603
+ "learning_rate": 4.616304713804714e-05,
1604
+ "loss": 0.4343,
1605
+ "step": 45600
1606
+ },
1607
+ {
1608
+ "epoch": 0.0771043771043771,
1609
+ "grad_norm": 0.23547014594078064,
1610
+ "learning_rate": 4.6146212121212124e-05,
1611
+ "loss": 0.449,
1612
+ "step": 45800
1613
+ },
1614
+ {
1615
+ "epoch": 0.07744107744107744,
1616
+ "grad_norm": 0.25944817066192627,
1617
+ "learning_rate": 4.612937710437711e-05,
1618
+ "loss": 0.4535,
1619
+ "step": 46000
1620
+ },
1621
+ {
1622
+ "epoch": 0.07777777777777778,
1623
+ "grad_norm": 0.6145304441452026,
1624
+ "learning_rate": 4.6112542087542086e-05,
1625
+ "loss": 0.4536,
1626
+ "step": 46200
1627
+ },
1628
+ {
1629
+ "epoch": 0.07811447811447811,
1630
+ "grad_norm": 1.2527995109558105,
1631
+ "learning_rate": 4.609570707070707e-05,
1632
+ "loss": 0.4616,
1633
+ "step": 46400
1634
+ },
1635
+ {
1636
+ "epoch": 0.07845117845117845,
1637
+ "grad_norm": 0.9534751772880554,
1638
+ "learning_rate": 4.6078872053872055e-05,
1639
+ "loss": 0.5009,
1640
+ "step": 46600
1641
+ },
1642
+ {
1643
+ "epoch": 0.07878787878787878,
1644
+ "grad_norm": 0.552191436290741,
1645
+ "learning_rate": 4.606203703703704e-05,
1646
+ "loss": 0.4738,
1647
+ "step": 46800
1648
+ },
1649
+ {
1650
+ "epoch": 0.07912457912457913,
1651
+ "grad_norm": 0.28889888525009155,
1652
+ "learning_rate": 4.6045202020202023e-05,
1653
+ "loss": 0.4721,
1654
+ "step": 47000
1655
+ },
1656
+ {
1657
+ "epoch": 0.07946127946127945,
1658
+ "grad_norm": 0.4266869127750397,
1659
+ "learning_rate": 4.602845117845118e-05,
1660
+ "loss": 0.4695,
1661
+ "step": 47200
1662
+ },
1663
+ {
1664
+ "epoch": 0.0797979797979798,
1665
+ "grad_norm": 0.5105581879615784,
1666
+ "learning_rate": 4.601161616161616e-05,
1667
+ "loss": 0.4739,
1668
+ "step": 47400
1669
+ },
1670
+ {
1671
+ "epoch": 0.08013468013468013,
1672
+ "grad_norm": 0.4175490736961365,
1673
+ "learning_rate": 4.599478114478114e-05,
1674
+ "loss": 0.4456,
1675
+ "step": 47600
1676
+ },
1677
+ {
1678
+ "epoch": 0.08047138047138047,
1679
+ "grad_norm": 0.3257778584957123,
1680
+ "learning_rate": 4.5977946127946134e-05,
1681
+ "loss": 0.4808,
1682
+ "step": 47800
1683
+ },
1684
+ {
1685
+ "epoch": 0.08080808080808081,
1686
+ "grad_norm": 0.3000372648239136,
1687
+ "learning_rate": 4.596111111111112e-05,
1688
+ "loss": 0.4635,
1689
+ "step": 48000
1690
+ },
1691
+ {
1692
+ "epoch": 0.08114478114478114,
1693
+ "grad_norm": 0.32268643379211426,
1694
+ "learning_rate": 4.5944276094276096e-05,
1695
+ "loss": 0.4925,
1696
+ "step": 48200
1697
+ },
1698
+ {
1699
+ "epoch": 0.08148148148148149,
1700
+ "grad_norm": 0.5290645956993103,
1701
+ "learning_rate": 4.592744107744108e-05,
1702
+ "loss": 0.4711,
1703
+ "step": 48400
1704
+ },
1705
+ {
1706
+ "epoch": 0.08181818181818182,
1707
+ "grad_norm": 0.29082873463630676,
1708
+ "learning_rate": 4.5910606060606065e-05,
1709
+ "loss": 0.4728,
1710
+ "step": 48600
1711
+ },
1712
+ {
1713
+ "epoch": 0.08215488215488216,
1714
+ "grad_norm": 0.6704333424568176,
1715
+ "learning_rate": 4.589377104377104e-05,
1716
+ "loss": 0.4779,
1717
+ "step": 48800
1718
+ },
1719
+ {
1720
+ "epoch": 0.08249158249158249,
1721
+ "grad_norm": 0.27797549962997437,
1722
+ "learning_rate": 4.587693602693603e-05,
1723
+ "loss": 0.4529,
1724
+ "step": 49000
1725
+ },
1726
+ {
1727
+ "epoch": 0.08282828282828283,
1728
+ "grad_norm": 0.1398361176252365,
1729
+ "learning_rate": 4.586010101010101e-05,
1730
+ "loss": 0.4379,
1731
+ "step": 49200
1732
+ },
1733
+ {
1734
+ "epoch": 0.08316498316498316,
1735
+ "grad_norm": 0.31926196813583374,
1736
+ "learning_rate": 4.5843265993265996e-05,
1737
+ "loss": 0.457,
1738
+ "step": 49400
1739
+ },
1740
+ {
1741
+ "epoch": 0.08350168350168351,
1742
+ "grad_norm": 0.17603324353694916,
1743
+ "learning_rate": 4.582643097643098e-05,
1744
+ "loss": 0.452,
1745
+ "step": 49600
1746
+ },
1747
+ {
1748
+ "epoch": 0.08383838383838384,
1749
+ "grad_norm": 0.4734348654747009,
1750
+ "learning_rate": 4.5809595959595964e-05,
1751
+ "loss": 0.4489,
1752
+ "step": 49800
1753
+ },
1754
+ {
1755
+ "epoch": 0.08417508417508418,
1756
+ "grad_norm": 0.2849540710449219,
1757
+ "learning_rate": 4.579276094276094e-05,
1758
+ "loss": 0.4448,
1759
+ "step": 50000
1760
+ },
1761
+ {
1762
+ "epoch": 0.08417508417508418,
1763
+ "eval_loss": 0.4674188494682312,
1764
+ "eval_runtime": 400.4812,
1765
+ "eval_samples_per_second": 14.982,
1766
+ "eval_steps_per_second": 14.982,
1767
+ "step": 50000
1768
+ },
1769
+ {
1770
+ "epoch": 0.08451178451178451,
1771
+ "grad_norm": 0.3861866295337677,
1772
+ "learning_rate": 4.5775925925925926e-05,
1773
+ "loss": 0.4691,
1774
+ "step": 50200
1775
+ },
1776
+ {
1777
+ "epoch": 0.08484848484848485,
1778
+ "grad_norm": 0.23927472531795502,
1779
+ "learning_rate": 4.575909090909091e-05,
1780
+ "loss": 0.519,
1781
+ "step": 50400
1782
+ },
1783
+ {
1784
+ "epoch": 0.08518518518518518,
1785
+ "grad_norm": 0.2663820683956146,
1786
+ "learning_rate": 4.5742255892255895e-05,
1787
+ "loss": 0.4394,
1788
+ "step": 50600
1789
+ },
1790
+ {
1791
+ "epoch": 0.08552188552188553,
1792
+ "grad_norm": 0.0782080739736557,
1793
+ "learning_rate": 4.572542087542088e-05,
1794
+ "loss": 0.4181,
1795
+ "step": 50800
1796
+ },
1797
+ {
1798
+ "epoch": 0.08585858585858586,
1799
+ "grad_norm": 0.32413387298583984,
1800
+ "learning_rate": 4.5708585858585864e-05,
1801
+ "loss": 0.4643,
1802
+ "step": 51000
1803
+ },
1804
+ {
1805
+ "epoch": 0.0861952861952862,
1806
+ "grad_norm": 0.18156534433364868,
1807
+ "learning_rate": 4.569175084175085e-05,
1808
+ "loss": 0.4511,
1809
+ "step": 51200
1810
+ },
1811
+ {
1812
+ "epoch": 0.08653198653198653,
1813
+ "grad_norm": 0.298673152923584,
1814
+ "learning_rate": 4.5674915824915826e-05,
1815
+ "loss": 0.4424,
1816
+ "step": 51400
1817
+ },
1818
+ {
1819
+ "epoch": 0.08686868686868687,
1820
+ "grad_norm": 0.24452580511569977,
1821
+ "learning_rate": 4.565808080808081e-05,
1822
+ "loss": 0.4556,
1823
+ "step": 51600
1824
+ },
1825
+ {
1826
+ "epoch": 0.0872053872053872,
1827
+ "grad_norm": 0.2959561049938202,
1828
+ "learning_rate": 4.564132996632997e-05,
1829
+ "loss": 0.4543,
1830
+ "step": 51800
1831
+ },
1832
+ {
1833
+ "epoch": 0.08754208754208755,
1834
+ "grad_norm": 0.6213822960853577,
1835
+ "learning_rate": 4.5624579124579125e-05,
1836
+ "loss": 0.5136,
1837
+ "step": 52000
1838
+ },
1839
+ {
1840
+ "epoch": 0.08787878787878788,
1841
+ "grad_norm": 0.5385012030601501,
1842
+ "learning_rate": 4.560774410774411e-05,
1843
+ "loss": 0.4602,
1844
+ "step": 52200
1845
+ },
1846
+ {
1847
+ "epoch": 0.08821548821548822,
1848
+ "grad_norm": 0.6063356995582581,
1849
+ "learning_rate": 4.5590909090909094e-05,
1850
+ "loss": 0.4367,
1851
+ "step": 52400
1852
+ },
1853
+ {
1854
+ "epoch": 0.08855218855218855,
1855
+ "grad_norm": 0.43720120191574097,
1856
+ "learning_rate": 4.557407407407407e-05,
1857
+ "loss": 0.4902,
1858
+ "step": 52600
1859
+ },
1860
+ {
1861
+ "epoch": 0.08888888888888889,
1862
+ "grad_norm": 0.4334559738636017,
1863
+ "learning_rate": 4.555723905723906e-05,
1864
+ "loss": 0.4585,
1865
+ "step": 52800
1866
+ },
1867
+ {
1868
+ "epoch": 0.08922558922558922,
1869
+ "grad_norm": 0.2874049246311188,
1870
+ "learning_rate": 4.554040404040405e-05,
1871
+ "loss": 0.4907,
1872
+ "step": 53000
1873
+ },
1874
+ {
1875
+ "epoch": 0.08956228956228957,
1876
+ "grad_norm": 0.19016990065574646,
1877
+ "learning_rate": 4.5523569023569025e-05,
1878
+ "loss": 0.4561,
1879
+ "step": 53200
1880
+ },
1881
+ {
1882
+ "epoch": 0.0898989898989899,
1883
+ "grad_norm": 0.7278497815132141,
1884
+ "learning_rate": 4.550673400673401e-05,
1885
+ "loss": 0.4702,
1886
+ "step": 53400
1887
+ },
1888
+ {
1889
+ "epoch": 0.09023569023569024,
1890
+ "grad_norm": 0.28533700108528137,
1891
+ "learning_rate": 4.5489898989898993e-05,
1892
+ "loss": 0.5139,
1893
+ "step": 53600
1894
+ },
1895
+ {
1896
+ "epoch": 0.09057239057239057,
1897
+ "grad_norm": 0.6488041281700134,
1898
+ "learning_rate": 4.547306397306397e-05,
1899
+ "loss": 0.4553,
1900
+ "step": 53800
1901
+ },
1902
+ {
1903
+ "epoch": 0.09090909090909091,
1904
+ "grad_norm": 0.3091227412223816,
1905
+ "learning_rate": 4.5456228956228955e-05,
1906
+ "loss": 0.4779,
1907
+ "step": 54000
1908
+ },
1909
+ {
1910
+ "epoch": 0.09124579124579124,
1911
+ "grad_norm": 0.3282964825630188,
1912
+ "learning_rate": 4.543939393939394e-05,
1913
+ "loss": 0.5117,
1914
+ "step": 54200
1915
+ },
1916
+ {
1917
+ "epoch": 0.09158249158249158,
1918
+ "grad_norm": 0.473143070936203,
1919
+ "learning_rate": 4.5422558922558924e-05,
1920
+ "loss": 0.4791,
1921
+ "step": 54400
1922
+ },
1923
+ {
1924
+ "epoch": 0.09191919191919191,
1925
+ "grad_norm": 0.5263796448707581,
1926
+ "learning_rate": 4.540572390572391e-05,
1927
+ "loss": 0.4686,
1928
+ "step": 54600
1929
+ },
1930
+ {
1931
+ "epoch": 0.09225589225589226,
1932
+ "grad_norm": 0.4568365216255188,
1933
+ "learning_rate": 4.538888888888889e-05,
1934
+ "loss": 0.4936,
1935
+ "step": 54800
1936
+ },
1937
+ {
1938
+ "epoch": 0.09259259259259259,
1939
+ "grad_norm": 0.9846563935279846,
1940
+ "learning_rate": 4.537205387205388e-05,
1941
+ "loss": 0.4968,
1942
+ "step": 55000
1943
+ },
1944
+ {
1945
+ "epoch": 0.09292929292929293,
1946
+ "grad_norm": 0.15145862102508545,
1947
+ "learning_rate": 4.5355218855218855e-05,
1948
+ "loss": 0.5163,
1949
+ "step": 55200
1950
+ },
1951
+ {
1952
+ "epoch": 0.09326599326599326,
1953
+ "grad_norm": 0.428117573261261,
1954
+ "learning_rate": 4.533838383838384e-05,
1955
+ "loss": 0.4646,
1956
+ "step": 55400
1957
+ },
1958
+ {
1959
+ "epoch": 0.0936026936026936,
1960
+ "grad_norm": 0.3261561393737793,
1961
+ "learning_rate": 4.5321548821548824e-05,
1962
+ "loss": 0.4697,
1963
+ "step": 55600
1964
+ },
1965
+ {
1966
+ "epoch": 0.09393939393939393,
1967
+ "grad_norm": 0.34254854917526245,
1968
+ "learning_rate": 4.530471380471381e-05,
1969
+ "loss": 0.4331,
1970
+ "step": 55800
1971
+ },
1972
+ {
1973
+ "epoch": 0.09427609427609428,
1974
+ "grad_norm": 0.15681512653827667,
1975
+ "learning_rate": 4.528787878787879e-05,
1976
+ "loss": 0.4765,
1977
+ "step": 56000
1978
+ },
1979
+ {
1980
+ "epoch": 0.0946127946127946,
1981
+ "grad_norm": 0.16159813106060028,
1982
+ "learning_rate": 4.527104377104378e-05,
1983
+ "loss": 0.4775,
1984
+ "step": 56200
1985
+ },
1986
+ {
1987
+ "epoch": 0.09494949494949495,
1988
+ "grad_norm": 0.6212481260299683,
1989
+ "learning_rate": 4.5254208754208754e-05,
1990
+ "loss": 0.5314,
1991
+ "step": 56400
1992
+ },
1993
+ {
1994
+ "epoch": 0.09528619528619528,
1995
+ "grad_norm": 0.3396393656730652,
1996
+ "learning_rate": 4.523737373737374e-05,
1997
+ "loss": 0.4898,
1998
+ "step": 56600
1999
+ },
2000
+ {
2001
+ "epoch": 0.09562289562289562,
2002
+ "grad_norm": 0.32701626420021057,
2003
+ "learning_rate": 4.5220622895622896e-05,
2004
+ "loss": 0.4421,
2005
+ "step": 56800
2006
+ },
2007
+ {
2008
+ "epoch": 0.09595959595959595,
2009
+ "grad_norm": 0.15523914992809296,
2010
+ "learning_rate": 4.520378787878788e-05,
2011
+ "loss": 0.4415,
2012
+ "step": 57000
2013
+ },
2014
+ {
2015
+ "epoch": 0.0962962962962963,
2016
+ "grad_norm": 0.5103595852851868,
2017
+ "learning_rate": 4.5186952861952865e-05,
2018
+ "loss": 0.453,
2019
+ "step": 57200
2020
+ },
2021
+ {
2022
+ "epoch": 0.09663299663299663,
2023
+ "grad_norm": 0.42163121700286865,
2024
+ "learning_rate": 4.517011784511785e-05,
2025
+ "loss": 0.4738,
2026
+ "step": 57400
2027
+ },
2028
+ {
2029
+ "epoch": 0.09696969696969697,
2030
+ "grad_norm": 0.9396620392799377,
2031
+ "learning_rate": 4.515328282828283e-05,
2032
+ "loss": 0.473,
2033
+ "step": 57600
2034
+ },
2035
+ {
2036
+ "epoch": 0.09730639730639731,
2037
+ "grad_norm": 0.4714924991130829,
2038
+ "learning_rate": 4.513644781144781e-05,
2039
+ "loss": 0.5031,
2040
+ "step": 57800
2041
+ },
2042
+ {
2043
+ "epoch": 0.09764309764309764,
2044
+ "grad_norm": 0.24718382954597473,
2045
+ "learning_rate": 4.5119612794612796e-05,
2046
+ "loss": 0.4592,
2047
+ "step": 58000
2048
+ },
2049
+ {
2050
+ "epoch": 0.09797979797979799,
2051
+ "grad_norm": 0.3186817169189453,
2052
+ "learning_rate": 4.510277777777778e-05,
2053
+ "loss": 0.4451,
2054
+ "step": 58200
2055
+ },
2056
+ {
2057
+ "epoch": 0.09831649831649832,
2058
+ "grad_norm": 0.34213390946388245,
2059
+ "learning_rate": 4.5085942760942764e-05,
2060
+ "loss": 0.4646,
2061
+ "step": 58400
2062
+ },
2063
+ {
2064
+ "epoch": 0.09865319865319866,
2065
+ "grad_norm": 0.29326021671295166,
2066
+ "learning_rate": 4.506910774410775e-05,
2067
+ "loss": 0.4825,
2068
+ "step": 58600
2069
+ },
2070
+ {
2071
+ "epoch": 0.09898989898989899,
2072
+ "grad_norm": 0.8425318598747253,
2073
+ "learning_rate": 4.505227272727273e-05,
2074
+ "loss": 0.4899,
2075
+ "step": 58800
2076
+ },
2077
+ {
2078
+ "epoch": 0.09932659932659933,
2079
+ "grad_norm": 0.23540657758712769,
2080
+ "learning_rate": 4.503543771043771e-05,
2081
+ "loss": 0.4654,
2082
+ "step": 59000
2083
+ },
2084
+ {
2085
+ "epoch": 0.09966329966329966,
2086
+ "grad_norm": 0.44379663467407227,
2087
+ "learning_rate": 4.5018602693602695e-05,
2088
+ "loss": 0.4722,
2089
+ "step": 59200
2090
+ },
2091
+ {
2092
+ "epoch": 0.1,
2093
+ "grad_norm": 0.23975303769111633,
2094
+ "learning_rate": 4.500176767676768e-05,
2095
+ "loss": 0.4589,
2096
+ "step": 59400
2097
+ },
2098
+ {
2099
+ "epoch": 0.10033670033670034,
2100
+ "grad_norm": 0.29341402649879456,
2101
+ "learning_rate": 4.498501683501684e-05,
2102
+ "loss": 0.5041,
2103
+ "step": 59600
2104
+ },
2105
+ {
2106
+ "epoch": 0.10067340067340068,
2107
+ "grad_norm": 0.34747016429901123,
2108
+ "learning_rate": 4.496818181818182e-05,
2109
+ "loss": 0.4647,
2110
+ "step": 59800
2111
+ },
2112
+ {
2113
+ "epoch": 0.10101010101010101,
2114
+ "grad_norm": 0.8880186080932617,
2115
+ "learning_rate": 4.4951346801346806e-05,
2116
+ "loss": 0.4497,
2117
+ "step": 60000
2118
+ },
2119
+ {
2120
+ "epoch": 0.10134680134680135,
2121
+ "grad_norm": 0.6821927428245544,
2122
+ "learning_rate": 4.4934511784511783e-05,
2123
+ "loss": 0.4716,
2124
+ "step": 60200
2125
+ },
2126
+ {
2127
+ "epoch": 0.10168350168350168,
2128
+ "grad_norm": 0.4481610953807831,
2129
+ "learning_rate": 4.491767676767677e-05,
2130
+ "loss": 0.4576,
2131
+ "step": 60400
2132
+ },
2133
+ {
2134
+ "epoch": 0.10202020202020202,
2135
+ "grad_norm": 0.6106315851211548,
2136
+ "learning_rate": 4.490084175084175e-05,
2137
+ "loss": 0.4386,
2138
+ "step": 60600
2139
+ },
2140
+ {
2141
+ "epoch": 0.10235690235690235,
2142
+ "grad_norm": 0.3058004081249237,
2143
+ "learning_rate": 4.4884006734006737e-05,
2144
+ "loss": 0.4914,
2145
+ "step": 60800
2146
+ },
2147
+ {
2148
+ "epoch": 0.1026936026936027,
2149
+ "grad_norm": 0.4685909152030945,
2150
+ "learning_rate": 4.486717171717172e-05,
2151
+ "loss": 0.4707,
2152
+ "step": 61000
2153
+ },
2154
+ {
2155
+ "epoch": 0.10303030303030303,
2156
+ "grad_norm": 0.643690288066864,
2157
+ "learning_rate": 4.4850336700336705e-05,
2158
+ "loss": 0.5428,
2159
+ "step": 61200
2160
+ },
2161
+ {
2162
+ "epoch": 0.10336700336700337,
2163
+ "grad_norm": 0.44329872727394104,
2164
+ "learning_rate": 4.483350168350168e-05,
2165
+ "loss": 0.4279,
2166
+ "step": 61400
2167
+ },
2168
+ {
2169
+ "epoch": 0.1037037037037037,
2170
+ "grad_norm": 0.21025417745113373,
2171
+ "learning_rate": 4.481666666666667e-05,
2172
+ "loss": 0.458,
2173
+ "step": 61600
2174
+ },
2175
+ {
2176
+ "epoch": 0.10404040404040404,
2177
+ "grad_norm": 0.24184706807136536,
2178
+ "learning_rate": 4.479983164983165e-05,
2179
+ "loss": 0.4964,
2180
+ "step": 61800
2181
+ },
2182
+ {
2183
+ "epoch": 0.10437710437710437,
2184
+ "grad_norm": 0.4054918587207794,
2185
+ "learning_rate": 4.4782996632996636e-05,
2186
+ "loss": 0.4427,
2187
+ "step": 62000
2188
+ },
2189
+ {
2190
+ "epoch": 0.10471380471380472,
2191
+ "grad_norm": 0.4844823181629181,
2192
+ "learning_rate": 4.476616161616162e-05,
2193
+ "loss": 0.4529,
2194
+ "step": 62200
2195
+ },
2196
+ {
2197
+ "epoch": 0.10505050505050505,
2198
+ "grad_norm": 0.39470815658569336,
2199
+ "learning_rate": 4.4749326599326605e-05,
2200
+ "loss": 0.4441,
2201
+ "step": 62400
2202
+ },
2203
+ {
2204
+ "epoch": 0.10538720538720539,
2205
+ "grad_norm": 0.47343677282333374,
2206
+ "learning_rate": 4.473249158249159e-05,
2207
+ "loss": 0.4253,
2208
+ "step": 62600
2209
+ },
2210
+ {
2211
+ "epoch": 0.10572390572390572,
2212
+ "grad_norm": 0.21908357739448547,
2213
+ "learning_rate": 4.471565656565657e-05,
2214
+ "loss": 0.4445,
2215
+ "step": 62800
2216
+ },
2217
+ {
2218
+ "epoch": 0.10606060606060606,
2219
+ "grad_norm": 0.4983006715774536,
2220
+ "learning_rate": 4.469882154882155e-05,
2221
+ "loss": 0.4567,
2222
+ "step": 63000
2223
+ },
2224
+ {
2225
+ "epoch": 0.1063973063973064,
2226
+ "grad_norm": 0.4615258276462555,
2227
+ "learning_rate": 4.4681986531986536e-05,
2228
+ "loss": 0.489,
2229
+ "step": 63200
2230
+ },
2231
+ {
2232
+ "epoch": 0.10673400673400674,
2233
+ "grad_norm": 0.30304470658302307,
2234
+ "learning_rate": 4.466523569023569e-05,
2235
+ "loss": 0.4748,
2236
+ "step": 63400
2237
+ },
2238
+ {
2239
+ "epoch": 0.10707070707070707,
2240
+ "grad_norm": 0.1221388503909111,
2241
+ "learning_rate": 4.464840067340068e-05,
2242
+ "loss": 0.4529,
2243
+ "step": 63600
2244
+ },
2245
+ {
2246
+ "epoch": 0.10740740740740741,
2247
+ "grad_norm": 0.36816734075546265,
2248
+ "learning_rate": 4.463156565656566e-05,
2249
+ "loss": 0.4518,
2250
+ "step": 63800
2251
+ },
2252
+ {
2253
+ "epoch": 0.10774410774410774,
2254
+ "grad_norm": 0.13719257712364197,
2255
+ "learning_rate": 4.461473063973064e-05,
2256
+ "loss": 0.4314,
2257
+ "step": 64000
2258
+ },
2259
+ {
2260
+ "epoch": 0.10808080808080808,
2261
+ "grad_norm": 0.45440635085105896,
2262
+ "learning_rate": 4.4597895622895624e-05,
2263
+ "loss": 0.5005,
2264
+ "step": 64200
2265
+ },
2266
+ {
2267
+ "epoch": 0.10841750841750841,
2268
+ "grad_norm": 0.4109625816345215,
2269
+ "learning_rate": 4.458106060606061e-05,
2270
+ "loss": 0.4847,
2271
+ "step": 64400
2272
+ },
2273
+ {
2274
+ "epoch": 0.10875420875420876,
2275
+ "grad_norm": 0.43106183409690857,
2276
+ "learning_rate": 4.4564225589225586e-05,
2277
+ "loss": 0.4607,
2278
+ "step": 64600
2279
+ },
2280
+ {
2281
+ "epoch": 0.10909090909090909,
2282
+ "grad_norm": 0.3796352744102478,
2283
+ "learning_rate": 4.454739057239058e-05,
2284
+ "loss": 0.4793,
2285
+ "step": 64800
2286
+ },
2287
+ {
2288
+ "epoch": 0.10942760942760943,
2289
+ "grad_norm": 0.5014599561691284,
2290
+ "learning_rate": 4.453055555555556e-05,
2291
+ "loss": 0.4848,
2292
+ "step": 65000
2293
+ },
2294
+ {
2295
+ "epoch": 0.10976430976430976,
2296
+ "grad_norm": 0.3484991192817688,
2297
+ "learning_rate": 4.4513720538720546e-05,
2298
+ "loss": 0.5129,
2299
+ "step": 65200
2300
+ },
2301
+ {
2302
+ "epoch": 0.1101010101010101,
2303
+ "grad_norm": 0.2991756200790405,
2304
+ "learning_rate": 4.449688552188552e-05,
2305
+ "loss": 0.4927,
2306
+ "step": 65400
2307
+ },
2308
+ {
2309
+ "epoch": 0.11043771043771043,
2310
+ "grad_norm": 0.37985363602638245,
2311
+ "learning_rate": 4.448005050505051e-05,
2312
+ "loss": 0.4372,
2313
+ "step": 65600
2314
+ },
2315
+ {
2316
+ "epoch": 0.11077441077441078,
2317
+ "grad_norm": 0.4508950114250183,
2318
+ "learning_rate": 4.446321548821549e-05,
2319
+ "loss": 0.4182,
2320
+ "step": 65800
2321
+ },
2322
+ {
2323
+ "epoch": 0.1111111111111111,
2324
+ "grad_norm": 0.7306589484214783,
2325
+ "learning_rate": 4.444646464646465e-05,
2326
+ "loss": 0.5217,
2327
+ "step": 66000
2328
+ },
2329
+ {
2330
+ "epoch": 0.11144781144781145,
2331
+ "grad_norm": 0.17345421016216278,
2332
+ "learning_rate": 4.4429629629629634e-05,
2333
+ "loss": 0.4653,
2334
+ "step": 66200
2335
+ },
2336
+ {
2337
+ "epoch": 0.11178451178451178,
2338
+ "grad_norm": 0.36997854709625244,
2339
+ "learning_rate": 4.441279461279462e-05,
2340
+ "loss": 0.4631,
2341
+ "step": 66400
2342
+ },
2343
+ {
2344
+ "epoch": 0.11212121212121212,
2345
+ "grad_norm": 0.31563735008239746,
2346
+ "learning_rate": 4.4395959595959596e-05,
2347
+ "loss": 0.4606,
2348
+ "step": 66600
2349
+ },
2350
+ {
2351
+ "epoch": 0.11245791245791245,
2352
+ "grad_norm": 0.23173430562019348,
2353
+ "learning_rate": 4.437912457912458e-05,
2354
+ "loss": 0.4868,
2355
+ "step": 66800
2356
+ },
2357
+ {
2358
+ "epoch": 0.1127946127946128,
2359
+ "grad_norm": 0.336233526468277,
2360
+ "learning_rate": 4.4362289562289565e-05,
2361
+ "loss": 0.4809,
2362
+ "step": 67000
2363
+ },
2364
+ {
2365
+ "epoch": 0.11313131313131314,
2366
+ "grad_norm": 0.3722301423549652,
2367
+ "learning_rate": 4.434545454545454e-05,
2368
+ "loss": 0.4396,
2369
+ "step": 67200
2370
+ },
2371
+ {
2372
+ "epoch": 0.11346801346801347,
2373
+ "grad_norm": 0.5491744875907898,
2374
+ "learning_rate": 4.432861952861953e-05,
2375
+ "loss": 0.3938,
2376
+ "step": 67400
2377
+ },
2378
+ {
2379
+ "epoch": 0.11380471380471381,
2380
+ "grad_norm": 0.2742317020893097,
2381
+ "learning_rate": 4.431178451178452e-05,
2382
+ "loss": 0.4782,
2383
+ "step": 67600
2384
+ },
2385
+ {
2386
+ "epoch": 0.11414141414141414,
2387
+ "grad_norm": 0.22197793424129486,
2388
+ "learning_rate": 4.4294949494949495e-05,
2389
+ "loss": 0.4233,
2390
+ "step": 67800
2391
+ },
2392
+ {
2393
+ "epoch": 0.11447811447811448,
2394
+ "grad_norm": 0.2449079006910324,
2395
+ "learning_rate": 4.427811447811448e-05,
2396
+ "loss": 0.4889,
2397
+ "step": 68000
2398
+ },
2399
+ {
2400
+ "epoch": 0.11481481481481481,
2401
+ "grad_norm": 0.25308141112327576,
2402
+ "learning_rate": 4.4261279461279464e-05,
2403
+ "loss": 0.4275,
2404
+ "step": 68200
2405
+ },
2406
+ {
2407
+ "epoch": 0.11515151515151516,
2408
+ "grad_norm": 0.22254426777362823,
2409
+ "learning_rate": 4.424444444444444e-05,
2410
+ "loss": 0.487,
2411
+ "step": 68400
2412
+ },
2413
+ {
2414
+ "epoch": 0.11548821548821549,
2415
+ "grad_norm": 0.4978940784931183,
2416
+ "learning_rate": 4.4227609427609426e-05,
2417
+ "loss": 0.4709,
2418
+ "step": 68600
2419
+ },
2420
+ {
2421
+ "epoch": 0.11582491582491583,
2422
+ "grad_norm": 0.2366330623626709,
2423
+ "learning_rate": 4.421077441077441e-05,
2424
+ "loss": 0.487,
2425
+ "step": 68800
2426
+ },
2427
+ {
2428
+ "epoch": 0.11616161616161616,
2429
+ "grad_norm": 0.38192349672317505,
2430
+ "learning_rate": 4.41939393939394e-05,
2431
+ "loss": 0.4751,
2432
+ "step": 69000
2433
+ },
2434
+ {
2435
+ "epoch": 0.1164983164983165,
2436
+ "grad_norm": 0.4711579382419586,
2437
+ "learning_rate": 4.417710437710438e-05,
2438
+ "loss": 0.4694,
2439
+ "step": 69200
2440
+ },
2441
+ {
2442
+ "epoch": 0.11683501683501683,
2443
+ "grad_norm": 0.7776811122894287,
2444
+ "learning_rate": 4.4160269360269364e-05,
2445
+ "loss": 0.505,
2446
+ "step": 69400
2447
+ },
2448
+ {
2449
+ "epoch": 0.11717171717171718,
2450
+ "grad_norm": 0.22125215828418732,
2451
+ "learning_rate": 4.414343434343435e-05,
2452
+ "loss": 0.4599,
2453
+ "step": 69600
2454
+ },
2455
+ {
2456
+ "epoch": 0.1175084175084175,
2457
+ "grad_norm": 0.3384982943534851,
2458
+ "learning_rate": 4.4126683501683505e-05,
2459
+ "loss": 0.4825,
2460
+ "step": 69800
2461
+ },
2462
+ {
2463
+ "epoch": 0.11784511784511785,
2464
+ "grad_norm": 0.35308724641799927,
2465
+ "learning_rate": 4.410984848484849e-05,
2466
+ "loss": 0.4698,
2467
+ "step": 70000
2468
+ },
2469
+ {
2470
+ "epoch": 0.11818181818181818,
2471
+ "grad_norm": 0.3890261650085449,
2472
+ "learning_rate": 4.4093013468013474e-05,
2473
+ "loss": 0.4414,
2474
+ "step": 70200
2475
+ },
2476
+ {
2477
+ "epoch": 0.11851851851851852,
2478
+ "grad_norm": 0.6729969382286072,
2479
+ "learning_rate": 4.407617845117845e-05,
2480
+ "loss": 0.5287,
2481
+ "step": 70400
2482
+ },
2483
+ {
2484
+ "epoch": 0.11885521885521885,
2485
+ "grad_norm": 0.18775266408920288,
2486
+ "learning_rate": 4.4059343434343436e-05,
2487
+ "loss": 0.4809,
2488
+ "step": 70600
2489
+ },
2490
+ {
2491
+ "epoch": 0.1191919191919192,
2492
+ "grad_norm": 0.13612866401672363,
2493
+ "learning_rate": 4.404250841750842e-05,
2494
+ "loss": 0.4591,
2495
+ "step": 70800
2496
+ },
2497
+ {
2498
+ "epoch": 0.11952861952861953,
2499
+ "grad_norm": 0.25239524245262146,
2500
+ "learning_rate": 4.40256734006734e-05,
2501
+ "loss": 0.4514,
2502
+ "step": 71000
2503
+ },
2504
+ {
2505
+ "epoch": 0.11986531986531987,
2506
+ "grad_norm": 0.5928908586502075,
2507
+ "learning_rate": 4.400883838383838e-05,
2508
+ "loss": 0.4437,
2509
+ "step": 71200
2510
+ },
2511
+ {
2512
+ "epoch": 0.1202020202020202,
2513
+ "grad_norm": 0.3206656575202942,
2514
+ "learning_rate": 4.3992003367003374e-05,
2515
+ "loss": 0.4193,
2516
+ "step": 71400
2517
+ },
2518
+ {
2519
+ "epoch": 0.12053872053872054,
2520
+ "grad_norm": 0.1375039964914322,
2521
+ "learning_rate": 4.397516835016835e-05,
2522
+ "loss": 0.4642,
2523
+ "step": 71600
2524
+ },
2525
+ {
2526
+ "epoch": 0.12087542087542087,
2527
+ "grad_norm": 0.31986692547798157,
2528
+ "learning_rate": 4.3958333333333336e-05,
2529
+ "loss": 0.4771,
2530
+ "step": 71800
2531
+ },
2532
+ {
2533
+ "epoch": 0.12121212121212122,
2534
+ "grad_norm": 0.3976145088672638,
2535
+ "learning_rate": 4.394158249158249e-05,
2536
+ "loss": 0.5199,
2537
+ "step": 72000
2538
+ },
2539
+ {
2540
+ "epoch": 0.12154882154882155,
2541
+ "grad_norm": 0.5115092992782593,
2542
+ "learning_rate": 4.392474747474747e-05,
2543
+ "loss": 0.4639,
2544
+ "step": 72200
2545
+ },
2546
+ {
2547
+ "epoch": 0.12188552188552189,
2548
+ "grad_norm": 0.6884472370147705,
2549
+ "learning_rate": 4.390791245791246e-05,
2550
+ "loss": 0.5004,
2551
+ "step": 72400
2552
+ },
2553
+ {
2554
+ "epoch": 0.12222222222222222,
2555
+ "grad_norm": 0.35599565505981445,
2556
+ "learning_rate": 4.3891077441077446e-05,
2557
+ "loss": 0.4125,
2558
+ "step": 72600
2559
+ },
2560
+ {
2561
+ "epoch": 0.12255892255892256,
2562
+ "grad_norm": 0.31085407733917236,
2563
+ "learning_rate": 4.387424242424243e-05,
2564
+ "loss": 0.4276,
2565
+ "step": 72800
2566
+ },
2567
+ {
2568
+ "epoch": 0.12289562289562289,
2569
+ "grad_norm": 0.4173491299152374,
2570
+ "learning_rate": 4.385740740740741e-05,
2571
+ "loss": 0.5051,
2572
+ "step": 73000
2573
+ },
2574
+ {
2575
+ "epoch": 0.12323232323232323,
2576
+ "grad_norm": 0.857441782951355,
2577
+ "learning_rate": 4.384057239057239e-05,
2578
+ "loss": 0.4494,
2579
+ "step": 73200
2580
+ },
2581
+ {
2582
+ "epoch": 0.12356902356902356,
2583
+ "grad_norm": 0.2960607707500458,
2584
+ "learning_rate": 4.382382154882155e-05,
2585
+ "loss": 0.5233,
2586
+ "step": 73400
2587
+ },
2588
+ {
2589
+ "epoch": 0.12390572390572391,
2590
+ "grad_norm": 0.38231462240219116,
2591
+ "learning_rate": 4.3806986531986535e-05,
2592
+ "loss": 0.5003,
2593
+ "step": 73600
2594
+ },
2595
+ {
2596
+ "epoch": 0.12424242424242424,
2597
+ "grad_norm": 0.20170505344867706,
2598
+ "learning_rate": 4.379015151515152e-05,
2599
+ "loss": 0.4543,
2600
+ "step": 73800
2601
+ },
2602
+ {
2603
+ "epoch": 0.12457912457912458,
2604
+ "grad_norm": 0.49870565533638,
2605
+ "learning_rate": 4.37733164983165e-05,
2606
+ "loss": 0.4931,
2607
+ "step": 74000
2608
+ },
2609
+ {
2610
+ "epoch": 0.12491582491582491,
2611
+ "grad_norm": 0.21166172623634338,
2612
+ "learning_rate": 4.375648148148148e-05,
2613
+ "loss": 0.4956,
2614
+ "step": 74200
2615
+ },
2616
+ {
2617
+ "epoch": 0.12525252525252525,
2618
+ "grad_norm": 1.7191145420074463,
2619
+ "learning_rate": 4.3739646464646465e-05,
2620
+ "loss": 0.5209,
2621
+ "step": 74400
2622
+ },
2623
+ {
2624
+ "epoch": 0.12558922558922558,
2625
+ "grad_norm": 0.15442191064357758,
2626
+ "learning_rate": 4.372281144781145e-05,
2627
+ "loss": 0.4723,
2628
+ "step": 74600
2629
+ },
2630
+ {
2631
+ "epoch": 0.1259259259259259,
2632
+ "grad_norm": 0.6088646650314331,
2633
+ "learning_rate": 4.3705976430976434e-05,
2634
+ "loss": 0.4756,
2635
+ "step": 74800
2636
+ },
2637
+ {
2638
+ "epoch": 0.12626262626262627,
2639
+ "grad_norm": 0.20357204973697662,
2640
+ "learning_rate": 4.368914141414142e-05,
2641
+ "loss": 0.4358,
2642
+ "step": 75000
2643
+ },
2644
+ {
2645
+ "epoch": 0.1265993265993266,
2646
+ "grad_norm": 0.23374512791633606,
2647
+ "learning_rate": 4.36723063973064e-05,
2648
+ "loss": 0.4873,
2649
+ "step": 75200
2650
+ },
2651
+ {
2652
+ "epoch": 0.12693602693602693,
2653
+ "grad_norm": 0.28036201000213623,
2654
+ "learning_rate": 4.365547138047138e-05,
2655
+ "loss": 0.4627,
2656
+ "step": 75400
2657
+ },
2658
+ {
2659
+ "epoch": 0.12727272727272726,
2660
+ "grad_norm": 0.4876658320426941,
2661
+ "learning_rate": 4.3638636363636365e-05,
2662
+ "loss": 0.4865,
2663
+ "step": 75600
2664
+ },
2665
+ {
2666
+ "epoch": 0.12760942760942762,
2667
+ "grad_norm": 0.24980993568897247,
2668
+ "learning_rate": 4.362180134680135e-05,
2669
+ "loss": 0.4715,
2670
+ "step": 75800
2671
+ },
2672
+ {
2673
+ "epoch": 0.12794612794612795,
2674
+ "grad_norm": 0.5056689977645874,
2675
+ "learning_rate": 4.3604966329966334e-05,
2676
+ "loss": 0.5066,
2677
+ "step": 76000
2678
+ },
2679
+ {
2680
+ "epoch": 0.12828282828282828,
2681
+ "grad_norm": 0.3562251329421997,
2682
+ "learning_rate": 4.358813131313131e-05,
2683
+ "loss": 0.4561,
2684
+ "step": 76200
2685
+ },
2686
+ {
2687
+ "epoch": 0.1286195286195286,
2688
+ "grad_norm": 0.5188980102539062,
2689
+ "learning_rate": 4.35712962962963e-05,
2690
+ "loss": 0.4451,
2691
+ "step": 76400
2692
+ },
2693
+ {
2694
+ "epoch": 0.12895622895622896,
2695
+ "grad_norm": 0.24979503452777863,
2696
+ "learning_rate": 4.355446127946129e-05,
2697
+ "loss": 0.4977,
2698
+ "step": 76600
2699
+ },
2700
+ {
2701
+ "epoch": 0.1292929292929293,
2702
+ "grad_norm": 0.2918744385242462,
2703
+ "learning_rate": 4.3537626262626264e-05,
2704
+ "loss": 0.4465,
2705
+ "step": 76800
2706
+ },
2707
+ {
2708
+ "epoch": 0.12962962962962962,
2709
+ "grad_norm": 0.11484523117542267,
2710
+ "learning_rate": 4.352079124579125e-05,
2711
+ "loss": 0.5008,
2712
+ "step": 77000
2713
+ },
2714
+ {
2715
+ "epoch": 0.12996632996632998,
2716
+ "grad_norm": 0.13835379481315613,
2717
+ "learning_rate": 4.350395622895623e-05,
2718
+ "loss": 0.4469,
2719
+ "step": 77200
2720
+ },
2721
+ {
2722
+ "epoch": 0.1303030303030303,
2723
+ "grad_norm": 0.17499831318855286,
2724
+ "learning_rate": 4.348712121212121e-05,
2725
+ "loss": 0.4558,
2726
+ "step": 77400
2727
+ },
2728
+ {
2729
+ "epoch": 0.13063973063973064,
2730
+ "grad_norm": 0.14153020083904266,
2731
+ "learning_rate": 4.3470286195286195e-05,
2732
+ "loss": 0.4764,
2733
+ "step": 77600
2734
+ },
2735
+ {
2736
+ "epoch": 0.13097643097643097,
2737
+ "grad_norm": 0.32110026478767395,
2738
+ "learning_rate": 4.345353535353536e-05,
2739
+ "loss": 0.4496,
2740
+ "step": 77800
2741
+ },
2742
+ {
2743
+ "epoch": 0.13131313131313133,
2744
+ "grad_norm": 0.347741961479187,
2745
+ "learning_rate": 4.343670033670034e-05,
2746
+ "loss": 0.4365,
2747
+ "step": 78000
2748
+ },
2749
+ {
2750
+ "epoch": 0.13164983164983166,
2751
+ "grad_norm": 1.8142364025115967,
2752
+ "learning_rate": 4.341986531986532e-05,
2753
+ "loss": 0.4963,
2754
+ "step": 78200
2755
+ },
2756
+ {
2757
+ "epoch": 0.13198653198653199,
2758
+ "grad_norm": 0.18966235220432281,
2759
+ "learning_rate": 4.3403030303030306e-05,
2760
+ "loss": 0.4641,
2761
+ "step": 78400
2762
+ },
2763
+ {
2764
+ "epoch": 0.13232323232323231,
2765
+ "grad_norm": 0.7899078726768494,
2766
+ "learning_rate": 4.338619528619528e-05,
2767
+ "loss": 0.42,
2768
+ "step": 78600
2769
+ },
2770
+ {
2771
+ "epoch": 0.13265993265993267,
2772
+ "grad_norm": 0.11921744793653488,
2773
+ "learning_rate": 4.336936026936027e-05,
2774
+ "loss": 0.4489,
2775
+ "step": 78800
2776
+ },
2777
+ {
2778
+ "epoch": 0.132996632996633,
2779
+ "grad_norm": 0.3183203935623169,
2780
+ "learning_rate": 4.335252525252526e-05,
2781
+ "loss": 0.4128,
2782
+ "step": 79000
2783
+ },
2784
+ {
2785
+ "epoch": 0.13333333333333333,
2786
+ "grad_norm": 0.9126468896865845,
2787
+ "learning_rate": 4.3335690235690236e-05,
2788
+ "loss": 0.4063,
2789
+ "step": 79200
2790
+ },
2791
+ {
2792
+ "epoch": 0.13367003367003366,
2793
+ "grad_norm": 0.30544015765190125,
2794
+ "learning_rate": 4.331885521885522e-05,
2795
+ "loss": 0.4363,
2796
+ "step": 79400
2797
+ },
2798
+ {
2799
+ "epoch": 0.13400673400673402,
2800
+ "grad_norm": 0.32495343685150146,
2801
+ "learning_rate": 4.3302020202020205e-05,
2802
+ "loss": 0.4311,
2803
+ "step": 79600
2804
+ },
2805
+ {
2806
+ "epoch": 0.13434343434343435,
2807
+ "grad_norm": 0.5995136499404907,
2808
+ "learning_rate": 4.328518518518519e-05,
2809
+ "loss": 0.4304,
2810
+ "step": 79800
2811
+ },
2812
+ {
2813
+ "epoch": 0.13468013468013468,
2814
+ "grad_norm": 0.09273191541433334,
2815
+ "learning_rate": 4.326835016835017e-05,
2816
+ "loss": 0.44,
2817
+ "step": 80000
2818
+ },
2819
+ {
2820
+ "epoch": 0.135016835016835,
2821
+ "grad_norm": 0.5083215832710266,
2822
+ "learning_rate": 4.325151515151515e-05,
2823
+ "loss": 0.4484,
2824
+ "step": 80200
2825
+ },
2826
+ {
2827
+ "epoch": 0.13535353535353536,
2828
+ "grad_norm": 0.4086732566356659,
2829
+ "learning_rate": 4.3234680134680136e-05,
2830
+ "loss": 0.4431,
2831
+ "step": 80400
2832
+ },
2833
+ {
2834
+ "epoch": 0.1356902356902357,
2835
+ "grad_norm": 0.25825831294059753,
2836
+ "learning_rate": 4.321784511784512e-05,
2837
+ "loss": 0.4903,
2838
+ "step": 80600
2839
+ },
2840
+ {
2841
+ "epoch": 0.13602693602693602,
2842
+ "grad_norm": 0.22938190400600433,
2843
+ "learning_rate": 4.3201010101010105e-05,
2844
+ "loss": 0.446,
2845
+ "step": 80800
2846
+ },
2847
+ {
2848
+ "epoch": 0.13636363636363635,
2849
+ "grad_norm": 4.104939937591553,
2850
+ "learning_rate": 4.318417508417509e-05,
2851
+ "loss": 0.5158,
2852
+ "step": 81000
2853
+ },
2854
+ {
2855
+ "epoch": 0.1367003367003367,
2856
+ "grad_norm": 0.6533791422843933,
2857
+ "learning_rate": 4.3167340067340067e-05,
2858
+ "loss": 0.4411,
2859
+ "step": 81200
2860
+ },
2861
+ {
2862
+ "epoch": 0.13703703703703704,
2863
+ "grad_norm": 0.3710763156414032,
2864
+ "learning_rate": 4.315050505050505e-05,
2865
+ "loss": 0.4504,
2866
+ "step": 81400
2867
+ },
2868
+ {
2869
+ "epoch": 0.13737373737373737,
2870
+ "grad_norm": 0.32174888253211975,
2871
+ "learning_rate": 4.3133670033670035e-05,
2872
+ "loss": 0.4494,
2873
+ "step": 81600
2874
+ },
2875
+ {
2876
+ "epoch": 0.1377104377104377,
2877
+ "grad_norm": 0.47536543011665344,
2878
+ "learning_rate": 4.311683501683502e-05,
2879
+ "loss": 0.4547,
2880
+ "step": 81800
2881
+ },
2882
+ {
2883
+ "epoch": 0.13804713804713806,
2884
+ "grad_norm": 0.5591254830360413,
2885
+ "learning_rate": 4.310008417508418e-05,
2886
+ "loss": 0.4306,
2887
+ "step": 82000
2888
+ },
2889
+ {
2890
+ "epoch": 0.1383838383838384,
2891
+ "grad_norm": 0.26102516055107117,
2892
+ "learning_rate": 4.308324915824916e-05,
2893
+ "loss": 0.4377,
2894
+ "step": 82200
2895
+ },
2896
+ {
2897
+ "epoch": 0.13872053872053872,
2898
+ "grad_norm": 0.540073812007904,
2899
+ "learning_rate": 4.306641414141414e-05,
2900
+ "loss": 0.4913,
2901
+ "step": 82400
2902
+ },
2903
+ {
2904
+ "epoch": 0.13905723905723905,
2905
+ "grad_norm": 0.8017529249191284,
2906
+ "learning_rate": 4.3049579124579124e-05,
2907
+ "loss": 0.4382,
2908
+ "step": 82600
2909
+ },
2910
+ {
2911
+ "epoch": 0.1393939393939394,
2912
+ "grad_norm": 0.6620075106620789,
2913
+ "learning_rate": 4.303274410774411e-05,
2914
+ "loss": 0.3944,
2915
+ "step": 82800
2916
+ },
2917
+ {
2918
+ "epoch": 0.13973063973063973,
2919
+ "grad_norm": 0.42346033453941345,
2920
+ "learning_rate": 4.301590909090909e-05,
2921
+ "loss": 0.4149,
2922
+ "step": 83000
2923
+ },
2924
+ {
2925
+ "epoch": 0.14006734006734006,
2926
+ "grad_norm": 0.259355366230011,
2927
+ "learning_rate": 4.299907407407408e-05,
2928
+ "loss": 0.4737,
2929
+ "step": 83200
2930
+ },
2931
+ {
2932
+ "epoch": 0.1404040404040404,
2933
+ "grad_norm": 0.10005613416433334,
2934
+ "learning_rate": 4.298223905723906e-05,
2935
+ "loss": 0.4642,
2936
+ "step": 83400
2937
+ },
2938
+ {
2939
+ "epoch": 0.14074074074074075,
2940
+ "grad_norm": 0.40637290477752686,
2941
+ "learning_rate": 4.2965404040404045e-05,
2942
+ "loss": 0.4251,
2943
+ "step": 83600
2944
+ },
2945
+ {
2946
+ "epoch": 0.14107744107744108,
2947
+ "grad_norm": 0.5488855838775635,
2948
+ "learning_rate": 4.294856902356902e-05,
2949
+ "loss": 0.4669,
2950
+ "step": 83800
2951
+ },
2952
+ {
2953
+ "epoch": 0.1414141414141414,
2954
+ "grad_norm": 0.36019712686538696,
2955
+ "learning_rate": 4.293173400673401e-05,
2956
+ "loss": 0.4493,
2957
+ "step": 84000
2958
+ },
2959
+ {
2960
+ "epoch": 0.14175084175084174,
2961
+ "grad_norm": 0.20330995321273804,
2962
+ "learning_rate": 4.291498316498317e-05,
2963
+ "loss": 0.4969,
2964
+ "step": 84200
2965
+ },
2966
+ {
2967
+ "epoch": 0.1420875420875421,
2968
+ "grad_norm": 0.23681996762752533,
2969
+ "learning_rate": 4.289814814814815e-05,
2970
+ "loss": 0.4774,
2971
+ "step": 84400
2972
+ },
2973
+ {
2974
+ "epoch": 0.14242424242424243,
2975
+ "grad_norm": 0.1740342527627945,
2976
+ "learning_rate": 4.2881313131313134e-05,
2977
+ "loss": 0.4915,
2978
+ "step": 84600
2979
+ },
2980
+ {
2981
+ "epoch": 0.14276094276094276,
2982
+ "grad_norm": 0.4355227053165436,
2983
+ "learning_rate": 4.286447811447812e-05,
2984
+ "loss": 0.4681,
2985
+ "step": 84800
2986
+ },
2987
+ {
2988
+ "epoch": 0.14309764309764308,
2989
+ "grad_norm": 0.295913964509964,
2990
+ "learning_rate": 4.2847643097643096e-05,
2991
+ "loss": 0.4818,
2992
+ "step": 85000
2993
+ },
2994
+ {
2995
+ "epoch": 0.14343434343434344,
2996
+ "grad_norm": 0.17617417871952057,
2997
+ "learning_rate": 4.283080808080808e-05,
2998
+ "loss": 0.4661,
2999
+ "step": 85200
3000
+ },
3001
+ {
3002
+ "epoch": 0.14377104377104377,
3003
+ "grad_norm": 0.36346206068992615,
3004
+ "learning_rate": 4.2813973063973064e-05,
3005
+ "loss": 0.456,
3006
+ "step": 85400
3007
+ },
3008
+ {
3009
+ "epoch": 0.1441077441077441,
3010
+ "grad_norm": 0.5108135342597961,
3011
+ "learning_rate": 4.279713804713805e-05,
3012
+ "loss": 0.4311,
3013
+ "step": 85600
3014
+ },
3015
+ {
3016
+ "epoch": 0.14444444444444443,
3017
+ "grad_norm": 0.6109139919281006,
3018
+ "learning_rate": 4.278030303030303e-05,
3019
+ "loss": 0.4398,
3020
+ "step": 85800
3021
+ },
3022
+ {
3023
+ "epoch": 0.1447811447811448,
3024
+ "grad_norm": 0.35451897978782654,
3025
+ "learning_rate": 4.276346801346802e-05,
3026
+ "loss": 0.4674,
3027
+ "step": 86000
3028
+ },
3029
+ {
3030
+ "epoch": 0.14511784511784512,
3031
+ "grad_norm": 0.4733004570007324,
3032
+ "learning_rate": 4.2746632996632995e-05,
3033
+ "loss": 0.4275,
3034
+ "step": 86200
3035
+ },
3036
+ {
3037
+ "epoch": 0.14545454545454545,
3038
+ "grad_norm": 0.30051594972610474,
3039
+ "learning_rate": 4.272979797979798e-05,
3040
+ "loss": 0.4493,
3041
+ "step": 86400
3042
+ },
3043
+ {
3044
+ "epoch": 0.1457912457912458,
3045
+ "grad_norm": 0.5513753294944763,
3046
+ "learning_rate": 4.2712962962962964e-05,
3047
+ "loss": 0.4803,
3048
+ "step": 86600
3049
+ },
3050
+ {
3051
+ "epoch": 0.14612794612794613,
3052
+ "grad_norm": 0.5906115770339966,
3053
+ "learning_rate": 4.269612794612795e-05,
3054
+ "loss": 0.4502,
3055
+ "step": 86800
3056
+ },
3057
+ {
3058
+ "epoch": 0.14646464646464646,
3059
+ "grad_norm": 0.662507176399231,
3060
+ "learning_rate": 4.267929292929293e-05,
3061
+ "loss": 0.4247,
3062
+ "step": 87000
3063
+ },
3064
+ {
3065
+ "epoch": 0.1468013468013468,
3066
+ "grad_norm": 0.5167519450187683,
3067
+ "learning_rate": 4.266254208754209e-05,
3068
+ "loss": 0.477,
3069
+ "step": 87200
3070
+ },
3071
+ {
3072
+ "epoch": 0.14713804713804715,
3073
+ "grad_norm": 0.3927953243255615,
3074
+ "learning_rate": 4.2645707070707075e-05,
3075
+ "loss": 0.461,
3076
+ "step": 87400
3077
+ },
3078
+ {
3079
+ "epoch": 0.14747474747474748,
3080
+ "grad_norm": 0.3797866106033325,
3081
+ "learning_rate": 4.262895622895623e-05,
3082
+ "loss": 0.4923,
3083
+ "step": 87600
3084
+ },
3085
+ {
3086
+ "epoch": 0.1478114478114478,
3087
+ "grad_norm": 0.3852689862251282,
3088
+ "learning_rate": 4.2612121212121216e-05,
3089
+ "loss": 0.4254,
3090
+ "step": 87800
3091
+ },
3092
+ {
3093
+ "epoch": 0.14814814814814814,
3094
+ "grad_norm": 0.4846220016479492,
3095
+ "learning_rate": 4.25952861952862e-05,
3096
+ "loss": 0.4837,
3097
+ "step": 88000
3098
+ },
3099
+ {
3100
+ "epoch": 0.1484848484848485,
3101
+ "grad_norm": 0.7036873698234558,
3102
+ "learning_rate": 4.257845117845118e-05,
3103
+ "loss": 0.4854,
3104
+ "step": 88200
3105
+ },
3106
+ {
3107
+ "epoch": 0.14882154882154883,
3108
+ "grad_norm": 0.5932942032814026,
3109
+ "learning_rate": 4.256161616161616e-05,
3110
+ "loss": 0.4509,
3111
+ "step": 88400
3112
+ },
3113
+ {
3114
+ "epoch": 0.14915824915824916,
3115
+ "grad_norm": 0.2926032841205597,
3116
+ "learning_rate": 4.254478114478115e-05,
3117
+ "loss": 0.4805,
3118
+ "step": 88600
3119
+ },
3120
+ {
3121
+ "epoch": 0.1494949494949495,
3122
+ "grad_norm": 0.16851143538951874,
3123
+ "learning_rate": 4.2527946127946125e-05,
3124
+ "loss": 0.419,
3125
+ "step": 88800
3126
+ },
3127
+ {
3128
+ "epoch": 0.14983164983164984,
3129
+ "grad_norm": 0.1768457293510437,
3130
+ "learning_rate": 4.2511111111111116e-05,
3131
+ "loss": 0.4432,
3132
+ "step": 89000
3133
+ },
3134
+ {
3135
+ "epoch": 0.15016835016835017,
3136
+ "grad_norm": 1.1971328258514404,
3137
+ "learning_rate": 4.24942760942761e-05,
3138
+ "loss": 0.542,
3139
+ "step": 89200
3140
+ },
3141
+ {
3142
+ "epoch": 0.1505050505050505,
3143
+ "grad_norm": 0.19443285465240479,
3144
+ "learning_rate": 4.247744107744108e-05,
3145
+ "loss": 0.4485,
3146
+ "step": 89400
3147
+ },
3148
+ {
3149
+ "epoch": 0.15084175084175083,
3150
+ "grad_norm": 0.2966189682483673,
3151
+ "learning_rate": 4.246060606060606e-05,
3152
+ "loss": 0.4376,
3153
+ "step": 89600
3154
+ },
3155
+ {
3156
+ "epoch": 0.1511784511784512,
3157
+ "grad_norm": 0.3715890645980835,
3158
+ "learning_rate": 4.244385521885522e-05,
3159
+ "loss": 0.4862,
3160
+ "step": 89800
3161
+ },
3162
+ {
3163
+ "epoch": 0.15151515151515152,
3164
+ "grad_norm": 0.2697141468524933,
3165
+ "learning_rate": 4.2427020202020204e-05,
3166
+ "loss": 0.4746,
3167
+ "step": 90000
3168
+ }
3169
+ ],
3170
+ "logging_steps": 200,
3171
+ "max_steps": 594000,
3172
+ "num_input_tokens_seen": 0,
3173
+ "num_train_epochs": 1,
3174
+ "save_steps": 10000,
3175
+ "stateful_callbacks": {
3176
+ "TrainerControl": {
3177
+ "args": {
3178
+ "should_epoch_stop": false,
3179
+ "should_evaluate": false,
3180
+ "should_log": false,
3181
+ "should_save": true,
3182
+ "should_training_stop": false
3183
+ },
3184
+ "attributes": {}
3185
+ }
3186
+ },
3187
+ "total_flos": 6.8214306373632e+17,
3188
+ "train_batch_size": 1,
3189
+ "trial_name": null,
3190
+ "trial_params": null
3191
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b1948218513adbf973cc207e8fa1e02c821194d4fa349dad5f52a5a29e57121a
3
+ size 5048