mueggi commited on
Commit
d1d2522
·
verified ·
1 Parent(s): c785ccd

SFT checkpoint-4610 (loss 0.8109576225280761)

Browse files
.gitattributes CHANGED
@@ -50,3 +50,4 @@ checkpoint-3600/tokenizer.json filter=lfs diff=lfs merge=lfs -text
50
  checkpoint-3900/tokenizer.json filter=lfs diff=lfs merge=lfs -text
51
  checkpoint-4200/tokenizer.json filter=lfs diff=lfs merge=lfs -text
52
  checkpoint-4500/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 
 
50
  checkpoint-3900/tokenizer.json filter=lfs diff=lfs merge=lfs -text
51
  checkpoint-4200/tokenizer.json filter=lfs diff=lfs merge=lfs -text
52
  checkpoint-4500/tokenizer.json filter=lfs diff=lfs merge=lfs -text
53
+ checkpoint-4610/tokenizer.json filter=lfs diff=lfs merge=lfs -text
checkpoint-4610/README.md ADDED
@@ -0,0 +1,207 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model: google/gemma-2-9b
3
+ library_name: peft
4
+ pipeline_tag: text-generation
5
+ tags:
6
+ - base_model:adapter:google/gemma-2-9b
7
+ - lora
8
+ - transformers
9
+ ---
10
+
11
+ # Model Card for Model ID
12
+
13
+ <!-- Provide a quick summary of what the model is/does. -->
14
+
15
+
16
+
17
+ ## Model Details
18
+
19
+ ### Model Description
20
+
21
+ <!-- Provide a longer summary of what this model is. -->
22
+
23
+
24
+
25
+ - **Developed by:** [More Information Needed]
26
+ - **Funded by [optional]:** [More Information Needed]
27
+ - **Shared by [optional]:** [More Information Needed]
28
+ - **Model type:** [More Information Needed]
29
+ - **Language(s) (NLP):** [More Information Needed]
30
+ - **License:** [More Information Needed]
31
+ - **Finetuned from model [optional]:** [More Information Needed]
32
+
33
+ ### Model Sources [optional]
34
+
35
+ <!-- Provide the basic links for the model. -->
36
+
37
+ - **Repository:** [More Information Needed]
38
+ - **Paper [optional]:** [More Information Needed]
39
+ - **Demo [optional]:** [More Information Needed]
40
+
41
+ ## Uses
42
+
43
+ <!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
44
+
45
+ ### Direct Use
46
+
47
+ <!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
48
+
49
+ [More Information Needed]
50
+
51
+ ### Downstream Use [optional]
52
+
53
+ <!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
54
+
55
+ [More Information Needed]
56
+
57
+ ### Out-of-Scope Use
58
+
59
+ <!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
60
+
61
+ [More Information Needed]
62
+
63
+ ## Bias, Risks, and Limitations
64
+
65
+ <!-- This section is meant to convey both technical and sociotechnical limitations. -->
66
+
67
+ [More Information Needed]
68
+
69
+ ### Recommendations
70
+
71
+ <!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
72
+
73
+ Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
74
+
75
+ ## How to Get Started with the Model
76
+
77
+ Use the code below to get started with the model.
78
+
79
+ [More Information Needed]
80
+
81
+ ## Training Details
82
+
83
+ ### Training Data
84
+
85
+ <!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
86
+
87
+ [More Information Needed]
88
+
89
+ ### Training Procedure
90
+
91
+ <!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
92
+
93
+ #### Preprocessing [optional]
94
+
95
+ [More Information Needed]
96
+
97
+
98
+ #### Training Hyperparameters
99
+
100
+ - **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
101
+
102
+ #### Speeds, Sizes, Times [optional]
103
+
104
+ <!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
105
+
106
+ [More Information Needed]
107
+
108
+ ## Evaluation
109
+
110
+ <!-- This section describes the evaluation protocols and provides the results. -->
111
+
112
+ ### Testing Data, Factors & Metrics
113
+
114
+ #### Testing Data
115
+
116
+ <!-- This should link to a Dataset Card if possible. -->
117
+
118
+ [More Information Needed]
119
+
120
+ #### Factors
121
+
122
+ <!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
123
+
124
+ [More Information Needed]
125
+
126
+ #### Metrics
127
+
128
+ <!-- These are the evaluation metrics being used, ideally with a description of why. -->
129
+
130
+ [More Information Needed]
131
+
132
+ ### Results
133
+
134
+ [More Information Needed]
135
+
136
+ #### Summary
137
+
138
+
139
+
140
+ ## Model Examination [optional]
141
+
142
+ <!-- Relevant interpretability work for the model goes here -->
143
+
144
+ [More Information Needed]
145
+
146
+ ## Environmental Impact
147
+
148
+ <!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
149
+
150
+ Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
151
+
152
+ - **Hardware Type:** [More Information Needed]
153
+ - **Hours used:** [More Information Needed]
154
+ - **Cloud Provider:** [More Information Needed]
155
+ - **Compute Region:** [More Information Needed]
156
+ - **Carbon Emitted:** [More Information Needed]
157
+
158
+ ## Technical Specifications [optional]
159
+
160
+ ### Model Architecture and Objective
161
+
162
+ [More Information Needed]
163
+
164
+ ### Compute Infrastructure
165
+
166
+ [More Information Needed]
167
+
168
+ #### Hardware
169
+
170
+ [More Information Needed]
171
+
172
+ #### Software
173
+
174
+ [More Information Needed]
175
+
176
+ ## Citation [optional]
177
+
178
+ <!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
179
+
180
+ **BibTeX:**
181
+
182
+ [More Information Needed]
183
+
184
+ **APA:**
185
+
186
+ [More Information Needed]
187
+
188
+ ## Glossary [optional]
189
+
190
+ <!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
191
+
192
+ [More Information Needed]
193
+
194
+ ## More Information [optional]
195
+
196
+ [More Information Needed]
197
+
198
+ ## Model Card Authors [optional]
199
+
200
+ [More Information Needed]
201
+
202
+ ## Model Card Contact
203
+
204
+ [More Information Needed]
205
+ ### Framework versions
206
+
207
+ - PEFT 0.18.1
checkpoint-4610/adapter_config.json ADDED
@@ -0,0 +1,43 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "alora_invocation_tokens": null,
3
+ "alpha_pattern": {},
4
+ "arrow_config": null,
5
+ "auto_mapping": null,
6
+ "base_model_name_or_path": "google/gemma-2-9b",
7
+ "bias": "none",
8
+ "corda_config": null,
9
+ "ensure_weight_tying": false,
10
+ "eva_config": null,
11
+ "exclude_modules": null,
12
+ "fan_in_fan_out": false,
13
+ "inference_mode": true,
14
+ "init_lora_weights": true,
15
+ "layer_replication": null,
16
+ "layers_pattern": null,
17
+ "layers_to_transform": null,
18
+ "loftq_config": {},
19
+ "lora_alpha": 64,
20
+ "lora_bias": false,
21
+ "lora_dropout": 0.05,
22
+ "megatron_config": null,
23
+ "megatron_core": "megatron.core",
24
+ "modules_to_save": null,
25
+ "peft_type": "LORA",
26
+ "peft_version": "0.18.1",
27
+ "qalora_group_size": 16,
28
+ "r": 32,
29
+ "rank_pattern": {},
30
+ "revision": null,
31
+ "target_modules": [
32
+ "k_proj",
33
+ "q_proj",
34
+ "o_proj",
35
+ "v_proj"
36
+ ],
37
+ "target_parameters": null,
38
+ "task_type": "CAUSAL_LM",
39
+ "trainable_token_indices": null,
40
+ "use_dora": false,
41
+ "use_qalora": false,
42
+ "use_rslora": false
43
+ }
checkpoint-4610/adapter_model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c8ed9f488513da7bc7b23dc79de78b24a8a05e0806ffc0b8f105922b05412265
3
+ size 7745357608
checkpoint-4610/chat_template.jinja ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ {% for message in messages %}<|im_start|>{{ message.role }}
2
+ {{ message.content }}<|im_end|>
3
+ {% endfor %}
checkpoint-4610/optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:aa8be18565aa9701834d9780468265c33723451e26f34d2f0e0a734b6bad96dc
3
+ size 286549651
checkpoint-4610/rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b3e72f9c2e46edd34a58823ecd75ab50b6020ac1ea780f07dd849afc1f2144a2
3
+ size 14645
checkpoint-4610/scaler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1aca501aa57bafc06a184dfc77f5cfa6bf7ba53014d979f783253773fe306e5c
3
+ size 1383
checkpoint-4610/scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7c0e05fb40b56901b91d188a57ccf572da2eae8f3bfc92cf2141cd9c2815cb84
3
+ size 1465
checkpoint-4610/tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7f2b28401239ea54549b69663eba4d452433425a3a42eadef0e50d7838e73113
3
+ size 36243847
checkpoint-4610/tokenizer_config.json ADDED
@@ -0,0 +1,19 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "backend": "tokenizers",
3
+ "bos_token": "<bos>",
4
+ "clean_up_tokenization_spaces": false,
5
+ "eos_token": "<eos>",
6
+ "extra_special_tokens": [
7
+ "<start_of_turn>",
8
+ "<end_of_turn>"
9
+ ],
10
+ "is_local": false,
11
+ "mask_token": "<mask>",
12
+ "model_max_length": 1000000000000000019884624838656,
13
+ "pad_token": "<pad>",
14
+ "sp_model_kwargs": {},
15
+ "spaces_between_special_tokens": false,
16
+ "tokenizer_class": "GemmaTokenizer",
17
+ "unk_token": "<unk>",
18
+ "use_default_system_prompt": false
19
+ }
checkpoint-4610/trainer_state.json ADDED
@@ -0,0 +1,3261 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": null,
3
+ "best_metric": null,
4
+ "best_model_checkpoint": null,
5
+ "epoch": 0.3557441882897656,
6
+ "eval_steps": 500,
7
+ "global_step": 4610,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.0007716793672229189,
14
+ "grad_norm": 0.16996131837368011,
15
+ "learning_rate": 1.3899613899613899e-06,
16
+ "loss": 1.937258529663086,
17
+ "step": 10
18
+ },
19
+ {
20
+ "epoch": 0.0015433587344458378,
21
+ "grad_norm": 0.1882886439561844,
22
+ "learning_rate": 2.9343629343629344e-06,
23
+ "loss": 1.773158073425293,
24
+ "step": 20
25
+ },
26
+ {
27
+ "epoch": 0.0023150381016687565,
28
+ "grad_norm": 0.20707373321056366,
29
+ "learning_rate": 4.478764478764479e-06,
30
+ "loss": 1.7095542907714845,
31
+ "step": 30
32
+ },
33
+ {
34
+ "epoch": 0.0030867174688916756,
35
+ "grad_norm": 0.18671941757202148,
36
+ "learning_rate": 6.023166023166024e-06,
37
+ "loss": 1.6669628143310546,
38
+ "step": 40
39
+ },
40
+ {
41
+ "epoch": 0.0038583968361145943,
42
+ "grad_norm": 0.14743703603744507,
43
+ "learning_rate": 7.567567567567568e-06,
44
+ "loss": 1.5012624740600586,
45
+ "step": 50
46
+ },
47
+ {
48
+ "epoch": 0.004630076203337513,
49
+ "grad_norm": 0.13592934608459473,
50
+ "learning_rate": 9.111969111969113e-06,
51
+ "loss": 1.3985330581665039,
52
+ "step": 60
53
+ },
54
+ {
55
+ "epoch": 0.0054017555705604325,
56
+ "grad_norm": 0.16905024647712708,
57
+ "learning_rate": 1.0656370656370657e-05,
58
+ "loss": 1.3338945388793946,
59
+ "step": 70
60
+ },
61
+ {
62
+ "epoch": 0.006173434937783351,
63
+ "grad_norm": 0.1601494997739792,
64
+ "learning_rate": 1.2200772200772201e-05,
65
+ "loss": 1.3430834770202638,
66
+ "step": 80
67
+ },
68
+ {
69
+ "epoch": 0.00694511430500627,
70
+ "grad_norm": 0.131796196103096,
71
+ "learning_rate": 1.3745173745173745e-05,
72
+ "loss": 1.3148032188415528,
73
+ "step": 90
74
+ },
75
+ {
76
+ "epoch": 0.0077167936722291885,
77
+ "grad_norm": 0.13276071846485138,
78
+ "learning_rate": 1.5289575289575288e-05,
79
+ "loss": 1.2003187179565429,
80
+ "step": 100
81
+ },
82
+ {
83
+ "epoch": 0.008488473039452108,
84
+ "grad_norm": 0.16983681917190552,
85
+ "learning_rate": 1.6833976833976835e-05,
86
+ "loss": 1.2972237586975097,
87
+ "step": 110
88
+ },
89
+ {
90
+ "epoch": 0.009260152406675026,
91
+ "grad_norm": 0.18364885449409485,
92
+ "learning_rate": 1.837837837837838e-05,
93
+ "loss": 1.2159050941467284,
94
+ "step": 120
95
+ },
96
+ {
97
+ "epoch": 0.010031831773897945,
98
+ "grad_norm": 0.16437186300754547,
99
+ "learning_rate": 1.9922779922779923e-05,
100
+ "loss": 1.2633441925048827,
101
+ "step": 130
102
+ },
103
+ {
104
+ "epoch": 0.010803511141120865,
105
+ "grad_norm": 0.20116814970970154,
106
+ "learning_rate": 2.1467181467181467e-05,
107
+ "loss": 1.2092578887939454,
108
+ "step": 140
109
+ },
110
+ {
111
+ "epoch": 0.011575190508343783,
112
+ "grad_norm": 0.1781621277332306,
113
+ "learning_rate": 2.301158301158301e-05,
114
+ "loss": 1.186624526977539,
115
+ "step": 150
116
+ },
117
+ {
118
+ "epoch": 0.012346869875566702,
119
+ "grad_norm": 0.18782109022140503,
120
+ "learning_rate": 2.4555984555984556e-05,
121
+ "loss": 1.099991512298584,
122
+ "step": 160
123
+ },
124
+ {
125
+ "epoch": 0.01311854924278962,
126
+ "grad_norm": 0.1972387135028839,
127
+ "learning_rate": 2.6100386100386103e-05,
128
+ "loss": 1.121781826019287,
129
+ "step": 170
130
+ },
131
+ {
132
+ "epoch": 0.01389022861001254,
133
+ "grad_norm": 0.1974383294582367,
134
+ "learning_rate": 2.7644787644787644e-05,
135
+ "loss": 1.1148104667663574,
136
+ "step": 180
137
+ },
138
+ {
139
+ "epoch": 0.01466190797723546,
140
+ "grad_norm": 0.20797985792160034,
141
+ "learning_rate": 2.918918918918919e-05,
142
+ "loss": 1.1362589836120605,
143
+ "step": 190
144
+ },
145
+ {
146
+ "epoch": 0.015433587344458377,
147
+ "grad_norm": 0.18044413626194,
148
+ "learning_rate": 3.073359073359073e-05,
149
+ "loss": 1.130545425415039,
150
+ "step": 200
151
+ },
152
+ {
153
+ "epoch": 0.016205266711681297,
154
+ "grad_norm": 0.18559624254703522,
155
+ "learning_rate": 3.227799227799228e-05,
156
+ "loss": 1.1351449966430665,
157
+ "step": 210
158
+ },
159
+ {
160
+ "epoch": 0.016976946078904216,
161
+ "grad_norm": 0.23771214485168457,
162
+ "learning_rate": 3.382239382239382e-05,
163
+ "loss": 1.1352075576782226,
164
+ "step": 220
165
+ },
166
+ {
167
+ "epoch": 0.017748625446127136,
168
+ "grad_norm": 0.19858677685260773,
169
+ "learning_rate": 3.536679536679537e-05,
170
+ "loss": 1.155667495727539,
171
+ "step": 230
172
+ },
173
+ {
174
+ "epoch": 0.018520304813350052,
175
+ "grad_norm": 0.19712069630622864,
176
+ "learning_rate": 3.691119691119691e-05,
177
+ "loss": 0.9542052268981933,
178
+ "step": 240
179
+ },
180
+ {
181
+ "epoch": 0.01929198418057297,
182
+ "grad_norm": 0.1643419712781906,
183
+ "learning_rate": 3.8455598455598456e-05,
184
+ "loss": 1.1352619171142577,
185
+ "step": 250
186
+ },
187
+ {
188
+ "epoch": 0.02006366354779589,
189
+ "grad_norm": 0.17200475931167603,
190
+ "learning_rate": 4e-05,
191
+ "loss": 1.055178451538086,
192
+ "step": 260
193
+ },
194
+ {
195
+ "epoch": 0.02083534291501881,
196
+ "grad_norm": 0.2140629142522812,
197
+ "learning_rate": 4.1544401544401544e-05,
198
+ "loss": 1.1110715866088867,
199
+ "step": 270
200
+ },
201
+ {
202
+ "epoch": 0.02160702228224173,
203
+ "grad_norm": 0.1658836156129837,
204
+ "learning_rate": 4.308880308880309e-05,
205
+ "loss": 1.0160120964050292,
206
+ "step": 280
207
+ },
208
+ {
209
+ "epoch": 0.022378701649464646,
210
+ "grad_norm": 0.20209717750549316,
211
+ "learning_rate": 4.463320463320463e-05,
212
+ "loss": 1.2165130615234374,
213
+ "step": 290
214
+ },
215
+ {
216
+ "epoch": 0.023150381016687566,
217
+ "grad_norm": 0.18639937043190002,
218
+ "learning_rate": 4.617760617760618e-05,
219
+ "loss": 1.074045467376709,
220
+ "step": 300
221
+ },
222
+ {
223
+ "epoch": 0.023922060383910485,
224
+ "grad_norm": 0.18107382953166962,
225
+ "learning_rate": 4.772200772200772e-05,
226
+ "loss": 1.100408172607422,
227
+ "step": 310
228
+ },
229
+ {
230
+ "epoch": 0.024693739751133405,
231
+ "grad_norm": 0.18550734221935272,
232
+ "learning_rate": 4.926640926640927e-05,
233
+ "loss": 0.9446431159973144,
234
+ "step": 320
235
+ },
236
+ {
237
+ "epoch": 0.025465419118356324,
238
+ "grad_norm": 0.24888084828853607,
239
+ "learning_rate": 5.0810810810810815e-05,
240
+ "loss": 1.019780158996582,
241
+ "step": 330
242
+ },
243
+ {
244
+ "epoch": 0.02623709848557924,
245
+ "grad_norm": 0.1900169849395752,
246
+ "learning_rate": 5.2355212355212356e-05,
247
+ "loss": 1.066290283203125,
248
+ "step": 340
249
+ },
250
+ {
251
+ "epoch": 0.02700877785280216,
252
+ "grad_norm": 0.19299696385860443,
253
+ "learning_rate": 5.38996138996139e-05,
254
+ "loss": 1.0028789520263672,
255
+ "step": 350
256
+ },
257
+ {
258
+ "epoch": 0.02778045722002508,
259
+ "grad_norm": 0.15513072907924652,
260
+ "learning_rate": 5.544401544401545e-05,
261
+ "loss": 1.002441120147705,
262
+ "step": 360
263
+ },
264
+ {
265
+ "epoch": 0.028552136587248,
266
+ "grad_norm": 0.19387617707252502,
267
+ "learning_rate": 5.698841698841699e-05,
268
+ "loss": 1.0937806129455567,
269
+ "step": 370
270
+ },
271
+ {
272
+ "epoch": 0.02932381595447092,
273
+ "grad_norm": 0.13289429247379303,
274
+ "learning_rate": 5.853281853281853e-05,
275
+ "loss": 1.0398863792419433,
276
+ "step": 380
277
+ },
278
+ {
279
+ "epoch": 0.030095495321693835,
280
+ "grad_norm": 0.1527375429868698,
281
+ "learning_rate": 6.007722007722007e-05,
282
+ "loss": 0.959206485748291,
283
+ "step": 390
284
+ },
285
+ {
286
+ "epoch": 0.030867174688916754,
287
+ "grad_norm": 0.1617506742477417,
288
+ "learning_rate": 6.162162162162163e-05,
289
+ "loss": 1.048958969116211,
290
+ "step": 400
291
+ },
292
+ {
293
+ "epoch": 0.03163885405613968,
294
+ "grad_norm": 0.3012467920780182,
295
+ "learning_rate": 6.316602316602317e-05,
296
+ "loss": 0.9629308700561523,
297
+ "step": 410
298
+ },
299
+ {
300
+ "epoch": 0.03241053342336259,
301
+ "grad_norm": 0.15288439393043518,
302
+ "learning_rate": 6.471042471042472e-05,
303
+ "loss": 1.02709903717041,
304
+ "step": 420
305
+ },
306
+ {
307
+ "epoch": 0.03318221279058551,
308
+ "grad_norm": 0.1398162543773651,
309
+ "learning_rate": 6.625482625482627e-05,
310
+ "loss": 0.9591814041137695,
311
+ "step": 430
312
+ },
313
+ {
314
+ "epoch": 0.03395389215780843,
315
+ "grad_norm": 0.15535490214824677,
316
+ "learning_rate": 6.779922779922781e-05,
317
+ "loss": 0.9994503021240234,
318
+ "step": 440
319
+ },
320
+ {
321
+ "epoch": 0.03472557152503135,
322
+ "grad_norm": 0.15020038187503815,
323
+ "learning_rate": 6.934362934362935e-05,
324
+ "loss": 0.9528783798217774,
325
+ "step": 450
326
+ },
327
+ {
328
+ "epoch": 0.03549725089225427,
329
+ "grad_norm": 0.1734347939491272,
330
+ "learning_rate": 7.088803088803089e-05,
331
+ "loss": 0.9716519355773926,
332
+ "step": 460
333
+ },
334
+ {
335
+ "epoch": 0.03626893025947719,
336
+ "grad_norm": 0.14533282816410065,
337
+ "learning_rate": 7.243243243243245e-05,
338
+ "loss": 0.9922411918640137,
339
+ "step": 470
340
+ },
341
+ {
342
+ "epoch": 0.037040609626700104,
343
+ "grad_norm": 0.15392670035362244,
344
+ "learning_rate": 7.397683397683399e-05,
345
+ "loss": 0.9835933685302735,
346
+ "step": 480
347
+ },
348
+ {
349
+ "epoch": 0.03781228899392303,
350
+ "grad_norm": 0.15519730746746063,
351
+ "learning_rate": 7.552123552123553e-05,
352
+ "loss": 0.96371488571167,
353
+ "step": 490
354
+ },
355
+ {
356
+ "epoch": 0.03858396836114594,
357
+ "grad_norm": 0.1377173811197281,
358
+ "learning_rate": 7.706563706563707e-05,
359
+ "loss": 0.9519417762756348,
360
+ "step": 500
361
+ },
362
+ {
363
+ "epoch": 0.039355647728368866,
364
+ "grad_norm": 0.14820078015327454,
365
+ "learning_rate": 7.861003861003862e-05,
366
+ "loss": 1.0663246154785155,
367
+ "step": 510
368
+ },
369
+ {
370
+ "epoch": 0.04012732709559178,
371
+ "grad_norm": 0.1553962677717209,
372
+ "learning_rate": 8.015444015444016e-05,
373
+ "loss": 0.9961751937866211,
374
+ "step": 520
375
+ },
376
+ {
377
+ "epoch": 0.0408990064628147,
378
+ "grad_norm": 0.1502590775489807,
379
+ "learning_rate": 8.16988416988417e-05,
380
+ "loss": 1.0495684623718262,
381
+ "step": 530
382
+ },
383
+ {
384
+ "epoch": 0.04167068583003762,
385
+ "grad_norm": 0.15323589742183685,
386
+ "learning_rate": 8.324324324324326e-05,
387
+ "loss": 1.0317422866821289,
388
+ "step": 540
389
+ },
390
+ {
391
+ "epoch": 0.04244236519726054,
392
+ "grad_norm": 0.11740688234567642,
393
+ "learning_rate": 8.47876447876448e-05,
394
+ "loss": 1.0751480102539062,
395
+ "step": 550
396
+ },
397
+ {
398
+ "epoch": 0.04321404456448346,
399
+ "grad_norm": 0.13047188520431519,
400
+ "learning_rate": 8.633204633204634e-05,
401
+ "loss": 1.0331148147583007,
402
+ "step": 560
403
+ },
404
+ {
405
+ "epoch": 0.043985723931706376,
406
+ "grad_norm": 0.14131630957126617,
407
+ "learning_rate": 8.787644787644788e-05,
408
+ "loss": 0.9371702194213867,
409
+ "step": 570
410
+ },
411
+ {
412
+ "epoch": 0.04475740329892929,
413
+ "grad_norm": 0.13744156062602997,
414
+ "learning_rate": 8.942084942084943e-05,
415
+ "loss": 0.9680840492248535,
416
+ "step": 580
417
+ },
418
+ {
419
+ "epoch": 0.045529082666152215,
420
+ "grad_norm": 0.12264937162399292,
421
+ "learning_rate": 9.096525096525098e-05,
422
+ "loss": 0.9658163070678711,
423
+ "step": 590
424
+ },
425
+ {
426
+ "epoch": 0.04630076203337513,
427
+ "grad_norm": 0.14490118622779846,
428
+ "learning_rate": 9.250965250965252e-05,
429
+ "loss": 1.0076140403747558,
430
+ "step": 600
431
+ },
432
+ {
433
+ "epoch": 0.047072441400598054,
434
+ "grad_norm": 0.1781102418899536,
435
+ "learning_rate": 9.405405405405407e-05,
436
+ "loss": 0.9680351257324219,
437
+ "step": 610
438
+ },
439
+ {
440
+ "epoch": 0.04784412076782097,
441
+ "grad_norm": 0.16192109882831573,
442
+ "learning_rate": 9.559845559845561e-05,
443
+ "loss": 0.9431415557861328,
444
+ "step": 620
445
+ },
446
+ {
447
+ "epoch": 0.048615800135043886,
448
+ "grad_norm": 0.155950129032135,
449
+ "learning_rate": 9.714285714285715e-05,
450
+ "loss": 1.000882625579834,
451
+ "step": 630
452
+ },
453
+ {
454
+ "epoch": 0.04938747950226681,
455
+ "grad_norm": 0.16288375854492188,
456
+ "learning_rate": 9.868725868725869e-05,
457
+ "loss": 1.0334013938903808,
458
+ "step": 640
459
+ },
460
+ {
461
+ "epoch": 0.050159158869489726,
462
+ "grad_norm": 0.13413415849208832,
463
+ "learning_rate": 0.00010023166023166025,
464
+ "loss": 1.011709499359131,
465
+ "step": 650
466
+ },
467
+ {
468
+ "epoch": 0.05093083823671265,
469
+ "grad_norm": 0.13729217648506165,
470
+ "learning_rate": 0.00010177606177606179,
471
+ "loss": 0.9930562973022461,
472
+ "step": 660
473
+ },
474
+ {
475
+ "epoch": 0.051702517603935565,
476
+ "grad_norm": 0.14648699760437012,
477
+ "learning_rate": 0.00010332046332046333,
478
+ "loss": 1.0485844612121582,
479
+ "step": 670
480
+ },
481
+ {
482
+ "epoch": 0.05247419697115848,
483
+ "grad_norm": 0.15611329674720764,
484
+ "learning_rate": 0.00010486486486486487,
485
+ "loss": 0.9434291839599609,
486
+ "step": 680
487
+ },
488
+ {
489
+ "epoch": 0.053245876338381404,
490
+ "grad_norm": 0.13057349622249603,
491
+ "learning_rate": 0.00010640926640926641,
492
+ "loss": 0.8720365524291992,
493
+ "step": 690
494
+ },
495
+ {
496
+ "epoch": 0.05401755570560432,
497
+ "grad_norm": 0.38071855902671814,
498
+ "learning_rate": 0.00010795366795366796,
499
+ "loss": 0.9360018730163574,
500
+ "step": 700
501
+ },
502
+ {
503
+ "epoch": 0.05478923507282724,
504
+ "grad_norm": 0.1299811750650406,
505
+ "learning_rate": 0.0001094980694980695,
506
+ "loss": 0.9274260520935058,
507
+ "step": 710
508
+ },
509
+ {
510
+ "epoch": 0.05556091444005016,
511
+ "grad_norm": 0.14164002239704132,
512
+ "learning_rate": 0.00011104247104247106,
513
+ "loss": 0.9184993743896485,
514
+ "step": 720
515
+ },
516
+ {
517
+ "epoch": 0.056332593807273075,
518
+ "grad_norm": 0.15521082282066345,
519
+ "learning_rate": 0.0001125868725868726,
520
+ "loss": 1.0110851287841798,
521
+ "step": 730
522
+ },
523
+ {
524
+ "epoch": 0.057104273174496,
525
+ "grad_norm": 0.17111285030841827,
526
+ "learning_rate": 0.00011413127413127414,
527
+ "loss": 0.9625322341918945,
528
+ "step": 740
529
+ },
530
+ {
531
+ "epoch": 0.057875952541718914,
532
+ "grad_norm": 0.13952504098415375,
533
+ "learning_rate": 0.00011567567567567568,
534
+ "loss": 0.8918585777282715,
535
+ "step": 750
536
+ },
537
+ {
538
+ "epoch": 0.05864763190894184,
539
+ "grad_norm": 0.1711304485797882,
540
+ "learning_rate": 0.00011722007722007722,
541
+ "loss": 1.013539981842041,
542
+ "step": 760
543
+ },
544
+ {
545
+ "epoch": 0.05941931127616475,
546
+ "grad_norm": 0.1418197751045227,
547
+ "learning_rate": 0.00011876447876447876,
548
+ "loss": 0.9296130180358887,
549
+ "step": 770
550
+ },
551
+ {
552
+ "epoch": 0.06019099064338767,
553
+ "grad_norm": 0.15530534088611603,
554
+ "learning_rate": 0.00012030888030888032,
555
+ "loss": 0.9378318786621094,
556
+ "step": 780
557
+ },
558
+ {
559
+ "epoch": 0.06096267001061059,
560
+ "grad_norm": 0.13504521548748016,
561
+ "learning_rate": 0.00012185328185328187,
562
+ "loss": 0.9477480888366699,
563
+ "step": 790
564
+ },
565
+ {
566
+ "epoch": 0.06173434937783351,
567
+ "grad_norm": 0.1602628529071808,
568
+ "learning_rate": 0.0001233976833976834,
569
+ "loss": 1.0176645278930665,
570
+ "step": 800
571
+ },
572
+ {
573
+ "epoch": 0.06250602874505642,
574
+ "grad_norm": 0.13999249041080475,
575
+ "learning_rate": 0.00012494208494208495,
576
+ "loss": 0.9362374305725097,
577
+ "step": 810
578
+ },
579
+ {
580
+ "epoch": 0.06327770811227935,
581
+ "grad_norm": 0.15388326346874237,
582
+ "learning_rate": 0.0001264864864864865,
583
+ "loss": 0.9121697425842286,
584
+ "step": 820
585
+ },
586
+ {
587
+ "epoch": 0.06404938747950227,
588
+ "grad_norm": 0.14896224439144135,
589
+ "learning_rate": 0.00012803088803088803,
590
+ "loss": 0.9638944625854492,
591
+ "step": 830
592
+ },
593
+ {
594
+ "epoch": 0.06482106684672519,
595
+ "grad_norm": 0.14142225682735443,
596
+ "learning_rate": 0.00012957528957528957,
597
+ "loss": 0.907442855834961,
598
+ "step": 840
599
+ },
600
+ {
601
+ "epoch": 0.0655927462139481,
602
+ "grad_norm": 0.13392828404903412,
603
+ "learning_rate": 0.00013111969111969114,
604
+ "loss": 0.9532367706298828,
605
+ "step": 850
606
+ },
607
+ {
608
+ "epoch": 0.06636442558117102,
609
+ "grad_norm": 0.14815282821655273,
610
+ "learning_rate": 0.00013266409266409268,
611
+ "loss": 0.9036151885986328,
612
+ "step": 860
613
+ },
614
+ {
615
+ "epoch": 0.06713610494839395,
616
+ "grad_norm": 0.17789602279663086,
617
+ "learning_rate": 0.00013420849420849422,
618
+ "loss": 0.9164458274841308,
619
+ "step": 870
620
+ },
621
+ {
622
+ "epoch": 0.06790778431561686,
623
+ "grad_norm": 0.17448553442955017,
624
+ "learning_rate": 0.00013575289575289576,
625
+ "loss": 0.9297392845153809,
626
+ "step": 880
627
+ },
628
+ {
629
+ "epoch": 0.06867946368283978,
630
+ "grad_norm": 0.14892329275608063,
631
+ "learning_rate": 0.0001372972972972973,
632
+ "loss": 0.9415802955627441,
633
+ "step": 890
634
+ },
635
+ {
636
+ "epoch": 0.0694511430500627,
637
+ "grad_norm": 0.18727394938468933,
638
+ "learning_rate": 0.00013884169884169885,
639
+ "loss": 0.887691879272461,
640
+ "step": 900
641
+ },
642
+ {
643
+ "epoch": 0.07022282241728561,
644
+ "grad_norm": 0.1246710792183876,
645
+ "learning_rate": 0.0001403861003861004,
646
+ "loss": 0.8601170539855957,
647
+ "step": 910
648
+ },
649
+ {
650
+ "epoch": 0.07099450178450854,
651
+ "grad_norm": 0.15692849457263947,
652
+ "learning_rate": 0.00014193050193050195,
653
+ "loss": 0.9606046676635742,
654
+ "step": 920
655
+ },
656
+ {
657
+ "epoch": 0.07176618115173146,
658
+ "grad_norm": 0.17853842675685883,
659
+ "learning_rate": 0.0001434749034749035,
660
+ "loss": 0.938359260559082,
661
+ "step": 930
662
+ },
663
+ {
664
+ "epoch": 0.07253786051895438,
665
+ "grad_norm": 0.14882907271385193,
666
+ "learning_rate": 0.00014501930501930504,
667
+ "loss": 0.9875331878662109,
668
+ "step": 940
669
+ },
670
+ {
671
+ "epoch": 0.07330953988617729,
672
+ "grad_norm": 0.13406018912792206,
673
+ "learning_rate": 0.00014656370656370658,
674
+ "loss": 0.9117307662963867,
675
+ "step": 950
676
+ },
677
+ {
678
+ "epoch": 0.07408121925340021,
679
+ "grad_norm": 0.12386741489171982,
680
+ "learning_rate": 0.00014810810810810812,
681
+ "loss": 0.9069728851318359,
682
+ "step": 960
683
+ },
684
+ {
685
+ "epoch": 0.07485289862062314,
686
+ "grad_norm": 0.15084366500377655,
687
+ "learning_rate": 0.00014965250965250966,
688
+ "loss": 0.9486578941345215,
689
+ "step": 970
690
+ },
691
+ {
692
+ "epoch": 0.07562457798784605,
693
+ "grad_norm": 0.13196571171283722,
694
+ "learning_rate": 0.0001511969111969112,
695
+ "loss": 0.9376090049743653,
696
+ "step": 980
697
+ },
698
+ {
699
+ "epoch": 0.07639625735506897,
700
+ "grad_norm": 0.11976128071546555,
701
+ "learning_rate": 0.00015274131274131277,
702
+ "loss": 0.9725616455078125,
703
+ "step": 990
704
+ },
705
+ {
706
+ "epoch": 0.07716793672229189,
707
+ "grad_norm": 0.13437485694885254,
708
+ "learning_rate": 0.0001542857142857143,
709
+ "loss": 0.9574755668640137,
710
+ "step": 1000
711
+ },
712
+ {
713
+ "epoch": 0.0779396160895148,
714
+ "grad_norm": 0.13558916747570038,
715
+ "learning_rate": 0.00015583011583011585,
716
+ "loss": 0.9154973983764648,
717
+ "step": 1010
718
+ },
719
+ {
720
+ "epoch": 0.07871129545673773,
721
+ "grad_norm": 0.1680697351694107,
722
+ "learning_rate": 0.0001573745173745174,
723
+ "loss": 1.0692084312438965,
724
+ "step": 1020
725
+ },
726
+ {
727
+ "epoch": 0.07948297482396065,
728
+ "grad_norm": 0.14069008827209473,
729
+ "learning_rate": 0.00015891891891891893,
730
+ "loss": 0.9002031326293946,
731
+ "step": 1030
732
+ },
733
+ {
734
+ "epoch": 0.08025465419118356,
735
+ "grad_norm": 0.12237665057182312,
736
+ "learning_rate": 0.00016046332046332047,
737
+ "loss": 0.8829663276672364,
738
+ "step": 1040
739
+ },
740
+ {
741
+ "epoch": 0.08102633355840648,
742
+ "grad_norm": 0.14210717380046844,
743
+ "learning_rate": 0.000162007722007722,
744
+ "loss": 0.9502348899841309,
745
+ "step": 1050
746
+ },
747
+ {
748
+ "epoch": 0.0817980129256294,
749
+ "grad_norm": 0.12595845758914948,
750
+ "learning_rate": 0.00016355212355212358,
751
+ "loss": 0.8802145957946778,
752
+ "step": 1060
753
+ },
754
+ {
755
+ "epoch": 0.08256969229285233,
756
+ "grad_norm": 0.14671702682971954,
757
+ "learning_rate": 0.00016509652509652512,
758
+ "loss": 0.950124454498291,
759
+ "step": 1070
760
+ },
761
+ {
762
+ "epoch": 0.08334137166007524,
763
+ "grad_norm": 0.1262345314025879,
764
+ "learning_rate": 0.00016664092664092666,
765
+ "loss": 0.9178938865661621,
766
+ "step": 1080
767
+ },
768
+ {
769
+ "epoch": 0.08411305102729816,
770
+ "grad_norm": 0.14854216575622559,
771
+ "learning_rate": 0.0001681853281853282,
772
+ "loss": 0.9059360504150391,
773
+ "step": 1090
774
+ },
775
+ {
776
+ "epoch": 0.08488473039452107,
777
+ "grad_norm": 0.13612130284309387,
778
+ "learning_rate": 0.00016972972972972974,
779
+ "loss": 0.883179759979248,
780
+ "step": 1100
781
+ },
782
+ {
783
+ "epoch": 0.08565640976174399,
784
+ "grad_norm": 0.195224329829216,
785
+ "learning_rate": 0.00017127413127413128,
786
+ "loss": 0.9765983581542969,
787
+ "step": 1110
788
+ },
789
+ {
790
+ "epoch": 0.08642808912896692,
791
+ "grad_norm": 0.16128239035606384,
792
+ "learning_rate": 0.00017281853281853282,
793
+ "loss": 0.9481371879577637,
794
+ "step": 1120
795
+ },
796
+ {
797
+ "epoch": 0.08719976849618984,
798
+ "grad_norm": 0.1204826682806015,
799
+ "learning_rate": 0.00017436293436293436,
800
+ "loss": 0.9438440322875976,
801
+ "step": 1130
802
+ },
803
+ {
804
+ "epoch": 0.08797144786341275,
805
+ "grad_norm": 0.13581594824790955,
806
+ "learning_rate": 0.00017590733590733593,
807
+ "loss": 0.9164579391479493,
808
+ "step": 1140
809
+ },
810
+ {
811
+ "epoch": 0.08874312723063567,
812
+ "grad_norm": 0.14480997622013092,
813
+ "learning_rate": 0.00017745173745173747,
814
+ "loss": 0.8554980278015136,
815
+ "step": 1150
816
+ },
817
+ {
818
+ "epoch": 0.08951480659785858,
819
+ "grad_norm": 0.1339653730392456,
820
+ "learning_rate": 0.000178996138996139,
821
+ "loss": 0.9386772155761719,
822
+ "step": 1160
823
+ },
824
+ {
825
+ "epoch": 0.09028648596508151,
826
+ "grad_norm": 0.13732171058654785,
827
+ "learning_rate": 0.00018054054054054055,
828
+ "loss": 0.960637378692627,
829
+ "step": 1170
830
+ },
831
+ {
832
+ "epoch": 0.09105816533230443,
833
+ "grad_norm": 0.14760258793830872,
834
+ "learning_rate": 0.0001820849420849421,
835
+ "loss": 0.9496297836303711,
836
+ "step": 1180
837
+ },
838
+ {
839
+ "epoch": 0.09182984469952735,
840
+ "grad_norm": 0.13694636523723602,
841
+ "learning_rate": 0.00018362934362934363,
842
+ "loss": 0.9301774024963378,
843
+ "step": 1190
844
+ },
845
+ {
846
+ "epoch": 0.09260152406675026,
847
+ "grad_norm": 0.16521573066711426,
848
+ "learning_rate": 0.00018517374517374518,
849
+ "loss": 0.9696132659912109,
850
+ "step": 1200
851
+ },
852
+ {
853
+ "epoch": 0.09337320343397318,
854
+ "grad_norm": 0.13662070035934448,
855
+ "learning_rate": 0.00018671814671814674,
856
+ "loss": 0.9592963218688965,
857
+ "step": 1210
858
+ },
859
+ {
860
+ "epoch": 0.09414488280119611,
861
+ "grad_norm": 0.12738122045993805,
862
+ "learning_rate": 0.00018826254826254828,
863
+ "loss": 0.9708365440368653,
864
+ "step": 1220
865
+ },
866
+ {
867
+ "epoch": 0.09491656216841902,
868
+ "grad_norm": 0.14669036865234375,
869
+ "learning_rate": 0.00018980694980694982,
870
+ "loss": 0.8764440536499023,
871
+ "step": 1230
872
+ },
873
+ {
874
+ "epoch": 0.09568824153564194,
875
+ "grad_norm": 0.12573756277561188,
876
+ "learning_rate": 0.00019135135135135137,
877
+ "loss": 0.8464407920837402,
878
+ "step": 1240
879
+ },
880
+ {
881
+ "epoch": 0.09645992090286486,
882
+ "grad_norm": 0.14189030230045319,
883
+ "learning_rate": 0.0001928957528957529,
884
+ "loss": 0.950318717956543,
885
+ "step": 1250
886
+ },
887
+ {
888
+ "epoch": 0.09723160027008777,
889
+ "grad_norm": 0.2636380195617676,
890
+ "learning_rate": 0.00019444015444015445,
891
+ "loss": 0.9141375541687011,
892
+ "step": 1260
893
+ },
894
+ {
895
+ "epoch": 0.0980032796373107,
896
+ "grad_norm": 0.15273556113243103,
897
+ "learning_rate": 0.000195984555984556,
898
+ "loss": 1.0023685455322267,
899
+ "step": 1270
900
+ },
901
+ {
902
+ "epoch": 0.09877495900453362,
903
+ "grad_norm": 0.2087467461824417,
904
+ "learning_rate": 0.00019752895752895756,
905
+ "loss": 0.9461590766906738,
906
+ "step": 1280
907
+ },
908
+ {
909
+ "epoch": 0.09954663837175654,
910
+ "grad_norm": 0.14373677968978882,
911
+ "learning_rate": 0.0001990733590733591,
912
+ "loss": 0.8914681434631347,
913
+ "step": 1290
914
+ },
915
+ {
916
+ "epoch": 0.10031831773897945,
917
+ "grad_norm": 0.13711115717887878,
918
+ "learning_rate": 0.00019993141289437587,
919
+ "loss": 0.9707538604736328,
920
+ "step": 1300
921
+ },
922
+ {
923
+ "epoch": 0.10108999710620237,
924
+ "grad_norm": 0.13779997825622559,
925
+ "learning_rate": 0.00019975994513031552,
926
+ "loss": 0.9407063484191894,
927
+ "step": 1310
928
+ },
929
+ {
930
+ "epoch": 0.1018616764734253,
931
+ "grad_norm": 0.1424177885055542,
932
+ "learning_rate": 0.00019958847736625514,
933
+ "loss": 0.944306755065918,
934
+ "step": 1320
935
+ },
936
+ {
937
+ "epoch": 0.10263335584064821,
938
+ "grad_norm": 0.15074807405471802,
939
+ "learning_rate": 0.00019941700960219482,
940
+ "loss": 0.9324775695800781,
941
+ "step": 1330
942
+ },
943
+ {
944
+ "epoch": 0.10340503520787113,
945
+ "grad_norm": 0.15965643525123596,
946
+ "learning_rate": 0.00019924554183813444,
947
+ "loss": 0.9168493270874023,
948
+ "step": 1340
949
+ },
950
+ {
951
+ "epoch": 0.10417671457509405,
952
+ "grad_norm": 0.12655006349086761,
953
+ "learning_rate": 0.0001990740740740741,
954
+ "loss": 0.918604850769043,
955
+ "step": 1350
956
+ },
957
+ {
958
+ "epoch": 0.10494839394231696,
959
+ "grad_norm": 0.11994543671607971,
960
+ "learning_rate": 0.0001989026063100137,
961
+ "loss": 0.8942041397094727,
962
+ "step": 1360
963
+ },
964
+ {
965
+ "epoch": 0.10572007330953989,
966
+ "grad_norm": 0.1397182047367096,
967
+ "learning_rate": 0.0001987311385459534,
968
+ "loss": 0.8999843597412109,
969
+ "step": 1370
970
+ },
971
+ {
972
+ "epoch": 0.10649175267676281,
973
+ "grad_norm": 0.20514515042304993,
974
+ "learning_rate": 0.000198559670781893,
975
+ "loss": 0.9744900703430176,
976
+ "step": 1380
977
+ },
978
+ {
979
+ "epoch": 0.10726343204398572,
980
+ "grad_norm": 0.15667827427387238,
981
+ "learning_rate": 0.00019838820301783266,
982
+ "loss": 0.8710949897766114,
983
+ "step": 1390
984
+ },
985
+ {
986
+ "epoch": 0.10803511141120864,
987
+ "grad_norm": 0.1237126812338829,
988
+ "learning_rate": 0.00019821673525377228,
989
+ "loss": 0.8532806396484375,
990
+ "step": 1400
991
+ },
992
+ {
993
+ "epoch": 0.10880679077843156,
994
+ "grad_norm": 0.1715669184923172,
995
+ "learning_rate": 0.00019804526748971196,
996
+ "loss": 0.9749599456787109,
997
+ "step": 1410
998
+ },
999
+ {
1000
+ "epoch": 0.10957847014565449,
1001
+ "grad_norm": 0.13979029655456543,
1002
+ "learning_rate": 0.00019787379972565158,
1003
+ "loss": 0.9612955093383789,
1004
+ "step": 1420
1005
+ },
1006
+ {
1007
+ "epoch": 0.1103501495128774,
1008
+ "grad_norm": 0.13627590239048004,
1009
+ "learning_rate": 0.00019770233196159123,
1010
+ "loss": 0.8780692100524903,
1011
+ "step": 1430
1012
+ },
1013
+ {
1014
+ "epoch": 0.11112182888010032,
1015
+ "grad_norm": 0.1600399911403656,
1016
+ "learning_rate": 0.00019753086419753085,
1017
+ "loss": 0.8817881584167481,
1018
+ "step": 1440
1019
+ },
1020
+ {
1021
+ "epoch": 0.11189350824732323,
1022
+ "grad_norm": 0.1146964505314827,
1023
+ "learning_rate": 0.00019735939643347053,
1024
+ "loss": 0.9072661399841309,
1025
+ "step": 1450
1026
+ },
1027
+ {
1028
+ "epoch": 0.11266518761454615,
1029
+ "grad_norm": 0.14121341705322266,
1030
+ "learning_rate": 0.00019718792866941015,
1031
+ "loss": 0.8885805130004882,
1032
+ "step": 1460
1033
+ },
1034
+ {
1035
+ "epoch": 0.11343686698176908,
1036
+ "grad_norm": 0.1582922786474228,
1037
+ "learning_rate": 0.0001970164609053498,
1038
+ "loss": 0.9153773307800293,
1039
+ "step": 1470
1040
+ },
1041
+ {
1042
+ "epoch": 0.114208546348992,
1043
+ "grad_norm": 0.14982298016548157,
1044
+ "learning_rate": 0.00019684499314128945,
1045
+ "loss": 0.9298340797424316,
1046
+ "step": 1480
1047
+ },
1048
+ {
1049
+ "epoch": 0.11498022571621491,
1050
+ "grad_norm": 0.11531206965446472,
1051
+ "learning_rate": 0.0001966735253772291,
1052
+ "loss": 0.9395890235900879,
1053
+ "step": 1490
1054
+ },
1055
+ {
1056
+ "epoch": 0.11575190508343783,
1057
+ "grad_norm": 0.14209498465061188,
1058
+ "learning_rate": 0.00019650205761316872,
1059
+ "loss": 0.8390321731567383,
1060
+ "step": 1500
1061
+ },
1062
+ {
1063
+ "epoch": 0.11652358445066074,
1064
+ "grad_norm": 0.11906258016824722,
1065
+ "learning_rate": 0.00019633058984910837,
1066
+ "loss": 0.909323787689209,
1067
+ "step": 1510
1068
+ },
1069
+ {
1070
+ "epoch": 0.11729526381788367,
1071
+ "grad_norm": 0.12579163908958435,
1072
+ "learning_rate": 0.00019615912208504802,
1073
+ "loss": 0.9562045097351074,
1074
+ "step": 1520
1075
+ },
1076
+ {
1077
+ "epoch": 0.11806694318510659,
1078
+ "grad_norm": 0.1287720799446106,
1079
+ "learning_rate": 0.00019598765432098767,
1080
+ "loss": 0.9209161758422851,
1081
+ "step": 1530
1082
+ },
1083
+ {
1084
+ "epoch": 0.1188386225523295,
1085
+ "grad_norm": 0.13776282966136932,
1086
+ "learning_rate": 0.0001958161865569273,
1087
+ "loss": 0.9366206169128418,
1088
+ "step": 1540
1089
+ },
1090
+ {
1091
+ "epoch": 0.11961030191955242,
1092
+ "grad_norm": 0.1586165428161621,
1093
+ "learning_rate": 0.00019564471879286694,
1094
+ "loss": 0.9056665420532226,
1095
+ "step": 1550
1096
+ },
1097
+ {
1098
+ "epoch": 0.12038198128677534,
1099
+ "grad_norm": 0.15723218023777008,
1100
+ "learning_rate": 0.0001954732510288066,
1101
+ "loss": 0.8944165229797363,
1102
+ "step": 1560
1103
+ },
1104
+ {
1105
+ "epoch": 0.12115366065399827,
1106
+ "grad_norm": 0.15735211968421936,
1107
+ "learning_rate": 0.00019530178326474624,
1108
+ "loss": 0.8650986671447753,
1109
+ "step": 1570
1110
+ },
1111
+ {
1112
+ "epoch": 0.12192534002122118,
1113
+ "grad_norm": 0.15295566618442535,
1114
+ "learning_rate": 0.0001951303155006859,
1115
+ "loss": 0.9541757583618165,
1116
+ "step": 1580
1117
+ },
1118
+ {
1119
+ "epoch": 0.1226970193884441,
1120
+ "grad_norm": 0.16210581362247467,
1121
+ "learning_rate": 0.0001949588477366255,
1122
+ "loss": 0.8924543380737304,
1123
+ "step": 1590
1124
+ },
1125
+ {
1126
+ "epoch": 0.12346869875566702,
1127
+ "grad_norm": 0.15451756119728088,
1128
+ "learning_rate": 0.0001947873799725652,
1129
+ "loss": 0.8653304100036621,
1130
+ "step": 1600
1131
+ },
1132
+ {
1133
+ "epoch": 0.12424037812288993,
1134
+ "grad_norm": 0.12462305277585983,
1135
+ "learning_rate": 0.0001946159122085048,
1136
+ "loss": 0.9189548492431641,
1137
+ "step": 1610
1138
+ },
1139
+ {
1140
+ "epoch": 0.12501205749011285,
1141
+ "grad_norm": 0.10922125726938248,
1142
+ "learning_rate": 0.00019444444444444446,
1143
+ "loss": 0.8601775169372559,
1144
+ "step": 1620
1145
+ },
1146
+ {
1147
+ "epoch": 0.12578373685733577,
1148
+ "grad_norm": 0.1442819982767105,
1149
+ "learning_rate": 0.00019427297668038408,
1150
+ "loss": 0.883521556854248,
1151
+ "step": 1630
1152
+ },
1153
+ {
1154
+ "epoch": 0.1265554162245587,
1155
+ "grad_norm": 0.1921447366476059,
1156
+ "learning_rate": 0.00019410150891632376,
1157
+ "loss": 0.9088053703308105,
1158
+ "step": 1640
1159
+ },
1160
+ {
1161
+ "epoch": 0.12732709559178162,
1162
+ "grad_norm": 0.13579413294792175,
1163
+ "learning_rate": 0.00019393004115226338,
1164
+ "loss": 0.9177509307861328,
1165
+ "step": 1650
1166
+ },
1167
+ {
1168
+ "epoch": 0.12809877495900454,
1169
+ "grad_norm": 0.12798288464546204,
1170
+ "learning_rate": 0.00019375857338820303,
1171
+ "loss": 0.9359799385070801,
1172
+ "step": 1660
1173
+ },
1174
+ {
1175
+ "epoch": 0.12887045432622746,
1176
+ "grad_norm": 0.12642040848731995,
1177
+ "learning_rate": 0.00019358710562414265,
1178
+ "loss": 0.876513671875,
1179
+ "step": 1670
1180
+ },
1181
+ {
1182
+ "epoch": 0.12964213369345037,
1183
+ "grad_norm": 0.12268314510583878,
1184
+ "learning_rate": 0.00019341563786008233,
1185
+ "loss": 0.878510570526123,
1186
+ "step": 1680
1187
+ },
1188
+ {
1189
+ "epoch": 0.1304138130606733,
1190
+ "grad_norm": 0.1510227620601654,
1191
+ "learning_rate": 0.00019324417009602195,
1192
+ "loss": 0.9135002136230469,
1193
+ "step": 1690
1194
+ },
1195
+ {
1196
+ "epoch": 0.1311854924278962,
1197
+ "grad_norm": 0.16413401067256927,
1198
+ "learning_rate": 0.0001930727023319616,
1199
+ "loss": 0.8695366859436036,
1200
+ "step": 1700
1201
+ },
1202
+ {
1203
+ "epoch": 0.13195717179511912,
1204
+ "grad_norm": 0.14487908780574799,
1205
+ "learning_rate": 0.00019290123456790122,
1206
+ "loss": 0.9284669876098632,
1207
+ "step": 1710
1208
+ },
1209
+ {
1210
+ "epoch": 0.13272885116234204,
1211
+ "grad_norm": 0.1303521990776062,
1212
+ "learning_rate": 0.0001927297668038409,
1213
+ "loss": 0.8737581253051758,
1214
+ "step": 1720
1215
+ },
1216
+ {
1217
+ "epoch": 0.13350053052956495,
1218
+ "grad_norm": 0.14090701937675476,
1219
+ "learning_rate": 0.00019255829903978052,
1220
+ "loss": 0.8595477104187011,
1221
+ "step": 1730
1222
+ },
1223
+ {
1224
+ "epoch": 0.1342722098967879,
1225
+ "grad_norm": 0.1355149745941162,
1226
+ "learning_rate": 0.00019238683127572017,
1227
+ "loss": 0.8475465774536133,
1228
+ "step": 1740
1229
+ },
1230
+ {
1231
+ "epoch": 0.1350438892640108,
1232
+ "grad_norm": 0.14047279953956604,
1233
+ "learning_rate": 0.0001922153635116598,
1234
+ "loss": 0.9217391967773437,
1235
+ "step": 1750
1236
+ },
1237
+ {
1238
+ "epoch": 0.13581556863123373,
1239
+ "grad_norm": 0.14659123122692108,
1240
+ "learning_rate": 0.00019204389574759947,
1241
+ "loss": 0.9316446304321289,
1242
+ "step": 1760
1243
+ },
1244
+ {
1245
+ "epoch": 0.13658724799845665,
1246
+ "grad_norm": 0.1811600923538208,
1247
+ "learning_rate": 0.0001918724279835391,
1248
+ "loss": 0.9173222541809082,
1249
+ "step": 1770
1250
+ },
1251
+ {
1252
+ "epoch": 0.13735892736567956,
1253
+ "grad_norm": 0.12042385339736938,
1254
+ "learning_rate": 0.00019170096021947874,
1255
+ "loss": 0.907382869720459,
1256
+ "step": 1780
1257
+ },
1258
+ {
1259
+ "epoch": 0.13813060673290248,
1260
+ "grad_norm": 0.15939505398273468,
1261
+ "learning_rate": 0.0001915294924554184,
1262
+ "loss": 0.964719009399414,
1263
+ "step": 1790
1264
+ },
1265
+ {
1266
+ "epoch": 0.1389022861001254,
1267
+ "grad_norm": 0.14139987528324127,
1268
+ "learning_rate": 0.00019135802469135804,
1269
+ "loss": 0.8954049110412597,
1270
+ "step": 1800
1271
+ },
1272
+ {
1273
+ "epoch": 0.1396739654673483,
1274
+ "grad_norm": 0.15884581208229065,
1275
+ "learning_rate": 0.0001911865569272977,
1276
+ "loss": 0.9414543151855469,
1277
+ "step": 1810
1278
+ },
1279
+ {
1280
+ "epoch": 0.14044564483457123,
1281
+ "grad_norm": 0.1332668662071228,
1282
+ "learning_rate": 0.0001910150891632373,
1283
+ "loss": 0.8585048675537109,
1284
+ "step": 1820
1285
+ },
1286
+ {
1287
+ "epoch": 0.14121732420179414,
1288
+ "grad_norm": 0.1384868174791336,
1289
+ "learning_rate": 0.00019084362139917696,
1290
+ "loss": 0.8052179336547851,
1291
+ "step": 1830
1292
+ },
1293
+ {
1294
+ "epoch": 0.14198900356901709,
1295
+ "grad_norm": 0.1241953894495964,
1296
+ "learning_rate": 0.0001906721536351166,
1297
+ "loss": 0.9241853713989258,
1298
+ "step": 1840
1299
+ },
1300
+ {
1301
+ "epoch": 0.14276068293624,
1302
+ "grad_norm": 0.13251616060733795,
1303
+ "learning_rate": 0.00019050068587105626,
1304
+ "loss": 0.8902045249938965,
1305
+ "step": 1850
1306
+ },
1307
+ {
1308
+ "epoch": 0.14353236230346292,
1309
+ "grad_norm": 0.13486811518669128,
1310
+ "learning_rate": 0.00019032921810699588,
1311
+ "loss": 0.8438145637512207,
1312
+ "step": 1860
1313
+ },
1314
+ {
1315
+ "epoch": 0.14430404167068583,
1316
+ "grad_norm": 0.14527903497219086,
1317
+ "learning_rate": 0.00019015775034293556,
1318
+ "loss": 0.932585334777832,
1319
+ "step": 1870
1320
+ },
1321
+ {
1322
+ "epoch": 0.14507572103790875,
1323
+ "grad_norm": 0.15183964371681213,
1324
+ "learning_rate": 0.00018998628257887518,
1325
+ "loss": 0.9338572502136231,
1326
+ "step": 1880
1327
+ },
1328
+ {
1329
+ "epoch": 0.14584740040513167,
1330
+ "grad_norm": 0.1227315217256546,
1331
+ "learning_rate": 0.00018981481481481483,
1332
+ "loss": 0.8647249221801758,
1333
+ "step": 1890
1334
+ },
1335
+ {
1336
+ "epoch": 0.14661907977235458,
1337
+ "grad_norm": 0.14465254545211792,
1338
+ "learning_rate": 0.00018964334705075445,
1339
+ "loss": 0.887813663482666,
1340
+ "step": 1900
1341
+ },
1342
+ {
1343
+ "epoch": 0.1473907591395775,
1344
+ "grad_norm": 0.11031103879213333,
1345
+ "learning_rate": 0.00018947187928669413,
1346
+ "loss": 0.8783070564270019,
1347
+ "step": 1910
1348
+ },
1349
+ {
1350
+ "epoch": 0.14816243850680041,
1351
+ "grad_norm": 0.13811931014060974,
1352
+ "learning_rate": 0.00018930041152263375,
1353
+ "loss": 0.90804443359375,
1354
+ "step": 1920
1355
+ },
1356
+ {
1357
+ "epoch": 0.14893411787402333,
1358
+ "grad_norm": 0.25385376811027527,
1359
+ "learning_rate": 0.0001891289437585734,
1360
+ "loss": 0.888271427154541,
1361
+ "step": 1930
1362
+ },
1363
+ {
1364
+ "epoch": 0.14970579724124627,
1365
+ "grad_norm": 0.14109653234481812,
1366
+ "learning_rate": 0.00018895747599451302,
1367
+ "loss": 0.8717686653137207,
1368
+ "step": 1940
1369
+ },
1370
+ {
1371
+ "epoch": 0.1504774766084692,
1372
+ "grad_norm": 0.10888762027025223,
1373
+ "learning_rate": 0.0001887860082304527,
1374
+ "loss": 0.8756811141967773,
1375
+ "step": 1950
1376
+ },
1377
+ {
1378
+ "epoch": 0.1512491559756921,
1379
+ "grad_norm": 0.1465354561805725,
1380
+ "learning_rate": 0.00018861454046639232,
1381
+ "loss": 0.9119040489196777,
1382
+ "step": 1960
1383
+ },
1384
+ {
1385
+ "epoch": 0.15202083534291502,
1386
+ "grad_norm": 0.13660100102424622,
1387
+ "learning_rate": 0.00018844307270233197,
1388
+ "loss": 0.8416598320007325,
1389
+ "step": 1970
1390
+ },
1391
+ {
1392
+ "epoch": 0.15279251471013794,
1393
+ "grad_norm": 0.12262725085020065,
1394
+ "learning_rate": 0.0001882716049382716,
1395
+ "loss": 0.8306491851806641,
1396
+ "step": 1980
1397
+ },
1398
+ {
1399
+ "epoch": 0.15356419407736085,
1400
+ "grad_norm": 0.18066026270389557,
1401
+ "learning_rate": 0.00018810013717421127,
1402
+ "loss": 0.8606444358825683,
1403
+ "step": 1990
1404
+ },
1405
+ {
1406
+ "epoch": 0.15433587344458377,
1407
+ "grad_norm": 0.1607869267463684,
1408
+ "learning_rate": 0.0001879286694101509,
1409
+ "loss": 0.9605829238891601,
1410
+ "step": 2000
1411
+ },
1412
+ {
1413
+ "epoch": 0.1551075528118067,
1414
+ "grad_norm": 0.1732511818408966,
1415
+ "learning_rate": 0.00018775720164609054,
1416
+ "loss": 0.9208683013916016,
1417
+ "step": 2010
1418
+ },
1419
+ {
1420
+ "epoch": 0.1558792321790296,
1421
+ "grad_norm": 0.1554340124130249,
1422
+ "learning_rate": 0.00018758573388203017,
1423
+ "loss": 0.9016365051269531,
1424
+ "step": 2020
1425
+ },
1426
+ {
1427
+ "epoch": 0.15665091154625252,
1428
+ "grad_norm": 0.1407565027475357,
1429
+ "learning_rate": 0.00018741426611796984,
1430
+ "loss": 0.9112971305847168,
1431
+ "step": 2030
1432
+ },
1433
+ {
1434
+ "epoch": 0.15742259091347546,
1435
+ "grad_norm": 0.10590255260467529,
1436
+ "learning_rate": 0.00018724279835390946,
1437
+ "loss": 0.8664677619934082,
1438
+ "step": 2040
1439
+ },
1440
+ {
1441
+ "epoch": 0.15819427028069838,
1442
+ "grad_norm": 0.13333319127559662,
1443
+ "learning_rate": 0.00018707133058984911,
1444
+ "loss": 0.9705114364624023,
1445
+ "step": 2050
1446
+ },
1447
+ {
1448
+ "epoch": 0.1589659496479213,
1449
+ "grad_norm": 0.16020020842552185,
1450
+ "learning_rate": 0.00018689986282578876,
1451
+ "loss": 0.9187061309814453,
1452
+ "step": 2060
1453
+ },
1454
+ {
1455
+ "epoch": 0.1597376290151442,
1456
+ "grad_norm": 0.1456824541091919,
1457
+ "learning_rate": 0.0001867283950617284,
1458
+ "loss": 0.8844801902770996,
1459
+ "step": 2070
1460
+ },
1461
+ {
1462
+ "epoch": 0.16050930838236713,
1463
+ "grad_norm": 0.13203363120555878,
1464
+ "learning_rate": 0.00018655692729766806,
1465
+ "loss": 0.9111983299255371,
1466
+ "step": 2080
1467
+ },
1468
+ {
1469
+ "epoch": 0.16128098774959004,
1470
+ "grad_norm": 0.10979647189378738,
1471
+ "learning_rate": 0.00018638545953360768,
1472
+ "loss": 0.9126319885253906,
1473
+ "step": 2090
1474
+ },
1475
+ {
1476
+ "epoch": 0.16205266711681296,
1477
+ "grad_norm": 0.12909536063671112,
1478
+ "learning_rate": 0.00018621399176954733,
1479
+ "loss": 0.8958646774291992,
1480
+ "step": 2100
1481
+ },
1482
+ {
1483
+ "epoch": 0.16282434648403588,
1484
+ "grad_norm": 0.15361259877681732,
1485
+ "learning_rate": 0.00018604252400548698,
1486
+ "loss": 0.8408657073974609,
1487
+ "step": 2110
1488
+ },
1489
+ {
1490
+ "epoch": 0.1635960258512588,
1491
+ "grad_norm": 0.11375487595796585,
1492
+ "learning_rate": 0.00018587105624142663,
1493
+ "loss": 0.9133548736572266,
1494
+ "step": 2120
1495
+ },
1496
+ {
1497
+ "epoch": 0.1643677052184817,
1498
+ "grad_norm": 0.1553937792778015,
1499
+ "learning_rate": 0.00018569958847736625,
1500
+ "loss": 0.8190338134765625,
1501
+ "step": 2130
1502
+ },
1503
+ {
1504
+ "epoch": 0.16513938458570465,
1505
+ "grad_norm": 0.14899234473705292,
1506
+ "learning_rate": 0.0001855281207133059,
1507
+ "loss": 0.8054628372192383,
1508
+ "step": 2140
1509
+ },
1510
+ {
1511
+ "epoch": 0.16591106395292757,
1512
+ "grad_norm": 0.11932719498872757,
1513
+ "learning_rate": 0.00018535665294924555,
1514
+ "loss": 0.8314993858337403,
1515
+ "step": 2150
1516
+ },
1517
+ {
1518
+ "epoch": 0.16668274332015048,
1519
+ "grad_norm": 0.15255865454673767,
1520
+ "learning_rate": 0.0001851851851851852,
1521
+ "loss": 0.9741696357727051,
1522
+ "step": 2160
1523
+ },
1524
+ {
1525
+ "epoch": 0.1674544226873734,
1526
+ "grad_norm": 0.1365659087896347,
1527
+ "learning_rate": 0.00018501371742112483,
1528
+ "loss": 0.7812792778015136,
1529
+ "step": 2170
1530
+ },
1531
+ {
1532
+ "epoch": 0.16822610205459632,
1533
+ "grad_norm": 0.1468389928340912,
1534
+ "learning_rate": 0.00018484224965706447,
1535
+ "loss": 0.8438286781311035,
1536
+ "step": 2180
1537
+ },
1538
+ {
1539
+ "epoch": 0.16899778142181923,
1540
+ "grad_norm": 0.1342012882232666,
1541
+ "learning_rate": 0.00018467078189300412,
1542
+ "loss": 0.8273720741271973,
1543
+ "step": 2190
1544
+ },
1545
+ {
1546
+ "epoch": 0.16976946078904215,
1547
+ "grad_norm": 0.14852559566497803,
1548
+ "learning_rate": 0.00018449931412894377,
1549
+ "loss": 0.8302847862243652,
1550
+ "step": 2200
1551
+ },
1552
+ {
1553
+ "epoch": 0.17054114015626506,
1554
+ "grad_norm": 0.17884424328804016,
1555
+ "learning_rate": 0.0001843278463648834,
1556
+ "loss": 0.9065903663635254,
1557
+ "step": 2210
1558
+ },
1559
+ {
1560
+ "epoch": 0.17131281952348798,
1561
+ "grad_norm": 0.1340647041797638,
1562
+ "learning_rate": 0.00018415637860082307,
1563
+ "loss": 0.8122591018676758,
1564
+ "step": 2220
1565
+ },
1566
+ {
1567
+ "epoch": 0.1720844988907109,
1568
+ "grad_norm": 0.17012424767017365,
1569
+ "learning_rate": 0.0001839849108367627,
1570
+ "loss": 0.8936735153198242,
1571
+ "step": 2230
1572
+ },
1573
+ {
1574
+ "epoch": 0.17285617825793384,
1575
+ "grad_norm": 0.11823276430368423,
1576
+ "learning_rate": 0.00018381344307270234,
1577
+ "loss": 0.88836669921875,
1578
+ "step": 2240
1579
+ },
1580
+ {
1581
+ "epoch": 0.17362785762515676,
1582
+ "grad_norm": 0.12694299221038818,
1583
+ "learning_rate": 0.00018364197530864197,
1584
+ "loss": 0.906658935546875,
1585
+ "step": 2250
1586
+ },
1587
+ {
1588
+ "epoch": 0.17439953699237967,
1589
+ "grad_norm": 0.14491288363933563,
1590
+ "learning_rate": 0.00018347050754458164,
1591
+ "loss": 0.8715028762817383,
1592
+ "step": 2260
1593
+ },
1594
+ {
1595
+ "epoch": 0.1751712163596026,
1596
+ "grad_norm": 0.1279899775981903,
1597
+ "learning_rate": 0.00018329903978052127,
1598
+ "loss": 0.8870208740234375,
1599
+ "step": 2270
1600
+ },
1601
+ {
1602
+ "epoch": 0.1759428957268255,
1603
+ "grad_norm": 0.14201810956001282,
1604
+ "learning_rate": 0.00018312757201646091,
1605
+ "loss": 0.9046253204345703,
1606
+ "step": 2280
1607
+ },
1608
+ {
1609
+ "epoch": 0.17671457509404842,
1610
+ "grad_norm": 0.12473177909851074,
1611
+ "learning_rate": 0.00018295610425240056,
1612
+ "loss": 0.8702874183654785,
1613
+ "step": 2290
1614
+ },
1615
+ {
1616
+ "epoch": 0.17748625446127134,
1617
+ "grad_norm": 0.12428930401802063,
1618
+ "learning_rate": 0.0001827846364883402,
1619
+ "loss": 0.8405272483825683,
1620
+ "step": 2300
1621
+ },
1622
+ {
1623
+ "epoch": 0.17825793382849425,
1624
+ "grad_norm": 0.13424119353294373,
1625
+ "learning_rate": 0.00018261316872427984,
1626
+ "loss": 0.8849527359008789,
1627
+ "step": 2310
1628
+ },
1629
+ {
1630
+ "epoch": 0.17902961319571717,
1631
+ "grad_norm": 0.12349385023117065,
1632
+ "learning_rate": 0.00018244170096021949,
1633
+ "loss": 0.8746221542358399,
1634
+ "step": 2320
1635
+ },
1636
+ {
1637
+ "epoch": 0.17980129256294008,
1638
+ "grad_norm": 0.11935239285230637,
1639
+ "learning_rate": 0.00018227023319615913,
1640
+ "loss": 0.8474451065063476,
1641
+ "step": 2330
1642
+ },
1643
+ {
1644
+ "epoch": 0.18057297193016303,
1645
+ "grad_norm": 0.13540779054164886,
1646
+ "learning_rate": 0.00018209876543209878,
1647
+ "loss": 0.8805816650390625,
1648
+ "step": 2340
1649
+ },
1650
+ {
1651
+ "epoch": 0.18134465129738594,
1652
+ "grad_norm": 0.1339704990386963,
1653
+ "learning_rate": 0.00018192729766803843,
1654
+ "loss": 0.9093109130859375,
1655
+ "step": 2350
1656
+ },
1657
+ {
1658
+ "epoch": 0.18211633066460886,
1659
+ "grad_norm": 0.14474879205226898,
1660
+ "learning_rate": 0.00018175582990397806,
1661
+ "loss": 0.8396927833557128,
1662
+ "step": 2360
1663
+ },
1664
+ {
1665
+ "epoch": 0.18288801003183178,
1666
+ "grad_norm": 0.11800862848758698,
1667
+ "learning_rate": 0.0001815843621399177,
1668
+ "loss": 0.8718694686889649,
1669
+ "step": 2370
1670
+ },
1671
+ {
1672
+ "epoch": 0.1836596893990547,
1673
+ "grad_norm": 0.14035063982009888,
1674
+ "learning_rate": 0.00018141289437585735,
1675
+ "loss": 0.969059944152832,
1676
+ "step": 2380
1677
+ },
1678
+ {
1679
+ "epoch": 0.1844313687662776,
1680
+ "grad_norm": 0.1354781836271286,
1681
+ "learning_rate": 0.000181241426611797,
1682
+ "loss": 0.9034146308898926,
1683
+ "step": 2390
1684
+ },
1685
+ {
1686
+ "epoch": 0.18520304813350053,
1687
+ "grad_norm": 0.15591464936733246,
1688
+ "learning_rate": 0.00018106995884773663,
1689
+ "loss": 0.805502986907959,
1690
+ "step": 2400
1691
+ },
1692
+ {
1693
+ "epoch": 0.18597472750072344,
1694
+ "grad_norm": 0.17329534888267517,
1695
+ "learning_rate": 0.00018089849108367628,
1696
+ "loss": 0.9025980949401855,
1697
+ "step": 2410
1698
+ },
1699
+ {
1700
+ "epoch": 0.18674640686794636,
1701
+ "grad_norm": 0.35040536522865295,
1702
+ "learning_rate": 0.00018072702331961592,
1703
+ "loss": 0.821717357635498,
1704
+ "step": 2420
1705
+ },
1706
+ {
1707
+ "epoch": 0.18751808623516927,
1708
+ "grad_norm": 0.13618957996368408,
1709
+ "learning_rate": 0.00018055555555555557,
1710
+ "loss": 0.8431755065917969,
1711
+ "step": 2430
1712
+ },
1713
+ {
1714
+ "epoch": 0.18828976560239222,
1715
+ "grad_norm": 0.16440042853355408,
1716
+ "learning_rate": 0.0001803840877914952,
1717
+ "loss": 0.9136919975280762,
1718
+ "step": 2440
1719
+ },
1720
+ {
1721
+ "epoch": 0.18906144496961513,
1722
+ "grad_norm": 0.18514175713062286,
1723
+ "learning_rate": 0.00018021262002743485,
1724
+ "loss": 0.8714737892150879,
1725
+ "step": 2450
1726
+ },
1727
+ {
1728
+ "epoch": 0.18983312433683805,
1729
+ "grad_norm": 0.16719800233840942,
1730
+ "learning_rate": 0.0001800411522633745,
1731
+ "loss": 0.9059031486511231,
1732
+ "step": 2460
1733
+ },
1734
+ {
1735
+ "epoch": 0.19060480370406097,
1736
+ "grad_norm": 0.1346147507429123,
1737
+ "learning_rate": 0.00017986968449931414,
1738
+ "loss": 0.7939674377441406,
1739
+ "step": 2470
1740
+ },
1741
+ {
1742
+ "epoch": 0.19137648307128388,
1743
+ "grad_norm": 0.16486112773418427,
1744
+ "learning_rate": 0.00017969821673525377,
1745
+ "loss": 0.904393196105957,
1746
+ "step": 2480
1747
+ },
1748
+ {
1749
+ "epoch": 0.1921481624385068,
1750
+ "grad_norm": 0.12318016588687897,
1751
+ "learning_rate": 0.00017952674897119342,
1752
+ "loss": 0.8810678482055664,
1753
+ "step": 2490
1754
+ },
1755
+ {
1756
+ "epoch": 0.1929198418057297,
1757
+ "grad_norm": 0.1480247527360916,
1758
+ "learning_rate": 0.00017935528120713307,
1759
+ "loss": 0.7764781475067138,
1760
+ "step": 2500
1761
+ },
1762
+ {
1763
+ "epoch": 0.19369152117295263,
1764
+ "grad_norm": 0.1327567845582962,
1765
+ "learning_rate": 0.00017918381344307272,
1766
+ "loss": 0.8767733573913574,
1767
+ "step": 2510
1768
+ },
1769
+ {
1770
+ "epoch": 0.19446320054017555,
1771
+ "grad_norm": 0.16582264006137848,
1772
+ "learning_rate": 0.00017901234567901234,
1773
+ "loss": 0.884821605682373,
1774
+ "step": 2520
1775
+ },
1776
+ {
1777
+ "epoch": 0.1952348799073985,
1778
+ "grad_norm": 0.14093245565891266,
1779
+ "learning_rate": 0.000178840877914952,
1780
+ "loss": 0.8281044006347656,
1781
+ "step": 2530
1782
+ },
1783
+ {
1784
+ "epoch": 0.1960065592746214,
1785
+ "grad_norm": 0.1372932493686676,
1786
+ "learning_rate": 0.00017866941015089164,
1787
+ "loss": 0.9036026954650879,
1788
+ "step": 2540
1789
+ },
1790
+ {
1791
+ "epoch": 0.19677823864184432,
1792
+ "grad_norm": 0.15799172222614288,
1793
+ "learning_rate": 0.00017849794238683129,
1794
+ "loss": 0.8834423065185547,
1795
+ "step": 2550
1796
+ },
1797
+ {
1798
+ "epoch": 0.19754991800906724,
1799
+ "grad_norm": 0.13300693035125732,
1800
+ "learning_rate": 0.00017832647462277094,
1801
+ "loss": 0.8410321235656738,
1802
+ "step": 2560
1803
+ },
1804
+ {
1805
+ "epoch": 0.19832159737629015,
1806
+ "grad_norm": 0.11820129305124283,
1807
+ "learning_rate": 0.00017815500685871056,
1808
+ "loss": 0.8374045372009278,
1809
+ "step": 2570
1810
+ },
1811
+ {
1812
+ "epoch": 0.19909327674351307,
1813
+ "grad_norm": 0.1374407708644867,
1814
+ "learning_rate": 0.0001779835390946502,
1815
+ "loss": 0.7897539138793945,
1816
+ "step": 2580
1817
+ },
1818
+ {
1819
+ "epoch": 0.199864956110736,
1820
+ "grad_norm": 0.13014692068099976,
1821
+ "learning_rate": 0.00017781207133058986,
1822
+ "loss": 0.856849193572998,
1823
+ "step": 2590
1824
+ },
1825
+ {
1826
+ "epoch": 0.2006366354779589,
1827
+ "grad_norm": 0.13736820220947266,
1828
+ "learning_rate": 0.0001776406035665295,
1829
+ "loss": 0.8098331451416015,
1830
+ "step": 2600
1831
+ },
1832
+ {
1833
+ "epoch": 0.20140831484518182,
1834
+ "grad_norm": 0.13417045772075653,
1835
+ "learning_rate": 0.00017746913580246916,
1836
+ "loss": 0.8112906455993653,
1837
+ "step": 2610
1838
+ },
1839
+ {
1840
+ "epoch": 0.20217999421240473,
1841
+ "grad_norm": 0.12335588037967682,
1842
+ "learning_rate": 0.0001772976680384088,
1843
+ "loss": 0.8197178840637207,
1844
+ "step": 2620
1845
+ },
1846
+ {
1847
+ "epoch": 0.20295167357962768,
1848
+ "grad_norm": 0.12072271853685379,
1849
+ "learning_rate": 0.00017712620027434843,
1850
+ "loss": 0.8148613929748535,
1851
+ "step": 2630
1852
+ },
1853
+ {
1854
+ "epoch": 0.2037233529468506,
1855
+ "grad_norm": 0.12888556718826294,
1856
+ "learning_rate": 0.00017695473251028808,
1857
+ "loss": 0.8378517150878906,
1858
+ "step": 2640
1859
+ },
1860
+ {
1861
+ "epoch": 0.2044950323140735,
1862
+ "grad_norm": 0.11225631088018417,
1863
+ "learning_rate": 0.00017678326474622773,
1864
+ "loss": 0.8098993301391602,
1865
+ "step": 2650
1866
+ },
1867
+ {
1868
+ "epoch": 0.20526671168129643,
1869
+ "grad_norm": 0.1396367847919464,
1870
+ "learning_rate": 0.00017661179698216738,
1871
+ "loss": 0.7926461696624756,
1872
+ "step": 2660
1873
+ },
1874
+ {
1875
+ "epoch": 0.20603839104851934,
1876
+ "grad_norm": 0.12182660400867462,
1877
+ "learning_rate": 0.000176440329218107,
1878
+ "loss": 0.8657416343688965,
1879
+ "step": 2670
1880
+ },
1881
+ {
1882
+ "epoch": 0.20681007041574226,
1883
+ "grad_norm": 0.12498902529478073,
1884
+ "learning_rate": 0.00017626886145404665,
1885
+ "loss": 0.8974786758422851,
1886
+ "step": 2680
1887
+ },
1888
+ {
1889
+ "epoch": 0.20758174978296517,
1890
+ "grad_norm": 0.1641893833875656,
1891
+ "learning_rate": 0.0001760973936899863,
1892
+ "loss": 0.7702033042907714,
1893
+ "step": 2690
1894
+ },
1895
+ {
1896
+ "epoch": 0.2083534291501881,
1897
+ "grad_norm": 0.14216631650924683,
1898
+ "learning_rate": 0.00017592592592592595,
1899
+ "loss": 0.8128464698791504,
1900
+ "step": 2700
1901
+ },
1902
+ {
1903
+ "epoch": 0.209125108517411,
1904
+ "grad_norm": 0.12807051837444305,
1905
+ "learning_rate": 0.00017575445816186557,
1906
+ "loss": 0.8731807708740235,
1907
+ "step": 2710
1908
+ },
1909
+ {
1910
+ "epoch": 0.20989678788463392,
1911
+ "grad_norm": 0.12057145684957504,
1912
+ "learning_rate": 0.00017558299039780522,
1913
+ "loss": 0.8347474098205566,
1914
+ "step": 2720
1915
+ },
1916
+ {
1917
+ "epoch": 0.21066846725185687,
1918
+ "grad_norm": 0.1331891119480133,
1919
+ "learning_rate": 0.00017541152263374487,
1920
+ "loss": 0.7946592330932617,
1921
+ "step": 2730
1922
+ },
1923
+ {
1924
+ "epoch": 0.21144014661907978,
1925
+ "grad_norm": 0.13952475786209106,
1926
+ "learning_rate": 0.00017524005486968452,
1927
+ "loss": 0.850405216217041,
1928
+ "step": 2740
1929
+ },
1930
+ {
1931
+ "epoch": 0.2122118259863027,
1932
+ "grad_norm": 0.12533603608608246,
1933
+ "learning_rate": 0.00017506858710562414,
1934
+ "loss": 0.8693943977355957,
1935
+ "step": 2750
1936
+ },
1937
+ {
1938
+ "epoch": 0.21298350535352562,
1939
+ "grad_norm": 0.134017214179039,
1940
+ "learning_rate": 0.0001748971193415638,
1941
+ "loss": 0.9226296424865723,
1942
+ "step": 2760
1943
+ },
1944
+ {
1945
+ "epoch": 0.21375518472074853,
1946
+ "grad_norm": 0.12564072012901306,
1947
+ "learning_rate": 0.00017472565157750344,
1948
+ "loss": 0.8781246185302735,
1949
+ "step": 2770
1950
+ },
1951
+ {
1952
+ "epoch": 0.21452686408797145,
1953
+ "grad_norm": 0.12992620468139648,
1954
+ "learning_rate": 0.0001745541838134431,
1955
+ "loss": 0.8699252128601074,
1956
+ "step": 2780
1957
+ },
1958
+ {
1959
+ "epoch": 0.21529854345519436,
1960
+ "grad_norm": 0.11067423224449158,
1961
+ "learning_rate": 0.0001743827160493827,
1962
+ "loss": 0.8009305000305176,
1963
+ "step": 2790
1964
+ },
1965
+ {
1966
+ "epoch": 0.21607022282241728,
1967
+ "grad_norm": 0.13229770958423615,
1968
+ "learning_rate": 0.00017421124828532236,
1969
+ "loss": 0.92990140914917,
1970
+ "step": 2800
1971
+ },
1972
+ {
1973
+ "epoch": 0.2168419021896402,
1974
+ "grad_norm": 0.13477829098701477,
1975
+ "learning_rate": 0.000174039780521262,
1976
+ "loss": 0.8522166252136231,
1977
+ "step": 2810
1978
+ },
1979
+ {
1980
+ "epoch": 0.2176135815568631,
1981
+ "grad_norm": 0.1265680193901062,
1982
+ "learning_rate": 0.00017386831275720166,
1983
+ "loss": 0.8684545516967773,
1984
+ "step": 2820
1985
+ },
1986
+ {
1987
+ "epoch": 0.21838526092408606,
1988
+ "grad_norm": 0.11227365583181381,
1989
+ "learning_rate": 0.0001736968449931413,
1990
+ "loss": 0.821353816986084,
1991
+ "step": 2830
1992
+ },
1993
+ {
1994
+ "epoch": 0.21915694029130897,
1995
+ "grad_norm": 0.11255034059286118,
1996
+ "learning_rate": 0.00017352537722908093,
1997
+ "loss": 0.8419916152954101,
1998
+ "step": 2840
1999
+ },
2000
+ {
2001
+ "epoch": 0.2199286196585319,
2002
+ "grad_norm": 0.12512286007404327,
2003
+ "learning_rate": 0.0001733539094650206,
2004
+ "loss": 0.8188055992126465,
2005
+ "step": 2850
2006
+ },
2007
+ {
2008
+ "epoch": 0.2207002990257548,
2009
+ "grad_norm": 0.13817989826202393,
2010
+ "learning_rate": 0.00017318244170096023,
2011
+ "loss": 0.9547490119934082,
2012
+ "step": 2860
2013
+ },
2014
+ {
2015
+ "epoch": 0.22147197839297772,
2016
+ "grad_norm": 0.14506305754184723,
2017
+ "learning_rate": 0.00017301097393689988,
2018
+ "loss": 0.8111377716064453,
2019
+ "step": 2870
2020
+ },
2021
+ {
2022
+ "epoch": 0.22224365776020064,
2023
+ "grad_norm": 0.14242449402809143,
2024
+ "learning_rate": 0.0001728395061728395,
2025
+ "loss": 0.7653944015502929,
2026
+ "step": 2880
2027
+ },
2028
+ {
2029
+ "epoch": 0.22301533712742355,
2030
+ "grad_norm": 0.1414581537246704,
2031
+ "learning_rate": 0.00017266803840877918,
2032
+ "loss": 0.8571985244750977,
2033
+ "step": 2890
2034
+ },
2035
+ {
2036
+ "epoch": 0.22378701649464647,
2037
+ "grad_norm": 0.13643725216388702,
2038
+ "learning_rate": 0.0001724965706447188,
2039
+ "loss": 0.8333075523376465,
2040
+ "step": 2900
2041
+ },
2042
+ {
2043
+ "epoch": 0.22455869586186938,
2044
+ "grad_norm": 0.17245373129844666,
2045
+ "learning_rate": 0.00017232510288065845,
2046
+ "loss": 0.8401066780090332,
2047
+ "step": 2910
2048
+ },
2049
+ {
2050
+ "epoch": 0.2253303752290923,
2051
+ "grad_norm": 0.12681716680526733,
2052
+ "learning_rate": 0.00017215363511659807,
2053
+ "loss": 0.8211629867553711,
2054
+ "step": 2920
2055
+ },
2056
+ {
2057
+ "epoch": 0.22610205459631524,
2058
+ "grad_norm": 0.09726311266422272,
2059
+ "learning_rate": 0.00017198216735253775,
2060
+ "loss": 0.8029566764831543,
2061
+ "step": 2930
2062
+ },
2063
+ {
2064
+ "epoch": 0.22687373396353816,
2065
+ "grad_norm": 0.13840550184249878,
2066
+ "learning_rate": 0.00017181069958847737,
2067
+ "loss": 0.8934766769409179,
2068
+ "step": 2940
2069
+ },
2070
+ {
2071
+ "epoch": 0.22764541333076108,
2072
+ "grad_norm": 0.12750297784805298,
2073
+ "learning_rate": 0.00017163923182441702,
2074
+ "loss": 0.8754122734069825,
2075
+ "step": 2950
2076
+ },
2077
+ {
2078
+ "epoch": 0.228417092697984,
2079
+ "grad_norm": 0.10405158251523972,
2080
+ "learning_rate": 0.00017146776406035664,
2081
+ "loss": 0.7468550682067872,
2082
+ "step": 2960
2083
+ },
2084
+ {
2085
+ "epoch": 0.2291887720652069,
2086
+ "grad_norm": 0.14371293783187866,
2087
+ "learning_rate": 0.00017129629629629632,
2088
+ "loss": 0.8387319564819335,
2089
+ "step": 2970
2090
+ },
2091
+ {
2092
+ "epoch": 0.22996045143242982,
2093
+ "grad_norm": 0.13800597190856934,
2094
+ "learning_rate": 0.00017112482853223594,
2095
+ "loss": 0.8476024627685547,
2096
+ "step": 2980
2097
+ },
2098
+ {
2099
+ "epoch": 0.23073213079965274,
2100
+ "grad_norm": 0.11655699461698532,
2101
+ "learning_rate": 0.0001709533607681756,
2102
+ "loss": 0.786558723449707,
2103
+ "step": 2990
2104
+ },
2105
+ {
2106
+ "epoch": 0.23150381016687566,
2107
+ "grad_norm": 0.14017945528030396,
2108
+ "learning_rate": 0.00017078189300411524,
2109
+ "loss": 0.8820916175842285,
2110
+ "step": 3000
2111
+ },
2112
+ {
2113
+ "epoch": 0.23227548953409857,
2114
+ "grad_norm": 0.12487129867076874,
2115
+ "learning_rate": 0.0001706104252400549,
2116
+ "loss": 0.8847643852233886,
2117
+ "step": 3010
2118
+ },
2119
+ {
2120
+ "epoch": 0.2330471689013215,
2121
+ "grad_norm": 0.12297922372817993,
2122
+ "learning_rate": 0.0001704389574759945,
2123
+ "loss": 0.8033929824829101,
2124
+ "step": 3020
2125
+ },
2126
+ {
2127
+ "epoch": 0.23381884826854443,
2128
+ "grad_norm": 0.16417784988880157,
2129
+ "learning_rate": 0.00017026748971193416,
2130
+ "loss": 0.819823169708252,
2131
+ "step": 3030
2132
+ },
2133
+ {
2134
+ "epoch": 0.23459052763576735,
2135
+ "grad_norm": 0.1531011015176773,
2136
+ "learning_rate": 0.0001700960219478738,
2137
+ "loss": 0.8654590606689453,
2138
+ "step": 3040
2139
+ },
2140
+ {
2141
+ "epoch": 0.23536220700299026,
2142
+ "grad_norm": 0.13741746544837952,
2143
+ "learning_rate": 0.00016992455418381346,
2144
+ "loss": 0.8356669425964356,
2145
+ "step": 3050
2146
+ },
2147
+ {
2148
+ "epoch": 0.23613388637021318,
2149
+ "grad_norm": 0.12235406786203384,
2150
+ "learning_rate": 0.00016975308641975308,
2151
+ "loss": 0.7874931335449219,
2152
+ "step": 3060
2153
+ },
2154
+ {
2155
+ "epoch": 0.2369055657374361,
2156
+ "grad_norm": 0.15917153656482697,
2157
+ "learning_rate": 0.00016958161865569273,
2158
+ "loss": 0.8752988815307617,
2159
+ "step": 3070
2160
+ },
2161
+ {
2162
+ "epoch": 0.237677245104659,
2163
+ "grad_norm": 0.13069361448287964,
2164
+ "learning_rate": 0.00016941015089163238,
2165
+ "loss": 0.877816104888916,
2166
+ "step": 3080
2167
+ },
2168
+ {
2169
+ "epoch": 0.23844892447188193,
2170
+ "grad_norm": 0.12786127626895905,
2171
+ "learning_rate": 0.00016923868312757203,
2172
+ "loss": 0.8660223960876465,
2173
+ "step": 3090
2174
+ },
2175
+ {
2176
+ "epoch": 0.23922060383910485,
2177
+ "grad_norm": 0.10427848249673843,
2178
+ "learning_rate": 0.00016906721536351168,
2179
+ "loss": 0.8196652412414551,
2180
+ "step": 3100
2181
+ },
2182
+ {
2183
+ "epoch": 0.23999228320632776,
2184
+ "grad_norm": 0.1204465851187706,
2185
+ "learning_rate": 0.0001688957475994513,
2186
+ "loss": 0.8015564918518067,
2187
+ "step": 3110
2188
+ },
2189
+ {
2190
+ "epoch": 0.24076396257355068,
2191
+ "grad_norm": 0.1356930285692215,
2192
+ "learning_rate": 0.00016872427983539098,
2193
+ "loss": 0.8163382530212402,
2194
+ "step": 3120
2195
+ },
2196
+ {
2197
+ "epoch": 0.24153564194077362,
2198
+ "grad_norm": 0.24513445794582367,
2199
+ "learning_rate": 0.0001685528120713306,
2200
+ "loss": 0.8484282493591309,
2201
+ "step": 3130
2202
+ },
2203
+ {
2204
+ "epoch": 0.24230732130799654,
2205
+ "grad_norm": 0.1258307546377182,
2206
+ "learning_rate": 0.00016838134430727025,
2207
+ "loss": 0.8763568878173829,
2208
+ "step": 3140
2209
+ },
2210
+ {
2211
+ "epoch": 0.24307900067521945,
2212
+ "grad_norm": 0.1511799544095993,
2213
+ "learning_rate": 0.00016820987654320987,
2214
+ "loss": 0.8349836349487305,
2215
+ "step": 3150
2216
+ },
2217
+ {
2218
+ "epoch": 0.24385068004244237,
2219
+ "grad_norm": 0.15442147850990295,
2220
+ "learning_rate": 0.00016803840877914955,
2221
+ "loss": 0.768619441986084,
2222
+ "step": 3160
2223
+ },
2224
+ {
2225
+ "epoch": 0.24462235940966529,
2226
+ "grad_norm": 0.14298409223556519,
2227
+ "learning_rate": 0.00016786694101508917,
2228
+ "loss": 0.8363221168518067,
2229
+ "step": 3170
2230
+ },
2231
+ {
2232
+ "epoch": 0.2453940387768882,
2233
+ "grad_norm": 0.11931406706571579,
2234
+ "learning_rate": 0.00016769547325102882,
2235
+ "loss": 0.8240514755249023,
2236
+ "step": 3180
2237
+ },
2238
+ {
2239
+ "epoch": 0.24616571814411112,
2240
+ "grad_norm": 0.18728391826152802,
2241
+ "learning_rate": 0.00016752400548696844,
2242
+ "loss": 0.8571996688842773,
2243
+ "step": 3190
2244
+ },
2245
+ {
2246
+ "epoch": 0.24693739751133403,
2247
+ "grad_norm": 0.12976998090744019,
2248
+ "learning_rate": 0.00016735253772290812,
2249
+ "loss": 0.7671982288360596,
2250
+ "step": 3200
2251
+ },
2252
+ {
2253
+ "epoch": 0.24770907687855695,
2254
+ "grad_norm": 0.12748423218727112,
2255
+ "learning_rate": 0.00016718106995884774,
2256
+ "loss": 0.7859314441680908,
2257
+ "step": 3210
2258
+ },
2259
+ {
2260
+ "epoch": 0.24848075624577987,
2261
+ "grad_norm": 0.14031143486499786,
2262
+ "learning_rate": 0.0001670096021947874,
2263
+ "loss": 0.8077226638793945,
2264
+ "step": 3220
2265
+ },
2266
+ {
2267
+ "epoch": 0.2492524356130028,
2268
+ "grad_norm": 0.12750263512134552,
2269
+ "learning_rate": 0.000166838134430727,
2270
+ "loss": 0.8905061721801758,
2271
+ "step": 3230
2272
+ },
2273
+ {
2274
+ "epoch": 0.2500241149802257,
2275
+ "grad_norm": 0.1253247708082199,
2276
+ "learning_rate": 0.0001666666666666667,
2277
+ "loss": 0.7827759265899659,
2278
+ "step": 3240
2279
+ },
2280
+ {
2281
+ "epoch": 0.25079579434744864,
2282
+ "grad_norm": 0.11356625705957413,
2283
+ "learning_rate": 0.0001664951989026063,
2284
+ "loss": 0.9060277938842773,
2285
+ "step": 3250
2286
+ },
2287
+ {
2288
+ "epoch": 0.25156747371467153,
2289
+ "grad_norm": 0.1360168755054474,
2290
+ "learning_rate": 0.00016632373113854596,
2291
+ "loss": 0.7898921966552734,
2292
+ "step": 3260
2293
+ },
2294
+ {
2295
+ "epoch": 0.2523391530818945,
2296
+ "grad_norm": 0.11251401156187057,
2297
+ "learning_rate": 0.00016615226337448558,
2298
+ "loss": 0.8594393730163574,
2299
+ "step": 3270
2300
+ },
2301
+ {
2302
+ "epoch": 0.2531108324491174,
2303
+ "grad_norm": 0.15321357548236847,
2304
+ "learning_rate": 0.00016598079561042526,
2305
+ "loss": 0.854586410522461,
2306
+ "step": 3280
2307
+ },
2308
+ {
2309
+ "epoch": 0.2538825118163403,
2310
+ "grad_norm": 0.14712406694889069,
2311
+ "learning_rate": 0.00016580932784636488,
2312
+ "loss": 0.8507588386535645,
2313
+ "step": 3290
2314
+ },
2315
+ {
2316
+ "epoch": 0.25465419118356325,
2317
+ "grad_norm": 0.11772070825099945,
2318
+ "learning_rate": 0.00016563786008230453,
2319
+ "loss": 0.9055712699890137,
2320
+ "step": 3300
2321
+ },
2322
+ {
2323
+ "epoch": 0.25542587055078614,
2324
+ "grad_norm": 0.14351730048656464,
2325
+ "learning_rate": 0.00016546639231824418,
2326
+ "loss": 0.8199276924133301,
2327
+ "step": 3310
2328
+ },
2329
+ {
2330
+ "epoch": 0.2561975499180091,
2331
+ "grad_norm": 0.1255323439836502,
2332
+ "learning_rate": 0.00016529492455418383,
2333
+ "loss": 0.8413225173950195,
2334
+ "step": 3320
2335
+ },
2336
+ {
2337
+ "epoch": 0.25696922928523197,
2338
+ "grad_norm": 0.12912032008171082,
2339
+ "learning_rate": 0.00016512345679012348,
2340
+ "loss": 0.8220077514648437,
2341
+ "step": 3330
2342
+ },
2343
+ {
2344
+ "epoch": 0.2577409086524549,
2345
+ "grad_norm": 0.12320882827043533,
2346
+ "learning_rate": 0.0001649519890260631,
2347
+ "loss": 0.8752640724182129,
2348
+ "step": 3340
2349
+ },
2350
+ {
2351
+ "epoch": 0.2585125880196778,
2352
+ "grad_norm": 0.2623811960220337,
2353
+ "learning_rate": 0.00016478052126200275,
2354
+ "loss": 0.8364349365234375,
2355
+ "step": 3350
2356
+ },
2357
+ {
2358
+ "epoch": 0.25928426738690075,
2359
+ "grad_norm": 0.132389634847641,
2360
+ "learning_rate": 0.0001646090534979424,
2361
+ "loss": 0.756529426574707,
2362
+ "step": 3360
2363
+ },
2364
+ {
2365
+ "epoch": 0.26005594675412363,
2366
+ "grad_norm": 0.12747901678085327,
2367
+ "learning_rate": 0.00016443758573388205,
2368
+ "loss": 0.8000151634216308,
2369
+ "step": 3370
2370
+ },
2371
+ {
2372
+ "epoch": 0.2608276261213466,
2373
+ "grad_norm": 0.1263447403907776,
2374
+ "learning_rate": 0.00016426611796982167,
2375
+ "loss": 0.7739401817321777,
2376
+ "step": 3380
2377
+ },
2378
+ {
2379
+ "epoch": 0.2615993054885695,
2380
+ "grad_norm": 0.11336930096149445,
2381
+ "learning_rate": 0.00016409465020576135,
2382
+ "loss": 0.8851364135742188,
2383
+ "step": 3390
2384
+ },
2385
+ {
2386
+ "epoch": 0.2623709848557924,
2387
+ "grad_norm": 0.14022980630397797,
2388
+ "learning_rate": 0.00016392318244170097,
2389
+ "loss": 0.8246338844299317,
2390
+ "step": 3400
2391
+ },
2392
+ {
2393
+ "epoch": 0.26314266422301535,
2394
+ "grad_norm": 0.1415836066007614,
2395
+ "learning_rate": 0.00016375171467764062,
2396
+ "loss": 0.8389305114746094,
2397
+ "step": 3410
2398
+ },
2399
+ {
2400
+ "epoch": 0.26391434359023824,
2401
+ "grad_norm": 0.1447453796863556,
2402
+ "learning_rate": 0.00016358024691358024,
2403
+ "loss": 0.8960967063903809,
2404
+ "step": 3420
2405
+ },
2406
+ {
2407
+ "epoch": 0.2646860229574612,
2408
+ "grad_norm": 0.14884066581726074,
2409
+ "learning_rate": 0.00016340877914951992,
2410
+ "loss": 0.7871220588684082,
2411
+ "step": 3430
2412
+ },
2413
+ {
2414
+ "epoch": 0.2654577023246841,
2415
+ "grad_norm": 0.13969279825687408,
2416
+ "learning_rate": 0.00016323731138545954,
2417
+ "loss": 0.837588119506836,
2418
+ "step": 3440
2419
+ },
2420
+ {
2421
+ "epoch": 0.266229381691907,
2422
+ "grad_norm": 0.1123804822564125,
2423
+ "learning_rate": 0.0001630658436213992,
2424
+ "loss": 0.7968134403228759,
2425
+ "step": 3450
2426
+ },
2427
+ {
2428
+ "epoch": 0.2670010610591299,
2429
+ "grad_norm": 0.1521446704864502,
2430
+ "learning_rate": 0.0001628943758573388,
2431
+ "loss": 0.7750689029693604,
2432
+ "step": 3460
2433
+ },
2434
+ {
2435
+ "epoch": 0.26777274042635285,
2436
+ "grad_norm": 0.14444394409656525,
2437
+ "learning_rate": 0.0001627229080932785,
2438
+ "loss": 0.8163520812988281,
2439
+ "step": 3470
2440
+ },
2441
+ {
2442
+ "epoch": 0.2685444197935758,
2443
+ "grad_norm": 0.13975541293621063,
2444
+ "learning_rate": 0.0001625514403292181,
2445
+ "loss": 0.8249734878540039,
2446
+ "step": 3480
2447
+ },
2448
+ {
2449
+ "epoch": 0.2693160991607987,
2450
+ "grad_norm": 0.13847948610782623,
2451
+ "learning_rate": 0.00016237997256515776,
2452
+ "loss": 0.7773365020751953,
2453
+ "step": 3490
2454
+ },
2455
+ {
2456
+ "epoch": 0.2700877785280216,
2457
+ "grad_norm": 0.13473714888095856,
2458
+ "learning_rate": 0.00016220850480109738,
2459
+ "loss": 0.819399070739746,
2460
+ "step": 3500
2461
+ },
2462
+ {
2463
+ "epoch": 0.2708594578952445,
2464
+ "grad_norm": 0.11676599830389023,
2465
+ "learning_rate": 0.00016203703703703706,
2466
+ "loss": 0.779163932800293,
2467
+ "step": 3510
2468
+ },
2469
+ {
2470
+ "epoch": 0.27163113726246746,
2471
+ "grad_norm": 0.12352027744054794,
2472
+ "learning_rate": 0.00016186556927297668,
2473
+ "loss": 0.804078197479248,
2474
+ "step": 3520
2475
+ },
2476
+ {
2477
+ "epoch": 0.27240281662969035,
2478
+ "grad_norm": 0.15879623591899872,
2479
+ "learning_rate": 0.00016169410150891633,
2480
+ "loss": 0.9352669715881348,
2481
+ "step": 3530
2482
+ },
2483
+ {
2484
+ "epoch": 0.2731744959969133,
2485
+ "grad_norm": 0.15267331898212433,
2486
+ "learning_rate": 0.00016152263374485595,
2487
+ "loss": 0.8269804954528809,
2488
+ "step": 3540
2489
+ },
2490
+ {
2491
+ "epoch": 0.2739461753641362,
2492
+ "grad_norm": 0.1624394804239273,
2493
+ "learning_rate": 0.00016135116598079563,
2494
+ "loss": 0.9027270317077637,
2495
+ "step": 3550
2496
+ },
2497
+ {
2498
+ "epoch": 0.2747178547313591,
2499
+ "grad_norm": 0.10725253075361252,
2500
+ "learning_rate": 0.00016117969821673525,
2501
+ "loss": 0.7687301158905029,
2502
+ "step": 3560
2503
+ },
2504
+ {
2505
+ "epoch": 0.275489534098582,
2506
+ "grad_norm": 0.13683226704597473,
2507
+ "learning_rate": 0.0001610082304526749,
2508
+ "loss": 0.8373688697814942,
2509
+ "step": 3570
2510
+ },
2511
+ {
2512
+ "epoch": 0.27626121346580496,
2513
+ "grad_norm": 0.15954583883285522,
2514
+ "learning_rate": 0.00016083676268861455,
2515
+ "loss": 0.7844015121459961,
2516
+ "step": 3580
2517
+ },
2518
+ {
2519
+ "epoch": 0.2770328928330279,
2520
+ "grad_norm": 0.14278897643089294,
2521
+ "learning_rate": 0.0001606652949245542,
2522
+ "loss": 0.8766173362731934,
2523
+ "step": 3590
2524
+ },
2525
+ {
2526
+ "epoch": 0.2778045722002508,
2527
+ "grad_norm": 0.10004450380802155,
2528
+ "learning_rate": 0.00016049382716049385,
2529
+ "loss": 0.7629057407379151,
2530
+ "step": 3600
2531
+ },
2532
+ {
2533
+ "epoch": 0.27857625156747373,
2534
+ "grad_norm": 0.12769654393196106,
2535
+ "learning_rate": 0.00016032235939643347,
2536
+ "loss": 0.8495834350585938,
2537
+ "step": 3610
2538
+ },
2539
+ {
2540
+ "epoch": 0.2793479309346966,
2541
+ "grad_norm": 0.14054711163043976,
2542
+ "learning_rate": 0.00016015089163237312,
2543
+ "loss": 0.8330297470092773,
2544
+ "step": 3620
2545
+ },
2546
+ {
2547
+ "epoch": 0.28011961030191956,
2548
+ "grad_norm": 0.16965901851654053,
2549
+ "learning_rate": 0.00015997942386831277,
2550
+ "loss": 0.8351662635803223,
2551
+ "step": 3630
2552
+ },
2553
+ {
2554
+ "epoch": 0.28089128966914245,
2555
+ "grad_norm": 0.12975865602493286,
2556
+ "learning_rate": 0.00015980795610425242,
2557
+ "loss": 0.893592357635498,
2558
+ "step": 3640
2559
+ },
2560
+ {
2561
+ "epoch": 0.2816629690363654,
2562
+ "grad_norm": 0.15801310539245605,
2563
+ "learning_rate": 0.00015963648834019204,
2564
+ "loss": 0.7849035263061523,
2565
+ "step": 3650
2566
+ },
2567
+ {
2568
+ "epoch": 0.2824346484035883,
2569
+ "grad_norm": 0.14637868106365204,
2570
+ "learning_rate": 0.0001594650205761317,
2571
+ "loss": 0.8064953804016113,
2572
+ "step": 3660
2573
+ },
2574
+ {
2575
+ "epoch": 0.28320632777081123,
2576
+ "grad_norm": 0.12257670611143112,
2577
+ "learning_rate": 0.00015929355281207134,
2578
+ "loss": 0.8076671600341797,
2579
+ "step": 3670
2580
+ },
2581
+ {
2582
+ "epoch": 0.28397800713803417,
2583
+ "grad_norm": 0.1313459724187851,
2584
+ "learning_rate": 0.000159122085048011,
2585
+ "loss": 0.8230973243713379,
2586
+ "step": 3680
2587
+ },
2588
+ {
2589
+ "epoch": 0.28474968650525706,
2590
+ "grad_norm": 0.14811420440673828,
2591
+ "learning_rate": 0.0001589506172839506,
2592
+ "loss": 0.8357210159301758,
2593
+ "step": 3690
2594
+ },
2595
+ {
2596
+ "epoch": 0.28552136587248,
2597
+ "grad_norm": 0.1593637764453888,
2598
+ "learning_rate": 0.00015877914951989026,
2599
+ "loss": 0.8747388839721679,
2600
+ "step": 3700
2601
+ },
2602
+ {
2603
+ "epoch": 0.2862930452397029,
2604
+ "grad_norm": 0.15067414939403534,
2605
+ "learning_rate": 0.0001586076817558299,
2606
+ "loss": 0.8474630355834961,
2607
+ "step": 3710
2608
+ },
2609
+ {
2610
+ "epoch": 0.28706472460692584,
2611
+ "grad_norm": 0.13254724442958832,
2612
+ "learning_rate": 0.00015843621399176956,
2613
+ "loss": 0.7940406322479248,
2614
+ "step": 3720
2615
+ },
2616
+ {
2617
+ "epoch": 0.2878364039741487,
2618
+ "grad_norm": 0.1223297193646431,
2619
+ "learning_rate": 0.00015826474622770918,
2620
+ "loss": 0.7828914165496826,
2621
+ "step": 3730
2622
+ },
2623
+ {
2624
+ "epoch": 0.28860808334137167,
2625
+ "grad_norm": 0.10676020383834839,
2626
+ "learning_rate": 0.00015809327846364883,
2627
+ "loss": 0.8743107795715332,
2628
+ "step": 3740
2629
+ },
2630
+ {
2631
+ "epoch": 0.28937976270859456,
2632
+ "grad_norm": 0.13496406376361847,
2633
+ "learning_rate": 0.00015792181069958848,
2634
+ "loss": 0.869862174987793,
2635
+ "step": 3750
2636
+ },
2637
+ {
2638
+ "epoch": 0.2901514420758175,
2639
+ "grad_norm": 0.17639778554439545,
2640
+ "learning_rate": 0.00015775034293552813,
2641
+ "loss": 0.830924129486084,
2642
+ "step": 3760
2643
+ },
2644
+ {
2645
+ "epoch": 0.29092312144304044,
2646
+ "grad_norm": 0.13989681005477905,
2647
+ "learning_rate": 0.00015757887517146775,
2648
+ "loss": 0.8048736572265625,
2649
+ "step": 3770
2650
+ },
2651
+ {
2652
+ "epoch": 0.29169480081026333,
2653
+ "grad_norm": 0.1636296808719635,
2654
+ "learning_rate": 0.00015740740740740743,
2655
+ "loss": 0.9431006431579589,
2656
+ "step": 3780
2657
+ },
2658
+ {
2659
+ "epoch": 0.2924664801774863,
2660
+ "grad_norm": 0.13841512799263,
2661
+ "learning_rate": 0.00015723593964334705,
2662
+ "loss": 0.8598175048828125,
2663
+ "step": 3790
2664
+ },
2665
+ {
2666
+ "epoch": 0.29323815954470916,
2667
+ "grad_norm": 0.15369687974452972,
2668
+ "learning_rate": 0.0001570644718792867,
2669
+ "loss": 0.8336953163146973,
2670
+ "step": 3800
2671
+ },
2672
+ {
2673
+ "epoch": 0.2940098389119321,
2674
+ "grad_norm": 0.10148610174655914,
2675
+ "learning_rate": 0.00015689300411522635,
2676
+ "loss": 0.867680835723877,
2677
+ "step": 3810
2678
+ },
2679
+ {
2680
+ "epoch": 0.294781518279155,
2681
+ "grad_norm": 0.18394576013088226,
2682
+ "learning_rate": 0.000156721536351166,
2683
+ "loss": 0.863736629486084,
2684
+ "step": 3820
2685
+ },
2686
+ {
2687
+ "epoch": 0.29555319764637794,
2688
+ "grad_norm": 0.13761882483959198,
2689
+ "learning_rate": 0.00015655006858710562,
2690
+ "loss": 0.8518194198608399,
2691
+ "step": 3830
2692
+ },
2693
+ {
2694
+ "epoch": 0.29632487701360083,
2695
+ "grad_norm": 0.14121606945991516,
2696
+ "learning_rate": 0.00015637860082304527,
2697
+ "loss": 0.8484822273254394,
2698
+ "step": 3840
2699
+ },
2700
+ {
2701
+ "epoch": 0.2970965563808238,
2702
+ "grad_norm": 0.1203160509467125,
2703
+ "learning_rate": 0.00015620713305898492,
2704
+ "loss": 0.818821907043457,
2705
+ "step": 3850
2706
+ },
2707
+ {
2708
+ "epoch": 0.29786823574804666,
2709
+ "grad_norm": 0.14057768881320953,
2710
+ "learning_rate": 0.00015603566529492457,
2711
+ "loss": 0.8779332160949707,
2712
+ "step": 3860
2713
+ },
2714
+ {
2715
+ "epoch": 0.2986399151152696,
2716
+ "grad_norm": 0.15813900530338287,
2717
+ "learning_rate": 0.00015586419753086422,
2718
+ "loss": 0.8108746528625488,
2719
+ "step": 3870
2720
+ },
2721
+ {
2722
+ "epoch": 0.29941159448249255,
2723
+ "grad_norm": 0.135147362947464,
2724
+ "learning_rate": 0.00015569272976680384,
2725
+ "loss": 0.7456881999969482,
2726
+ "step": 3880
2727
+ },
2728
+ {
2729
+ "epoch": 0.30018327384971544,
2730
+ "grad_norm": 0.13444091379642487,
2731
+ "learning_rate": 0.0001555212620027435,
2732
+ "loss": 0.7636943817138672,
2733
+ "step": 3890
2734
+ },
2735
+ {
2736
+ "epoch": 0.3009549532169384,
2737
+ "grad_norm": 0.13757798075675964,
2738
+ "learning_rate": 0.00015534979423868314,
2739
+ "loss": 0.8616155624389649,
2740
+ "step": 3900
2741
+ },
2742
+ {
2743
+ "epoch": 0.30172663258416127,
2744
+ "grad_norm": 0.10434421896934509,
2745
+ "learning_rate": 0.0001551783264746228,
2746
+ "loss": 0.7787850379943848,
2747
+ "step": 3910
2748
+ },
2749
+ {
2750
+ "epoch": 0.3024983119513842,
2751
+ "grad_norm": 0.12897703051567078,
2752
+ "learning_rate": 0.00015500685871056241,
2753
+ "loss": 0.753928279876709,
2754
+ "step": 3920
2755
+ },
2756
+ {
2757
+ "epoch": 0.3032699913186071,
2758
+ "grad_norm": 0.1417548656463623,
2759
+ "learning_rate": 0.00015483539094650206,
2760
+ "loss": 0.7543911933898926,
2761
+ "step": 3930
2762
+ },
2763
+ {
2764
+ "epoch": 0.30404167068583005,
2765
+ "grad_norm": 0.13236507773399353,
2766
+ "learning_rate": 0.0001546639231824417,
2767
+ "loss": 0.7871809959411621,
2768
+ "step": 3940
2769
+ },
2770
+ {
2771
+ "epoch": 0.30481335005305293,
2772
+ "grad_norm": 0.1445067822933197,
2773
+ "learning_rate": 0.00015449245541838136,
2774
+ "loss": 0.8031238555908203,
2775
+ "step": 3950
2776
+ },
2777
+ {
2778
+ "epoch": 0.3055850294202759,
2779
+ "grad_norm": 0.12821638584136963,
2780
+ "learning_rate": 0.00015432098765432098,
2781
+ "loss": 0.8052983283996582,
2782
+ "step": 3960
2783
+ },
2784
+ {
2785
+ "epoch": 0.3063567087874988,
2786
+ "grad_norm": 0.13501565158367157,
2787
+ "learning_rate": 0.00015414951989026063,
2788
+ "loss": 0.8471232414245605,
2789
+ "step": 3970
2790
+ },
2791
+ {
2792
+ "epoch": 0.3071283881547217,
2793
+ "grad_norm": 0.1196683943271637,
2794
+ "learning_rate": 0.00015397805212620028,
2795
+ "loss": 0.7595149517059326,
2796
+ "step": 3980
2797
+ },
2798
+ {
2799
+ "epoch": 0.30790006752194465,
2800
+ "grad_norm": 0.12833383679389954,
2801
+ "learning_rate": 0.00015380658436213993,
2802
+ "loss": 0.8490877151489258,
2803
+ "step": 3990
2804
+ },
2805
+ {
2806
+ "epoch": 0.30867174688916754,
2807
+ "grad_norm": 0.098176009953022,
2808
+ "learning_rate": 0.00015363511659807956,
2809
+ "loss": 0.8514268875122071,
2810
+ "step": 4000
2811
+ },
2812
+ {
2813
+ "epoch": 0.3094434262563905,
2814
+ "grad_norm": 0.12363216280937195,
2815
+ "learning_rate": 0.0001534636488340192,
2816
+ "loss": 0.7685100555419921,
2817
+ "step": 4010
2818
+ },
2819
+ {
2820
+ "epoch": 0.3102151056236134,
2821
+ "grad_norm": 0.12742134928703308,
2822
+ "learning_rate": 0.00015329218106995885,
2823
+ "loss": 0.8493739128112793,
2824
+ "step": 4020
2825
+ },
2826
+ {
2827
+ "epoch": 0.3109867849908363,
2828
+ "grad_norm": 0.13222931325435638,
2829
+ "learning_rate": 0.0001531207133058985,
2830
+ "loss": 0.8350587844848633,
2831
+ "step": 4030
2832
+ },
2833
+ {
2834
+ "epoch": 0.3117584643580592,
2835
+ "grad_norm": 0.12401147186756134,
2836
+ "learning_rate": 0.00015294924554183813,
2837
+ "loss": 0.7676318645477295,
2838
+ "step": 4040
2839
+ },
2840
+ {
2841
+ "epoch": 0.31253014372528215,
2842
+ "grad_norm": 0.1451227068901062,
2843
+ "learning_rate": 0.00015277777777777777,
2844
+ "loss": 0.857386302947998,
2845
+ "step": 4050
2846
+ },
2847
+ {
2848
+ "epoch": 0.31330182309250504,
2849
+ "grad_norm": 0.1386488378047943,
2850
+ "learning_rate": 0.00015260631001371742,
2851
+ "loss": 0.838217830657959,
2852
+ "step": 4060
2853
+ },
2854
+ {
2855
+ "epoch": 0.314073502459728,
2856
+ "grad_norm": 0.14964058995246887,
2857
+ "learning_rate": 0.00015243484224965707,
2858
+ "loss": 0.7892953872680664,
2859
+ "step": 4070
2860
+ },
2861
+ {
2862
+ "epoch": 0.3148451818269509,
2863
+ "grad_norm": 0.13118557631969452,
2864
+ "learning_rate": 0.00015226337448559672,
2865
+ "loss": 0.7844328880310059,
2866
+ "step": 4080
2867
+ },
2868
+ {
2869
+ "epoch": 0.3156168611941738,
2870
+ "grad_norm": 0.12486426532268524,
2871
+ "learning_rate": 0.00015209190672153635,
2872
+ "loss": 0.8688708305358886,
2873
+ "step": 4090
2874
+ },
2875
+ {
2876
+ "epoch": 0.31638854056139676,
2877
+ "grad_norm": 0.1207025870680809,
2878
+ "learning_rate": 0.000151920438957476,
2879
+ "loss": 0.7573784351348877,
2880
+ "step": 4100
2881
+ },
2882
+ {
2883
+ "epoch": 0.31716021992861965,
2884
+ "grad_norm": 0.12926630675792694,
2885
+ "learning_rate": 0.00015174897119341564,
2886
+ "loss": 0.796429967880249,
2887
+ "step": 4110
2888
+ },
2889
+ {
2890
+ "epoch": 0.3179318992958426,
2891
+ "grad_norm": 0.11644221097230911,
2892
+ "learning_rate": 0.0001515775034293553,
2893
+ "loss": 0.7781257629394531,
2894
+ "step": 4120
2895
+ },
2896
+ {
2897
+ "epoch": 0.3187035786630655,
2898
+ "grad_norm": 0.13467998802661896,
2899
+ "learning_rate": 0.00015140603566529492,
2900
+ "loss": 0.8052960395812988,
2901
+ "step": 4130
2902
+ },
2903
+ {
2904
+ "epoch": 0.3194752580302884,
2905
+ "grad_norm": 0.11296537518501282,
2906
+ "learning_rate": 0.0001512345679012346,
2907
+ "loss": 0.8008211135864258,
2908
+ "step": 4140
2909
+ },
2910
+ {
2911
+ "epoch": 0.3202469373975113,
2912
+ "grad_norm": 0.13329783082008362,
2913
+ "learning_rate": 0.00015106310013717421,
2914
+ "loss": 0.8355886459350585,
2915
+ "step": 4150
2916
+ },
2917
+ {
2918
+ "epoch": 0.32101861676473425,
2919
+ "grad_norm": 0.15643227100372314,
2920
+ "learning_rate": 0.00015089163237311386,
2921
+ "loss": 0.7765786647796631,
2922
+ "step": 4160
2923
+ },
2924
+ {
2925
+ "epoch": 0.3217902961319572,
2926
+ "grad_norm": 0.11483335494995117,
2927
+ "learning_rate": 0.00015072016460905351,
2928
+ "loss": 0.8904210090637207,
2929
+ "step": 4170
2930
+ },
2931
+ {
2932
+ "epoch": 0.3225619754991801,
2933
+ "grad_norm": 0.13604721426963806,
2934
+ "learning_rate": 0.00015054869684499316,
2935
+ "loss": 0.8202609062194824,
2936
+ "step": 4180
2937
+ },
2938
+ {
2939
+ "epoch": 0.32333365486640303,
2940
+ "grad_norm": 0.1352788507938385,
2941
+ "learning_rate": 0.00015037722908093279,
2942
+ "loss": 0.7799928665161133,
2943
+ "step": 4190
2944
+ },
2945
+ {
2946
+ "epoch": 0.3241053342336259,
2947
+ "grad_norm": 0.12347330898046494,
2948
+ "learning_rate": 0.00015020576131687243,
2949
+ "loss": 0.8344977378845215,
2950
+ "step": 4200
2951
+ },
2952
+ {
2953
+ "epoch": 0.32487701360084886,
2954
+ "grad_norm": 0.1332758665084839,
2955
+ "learning_rate": 0.00015003429355281208,
2956
+ "loss": 0.838437557220459,
2957
+ "step": 4210
2958
+ },
2959
+ {
2960
+ "epoch": 0.32564869296807175,
2961
+ "grad_norm": 0.13366325199604034,
2962
+ "learning_rate": 0.00014986282578875173,
2963
+ "loss": 0.8127938270568847,
2964
+ "step": 4220
2965
+ },
2966
+ {
2967
+ "epoch": 0.3264203723352947,
2968
+ "grad_norm": 0.12844043970108032,
2969
+ "learning_rate": 0.00014969135802469136,
2970
+ "loss": 0.8002336502075196,
2971
+ "step": 4230
2972
+ },
2973
+ {
2974
+ "epoch": 0.3271920517025176,
2975
+ "grad_norm": 0.1347084790468216,
2976
+ "learning_rate": 0.000149519890260631,
2977
+ "loss": 0.9231692314147949,
2978
+ "step": 4240
2979
+ },
2980
+ {
2981
+ "epoch": 0.3279637310697405,
2982
+ "grad_norm": 0.12897898256778717,
2983
+ "learning_rate": 0.00014934842249657065,
2984
+ "loss": 0.77931227684021,
2985
+ "step": 4250
2986
+ },
2987
+ {
2988
+ "epoch": 0.3287354104369634,
2989
+ "grad_norm": 0.12322626262903214,
2990
+ "learning_rate": 0.0001491769547325103,
2991
+ "loss": 0.8108692169189453,
2992
+ "step": 4260
2993
+ },
2994
+ {
2995
+ "epoch": 0.32950708980418636,
2996
+ "grad_norm": 0.13034410774707794,
2997
+ "learning_rate": 0.00014900548696844993,
2998
+ "loss": 0.8122691154479981,
2999
+ "step": 4270
3000
+ },
3001
+ {
3002
+ "epoch": 0.3302787691714093,
3003
+ "grad_norm": 0.1363651156425476,
3004
+ "learning_rate": 0.00014883401920438958,
3005
+ "loss": 0.9003480911254883,
3006
+ "step": 4280
3007
+ },
3008
+ {
3009
+ "epoch": 0.3310504485386322,
3010
+ "grad_norm": 0.15051127970218658,
3011
+ "learning_rate": 0.00014866255144032923,
3012
+ "loss": 0.8498348236083985,
3013
+ "step": 4290
3014
+ },
3015
+ {
3016
+ "epoch": 0.33182212790585514,
3017
+ "grad_norm": 0.12777823209762573,
3018
+ "learning_rate": 0.00014849108367626887,
3019
+ "loss": 0.6783880710601806,
3020
+ "step": 4300
3021
+ },
3022
+ {
3023
+ "epoch": 0.332593807273078,
3024
+ "grad_norm": 0.13575886189937592,
3025
+ "learning_rate": 0.0001483196159122085,
3026
+ "loss": 0.7898497581481934,
3027
+ "step": 4310
3028
+ },
3029
+ {
3030
+ "epoch": 0.33336548664030097,
3031
+ "grad_norm": 0.13227303326129913,
3032
+ "learning_rate": 0.00014814814814814815,
3033
+ "loss": 0.8330442428588867,
3034
+ "step": 4320
3035
+ },
3036
+ {
3037
+ "epoch": 0.33413716600752386,
3038
+ "grad_norm": 0.13202738761901855,
3039
+ "learning_rate": 0.0001479766803840878,
3040
+ "loss": 0.8135555267333985,
3041
+ "step": 4330
3042
+ },
3043
+ {
3044
+ "epoch": 0.3349088453747468,
3045
+ "grad_norm": 0.16807517409324646,
3046
+ "learning_rate": 0.00014780521262002745,
3047
+ "loss": 0.9015239715576172,
3048
+ "step": 4340
3049
+ },
3050
+ {
3051
+ "epoch": 0.3356805247419697,
3052
+ "grad_norm": 0.14190301299095154,
3053
+ "learning_rate": 0.0001476337448559671,
3054
+ "loss": 0.8392891883850098,
3055
+ "step": 4350
3056
+ },
3057
+ {
3058
+ "epoch": 0.33645220410919263,
3059
+ "grad_norm": 0.11172544956207275,
3060
+ "learning_rate": 0.00014746227709190672,
3061
+ "loss": 0.8557074546813965,
3062
+ "step": 4360
3063
+ },
3064
+ {
3065
+ "epoch": 0.3372238834764156,
3066
+ "grad_norm": 0.12184961885213852,
3067
+ "learning_rate": 0.00014729080932784637,
3068
+ "loss": 0.7816982269287109,
3069
+ "step": 4370
3070
+ },
3071
+ {
3072
+ "epoch": 0.33799556284363846,
3073
+ "grad_norm": 0.13183486461639404,
3074
+ "learning_rate": 0.00014711934156378602,
3075
+ "loss": 0.8120223045349121,
3076
+ "step": 4380
3077
+ },
3078
+ {
3079
+ "epoch": 0.3387672422108614,
3080
+ "grad_norm": 0.1273968368768692,
3081
+ "learning_rate": 0.00014694787379972566,
3082
+ "loss": 0.8377267837524414,
3083
+ "step": 4390
3084
+ },
3085
+ {
3086
+ "epoch": 0.3395389215780843,
3087
+ "grad_norm": 0.1453665792942047,
3088
+ "learning_rate": 0.0001467764060356653,
3089
+ "loss": 0.7802158832550049,
3090
+ "step": 4400
3091
+ },
3092
+ {
3093
+ "epoch": 0.34031060094530724,
3094
+ "grad_norm": 0.16375884413719177,
3095
+ "learning_rate": 0.00014660493827160496,
3096
+ "loss": 0.8365504264831543,
3097
+ "step": 4410
3098
+ },
3099
+ {
3100
+ "epoch": 0.34108228031253013,
3101
+ "grad_norm": 0.13078755140304565,
3102
+ "learning_rate": 0.00014643347050754459,
3103
+ "loss": 0.8306023597717285,
3104
+ "step": 4420
3105
+ },
3106
+ {
3107
+ "epoch": 0.34185395967975307,
3108
+ "grad_norm": 0.12786859273910522,
3109
+ "learning_rate": 0.00014626200274348424,
3110
+ "loss": 0.7702694416046143,
3111
+ "step": 4430
3112
+ },
3113
+ {
3114
+ "epoch": 0.34262563904697596,
3115
+ "grad_norm": 0.10945647209882736,
3116
+ "learning_rate": 0.00014609053497942386,
3117
+ "loss": 0.7941019535064697,
3118
+ "step": 4440
3119
+ },
3120
+ {
3121
+ "epoch": 0.3433973184141989,
3122
+ "grad_norm": 0.11679490655660629,
3123
+ "learning_rate": 0.00014591906721536353,
3124
+ "loss": 0.832430076599121,
3125
+ "step": 4450
3126
+ },
3127
+ {
3128
+ "epoch": 0.3441689977814218,
3129
+ "grad_norm": 0.10478997975587845,
3130
+ "learning_rate": 0.00014574759945130316,
3131
+ "loss": 0.8652594566345215,
3132
+ "step": 4460
3133
+ },
3134
+ {
3135
+ "epoch": 0.34494067714864474,
3136
+ "grad_norm": 0.15972398221492767,
3137
+ "learning_rate": 0.0001455761316872428,
3138
+ "loss": 0.8060592651367188,
3139
+ "step": 4470
3140
+ },
3141
+ {
3142
+ "epoch": 0.3457123565158677,
3143
+ "grad_norm": 0.11833195388317108,
3144
+ "learning_rate": 0.00014540466392318243,
3145
+ "loss": 0.8139182090759277,
3146
+ "step": 4480
3147
+ },
3148
+ {
3149
+ "epoch": 0.34648403588309057,
3150
+ "grad_norm": 0.13358113169670105,
3151
+ "learning_rate": 0.0001452331961591221,
3152
+ "loss": 0.8154877662658692,
3153
+ "step": 4490
3154
+ },
3155
+ {
3156
+ "epoch": 0.3472557152503135,
3157
+ "grad_norm": 0.14406244456768036,
3158
+ "learning_rate": 0.00014506172839506173,
3159
+ "loss": 0.828406810760498,
3160
+ "step": 4500
3161
+ },
3162
+ {
3163
+ "epoch": 0.3480273946175364,
3164
+ "grad_norm": 0.14771930873394012,
3165
+ "learning_rate": 0.00014489026063100138,
3166
+ "loss": 0.800572681427002,
3167
+ "step": 4510
3168
+ },
3169
+ {
3170
+ "epoch": 0.34879907398475934,
3171
+ "grad_norm": 0.10739558935165405,
3172
+ "learning_rate": 0.00014471879286694103,
3173
+ "loss": 0.791358232498169,
3174
+ "step": 4520
3175
+ },
3176
+ {
3177
+ "epoch": 0.34957075335198223,
3178
+ "grad_norm": 0.12839984893798828,
3179
+ "learning_rate": 0.00014454732510288068,
3180
+ "loss": 0.819278335571289,
3181
+ "step": 4530
3182
+ },
3183
+ {
3184
+ "epoch": 0.3503424327192052,
3185
+ "grad_norm": 0.12612596154212952,
3186
+ "learning_rate": 0.0001443758573388203,
3187
+ "loss": 0.8036989212036133,
3188
+ "step": 4540
3189
+ },
3190
+ {
3191
+ "epoch": 0.35111411208642807,
3192
+ "grad_norm": 0.15920689702033997,
3193
+ "learning_rate": 0.00014420438957475995,
3194
+ "loss": 0.8325424194335938,
3195
+ "step": 4550
3196
+ },
3197
+ {
3198
+ "epoch": 0.351885791453651,
3199
+ "grad_norm": 0.12964633107185364,
3200
+ "learning_rate": 0.0001440329218106996,
3201
+ "loss": 0.8799901962280273,
3202
+ "step": 4560
3203
+ },
3204
+ {
3205
+ "epoch": 0.35265747082087395,
3206
+ "grad_norm": 0.14742450416088104,
3207
+ "learning_rate": 0.00014386145404663925,
3208
+ "loss": 0.871920394897461,
3209
+ "step": 4570
3210
+ },
3211
+ {
3212
+ "epoch": 0.35342915018809684,
3213
+ "grad_norm": 0.13931940495967865,
3214
+ "learning_rate": 0.00014368998628257887,
3215
+ "loss": 0.7537837505340577,
3216
+ "step": 4580
3217
+ },
3218
+ {
3219
+ "epoch": 0.3542008295553198,
3220
+ "grad_norm": 0.140437513589859,
3221
+ "learning_rate": 0.00014351851851851852,
3222
+ "loss": 0.7717479228973388,
3223
+ "step": 4590
3224
+ },
3225
+ {
3226
+ "epoch": 0.3549725089225427,
3227
+ "grad_norm": 0.13492359220981598,
3228
+ "learning_rate": 0.00014334705075445817,
3229
+ "loss": 0.8396642684936524,
3230
+ "step": 4600
3231
+ },
3232
+ {
3233
+ "epoch": 0.3557441882897656,
3234
+ "grad_norm": 0.12470181286334991,
3235
+ "learning_rate": 0.00014317558299039782,
3236
+ "loss": 0.8109576225280761,
3237
+ "step": 4610
3238
+ }
3239
+ ],
3240
+ "logging_steps": 10,
3241
+ "max_steps": 12959,
3242
+ "num_input_tokens_seen": 0,
3243
+ "num_train_epochs": 1,
3244
+ "save_steps": 300,
3245
+ "stateful_callbacks": {
3246
+ "TrainerControl": {
3247
+ "args": {
3248
+ "should_epoch_stop": false,
3249
+ "should_evaluate": false,
3250
+ "should_log": false,
3251
+ "should_save": true,
3252
+ "should_training_stop": true
3253
+ },
3254
+ "attributes": {}
3255
+ }
3256
+ },
3257
+ "total_flos": 4.148469158718259e+17,
3258
+ "train_batch_size": 1,
3259
+ "trial_name": null,
3260
+ "trial_params": null
3261
+ }
checkpoint-4610/training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:910df878d9c3e0e70d1e104a26707dab2636b00fa7d935aafd85be8429d2ab76
3
+ size 5201