WasLab commited on
Commit
f68c259
·
verified ·
1 Parent(s): 95104a9

Upload folder using huggingface_hub

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
README.md CHANGED
@@ -1,6 +1,13 @@
1
  ---
2
- library_name: transformers
3
- tags: []
 
 
 
 
 
 
 
4
  ---
5
 
6
  # Model Card for Model ID
@@ -15,7 +22,7 @@ tags: []
15
 
16
  <!-- Provide a longer summary of what this model is. -->
17
 
18
- This is the model card of a 🤗 transformers model that has been pushed on the Hub. This model card has been automatically generated.
19
 
20
  - **Developed by:** [More Information Needed]
21
  - **Funded by [optional]:** [More Information Needed]
@@ -196,4 +203,7 @@ Carbon emissions can be estimated using the [Machine Learning Impact calculator]
196
 
197
  ## Model Card Contact
198
 
199
- [More Information Needed]
 
 
 
 
1
  ---
2
+ base_model: google/gemma-3-27b-it
3
+ library_name: peft
4
+ pipeline_tag: text-generation
5
+ tags:
6
+ - base_model:adapter:google/gemma-3-27b-it
7
+ - lora
8
+ - sft
9
+ - transformers
10
+ - trl
11
  ---
12
 
13
  # Model Card for Model ID
 
22
 
23
  <!-- Provide a longer summary of what this model is. -->
24
 
25
+
26
 
27
  - **Developed by:** [More Information Needed]
28
  - **Funded by [optional]:** [More Information Needed]
 
203
 
204
  ## Model Card Contact
205
 
206
+ [More Information Needed]
207
+ ### Framework versions
208
+
209
+ - PEFT 0.16.0
adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:60d95b10b6e140a9626a7058d5038528f2ff80148dc4569b881db56052046509
3
- size 40
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0bc3ca53fcb72a6a649fd5e6565abf9fd508cd31803fd3874fa6f11f82e9e6d2
3
+ size 932178320
chat_template.jinja ADDED
@@ -0,0 +1,47 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {{ bos_token }}
2
+ {%- if messages[0]['role'] == 'system' -%}
3
+ {%- if messages[0]['content'] is string -%}
4
+ {%- set first_user_prefix = messages[0]['content'] + '
5
+
6
+ ' -%}
7
+ {%- else -%}
8
+ {%- set first_user_prefix = messages[0]['content'][0]['text'] + '
9
+
10
+ ' -%}
11
+ {%- endif -%}
12
+ {%- set loop_messages = messages[1:] -%}
13
+ {%- else -%}
14
+ {%- set first_user_prefix = "" -%}
15
+ {%- set loop_messages = messages -%}
16
+ {%- endif -%}
17
+ {%- for message in loop_messages -%}
18
+ {%- if (message['role'] == 'user') != (loop.index0 % 2 == 0) -%}
19
+ {{ raise_exception("Conversation roles must alternate user/assistant/user/assistant/...") }}
20
+ {%- endif -%}
21
+ {%- if (message['role'] == 'assistant') -%}
22
+ {%- set role = "model" -%}
23
+ {%- else -%}
24
+ {%- set role = message['role'] -%}
25
+ {%- endif -%}
26
+ {{ '<start_of_turn>' + role + '
27
+ ' + (first_user_prefix if loop.first else "") }}
28
+ {%- if message['content'] is string -%}
29
+ {{ message['content'] | trim }}
30
+ {%- elif message['content'] is iterable -%}
31
+ {%- for item in message['content'] -%}
32
+ {%- if item['type'] == 'image' -%}
33
+ {{ '<start_of_image>' }}
34
+ {%- elif item['type'] == 'text' -%}
35
+ {{ item['text'] | trim }}
36
+ {%- endif -%}
37
+ {%- endfor -%}
38
+ {%- else -%}
39
+ {{ raise_exception("Invalid content type") }}
40
+ {%- endif -%}
41
+ {{ '<end_of_turn>
42
+ ' }}
43
+ {%- endfor -%}
44
+ {%- if add_generation_prompt -%}
45
+ {{'<start_of_turn>model
46
+ '}}
47
+ {%- endif -%}
optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7575360e298c6afe417ea4c9d1f926de80483bec2b88178c5a1732e402c0c7c7
3
+ size 1817000719
rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:12e15e837284f30841feeb4cb11a4ca47e6e0a0d43907e64044c865959176390
3
+ size 14581
scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e218fb5a057c8bad3409875137fd669abfbb61a30b591edea9a460e390fbcd1c
3
+ size 1465
special_tokens_map.json ADDED
@@ -0,0 +1,27 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "boi_token": "<start_of_image>",
3
+ "bos_token": {
4
+ "content": "<bos>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false
9
+ },
10
+ "eoi_token": "<end_of_image>",
11
+ "eos_token": "<eos>",
12
+ "image_token": "<image_soft_token>",
13
+ "pad_token": {
14
+ "content": "<pad>",
15
+ "lstrip": false,
16
+ "normalized": false,
17
+ "rstrip": false,
18
+ "single_word": false
19
+ },
20
+ "unk_token": {
21
+ "content": "<unk>",
22
+ "lstrip": false,
23
+ "normalized": false,
24
+ "rstrip": false,
25
+ "single_word": false
26
+ }
27
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4667f2089529e8e7657cfb6d1c19910ae71ff5f28aa7ab2ff2763330affad795
3
+ size 33384568
tokenizer_config.json ADDED
The diff for this file is too large to render. See raw diff
 
trainer_state.json ADDED
@@ -0,0 +1,871 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": null,
3
+ "best_metric": null,
4
+ "best_model_checkpoint": null,
5
+ "epoch": 1.0,
6
+ "eval_steps": 500,
7
+ "global_step": 375,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.010666666666666666,
14
+ "grad_norm": 95.0182876586914,
15
+ "learning_rate": 9.920000000000002e-06,
16
+ "loss": 105.7315,
17
+ "mean_token_accuracy": 0.09069436218123883,
18
+ "num_tokens": 131072.0,
19
+ "step": 4
20
+ },
21
+ {
22
+ "epoch": 0.021333333333333333,
23
+ "grad_norm": 86.67267608642578,
24
+ "learning_rate": 9.813333333333333e-06,
25
+ "loss": 96.5549,
26
+ "mean_token_accuracy": 0.09622917557135224,
27
+ "num_tokens": 262144.0,
28
+ "step": 8
29
+ },
30
+ {
31
+ "epoch": 0.032,
32
+ "grad_norm": 134.05670166015625,
33
+ "learning_rate": 9.706666666666668e-06,
34
+ "loss": 85.9707,
35
+ "mean_token_accuracy": 0.09924814943224192,
36
+ "num_tokens": 393216.0,
37
+ "step": 12
38
+ },
39
+ {
40
+ "epoch": 0.042666666666666665,
41
+ "grad_norm": 350.1399230957031,
42
+ "learning_rate": 9.600000000000001e-06,
43
+ "loss": 70.13,
44
+ "mean_token_accuracy": 0.09573241986799985,
45
+ "num_tokens": 524288.0,
46
+ "step": 16
47
+ },
48
+ {
49
+ "epoch": 0.05333333333333334,
50
+ "grad_norm": 711.8109741210938,
51
+ "learning_rate": 9.493333333333334e-06,
52
+ "loss": 49.4668,
53
+ "mean_token_accuracy": 0.10240077541675419,
54
+ "num_tokens": 655360.0,
55
+ "step": 20
56
+ },
57
+ {
58
+ "epoch": 0.064,
59
+ "grad_norm": 544.7271118164062,
60
+ "learning_rate": 9.386666666666668e-06,
61
+ "loss": 22.758,
62
+ "mean_token_accuracy": 0.6434303732821718,
63
+ "num_tokens": 786432.0,
64
+ "step": 24
65
+ },
66
+ {
67
+ "epoch": 0.07466666666666667,
68
+ "grad_norm": 144.55421447753906,
69
+ "learning_rate": 9.280000000000001e-06,
70
+ "loss": 6.2443,
71
+ "mean_token_accuracy": 0.9672888554632664,
72
+ "num_tokens": 917504.0,
73
+ "step": 28
74
+ },
75
+ {
76
+ "epoch": 0.08533333333333333,
77
+ "grad_norm": 50.88039779663086,
78
+ "learning_rate": 9.173333333333334e-06,
79
+ "loss": 2.2291,
80
+ "mean_token_accuracy": 0.9668161626905203,
81
+ "num_tokens": 1048576.0,
82
+ "step": 32
83
+ },
84
+ {
85
+ "epoch": 0.096,
86
+ "grad_norm": 111.66119384765625,
87
+ "learning_rate": 9.066666666666667e-06,
88
+ "loss": 1.7604,
89
+ "mean_token_accuracy": 0.9706238936632872,
90
+ "num_tokens": 1179648.0,
91
+ "step": 36
92
+ },
93
+ {
94
+ "epoch": 0.10666666666666667,
95
+ "grad_norm": 3.0309858322143555,
96
+ "learning_rate": 8.96e-06,
97
+ "loss": 1.6321,
98
+ "mean_token_accuracy": 0.96866818331182,
99
+ "num_tokens": 1310720.0,
100
+ "step": 40
101
+ },
102
+ {
103
+ "epoch": 0.11733333333333333,
104
+ "grad_norm": 3.216538906097412,
105
+ "learning_rate": 8.853333333333334e-06,
106
+ "loss": 1.391,
107
+ "mean_token_accuracy": 0.9703097771853209,
108
+ "num_tokens": 1441792.0,
109
+ "step": 44
110
+ },
111
+ {
112
+ "epoch": 0.128,
113
+ "grad_norm": 2.2325334548950195,
114
+ "learning_rate": 8.746666666666667e-06,
115
+ "loss": 1.3561,
116
+ "mean_token_accuracy": 0.9683448188006878,
117
+ "num_tokens": 1572864.0,
118
+ "step": 48
119
+ },
120
+ {
121
+ "epoch": 0.13866666666666666,
122
+ "grad_norm": 2.1915929317474365,
123
+ "learning_rate": 8.64e-06,
124
+ "loss": 1.17,
125
+ "mean_token_accuracy": 0.9709315784275532,
126
+ "num_tokens": 1703936.0,
127
+ "step": 52
128
+ },
129
+ {
130
+ "epoch": 0.14933333333333335,
131
+ "grad_norm": 1.618494987487793,
132
+ "learning_rate": 8.533333333333335e-06,
133
+ "loss": 1.1517,
134
+ "mean_token_accuracy": 0.9705505203455687,
135
+ "num_tokens": 1835008.0,
136
+ "step": 56
137
+ },
138
+ {
139
+ "epoch": 0.16,
140
+ "grad_norm": 1.0973531007766724,
141
+ "learning_rate": 8.426666666666667e-06,
142
+ "loss": 1.0748,
143
+ "mean_token_accuracy": 0.9720278568565845,
144
+ "num_tokens": 1966080.0,
145
+ "step": 60
146
+ },
147
+ {
148
+ "epoch": 0.17066666666666666,
149
+ "grad_norm": 2.197716236114502,
150
+ "learning_rate": 8.32e-06,
151
+ "loss": 1.0738,
152
+ "mean_token_accuracy": 0.9712793119251728,
153
+ "num_tokens": 2097152.0,
154
+ "step": 64
155
+ },
156
+ {
157
+ "epoch": 0.18133333333333335,
158
+ "grad_norm": 3.2662317752838135,
159
+ "learning_rate": 8.213333333333335e-06,
160
+ "loss": 0.9791,
161
+ "mean_token_accuracy": 0.9734124913811684,
162
+ "num_tokens": 2228224.0,
163
+ "step": 68
164
+ },
165
+ {
166
+ "epoch": 0.192,
167
+ "grad_norm": 2.22454833984375,
168
+ "learning_rate": 8.106666666666666e-06,
169
+ "loss": 0.8829,
170
+ "mean_token_accuracy": 0.9752626791596413,
171
+ "num_tokens": 2359296.0,
172
+ "step": 72
173
+ },
174
+ {
175
+ "epoch": 0.20266666666666666,
176
+ "grad_norm": 10.479799270629883,
177
+ "learning_rate": 8.000000000000001e-06,
178
+ "loss": 0.8778,
179
+ "mean_token_accuracy": 0.975015128031373,
180
+ "num_tokens": 2490368.0,
181
+ "step": 76
182
+ },
183
+ {
184
+ "epoch": 0.21333333333333335,
185
+ "grad_norm": 1.5676300525665283,
186
+ "learning_rate": 7.893333333333335e-06,
187
+ "loss": 0.8283,
188
+ "mean_token_accuracy": 0.9759523719549179,
189
+ "num_tokens": 2621440.0,
190
+ "step": 80
191
+ },
192
+ {
193
+ "epoch": 0.224,
194
+ "grad_norm": 0.7672796249389648,
195
+ "learning_rate": 7.786666666666666e-06,
196
+ "loss": 0.8644,
197
+ "mean_token_accuracy": 0.9749372210353613,
198
+ "num_tokens": 2752512.0,
199
+ "step": 84
200
+ },
201
+ {
202
+ "epoch": 0.23466666666666666,
203
+ "grad_norm": 1.5923023223876953,
204
+ "learning_rate": 7.680000000000001e-06,
205
+ "loss": 0.7702,
206
+ "mean_token_accuracy": 0.9773267563432455,
207
+ "num_tokens": 2883584.0,
208
+ "step": 88
209
+ },
210
+ {
211
+ "epoch": 0.24533333333333332,
212
+ "grad_norm": 1.6468647718429565,
213
+ "learning_rate": 7.573333333333333e-06,
214
+ "loss": 0.7288,
215
+ "mean_token_accuracy": 0.9785596635192633,
216
+ "num_tokens": 3014656.0,
217
+ "step": 92
218
+ },
219
+ {
220
+ "epoch": 0.256,
221
+ "grad_norm": 1.5576863288879395,
222
+ "learning_rate": 7.4666666666666675e-06,
223
+ "loss": 0.7363,
224
+ "mean_token_accuracy": 0.9779561907052994,
225
+ "num_tokens": 3145728.0,
226
+ "step": 96
227
+ },
228
+ {
229
+ "epoch": 0.26666666666666666,
230
+ "grad_norm": 2.6385979652404785,
231
+ "learning_rate": 7.360000000000001e-06,
232
+ "loss": 0.7688,
233
+ "mean_token_accuracy": 0.9766516983509064,
234
+ "num_tokens": 3276800.0,
235
+ "step": 100
236
+ },
237
+ {
238
+ "epoch": 0.2773333333333333,
239
+ "grad_norm": 0.8966882228851318,
240
+ "learning_rate": 7.253333333333335e-06,
241
+ "loss": 0.6682,
242
+ "mean_token_accuracy": 0.9798859935253859,
243
+ "num_tokens": 3407872.0,
244
+ "step": 104
245
+ },
246
+ {
247
+ "epoch": 0.288,
248
+ "grad_norm": 1.0822303295135498,
249
+ "learning_rate": 7.146666666666667e-06,
250
+ "loss": 0.6918,
251
+ "mean_token_accuracy": 0.9789478182792664,
252
+ "num_tokens": 3538944.0,
253
+ "step": 108
254
+ },
255
+ {
256
+ "epoch": 0.2986666666666667,
257
+ "grad_norm": 1.0026942491531372,
258
+ "learning_rate": 7.04e-06,
259
+ "loss": 0.6361,
260
+ "mean_token_accuracy": 0.9800962433218956,
261
+ "num_tokens": 3670016.0,
262
+ "step": 112
263
+ },
264
+ {
265
+ "epoch": 0.30933333333333335,
266
+ "grad_norm": 0.9697505235671997,
267
+ "learning_rate": 6.9333333333333344e-06,
268
+ "loss": 0.6608,
269
+ "mean_token_accuracy": 0.979592103511095,
270
+ "num_tokens": 3801088.0,
271
+ "step": 116
272
+ },
273
+ {
274
+ "epoch": 0.32,
275
+ "grad_norm": 1.2079904079437256,
276
+ "learning_rate": 6.826666666666667e-06,
277
+ "loss": 0.5854,
278
+ "mean_token_accuracy": 0.9816998448222876,
279
+ "num_tokens": 3932160.0,
280
+ "step": 120
281
+ },
282
+ {
283
+ "epoch": 0.33066666666666666,
284
+ "grad_norm": 1.9481562376022339,
285
+ "learning_rate": 6.720000000000001e-06,
286
+ "loss": 0.5883,
287
+ "mean_token_accuracy": 0.9816949348896742,
288
+ "num_tokens": 4063232.0,
289
+ "step": 124
290
+ },
291
+ {
292
+ "epoch": 0.3413333333333333,
293
+ "grad_norm": 0.8685667514801025,
294
+ "learning_rate": 6.613333333333334e-06,
295
+ "loss": 0.5572,
296
+ "mean_token_accuracy": 0.9824575446546078,
297
+ "num_tokens": 4194304.0,
298
+ "step": 128
299
+ },
300
+ {
301
+ "epoch": 0.352,
302
+ "grad_norm": 1.206168293952942,
303
+ "learning_rate": 6.5066666666666665e-06,
304
+ "loss": 0.5408,
305
+ "mean_token_accuracy": 0.982963752001524,
306
+ "num_tokens": 4325376.0,
307
+ "step": 132
308
+ },
309
+ {
310
+ "epoch": 0.3626666666666667,
311
+ "grad_norm": 2.035712718963623,
312
+ "learning_rate": 6.4000000000000006e-06,
313
+ "loss": 0.5665,
314
+ "mean_token_accuracy": 0.9818029161542654,
315
+ "num_tokens": 4456448.0,
316
+ "step": 136
317
+ },
318
+ {
319
+ "epoch": 0.37333333333333335,
320
+ "grad_norm": 1.4054605960845947,
321
+ "learning_rate": 6.293333333333334e-06,
322
+ "loss": 0.5484,
323
+ "mean_token_accuracy": 0.9823860600590706,
324
+ "num_tokens": 4587520.0,
325
+ "step": 140
326
+ },
327
+ {
328
+ "epoch": 0.384,
329
+ "grad_norm": 1.3287094831466675,
330
+ "learning_rate": 6.186666666666668e-06,
331
+ "loss": 0.5362,
332
+ "mean_token_accuracy": 0.9835489504039288,
333
+ "num_tokens": 4718592.0,
334
+ "step": 144
335
+ },
336
+ {
337
+ "epoch": 0.39466666666666667,
338
+ "grad_norm": 2.980499505996704,
339
+ "learning_rate": 6.08e-06,
340
+ "loss": 0.5465,
341
+ "mean_token_accuracy": 0.9827720392495394,
342
+ "num_tokens": 4849664.0,
343
+ "step": 148
344
+ },
345
+ {
346
+ "epoch": 0.4053333333333333,
347
+ "grad_norm": 1.3520195484161377,
348
+ "learning_rate": 5.973333333333334e-06,
349
+ "loss": 0.517,
350
+ "mean_token_accuracy": 0.983446417376399,
351
+ "num_tokens": 4980736.0,
352
+ "step": 152
353
+ },
354
+ {
355
+ "epoch": 0.416,
356
+ "grad_norm": 1.2579379081726074,
357
+ "learning_rate": 5.8666666666666675e-06,
358
+ "loss": 0.5056,
359
+ "mean_token_accuracy": 0.9842263720929623,
360
+ "num_tokens": 5111808.0,
361
+ "step": 156
362
+ },
363
+ {
364
+ "epoch": 0.4266666666666667,
365
+ "grad_norm": 2.252026319503784,
366
+ "learning_rate": 5.76e-06,
367
+ "loss": 0.5229,
368
+ "mean_token_accuracy": 0.9836711697280407,
369
+ "num_tokens": 5242880.0,
370
+ "step": 160
371
+ },
372
+ {
373
+ "epoch": 0.43733333333333335,
374
+ "grad_norm": 1.2698060274124146,
375
+ "learning_rate": 5.653333333333334e-06,
376
+ "loss": 0.4646,
377
+ "mean_token_accuracy": 0.9852073341608047,
378
+ "num_tokens": 5373952.0,
379
+ "step": 164
380
+ },
381
+ {
382
+ "epoch": 0.448,
383
+ "grad_norm": 1.5042601823806763,
384
+ "learning_rate": 5.546666666666667e-06,
385
+ "loss": 0.5029,
386
+ "mean_token_accuracy": 0.984351010993123,
387
+ "num_tokens": 5505024.0,
388
+ "step": 168
389
+ },
390
+ {
391
+ "epoch": 0.45866666666666667,
392
+ "grad_norm": 0.9958365559577942,
393
+ "learning_rate": 5.4400000000000004e-06,
394
+ "loss": 0.4788,
395
+ "mean_token_accuracy": 0.9851621706038713,
396
+ "num_tokens": 5636096.0,
397
+ "step": 172
398
+ },
399
+ {
400
+ "epoch": 0.4693333333333333,
401
+ "grad_norm": 0.9716078042984009,
402
+ "learning_rate": 5.333333333333334e-06,
403
+ "loss": 0.4484,
404
+ "mean_token_accuracy": 0.985568018630147,
405
+ "num_tokens": 5767168.0,
406
+ "step": 176
407
+ },
408
+ {
409
+ "epoch": 0.48,
410
+ "grad_norm": 1.1012027263641357,
411
+ "learning_rate": 5.226666666666667e-06,
412
+ "loss": 0.4358,
413
+ "mean_token_accuracy": 0.9859038721770048,
414
+ "num_tokens": 5898240.0,
415
+ "step": 180
416
+ },
417
+ {
418
+ "epoch": 0.49066666666666664,
419
+ "grad_norm": 1.2046291828155518,
420
+ "learning_rate": 5.12e-06,
421
+ "loss": 0.4547,
422
+ "mean_token_accuracy": 0.9855281561613083,
423
+ "num_tokens": 6029312.0,
424
+ "step": 184
425
+ },
426
+ {
427
+ "epoch": 0.5013333333333333,
428
+ "grad_norm": 1.0735691785812378,
429
+ "learning_rate": 5.013333333333333e-06,
430
+ "loss": 0.4746,
431
+ "mean_token_accuracy": 0.9851747266948223,
432
+ "num_tokens": 6160384.0,
433
+ "step": 188
434
+ },
435
+ {
436
+ "epoch": 0.512,
437
+ "grad_norm": 1.0135657787322998,
438
+ "learning_rate": 4.9066666666666666e-06,
439
+ "loss": 0.4239,
440
+ "mean_token_accuracy": 0.9866608530282974,
441
+ "num_tokens": 6291456.0,
442
+ "step": 192
443
+ },
444
+ {
445
+ "epoch": 0.5226666666666666,
446
+ "grad_norm": 0.8359453678131104,
447
+ "learning_rate": 4.800000000000001e-06,
448
+ "loss": 0.4342,
449
+ "mean_token_accuracy": 0.9866013824939728,
450
+ "num_tokens": 6422528.0,
451
+ "step": 196
452
+ },
453
+ {
454
+ "epoch": 0.5333333333333333,
455
+ "grad_norm": 1.00949227809906,
456
+ "learning_rate": 4.693333333333334e-06,
457
+ "loss": 0.4317,
458
+ "mean_token_accuracy": 0.9866328313946724,
459
+ "num_tokens": 6553600.0,
460
+ "step": 200
461
+ },
462
+ {
463
+ "epoch": 0.544,
464
+ "grad_norm": 1.1209454536437988,
465
+ "learning_rate": 4.586666666666667e-06,
466
+ "loss": 0.4416,
467
+ "mean_token_accuracy": 0.9860401172190905,
468
+ "num_tokens": 6684672.0,
469
+ "step": 204
470
+ },
471
+ {
472
+ "epoch": 0.5546666666666666,
473
+ "grad_norm": 1.0413671731948853,
474
+ "learning_rate": 4.48e-06,
475
+ "loss": 0.4304,
476
+ "mean_token_accuracy": 0.9864061810076237,
477
+ "num_tokens": 6815744.0,
478
+ "step": 208
479
+ },
480
+ {
481
+ "epoch": 0.5653333333333334,
482
+ "grad_norm": 0.7713757157325745,
483
+ "learning_rate": 4.3733333333333335e-06,
484
+ "loss": 0.4408,
485
+ "mean_token_accuracy": 0.9862897284328938,
486
+ "num_tokens": 6946816.0,
487
+ "step": 212
488
+ },
489
+ {
490
+ "epoch": 0.576,
491
+ "grad_norm": 1.0856741666793823,
492
+ "learning_rate": 4.266666666666668e-06,
493
+ "loss": 0.4363,
494
+ "mean_token_accuracy": 0.9863903503865004,
495
+ "num_tokens": 7077888.0,
496
+ "step": 216
497
+ },
498
+ {
499
+ "epoch": 0.5866666666666667,
500
+ "grad_norm": 0.762695848941803,
501
+ "learning_rate": 4.16e-06,
502
+ "loss": 0.4345,
503
+ "mean_token_accuracy": 0.9862556718289852,
504
+ "num_tokens": 7208960.0,
505
+ "step": 220
506
+ },
507
+ {
508
+ "epoch": 0.5973333333333334,
509
+ "grad_norm": 0.8599634170532227,
510
+ "learning_rate": 4.053333333333333e-06,
511
+ "loss": 0.4168,
512
+ "mean_token_accuracy": 0.9865854158997536,
513
+ "num_tokens": 7340032.0,
514
+ "step": 224
515
+ },
516
+ {
517
+ "epoch": 0.608,
518
+ "grad_norm": 0.8917364478111267,
519
+ "learning_rate": 3.946666666666667e-06,
520
+ "loss": 0.3778,
521
+ "mean_token_accuracy": 0.9881123788654804,
522
+ "num_tokens": 7471104.0,
523
+ "step": 228
524
+ },
525
+ {
526
+ "epoch": 0.6186666666666667,
527
+ "grad_norm": 0.6947170495986938,
528
+ "learning_rate": 3.8400000000000005e-06,
529
+ "loss": 0.3877,
530
+ "mean_token_accuracy": 0.9877418763935566,
531
+ "num_tokens": 7602176.0,
532
+ "step": 232
533
+ },
534
+ {
535
+ "epoch": 0.6293333333333333,
536
+ "grad_norm": 0.9257314801216125,
537
+ "learning_rate": 3.7333333333333337e-06,
538
+ "loss": 0.3812,
539
+ "mean_token_accuracy": 0.9878675621002913,
540
+ "num_tokens": 7733248.0,
541
+ "step": 236
542
+ },
543
+ {
544
+ "epoch": 0.64,
545
+ "grad_norm": 1.9576170444488525,
546
+ "learning_rate": 3.6266666666666674e-06,
547
+ "loss": 0.42,
548
+ "mean_token_accuracy": 0.986813249066472,
549
+ "num_tokens": 7864320.0,
550
+ "step": 240
551
+ },
552
+ {
553
+ "epoch": 0.6506666666666666,
554
+ "grad_norm": 0.9040073156356812,
555
+ "learning_rate": 3.52e-06,
556
+ "loss": 0.386,
557
+ "mean_token_accuracy": 0.987710103392601,
558
+ "num_tokens": 7995392.0,
559
+ "step": 244
560
+ },
561
+ {
562
+ "epoch": 0.6613333333333333,
563
+ "grad_norm": 1.030599594116211,
564
+ "learning_rate": 3.4133333333333334e-06,
565
+ "loss": 0.4029,
566
+ "mean_token_accuracy": 0.9871034454554319,
567
+ "num_tokens": 8126464.0,
568
+ "step": 248
569
+ },
570
+ {
571
+ "epoch": 0.672,
572
+ "grad_norm": 0.9309128522872925,
573
+ "learning_rate": 3.306666666666667e-06,
574
+ "loss": 0.3999,
575
+ "mean_token_accuracy": 0.9872954823076725,
576
+ "num_tokens": 8257536.0,
577
+ "step": 252
578
+ },
579
+ {
580
+ "epoch": 0.6826666666666666,
581
+ "grad_norm": 0.7675857543945312,
582
+ "learning_rate": 3.2000000000000003e-06,
583
+ "loss": 0.4193,
584
+ "mean_token_accuracy": 0.9866136480122805,
585
+ "num_tokens": 8388608.0,
586
+ "step": 256
587
+ },
588
+ {
589
+ "epoch": 0.6933333333333334,
590
+ "grad_norm": 0.8219704031944275,
591
+ "learning_rate": 3.093333333333334e-06,
592
+ "loss": 0.4057,
593
+ "mean_token_accuracy": 0.9868441838771105,
594
+ "num_tokens": 8519680.0,
595
+ "step": 260
596
+ },
597
+ {
598
+ "epoch": 0.704,
599
+ "grad_norm": 0.9892351627349854,
600
+ "learning_rate": 2.986666666666667e-06,
601
+ "loss": 0.3385,
602
+ "mean_token_accuracy": 0.9892081767320633,
603
+ "num_tokens": 8650752.0,
604
+ "step": 264
605
+ },
606
+ {
607
+ "epoch": 0.7146666666666667,
608
+ "grad_norm": 0.8646839261054993,
609
+ "learning_rate": 2.88e-06,
610
+ "loss": 0.4018,
611
+ "mean_token_accuracy": 0.987593112513423,
612
+ "num_tokens": 8781824.0,
613
+ "step": 268
614
+ },
615
+ {
616
+ "epoch": 0.7253333333333334,
617
+ "grad_norm": 0.8883484601974487,
618
+ "learning_rate": 2.7733333333333336e-06,
619
+ "loss": 0.4082,
620
+ "mean_token_accuracy": 0.9872159268707037,
621
+ "num_tokens": 8912896.0,
622
+ "step": 272
623
+ },
624
+ {
625
+ "epoch": 0.736,
626
+ "grad_norm": 0.7417464852333069,
627
+ "learning_rate": 2.666666666666667e-06,
628
+ "loss": 0.4002,
629
+ "mean_token_accuracy": 0.9869667831808329,
630
+ "num_tokens": 9043968.0,
631
+ "step": 276
632
+ },
633
+ {
634
+ "epoch": 0.7466666666666667,
635
+ "grad_norm": 0.8781360983848572,
636
+ "learning_rate": 2.56e-06,
637
+ "loss": 0.3838,
638
+ "mean_token_accuracy": 0.9879082888364792,
639
+ "num_tokens": 9175040.0,
640
+ "step": 280
641
+ },
642
+ {
643
+ "epoch": 0.7573333333333333,
644
+ "grad_norm": 0.7206087708473206,
645
+ "learning_rate": 2.4533333333333333e-06,
646
+ "loss": 0.4011,
647
+ "mean_token_accuracy": 0.9870665278285742,
648
+ "num_tokens": 9306112.0,
649
+ "step": 284
650
+ },
651
+ {
652
+ "epoch": 0.768,
653
+ "grad_norm": 0.7289225459098816,
654
+ "learning_rate": 2.346666666666667e-06,
655
+ "loss": 0.4053,
656
+ "mean_token_accuracy": 0.9868325497955084,
657
+ "num_tokens": 9437184.0,
658
+ "step": 288
659
+ },
660
+ {
661
+ "epoch": 0.7786666666666666,
662
+ "grad_norm": 0.8088091611862183,
663
+ "learning_rate": 2.24e-06,
664
+ "loss": 0.4259,
665
+ "mean_token_accuracy": 0.9863878916949034,
666
+ "num_tokens": 9568256.0,
667
+ "step": 292
668
+ },
669
+ {
670
+ "epoch": 0.7893333333333333,
671
+ "grad_norm": 0.692416250705719,
672
+ "learning_rate": 2.133333333333334e-06,
673
+ "loss": 0.3744,
674
+ "mean_token_accuracy": 0.9881744775921106,
675
+ "num_tokens": 9699328.0,
676
+ "step": 296
677
+ },
678
+ {
679
+ "epoch": 0.8,
680
+ "grad_norm": 0.8444411754608154,
681
+ "learning_rate": 2.0266666666666666e-06,
682
+ "loss": 0.38,
683
+ "mean_token_accuracy": 0.9878210332244635,
684
+ "num_tokens": 9830400.0,
685
+ "step": 300
686
+ },
687
+ {
688
+ "epoch": 0.8106666666666666,
689
+ "grad_norm": 0.698093593120575,
690
+ "learning_rate": 1.9200000000000003e-06,
691
+ "loss": 0.4046,
692
+ "mean_token_accuracy": 0.9871846791356802,
693
+ "num_tokens": 9961472.0,
694
+ "step": 304
695
+ },
696
+ {
697
+ "epoch": 0.8213333333333334,
698
+ "grad_norm": 0.6660715341567993,
699
+ "learning_rate": 1.8133333333333337e-06,
700
+ "loss": 0.3735,
701
+ "mean_token_accuracy": 0.9878482241183519,
702
+ "num_tokens": 10092544.0,
703
+ "step": 308
704
+ },
705
+ {
706
+ "epoch": 0.832,
707
+ "grad_norm": 0.8037408590316772,
708
+ "learning_rate": 1.7066666666666667e-06,
709
+ "loss": 0.3628,
710
+ "mean_token_accuracy": 0.9884408693760633,
711
+ "num_tokens": 10223616.0,
712
+ "step": 312
713
+ },
714
+ {
715
+ "epoch": 0.8426666666666667,
716
+ "grad_norm": 1.1215479373931885,
717
+ "learning_rate": 1.6000000000000001e-06,
718
+ "loss": 0.4113,
719
+ "mean_token_accuracy": 0.9866763446480036,
720
+ "num_tokens": 10354688.0,
721
+ "step": 316
722
+ },
723
+ {
724
+ "epoch": 0.8533333333333334,
725
+ "grad_norm": 0.8912140130996704,
726
+ "learning_rate": 1.4933333333333336e-06,
727
+ "loss": 0.3753,
728
+ "mean_token_accuracy": 0.9878699872642756,
729
+ "num_tokens": 10485760.0,
730
+ "step": 320
731
+ },
732
+ {
733
+ "epoch": 0.864,
734
+ "grad_norm": 0.7743899822235107,
735
+ "learning_rate": 1.3866666666666668e-06,
736
+ "loss": 0.3936,
737
+ "mean_token_accuracy": 0.987536245957017,
738
+ "num_tokens": 10616832.0,
739
+ "step": 324
740
+ },
741
+ {
742
+ "epoch": 0.8746666666666667,
743
+ "grad_norm": 0.813690185546875,
744
+ "learning_rate": 1.28e-06,
745
+ "loss": 0.392,
746
+ "mean_token_accuracy": 0.9875784479081631,
747
+ "num_tokens": 10747904.0,
748
+ "step": 328
749
+ },
750
+ {
751
+ "epoch": 0.8853333333333333,
752
+ "grad_norm": 0.7513279914855957,
753
+ "learning_rate": 1.1733333333333335e-06,
754
+ "loss": 0.3511,
755
+ "mean_token_accuracy": 0.9887354131788015,
756
+ "num_tokens": 10878976.0,
757
+ "step": 332
758
+ },
759
+ {
760
+ "epoch": 0.896,
761
+ "grad_norm": 0.7692511081695557,
762
+ "learning_rate": 1.066666666666667e-06,
763
+ "loss": 0.3855,
764
+ "mean_token_accuracy": 0.9876275006681681,
765
+ "num_tokens": 11010048.0,
766
+ "step": 336
767
+ },
768
+ {
769
+ "epoch": 0.9066666666666666,
770
+ "grad_norm": 0.8504297733306885,
771
+ "learning_rate": 9.600000000000001e-07,
772
+ "loss": 0.3715,
773
+ "mean_token_accuracy": 0.9881636761128902,
774
+ "num_tokens": 11141120.0,
775
+ "step": 340
776
+ },
777
+ {
778
+ "epoch": 0.9173333333333333,
779
+ "grad_norm": 0.7928897142410278,
780
+ "learning_rate": 8.533333333333334e-07,
781
+ "loss": 0.361,
782
+ "mean_token_accuracy": 0.9885325860232115,
783
+ "num_tokens": 11272192.0,
784
+ "step": 344
785
+ },
786
+ {
787
+ "epoch": 0.928,
788
+ "grad_norm": 0.8380333781242371,
789
+ "learning_rate": 7.466666666666668e-07,
790
+ "loss": 0.394,
791
+ "mean_token_accuracy": 0.9870442487299442,
792
+ "num_tokens": 11403264.0,
793
+ "step": 348
794
+ },
795
+ {
796
+ "epoch": 0.9386666666666666,
797
+ "grad_norm": 0.9250849485397339,
798
+ "learning_rate": 6.4e-07,
799
+ "loss": 0.3746,
800
+ "mean_token_accuracy": 0.9879132714122534,
801
+ "num_tokens": 11534336.0,
802
+ "step": 352
803
+ },
804
+ {
805
+ "epoch": 0.9493333333333334,
806
+ "grad_norm": 0.9055423140525818,
807
+ "learning_rate": 5.333333333333335e-07,
808
+ "loss": 0.4153,
809
+ "mean_token_accuracy": 0.9869474172592163,
810
+ "num_tokens": 11665408.0,
811
+ "step": 356
812
+ },
813
+ {
814
+ "epoch": 0.96,
815
+ "grad_norm": 0.814559817314148,
816
+ "learning_rate": 4.266666666666667e-07,
817
+ "loss": 0.3759,
818
+ "mean_token_accuracy": 0.988111924380064,
819
+ "num_tokens": 11796480.0,
820
+ "step": 360
821
+ },
822
+ {
823
+ "epoch": 0.9706666666666667,
824
+ "grad_norm": 0.8249328136444092,
825
+ "learning_rate": 3.2e-07,
826
+ "loss": 0.3727,
827
+ "mean_token_accuracy": 0.9882096629589796,
828
+ "num_tokens": 11927552.0,
829
+ "step": 364
830
+ },
831
+ {
832
+ "epoch": 0.9813333333333333,
833
+ "grad_norm": 0.7737669348716736,
834
+ "learning_rate": 2.1333333333333334e-07,
835
+ "loss": 0.4041,
836
+ "mean_token_accuracy": 0.9868866726756096,
837
+ "num_tokens": 12058624.0,
838
+ "step": 368
839
+ },
840
+ {
841
+ "epoch": 0.992,
842
+ "grad_norm": 0.6931367516517639,
843
+ "learning_rate": 1.0666666666666667e-07,
844
+ "loss": 0.3835,
845
+ "mean_token_accuracy": 0.9874988459050655,
846
+ "num_tokens": 12189696.0,
847
+ "step": 372
848
+ }
849
+ ],
850
+ "logging_steps": 4,
851
+ "max_steps": 375,
852
+ "num_input_tokens_seen": 0,
853
+ "num_train_epochs": 1,
854
+ "save_steps": 5000,
855
+ "stateful_callbacks": {
856
+ "TrainerControl": {
857
+ "args": {
858
+ "should_epoch_stop": false,
859
+ "should_evaluate": false,
860
+ "should_log": false,
861
+ "should_save": true,
862
+ "should_training_stop": true
863
+ },
864
+ "attributes": {}
865
+ }
866
+ },
867
+ "total_flos": 1.935438365196288e+18,
868
+ "train_batch_size": 2,
869
+ "trial_name": null,
870
+ "trial_params": null
871
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:97e074fc478a5116e8626b46250c42cce2e89d4de00811357edef953e0e5d73a
3
+ size 6161