sjudicke commited on
Commit
ac0c529
·
verified ·
1 Parent(s): a84140e

Full run push

Browse files
Files changed (1) hide show
  1. trainer_state.json +760 -130
trainer_state.json CHANGED
@@ -4,236 +4,866 @@
4
  "best_model_checkpoint": null,
5
  "epoch": 1.0,
6
  "eval_steps": 500,
7
- "global_step": 15000,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
11
  "log_history": [
12
  {
13
- "epoch": 0.03333333333333333,
14
- "grad_norm": 0.8437663912773132,
15
- "learning_rate": 0.00029999160495301487,
16
- "loss": 0.4576,
17
  "step": 500
18
  },
19
  {
20
- "epoch": 0.06666666666666667,
21
- "grad_norm": 1.3834174871444702,
22
- "learning_rate": 0.00029894738121610755,
23
- "loss": 0.3618,
24
  "step": 1000
25
  },
26
  {
27
- "epoch": 0.1,
28
- "grad_norm": 0.8362070322036743,
29
- "learning_rate": 0.0002961688552258895,
30
- "loss": 0.3312,
31
  "step": 1500
32
  },
33
  {
34
- "epoch": 0.13333333333333333,
35
- "grad_norm": 1.8011195659637451,
36
- "learning_rate": 0.0002916883793731605,
37
- "loss": 0.3265,
38
  "step": 2000
39
  },
40
  {
41
- "epoch": 0.16666666666666666,
42
- "grad_norm": 1.187129259109497,
43
- "learning_rate": 0.0002855581230838202,
44
- "loss": 0.3176,
45
  "step": 2500
46
  },
47
  {
48
- "epoch": 0.2,
49
- "grad_norm": 0.6343923807144165,
50
- "learning_rate": 0.000277849465372452,
51
- "loss": 0.3267,
52
  "step": 3000
53
  },
54
  {
55
- "epoch": 0.23333333333333334,
56
- "grad_norm": 0.5139018297195435,
57
- "learning_rate": 0.00026865216372475085,
58
- "loss": 0.3304,
59
  "step": 3500
60
  },
61
  {
62
- "epoch": 0.26666666666666666,
63
- "grad_norm": 0.5840966701507568,
64
- "learning_rate": 0.0002580733089860996,
65
- "loss": 0.3174,
66
  "step": 4000
67
  },
68
  {
69
- "epoch": 0.3,
70
- "grad_norm": 1.0480272769927979,
71
- "learning_rate": 0.0002462360784252821,
72
- "loss": 0.3131,
73
  "step": 4500
74
  },
75
  {
76
- "epoch": 0.3333333333333333,
77
- "grad_norm": 0.768731415271759,
78
- "learning_rate": 0.00023327830149231583,
79
- "loss": 0.3005,
80
  "step": 5000
81
  },
82
  {
83
- "epoch": 0.36666666666666664,
84
- "grad_norm": 0.8862756490707397,
85
- "learning_rate": 0.00021935085497032568,
86
- "loss": 0.2977,
87
  "step": 5500
88
  },
89
  {
90
- "epoch": 0.4,
91
- "grad_norm": 1.8197040557861328,
92
- "learning_rate": 0.00020461590620786605,
93
- "loss": 0.3006,
94
  "step": 6000
95
  },
96
  {
97
- "epoch": 0.43333333333333335,
98
- "grad_norm": 0.5644539594650269,
99
- "learning_rate": 0.00018924502488701202,
100
- "loss": 0.2891,
101
  "step": 6500
102
  },
103
  {
104
- "epoch": 0.4666666666666667,
105
- "grad_norm": 0.7333141565322876,
106
- "learning_rate": 0.00017341718531326979,
107
- "loss": 0.2958,
108
  "step": 7000
109
  },
110
  {
111
- "epoch": 0.5,
112
- "grad_norm": 0.8840310573577881,
113
- "learning_rate": 0.00015731668248809323,
114
- "loss": 0.2914,
115
  "step": 7500
116
  },
117
  {
118
- "epoch": 0.5333333333333333,
119
- "grad_norm": 0.7415375113487244,
120
- "learning_rate": 0.0001411309862286835,
121
- "loss": 0.284,
122
  "step": 8000
123
  },
124
  {
125
- "epoch": 0.5666666666666667,
126
- "grad_norm": 1.0699294805526733,
127
- "learning_rate": 0.00012504855832110804,
128
- "loss": 0.2776,
129
  "step": 8500
130
  },
131
  {
132
- "epoch": 0.6,
133
- "grad_norm": 1.0262274742126465,
134
- "learning_rate": 0.00010925665812320933,
135
- "loss": 0.2751,
136
  "step": 9000
137
  },
138
  {
139
- "epoch": 0.6333333333333333,
140
- "grad_norm": 1.2797510623931885,
141
- "learning_rate": 9.393916216825465e-05,
142
- "loss": 0.2797,
143
  "step": 9500
144
  },
145
  {
146
- "epoch": 0.6666666666666666,
147
- "grad_norm": 0.8398839831352234,
148
- "learning_rate": 7.927442315726411e-05,
149
- "loss": 0.2655,
150
  "step": 10000
151
  },
152
  {
153
- "epoch": 0.7,
154
- "grad_norm": 0.9251325726509094,
155
- "learning_rate": 6.543319326931815e-05,
156
- "loss": 0.2605,
157
  "step": 10500
158
  },
159
  {
160
- "epoch": 0.7333333333333333,
161
- "grad_norm": 0.6823338866233826,
162
- "learning_rate": 5.257663597024785e-05,
163
- "loss": 0.2674,
164
  "step": 11000
165
  },
166
  {
167
- "epoch": 0.7666666666666667,
168
- "grad_norm": 0.7772260904312134,
169
- "learning_rate": 4.085444946965953e-05,
170
- "loss": 0.2624,
171
  "step": 11500
172
  },
173
  {
174
- "epoch": 0.8,
175
- "grad_norm": 0.6518853902816772,
176
- "learning_rate": 3.040312367624248e-05,
177
- "loss": 0.2596,
178
  "step": 12000
179
  },
180
  {
181
- "epoch": 0.8333333333333334,
182
- "grad_norm": 0.6722842454910278,
183
- "learning_rate": 2.1344350946892218e-05,
184
- "loss": 0.2509,
185
  "step": 12500
186
  },
187
  {
188
- "epoch": 0.8666666666666667,
189
- "grad_norm": 1.5721765756607056,
190
- "learning_rate": 1.3783609134448331e-05,
191
- "loss": 0.25,
192
  "step": 13000
193
  },
194
  {
195
- "epoch": 0.9,
196
- "grad_norm": 1.592251181602478,
197
- "learning_rate": 7.808933432648067e-06,
198
- "loss": 0.249,
199
  "step": 13500
200
  },
201
  {
202
- "epoch": 0.9333333333333333,
203
- "grad_norm": 1.5700002908706665,
204
- "learning_rate": 3.4898913185952726e-06,
205
- "loss": 0.2618,
206
  "step": 14000
207
  },
208
  {
209
- "epoch": 0.9666666666666667,
210
- "grad_norm": 1.067083477973938,
211
- "learning_rate": 8.767725282315785e-07,
212
- "loss": 0.2653,
213
  "step": 14500
214
  },
215
  {
216
- "epoch": 1.0,
217
- "grad_norm": 0.734412670135498,
218
- "learning_rate": 3.496511979950156e-12,
219
- "loss": 0.2583,
220
  "step": 15000
221
  },
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
222
  {
223
  "epoch": 1.0,
224
- "step": 15000,
225
- "total_flos": 1.6839046112147866e+17,
226
- "train_loss": 0.29414576873779297,
227
- "train_runtime": 2822.8333,
228
- "train_samples_per_second": 5.314,
229
- "train_steps_per_second": 5.314
230
  }
231
  ],
232
  "logging_steps": 500,
233
- "max_steps": 15000,
234
  "num_input_tokens_seen": 0,
235
  "num_train_epochs": 1,
236
- "save_steps": 5000,
237
  "stateful_callbacks": {
238
  "TrainerControl": {
239
  "args": {
@@ -246,7 +876,7 @@
246
  "attributes": {}
247
  }
248
  },
249
- "total_flos": 1.6839046112147866e+17,
250
  "train_batch_size": 1,
251
  "trial_name": null,
252
  "trial_params": null
 
4
  "best_model_checkpoint": null,
5
  "epoch": 1.0,
6
  "eval_steps": 500,
7
+ "global_step": 60000,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
11
  "log_history": [
12
  {
13
+ "epoch": 0.008333333333333333,
14
+ "grad_norm": 1.734326958656311,
15
+ "learning_rate": 8.316666666666665e-05,
16
+ "loss": 0.5142,
17
  "step": 500
18
  },
19
  {
20
+ "epoch": 0.016666666666666666,
21
+ "grad_norm": 0.7779222726821899,
22
+ "learning_rate": 0.0001665,
23
+ "loss": 0.3832,
24
  "step": 1000
25
  },
26
  {
27
+ "epoch": 0.025,
28
+ "grad_norm": 1.3082212209701538,
29
+ "learning_rate": 0.0002498333333333333,
30
+ "loss": 0.3418,
31
  "step": 1500
32
  },
33
  {
34
+ "epoch": 0.03333333333333333,
35
+ "grad_norm": 1.115393877029419,
36
+ "learning_rate": 0.000299991345997501,
37
+ "loss": 0.3593,
38
  "step": 2000
39
  },
40
  {
41
+ "epoch": 0.041666666666666664,
42
+ "grad_norm": 1.1185020208358765,
43
+ "learning_rate": 0.0002998932377135537,
44
+ "loss": 0.3316,
45
  "step": 2500
46
  },
47
  {
48
+ "epoch": 0.05,
49
+ "grad_norm": 0.44978195428848267,
50
+ "learning_rate": 0.0002996859478276907,
51
+ "loss": 0.3364,
52
  "step": 3000
53
  },
54
  {
55
+ "epoch": 0.058333333333333334,
56
+ "grad_norm": 1.157468318939209,
57
+ "learning_rate": 0.0002993696273289902,
58
+ "loss": 0.3145,
59
  "step": 3500
60
  },
61
  {
62
+ "epoch": 0.06666666666666667,
63
+ "grad_norm": 1.247792363166809,
64
+ "learning_rate": 0.00029894450662396884,
65
+ "loss": 0.3201,
66
  "step": 4000
67
  },
68
  {
69
+ "epoch": 0.075,
70
+ "grad_norm": 0.9549034833908081,
71
+ "learning_rate": 0.00029841089536875444,
72
+ "loss": 0.3189,
73
  "step": 4500
74
  },
75
  {
76
+ "epoch": 0.08333333333333333,
77
+ "grad_norm": 0.8676638007164001,
78
+ "learning_rate": 0.00029776918224353393,
79
+ "loss": 0.3224,
80
  "step": 5000
81
  },
82
  {
83
+ "epoch": 0.09166666666666666,
84
+ "grad_norm": 1.1023201942443848,
85
+ "learning_rate": 0.00029701983466944016,
86
+ "loss": 0.3048,
87
  "step": 5500
88
  },
89
  {
90
+ "epoch": 0.1,
91
+ "grad_norm": 1.559238076210022,
92
+ "learning_rate": 0.00029616339846808443,
93
+ "loss": 0.3166,
94
  "step": 6000
95
  },
96
  {
97
+ "epoch": 0.10833333333333334,
98
+ "grad_norm": 0.6283588409423828,
99
+ "learning_rate": 0.0002952004974639823,
100
+ "loss": 0.3118,
101
  "step": 6500
102
  },
103
  {
104
+ "epoch": 0.11666666666666667,
105
+ "grad_norm": 0.8453167080879211,
106
+ "learning_rate": 0.0002941318330301624,
107
+ "loss": 0.2962,
108
  "step": 7000
109
  },
110
  {
111
+ "epoch": 0.125,
112
+ "grad_norm": 1.476069688796997,
113
+ "learning_rate": 0.00029295818357728945,
114
+ "loss": 0.3151,
115
  "step": 7500
116
  },
117
  {
118
+ "epoch": 0.13333333333333333,
119
+ "grad_norm": 0.8654290437698364,
120
+ "learning_rate": 0.000291680403986673,
121
+ "loss": 0.297,
122
  "step": 8000
123
  },
124
  {
125
+ "epoch": 0.14166666666666666,
126
+ "grad_norm": 1.922337293624878,
127
+ "learning_rate": 0.00029029942498757556,
128
+ "loss": 0.3089,
129
  "step": 8500
130
  },
131
  {
132
+ "epoch": 0.15,
133
+ "grad_norm": 1.667548418045044,
134
+ "learning_rate": 0.00028881625247927344,
135
+ "loss": 0.295,
136
  "step": 9000
137
  },
138
  {
139
+ "epoch": 0.15833333333333333,
140
+ "grad_norm": 0.7707281112670898,
141
+ "learning_rate": 0.0002872319667983639,
142
+ "loss": 0.2889,
143
  "step": 9500
144
  },
145
  {
146
+ "epoch": 0.16666666666666666,
147
+ "grad_norm": 1.3987542390823364,
148
+ "learning_rate": 0.0002855477219318523,
149
+ "loss": 0.2831,
150
  "step": 10000
151
  },
152
  {
153
+ "epoch": 0.175,
154
+ "grad_norm": 0.8910896182060242,
155
+ "learning_rate": 0.0002837647446765933,
156
+ "loss": 0.2928,
157
  "step": 10500
158
  },
159
  {
160
+ "epoch": 0.18333333333333332,
161
+ "grad_norm": 1.34634268283844,
162
+ "learning_rate": 0.0002818843337456967,
163
+ "loss": 0.2866,
164
  "step": 11000
165
  },
166
  {
167
+ "epoch": 0.19166666666666668,
168
+ "grad_norm": 2.1172733306884766,
169
+ "learning_rate": 0.00027990785882255076,
170
+ "loss": 0.2869,
171
  "step": 11500
172
  },
173
  {
174
+ "epoch": 0.2,
175
+ "grad_norm": 1.0616984367370605,
176
+ "learning_rate": 0.0002778367595631503,
177
+ "loss": 0.2924,
178
  "step": 12000
179
  },
180
  {
181
+ "epoch": 0.20833333333333334,
182
+ "grad_norm": 0.6745150089263916,
183
+ "learning_rate": 0.0002756725445474574,
184
+ "loss": 0.289,
185
  "step": 12500
186
  },
187
  {
188
+ "epoch": 0.21666666666666667,
189
+ "grad_norm": 0.9809184670448303,
190
+ "learning_rate": 0.00027341679018055815,
191
+ "loss": 0.2821,
192
  "step": 13000
193
  },
194
  {
195
+ "epoch": 0.225,
196
+ "grad_norm": 0.9942313432693481,
197
+ "learning_rate": 0.0002710711395444158,
198
+ "loss": 0.2867,
199
  "step": 13500
200
  },
201
  {
202
+ "epoch": 0.23333333333333334,
203
+ "grad_norm": 0.7905780673027039,
204
+ "learning_rate": 0.00026863730120105694,
205
+ "loss": 0.2965,
206
  "step": 14000
207
  },
208
  {
209
+ "epoch": 0.24166666666666667,
210
+ "grad_norm": 0.4196673631668091,
211
+ "learning_rate": 0.0002661170479480619,
212
+ "loss": 0.2869,
213
  "step": 14500
214
  },
215
  {
216
+ "epoch": 0.25,
217
+ "grad_norm": 0.975186824798584,
218
+ "learning_rate": 0.0002635122155272666,
219
+ "loss": 0.276,
220
  "step": 15000
221
  },
222
+ {
223
+ "epoch": 0.25833333333333336,
224
+ "grad_norm": 1.2537420988082886,
225
+ "learning_rate": 0.00026082470128761597,
226
+ "loss": 0.2794,
227
+ "step": 15500
228
+ },
229
+ {
230
+ "epoch": 0.26666666666666666,
231
+ "grad_norm": 1.1740987300872803,
232
+ "learning_rate": 0.0002580564628031429,
233
+ "loss": 0.2794,
234
+ "step": 16000
235
+ },
236
+ {
237
+ "epoch": 0.275,
238
+ "grad_norm": 1.9777884483337402,
239
+ "learning_rate": 0.00025520951644707966,
240
+ "loss": 0.2871,
241
+ "step": 16500
242
+ },
243
+ {
244
+ "epoch": 0.2833333333333333,
245
+ "grad_norm": 1.662049412727356,
246
+ "learning_rate": 0.0002522859359231401,
247
+ "loss": 0.288,
248
+ "step": 17000
249
+ },
250
+ {
251
+ "epoch": 0.2916666666666667,
252
+ "grad_norm": 0.8431689739227295,
253
+ "learning_rate": 0.0002492878507550424,
254
+ "loss": 0.2752,
255
+ "step": 17500
256
+ },
257
+ {
258
+ "epoch": 0.3,
259
+ "grad_norm": 1.1322907209396362,
260
+ "learning_rate": 0.00024621744473537365,
261
+ "loss": 0.2834,
262
+ "step": 18000
263
+ },
264
+ {
265
+ "epoch": 0.30833333333333335,
266
+ "grad_norm": 0.751252293586731,
267
+ "learning_rate": 0.00024307695433492364,
268
+ "loss": 0.2817,
269
+ "step": 18500
270
+ },
271
+ {
272
+ "epoch": 0.31666666666666665,
273
+ "grad_norm": 0.9835771918296814,
274
+ "learning_rate": 0.00023986866707364964,
275
+ "loss": 0.2651,
276
+ "step": 19000
277
+ },
278
+ {
279
+ "epoch": 0.325,
280
+ "grad_norm": 1.3762648105621338,
281
+ "learning_rate": 0.0002365949198544562,
282
+ "loss": 0.2679,
283
+ "step": 19500
284
+ },
285
+ {
286
+ "epoch": 0.3333333333333333,
287
+ "grad_norm": 1.1998765468597412,
288
+ "learning_rate": 0.0002332580972610051,
289
+ "loss": 0.2751,
290
+ "step": 20000
291
+ },
292
+ {
293
+ "epoch": 0.3416666666666667,
294
+ "grad_norm": 0.4611862599849701,
295
+ "learning_rate": 0.00022986062982079458,
296
+ "loss": 0.2779,
297
+ "step": 20500
298
+ },
299
+ {
300
+ "epoch": 0.35,
301
+ "grad_norm": 0.7198874354362488,
302
+ "learning_rate": 0.00022640499223477339,
303
+ "loss": 0.2666,
304
+ "step": 21000
305
+ },
306
+ {
307
+ "epoch": 0.35833333333333334,
308
+ "grad_norm": 1.37840735912323,
309
+ "learning_rate": 0.000222893701574779,
310
+ "loss": 0.2698,
311
+ "step": 21500
312
+ },
313
+ {
314
+ "epoch": 0.36666666666666664,
315
+ "grad_norm": 1.549021601676941,
316
+ "learning_rate": 0.00021932931545011323,
317
+ "loss": 0.2672,
318
+ "step": 22000
319
+ },
320
+ {
321
+ "epoch": 0.375,
322
+ "grad_norm": 1.489937663078308,
323
+ "learning_rate": 0.00021571443014459024,
324
+ "loss": 0.2611,
325
+ "step": 22500
326
+ },
327
+ {
328
+ "epoch": 0.38333333333333336,
329
+ "grad_norm": 1.0012102127075195,
330
+ "learning_rate": 0.0002120516787254146,
331
+ "loss": 0.2613,
332
+ "step": 23000
333
+ },
334
+ {
335
+ "epoch": 0.39166666666666666,
336
+ "grad_norm": 0.3051554560661316,
337
+ "learning_rate": 0.00020834372912526596,
338
+ "loss": 0.2662,
339
+ "step": 23500
340
+ },
341
+ {
342
+ "epoch": 0.4,
343
+ "grad_norm": 0.6066364049911499,
344
+ "learning_rate": 0.0002045932821989884,
345
+ "loss": 0.2653,
346
+ "step": 24000
347
+ },
348
+ {
349
+ "epoch": 0.4083333333333333,
350
+ "grad_norm": 0.881126344203949,
351
+ "learning_rate": 0.000200803069756299,
352
+ "loss": 0.2563,
353
+ "step": 24500
354
+ },
355
+ {
356
+ "epoch": 0.4166666666666667,
357
+ "grad_norm": 0.9933512210845947,
358
+ "learning_rate": 0.0001969758525719492,
359
+ "loss": 0.2592,
360
+ "step": 25000
361
+ },
362
+ {
363
+ "epoch": 0.425,
364
+ "grad_norm": 0.8219375610351562,
365
+ "learning_rate": 0.00019311441837478816,
366
+ "loss": 0.272,
367
+ "step": 25500
368
+ },
369
+ {
370
+ "epoch": 0.43333333333333335,
371
+ "grad_norm": 1.2546143531799316,
372
+ "learning_rate": 0.0001892215798171928,
373
+ "loss": 0.2567,
374
+ "step": 26000
375
+ },
376
+ {
377
+ "epoch": 0.44166666666666665,
378
+ "grad_norm": 1.4476374387741089,
379
+ "learning_rate": 0.00018530017242634363,
380
+ "loss": 0.2588,
381
+ "step": 26500
382
+ },
383
+ {
384
+ "epoch": 0.45,
385
+ "grad_norm": 1.356984257698059,
386
+ "learning_rate": 0.0001813530525388389,
387
+ "loss": 0.2556,
388
+ "step": 27000
389
+ },
390
+ {
391
+ "epoch": 0.4583333333333333,
392
+ "grad_norm": 0.0,
393
+ "learning_rate": 0.00017738309522015073,
394
+ "loss": 0.2477,
395
+ "step": 27500
396
+ },
397
+ {
398
+ "epoch": 0.4666666666666667,
399
+ "grad_norm": 1.395007848739624,
400
+ "learning_rate": 0.00017339319217043995,
401
+ "loss": 0.2498,
402
+ "step": 28000
403
+ },
404
+ {
405
+ "epoch": 0.475,
406
+ "grad_norm": 0.7972742319107056,
407
+ "learning_rate": 0.00016938624961825358,
408
+ "loss": 0.2473,
409
+ "step": 28500
410
+ },
411
+ {
412
+ "epoch": 0.48333333333333334,
413
+ "grad_norm": 0.8678386807441711,
414
+ "learning_rate": 0.0001653651862036404,
415
+ "loss": 0.2534,
416
+ "step": 29000
417
+ },
418
+ {
419
+ "epoch": 0.49166666666666664,
420
+ "grad_norm": 1.0032129287719727,
421
+ "learning_rate": 0.00016133293085222585,
422
+ "loss": 0.2458,
423
+ "step": 29500
424
+ },
425
+ {
426
+ "epoch": 0.5,
427
+ "grad_norm": 0.9749704599380493,
428
+ "learning_rate": 0.00015729242064179487,
429
+ "loss": 0.2516,
430
+ "step": 30000
431
+ },
432
+ {
433
+ "epoch": 0.5083333333333333,
434
+ "grad_norm": 1.6964690685272217,
435
+ "learning_rate": 0.0001532465986629368,
436
+ "loss": 0.2452,
437
+ "step": 30500
438
+ },
439
+ {
440
+ "epoch": 0.5166666666666667,
441
+ "grad_norm": 1.2840642929077148,
442
+ "learning_rate": 0.0001491984118753108,
443
+ "loss": 0.247,
444
+ "step": 31000
445
+ },
446
+ {
447
+ "epoch": 0.525,
448
+ "grad_norm": 1.1751660108566284,
449
+ "learning_rate": 0.00014515080896109272,
450
+ "loss": 0.2561,
451
+ "step": 31500
452
+ },
453
+ {
454
+ "epoch": 0.5333333333333333,
455
+ "grad_norm": 0.4990275204181671,
456
+ "learning_rate": 0.00014110673817716756,
457
+ "loss": 0.2429,
458
+ "step": 32000
459
+ },
460
+ {
461
+ "epoch": 0.5416666666666666,
462
+ "grad_norm": 1.0772459506988525,
463
+ "learning_rate": 0.0001370691452076314,
464
+ "loss": 0.2622,
465
+ "step": 32500
466
+ },
467
+ {
468
+ "epoch": 0.55,
469
+ "grad_norm": 1.0913983583450317,
470
+ "learning_rate": 0.00013304097101816766,
471
+ "loss": 0.2406,
472
+ "step": 33000
473
+ },
474
+ {
475
+ "epoch": 0.5583333333333333,
476
+ "grad_norm": 0.7937314510345459,
477
+ "learning_rate": 0.0001290251497138601,
478
+ "loss": 0.2317,
479
+ "step": 33500
480
+ },
481
+ {
482
+ "epoch": 0.5666666666666667,
483
+ "grad_norm": 0.866894006729126,
484
+ "learning_rate": 0.0001250246064020032,
485
+ "loss": 0.2381,
486
+ "step": 34000
487
+ },
488
+ {
489
+ "epoch": 0.575,
490
+ "grad_norm": 0.904768705368042,
491
+ "learning_rate": 0.000121042255061466,
492
+ "loss": 0.2416,
493
+ "step": 34500
494
+ },
495
+ {
496
+ "epoch": 0.5833333333333334,
497
+ "grad_norm": 2.5710256099700928,
498
+ "learning_rate": 0.00011708099642016254,
499
+ "loss": 0.2501,
500
+ "step": 35000
501
+ },
502
+ {
503
+ "epoch": 0.5916666666666667,
504
+ "grad_norm": 0.9502021074295044,
505
+ "learning_rate": 0.00011314371584217354,
506
+ "loss": 0.2462,
507
+ "step": 35500
508
+ },
509
+ {
510
+ "epoch": 0.6,
511
+ "grad_norm": 1.1951791048049927,
512
+ "learning_rate": 0.00010923328122605982,
513
+ "loss": 0.2437,
514
+ "step": 36000
515
+ },
516
+ {
517
+ "epoch": 0.6083333333333333,
518
+ "grad_norm": 1.0552036762237549,
519
+ "learning_rate": 0.00010535254091589667,
520
+ "loss": 0.2426,
521
+ "step": 36500
522
+ },
523
+ {
524
+ "epoch": 0.6166666666666667,
525
+ "grad_norm": 1.1212034225463867,
526
+ "learning_rate": 0.00010150432162655218,
527
+ "loss": 0.2454,
528
+ "step": 37000
529
+ },
530
+ {
531
+ "epoch": 0.625,
532
+ "grad_norm": 0.7416337132453918,
533
+ "learning_rate": 9.769142638472033e-05,
534
+ "loss": 0.2401,
535
+ "step": 37500
536
+ },
537
+ {
538
+ "epoch": 0.6333333333333333,
539
+ "grad_norm": 0.6174165606498718,
540
+ "learning_rate": 9.391663248720767e-05,
541
+ "loss": 0.2462,
542
+ "step": 38000
543
+ },
544
+ {
545
+ "epoch": 0.6416666666666667,
546
+ "grad_norm": 1.7195667028427124,
547
+ "learning_rate": 9.01826894779624e-05,
548
+ "loss": 0.2404,
549
+ "step": 38500
550
+ },
551
+ {
552
+ "epoch": 0.65,
553
+ "grad_norm": 0.8892576098442078,
554
+ "learning_rate": 8.649231714531805e-05,
555
+ "loss": 0.237,
556
+ "step": 39000
557
+ },
558
+ {
559
+ "epoch": 0.6583333333333333,
560
+ "grad_norm": 0.5483108758926392,
561
+ "learning_rate": 8.284820354091123e-05,
562
+ "loss": 0.2458,
563
+ "step": 39500
564
+ },
565
+ {
566
+ "epoch": 0.6666666666666666,
567
+ "grad_norm": 0.9700618982315063,
568
+ "learning_rate": 7.925300302171602e-05,
569
+ "loss": 0.24,
570
+ "step": 40000
571
+ },
572
+ {
573
+ "epoch": 0.675,
574
+ "grad_norm": 0.8393011689186096,
575
+ "learning_rate": 7.570933431662156e-05,
576
+ "loss": 0.2334,
577
+ "step": 40500
578
+ },
579
+ {
580
+ "epoch": 0.6833333333333333,
581
+ "grad_norm": 1.7267228364944458,
582
+ "learning_rate": 7.221977861896105e-05,
583
+ "loss": 0.2454,
584
+ "step": 41000
585
+ },
586
+ {
587
+ "epoch": 0.6916666666666667,
588
+ "grad_norm": 1.5230600833892822,
589
+ "learning_rate": 6.878687770638148e-05,
590
+ "loss": 0.2291,
591
+ "step": 41500
592
+ },
593
+ {
594
+ "epoch": 0.7,
595
+ "grad_norm": 0.8894439935684204,
596
+ "learning_rate": 6.541313208942333e-05,
597
+ "loss": 0.2304,
598
+ "step": 42000
599
+ },
600
+ {
601
+ "epoch": 0.7083333333333334,
602
+ "grad_norm": 0.6637595891952515,
603
+ "learning_rate": 6.210099919015931e-05,
604
+ "loss": 0.2256,
605
+ "step": 42500
606
+ },
607
+ {
608
+ "epoch": 0.7166666666666667,
609
+ "grad_norm": 1.5464119911193848,
610
+ "learning_rate": 5.8852891552218674e-05,
611
+ "loss": 0.2296,
612
+ "step": 43000
613
+ },
614
+ {
615
+ "epoch": 0.725,
616
+ "grad_norm": 1.361809492111206,
617
+ "learning_rate": 5.567117508350033e-05,
618
+ "loss": 0.225,
619
+ "step": 43500
620
+ },
621
+ {
622
+ "epoch": 0.7333333333333333,
623
+ "grad_norm": 1.100778341293335,
624
+ "learning_rate": 5.2558167332855614e-05,
625
+ "loss": 0.2171,
626
+ "step": 44000
627
+ },
628
+ {
629
+ "epoch": 0.7416666666666667,
630
+ "grad_norm": 0.8792382478713989,
631
+ "learning_rate": 4.951613580199569e-05,
632
+ "loss": 0.2253,
633
+ "step": 44500
634
+ },
635
+ {
636
+ "epoch": 0.75,
637
+ "grad_norm": 1.008772611618042,
638
+ "learning_rate": 4.65472962938525e-05,
639
+ "loss": 0.2185,
640
+ "step": 45000
641
+ },
642
+ {
643
+ "epoch": 0.7583333333333333,
644
+ "grad_norm": 1.769035816192627,
645
+ "learning_rate": 4.365381129859762e-05,
646
+ "loss": 0.2323,
647
+ "step": 45500
648
+ },
649
+ {
650
+ "epoch": 0.7666666666666667,
651
+ "grad_norm": 1.0002933740615845,
652
+ "learning_rate": 4.0837788418493234e-05,
653
+ "loss": 0.2258,
654
+ "step": 46000
655
+ },
656
+ {
657
+ "epoch": 0.775,
658
+ "grad_norm": 0.6770097613334656,
659
+ "learning_rate": 3.810127883272383e-05,
660
+ "loss": 0.2237,
661
+ "step": 46500
662
+ },
663
+ {
664
+ "epoch": 0.7833333333333333,
665
+ "grad_norm": 1.1669566631317139,
666
+ "learning_rate": 3.544627580332564e-05,
667
+ "loss": 0.2106,
668
+ "step": 47000
669
+ },
670
+ {
671
+ "epoch": 0.7916666666666666,
672
+ "grad_norm": 0.6947309374809265,
673
+ "learning_rate": 3.2874713223303216e-05,
674
+ "loss": 0.2198,
675
+ "step": 47500
676
+ },
677
+ {
678
+ "epoch": 0.8,
679
+ "grad_norm": 0.6739930510520935,
680
+ "learning_rate": 3.038846420798978e-05,
681
+ "loss": 0.2183,
682
+ "step": 48000
683
+ },
684
+ {
685
+ "epoch": 0.8083333333333333,
686
+ "grad_norm": 1.489799976348877,
687
+ "learning_rate": 2.7989339730678078e-05,
688
+ "loss": 0.2189,
689
+ "step": 48500
690
+ },
691
+ {
692
+ "epoch": 0.8166666666666667,
693
+ "grad_norm": 0.8515140414237976,
694
+ "learning_rate": 2.5679087303514894e-05,
695
+ "loss": 0.2244,
696
+ "step": 49000
697
+ },
698
+ {
699
+ "epoch": 0.825,
700
+ "grad_norm": 0.49479931592941284,
701
+ "learning_rate": 2.345938970462068e-05,
702
+ "loss": 0.2369,
703
+ "step": 49500
704
+ },
705
+ {
706
+ "epoch": 0.8333333333333334,
707
+ "grad_norm": 0.8055633902549744,
708
+ "learning_rate": 2.1331863752360973e-05,
709
+ "loss": 0.2217,
710
+ "step": 50000
711
+ },
712
+ {
713
+ "epoch": 0.8416666666666667,
714
+ "grad_norm": 2.17622447013855,
715
+ "learning_rate": 1.9298059127662975e-05,
716
+ "loss": 0.2087,
717
+ "step": 50500
718
+ },
719
+ {
720
+ "epoch": 0.85,
721
+ "grad_norm": 1.8723386526107788,
722
+ "learning_rate": 1.7359457245234156e-05,
723
+ "loss": 0.223,
724
+ "step": 51000
725
+ },
726
+ {
727
+ "epoch": 0.8583333333333333,
728
+ "grad_norm": 1.4284367561340332,
729
+ "learning_rate": 1.5517470174506246e-05,
730
+ "loss": 0.2201,
731
+ "step": 51500
732
+ },
733
+ {
734
+ "epoch": 0.8666666666666667,
735
+ "grad_norm": 1.5737581253051758,
736
+ "learning_rate": 1.3773439611089832e-05,
737
+ "loss": 0.224,
738
+ "step": 52000
739
+ },
740
+ {
741
+ "epoch": 0.875,
742
+ "grad_norm": 1.9173991680145264,
743
+ "learning_rate": 1.212863589948883e-05,
744
+ "loss": 0.2316,
745
+ "step": 52500
746
+ },
747
+ {
748
+ "epoch": 0.8833333333333333,
749
+ "grad_norm": 0.9126625657081604,
750
+ "learning_rate": 1.058425710778692e-05,
751
+ "loss": 0.2099,
752
+ "step": 53000
753
+ },
754
+ {
755
+ "epoch": 0.8916666666666667,
756
+ "grad_norm": 0.9519773721694946,
757
+ "learning_rate": 9.141428154979886e-06,
758
+ "loss": 0.2231,
759
+ "step": 53500
760
+ },
761
+ {
762
+ "epoch": 0.9,
763
+ "grad_norm": 1.7559552192687988,
764
+ "learning_rate": 7.801199991589335e-06,
765
+ "loss": 0.2203,
766
+ "step": 54000
767
+ },
768
+ {
769
+ "epoch": 0.9083333333333333,
770
+ "grad_norm": 1.3599870204925537,
771
+ "learning_rate": 6.564548834154759e-06,
772
+ "loss": 0.2224,
773
+ "step": 54500
774
+ },
775
+ {
776
+ "epoch": 0.9166666666666666,
777
+ "grad_norm": 1.5323917865753174,
778
+ "learning_rate": 5.432375454161458e-06,
779
+ "loss": 0.2131,
780
+ "step": 55000
781
+ },
782
+ {
783
+ "epoch": 0.925,
784
+ "grad_norm": 0.8116886615753174,
785
+ "learning_rate": 4.405504521922571e-06,
786
+ "loss": 0.2122,
787
+ "step": 55500
788
+ },
789
+ {
790
+ "epoch": 0.9333333333333333,
791
+ "grad_norm": 0.9112006425857544,
792
+ "learning_rate": 3.484684005892502e-06,
793
+ "loss": 0.2184,
794
+ "step": 56000
795
+ },
796
+ {
797
+ "epoch": 0.9416666666666667,
798
+ "grad_norm": 0.6394028663635254,
799
+ "learning_rate": 2.6705846278499532e-06,
800
+ "loss": 0.238,
801
+ "step": 56500
802
+ },
803
+ {
804
+ "epoch": 0.95,
805
+ "grad_norm": 0.9545285701751709,
806
+ "learning_rate": 1.9637993743470525e-06,
807
+ "loss": 0.226,
808
+ "step": 57000
809
+ },
810
+ {
811
+ "epoch": 0.9583333333333334,
812
+ "grad_norm": 0.7243571877479553,
813
+ "learning_rate": 1.36484306478033e-06,
814
+ "loss": 0.2236,
815
+ "step": 57500
816
+ },
817
+ {
818
+ "epoch": 0.9666666666666667,
819
+ "grad_norm": 0.8191093802452087,
820
+ "learning_rate": 8.741519763985627e-07,
821
+ "loss": 0.217,
822
+ "step": 58000
823
+ },
824
+ {
825
+ "epoch": 0.975,
826
+ "grad_norm": 1.4871535301208496,
827
+ "learning_rate": 4.920835265201595e-07,
828
+ "loss": 0.2176,
829
+ "step": 58500
830
+ },
831
+ {
832
+ "epoch": 0.9833333333333333,
833
+ "grad_norm": 0.9401077628135681,
834
+ "learning_rate": 2.1891601219199417e-07,
835
+ "loss": 0.2267,
836
+ "step": 59000
837
+ },
838
+ {
839
+ "epoch": 0.9916666666666667,
840
+ "grad_norm": 1.3500021696090698,
841
+ "learning_rate": 5.484840747892461e-08,
842
+ "loss": 0.2189,
843
+ "step": 59500
844
+ },
845
+ {
846
+ "epoch": 1.0,
847
+ "grad_norm": 0.5481218695640564,
848
+ "learning_rate": 2.1853199250188025e-13,
849
+ "loss": 0.2222,
850
+ "step": 60000
851
+ },
852
  {
853
  "epoch": 1.0,
854
+ "step": 60000,
855
+ "total_flos": 6.731455156851671e+17,
856
+ "train_loss": 0.2601620175679525,
857
+ "train_runtime": 10691.1388,
858
+ "train_samples_per_second": 5.612,
859
+ "train_steps_per_second": 5.612
860
  }
861
  ],
862
  "logging_steps": 500,
863
+ "max_steps": 60000,
864
  "num_input_tokens_seen": 0,
865
  "num_train_epochs": 1,
866
+ "save_steps": 10000,
867
  "stateful_callbacks": {
868
  "TrainerControl": {
869
  "args": {
 
876
  "attributes": {}
877
  }
878
  },
879
+ "total_flos": 6.731455156851671e+17,
880
  "train_batch_size": 1,
881
  "trial_name": null,
882
  "trial_params": null