robertou2 commited on
Commit
c63b8af
·
verified ·
1 Parent(s): 59eabb4

Upload folder using huggingface_hub

Browse files
adapter_config.json CHANGED
@@ -24,9 +24,9 @@
24
  "revision": null,
25
  "target_modules": [
26
  "gate_up_proj",
27
- "o_proj",
28
  "qkv_proj",
29
- "down_proj"
 
30
  ],
31
  "task_type": "CAUSAL_LM",
32
  "use_dora": false,
 
24
  "revision": null,
25
  "target_modules": [
26
  "gate_up_proj",
 
27
  "qkv_proj",
28
+ "down_proj",
29
+ "o_proj"
30
  ],
31
  "task_type": "CAUSAL_LM",
32
  "use_dora": false,
adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:20829c27cea9ade600e7d67eace4ad662ac5dc29b2ab68a427efc8253fc8914a
3
  size 184584072
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:378f8c38bcf12f87f8847d23731af2991c592bdae2d26ced247af7178fd27265
3
  size 184584072
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:47c0f8b3065227e137c4ecafb87c4a43026fe8182e7ce2f6bf55d8227e490146
3
  size 369315019
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1fd80ea678ab790a886af1b74bedb36f04b6ae3df559d9ae69f59dc7343c1bcf
3
  size 369315019
rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:91e62442493ae4f2963ab198bb4e1be4db65ab5cdd6b158248d98219357cb2b0
3
  size 14645
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5bba62abab919d97e86e665bcc2b30cdef0058dbbf59538563dd656f3b9d42e6
3
  size 14645
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:cf3e8864cf11c1e3212d4cb52536b4687c3caab65537f7014a32855cae5a3940
3
  size 1465
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cd5c6c97d40727b5ce95e0b935d6d973c3b68a39460f9423ef7a3bc12f3b4643
3
  size 1465
trainer_state.json CHANGED
@@ -1,215 +1,530 @@
1
  {
2
- "best_global_step": 130,
3
- "best_metric": 0.1684131920337677,
4
- "best_model_checkpoint": "/content/drive/MyDrive/lora_model/outputs/task15_microsoft/Phi-4-mini-instruct/checkpoint-130",
5
- "epoch": 8.666666666666666,
6
- "eval_steps": 10,
7
- "global_step": 130,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
11
  "log_history": [
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
12
  {
13
  "epoch": 0.6666666666666666,
14
- "grad_norm": 1.5295363664627075,
15
  "learning_rate": 0.0003,
16
- "loss": 2.4,
17
  "step": 10
18
  },
19
  {
20
  "epoch": 0.6666666666666666,
21
- "eval_loss": 1.353452205657959,
22
- "eval_runtime": 3.3543,
23
- "eval_samples_per_second": 8.944,
24
- "eval_steps_per_second": 1.193,
25
  "step": 10
26
  },
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
27
  {
28
  "epoch": 1.3333333333333333,
29
- "grad_norm": 0.7810578942298889,
30
- "learning_rate": 0.0004996426526821629,
31
- "loss": 1.2025,
32
  "step": 20
33
  },
34
  {
35
  "epoch": 1.3333333333333333,
36
- "eval_loss": 0.9946791529655457,
37
- "eval_runtime": 3.3228,
38
- "eval_samples_per_second": 9.029,
39
- "eval_steps_per_second": 1.204,
40
  "step": 20
41
  },
42
  {
43
- "epoch": 2.0,
44
- "grad_norm": 0.5440315008163452,
45
- "learning_rate": 0.000495634218306187,
46
- "loss": 0.9945,
47
- "step": 30
48
  },
49
  {
50
- "epoch": 2.0,
51
- "eval_loss": 0.8515964150428772,
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
52
  "eval_runtime": 3.3263,
53
  "eval_samples_per_second": 9.019,
54
  "eval_steps_per_second": 1.203,
55
- "step": 30
56
  },
57
  {
58
- "epoch": 2.6666666666666665,
59
- "grad_norm": 0.5279410481452942,
60
- "learning_rate": 0.0004872424354853545,
61
- "loss": 0.8446,
62
- "step": 40
63
  },
64
  {
65
- "epoch": 2.6666666666666665,
66
- "eval_loss": 0.7633591294288635,
67
- "eval_runtime": 3.3193,
68
- "eval_samples_per_second": 9.038,
69
- "eval_steps_per_second": 1.205,
70
- "step": 40
71
  },
72
  {
73
- "epoch": 3.3333333333333335,
74
- "grad_norm": 0.5168067216873169,
75
- "learning_rate": 0.00047461705578290833,
76
- "loss": 0.7736,
77
- "step": 50
78
  },
79
  {
80
- "epoch": 3.3333333333333335,
81
- "eval_loss": 0.7138542532920837,
82
- "eval_runtime": 3.323,
83
- "eval_samples_per_second": 9.028,
84
- "eval_steps_per_second": 1.204,
85
- "step": 50
86
  },
87
  {
88
- "epoch": 4.0,
89
- "grad_norm": 0.7872751355171204,
90
- "learning_rate": 0.00045798337939873923,
91
- "loss": 0.7278,
92
- "step": 60
93
  },
94
  {
95
- "epoch": 4.0,
96
- "eval_loss": 0.6532948613166809,
97
- "eval_runtime": 3.3243,
98
- "eval_samples_per_second": 9.025,
99
- "eval_steps_per_second": 1.203,
100
- "step": 60
101
  },
102
  {
103
- "epoch": 4.666666666666667,
104
- "grad_norm": 0.6013125777244568,
105
- "learning_rate": 0.0004376382346819819,
106
- "loss": 0.6218,
107
- "step": 70
108
  },
109
  {
110
- "epoch": 4.666666666666667,
111
- "eval_loss": 0.5778663754463196,
112
- "eval_runtime": 3.3224,
113
- "eval_samples_per_second": 9.03,
114
- "eval_steps_per_second": 1.204,
115
- "step": 70
116
  },
117
  {
118
- "epoch": 5.333333333333333,
119
- "grad_norm": 0.8375428318977356,
120
- "learning_rate": 0.0004139446812220924,
121
- "loss": 0.5911,
122
- "step": 80
123
  },
124
  {
125
- "epoch": 5.333333333333333,
126
- "eval_loss": 0.5221918821334839,
127
- "eval_runtime": 3.3157,
128
- "eval_samples_per_second": 9.048,
129
- "eval_steps_per_second": 1.206,
130
- "step": 80
131
  },
132
  {
133
- "epoch": 6.0,
134
- "grad_norm": 0.6470755338668823,
135
- "learning_rate": 0.00038732553104187296,
136
- "loss": 0.5396,
137
- "step": 90
138
  },
139
  {
140
- "epoch": 6.0,
141
- "eval_loss": 0.4369663596153259,
142
- "eval_runtime": 3.3204,
143
- "eval_samples_per_second": 9.035,
144
- "eval_steps_per_second": 1.205,
145
- "step": 90
146
  },
147
  {
148
- "epoch": 6.666666666666667,
149
- "grad_norm": 0.6668552160263062,
150
- "learning_rate": 0.0003582558035069091,
151
- "loss": 0.4122,
152
- "step": 100
153
  },
154
  {
155
- "epoch": 6.666666666666667,
156
- "eval_loss": 0.36959701776504517,
157
- "eval_runtime": 3.3232,
158
- "eval_samples_per_second": 9.027,
159
- "eval_steps_per_second": 1.204,
160
- "step": 100
161
  },
162
  {
163
- "epoch": 7.333333333333333,
164
- "grad_norm": 0.8205651640892029,
165
- "learning_rate": 0.00032725424859373687,
166
- "loss": 0.368,
167
- "step": 110
168
  },
169
  {
170
- "epoch": 7.333333333333333,
171
- "eval_loss": 0.2977062463760376,
172
- "eval_runtime": 3.3255,
173
  "eval_samples_per_second": 9.021,
174
  "eval_steps_per_second": 1.203,
175
- "step": 110
176
  },
177
  {
178
- "epoch": 8.0,
179
- "grad_norm": 0.720084011554718,
180
- "learning_rate": 0.0002948740897842223,
181
- "loss": 0.3168,
182
- "step": 120
183
  },
184
  {
185
- "epoch": 8.0,
186
- "eval_loss": 0.24701668322086334,
187
- "eval_runtime": 3.3235,
188
- "eval_samples_per_second": 9.027,
189
- "eval_steps_per_second": 1.204,
190
- "step": 120
191
  },
192
  {
193
- "epoch": 8.666666666666666,
194
- "grad_norm": 0.8023689985275269,
195
- "learning_rate": 0.00026169315177942135,
196
- "loss": 0.2253,
197
- "step": 130
198
  },
199
  {
200
- "epoch": 8.666666666666666,
201
- "eval_loss": 0.1684131920337677,
202
- "eval_runtime": 3.3085,
203
- "eval_samples_per_second": 9.067,
204
- "eval_steps_per_second": 1.209,
205
- "step": 130
206
  }
207
  ],
208
- "logging_steps": 10,
209
- "max_steps": 250,
210
  "num_input_tokens_seen": 0,
211
- "num_train_epochs": 17,
212
- "save_steps": 10,
213
  "stateful_callbacks": {
214
  "TrainerControl": {
215
  "args": {
@@ -222,7 +537,7 @@
222
  "attributes": {}
223
  }
224
  },
225
- "total_flos": 5282060520658944.0,
226
  "train_batch_size": 1,
227
  "trial_name": null,
228
  "trial_params": null
 
1
  {
2
+ "best_global_step": 34,
3
+ "best_metric": 0.8157733678817749,
4
+ "best_model_checkpoint": "/content/drive/MyDrive/lora_model/outputs/task15_microsoft/Phi-4-mini-instruct/checkpoint-34",
5
+ "epoch": 2.2666666666666666,
6
+ "eval_steps": 1,
7
+ "global_step": 34,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
11
  "log_history": [
12
+ {
13
+ "epoch": 0.06666666666666667,
14
+ "grad_norm": 1.6772907972335815,
15
+ "learning_rate": 0.0,
16
+ "loss": 3.0786,
17
+ "step": 1
18
+ },
19
+ {
20
+ "epoch": 0.06666666666666667,
21
+ "eval_loss": 3.15524959564209,
22
+ "eval_runtime": 3.3465,
23
+ "eval_samples_per_second": 8.965,
24
+ "eval_steps_per_second": 1.195,
25
+ "step": 1
26
+ },
27
+ {
28
+ "epoch": 0.13333333333333333,
29
+ "grad_norm": 1.7768125534057617,
30
+ "learning_rate": 3.3333333333333335e-05,
31
+ "loss": 3.0737,
32
+ "step": 2
33
+ },
34
+ {
35
+ "epoch": 0.13333333333333333,
36
+ "eval_loss": 3.0767996311187744,
37
+ "eval_runtime": 3.3543,
38
+ "eval_samples_per_second": 8.944,
39
+ "eval_steps_per_second": 1.192,
40
+ "step": 2
41
+ },
42
+ {
43
+ "epoch": 0.2,
44
+ "grad_norm": 1.5412702560424805,
45
+ "learning_rate": 6.666666666666667e-05,
46
+ "loss": 2.9943,
47
+ "step": 3
48
+ },
49
+ {
50
+ "epoch": 0.2,
51
+ "eval_loss": 2.8993334770202637,
52
+ "eval_runtime": 3.3523,
53
+ "eval_samples_per_second": 8.949,
54
+ "eval_steps_per_second": 1.193,
55
+ "step": 3
56
+ },
57
+ {
58
+ "epoch": 0.26666666666666666,
59
+ "grad_norm": 1.4991670846939087,
60
+ "learning_rate": 0.0001,
61
+ "loss": 2.8684,
62
+ "step": 4
63
+ },
64
+ {
65
+ "epoch": 0.26666666666666666,
66
+ "eval_loss": 2.637805461883545,
67
+ "eval_runtime": 3.3436,
68
+ "eval_samples_per_second": 8.972,
69
+ "eval_steps_per_second": 1.196,
70
+ "step": 4
71
+ },
72
+ {
73
+ "epoch": 0.3333333333333333,
74
+ "grad_norm": 1.240314245223999,
75
+ "learning_rate": 0.00013333333333333334,
76
+ "loss": 2.5164,
77
+ "step": 5
78
+ },
79
+ {
80
+ "epoch": 0.3333333333333333,
81
+ "eval_loss": 2.359757423400879,
82
+ "eval_runtime": 3.3265,
83
+ "eval_samples_per_second": 9.018,
84
+ "eval_steps_per_second": 1.202,
85
+ "step": 5
86
+ },
87
+ {
88
+ "epoch": 0.4,
89
+ "grad_norm": 1.1895383596420288,
90
+ "learning_rate": 0.00016666666666666666,
91
+ "loss": 2.314,
92
+ "step": 6
93
+ },
94
+ {
95
+ "epoch": 0.4,
96
+ "eval_loss": 2.1061525344848633,
97
+ "eval_runtime": 3.317,
98
+ "eval_samples_per_second": 9.044,
99
+ "eval_steps_per_second": 1.206,
100
+ "step": 6
101
+ },
102
+ {
103
+ "epoch": 0.4666666666666667,
104
+ "grad_norm": 1.2350431680679321,
105
+ "learning_rate": 0.0002,
106
+ "loss": 2.0978,
107
+ "step": 7
108
+ },
109
+ {
110
+ "epoch": 0.4666666666666667,
111
+ "eval_loss": 1.862547755241394,
112
+ "eval_runtime": 3.3088,
113
+ "eval_samples_per_second": 9.067,
114
+ "eval_steps_per_second": 1.209,
115
+ "step": 7
116
+ },
117
+ {
118
+ "epoch": 0.5333333333333333,
119
+ "grad_norm": 1.6615718603134155,
120
+ "learning_rate": 0.00023333333333333333,
121
+ "loss": 1.8403,
122
+ "step": 8
123
+ },
124
+ {
125
+ "epoch": 0.5333333333333333,
126
+ "eval_loss": 1.627223253250122,
127
+ "eval_runtime": 3.3091,
128
+ "eval_samples_per_second": 9.066,
129
+ "eval_steps_per_second": 1.209,
130
+ "step": 8
131
+ },
132
+ {
133
+ "epoch": 0.6,
134
+ "grad_norm": 1.5987708568572998,
135
+ "learning_rate": 0.0002666666666666667,
136
+ "loss": 1.6561,
137
+ "step": 9
138
+ },
139
+ {
140
+ "epoch": 0.6,
141
+ "eval_loss": 1.463124394416809,
142
+ "eval_runtime": 3.3213,
143
+ "eval_samples_per_second": 9.033,
144
+ "eval_steps_per_second": 1.204,
145
+ "step": 9
146
+ },
147
  {
148
  "epoch": 0.6666666666666666,
149
+ "grad_norm": 1.553259015083313,
150
  "learning_rate": 0.0003,
151
+ "loss": 1.532,
152
  "step": 10
153
  },
154
  {
155
  "epoch": 0.6666666666666666,
156
+ "eval_loss": 1.3557301759719849,
157
+ "eval_runtime": 3.3346,
158
+ "eval_samples_per_second": 8.996,
159
+ "eval_steps_per_second": 1.2,
160
  "step": 10
161
  },
162
+ {
163
+ "epoch": 0.7333333333333333,
164
+ "grad_norm": 1.5410878658294678,
165
+ "learning_rate": 0.0003333333333333333,
166
+ "loss": 1.3789,
167
+ "step": 11
168
+ },
169
+ {
170
+ "epoch": 0.7333333333333333,
171
+ "eval_loss": 1.284977674484253,
172
+ "eval_runtime": 3.3397,
173
+ "eval_samples_per_second": 8.983,
174
+ "eval_steps_per_second": 1.198,
175
+ "step": 11
176
+ },
177
+ {
178
+ "epoch": 0.8,
179
+ "grad_norm": 1.5387530326843262,
180
+ "learning_rate": 0.00036666666666666667,
181
+ "loss": 1.3658,
182
+ "step": 12
183
+ },
184
+ {
185
+ "epoch": 0.8,
186
+ "eval_loss": 1.2496088743209839,
187
+ "eval_runtime": 3.3461,
188
+ "eval_samples_per_second": 8.966,
189
+ "eval_steps_per_second": 1.195,
190
+ "step": 12
191
+ },
192
+ {
193
+ "epoch": 0.8666666666666667,
194
+ "grad_norm": 1.2438753843307495,
195
+ "learning_rate": 0.0004,
196
+ "loss": 1.3617,
197
+ "step": 13
198
+ },
199
+ {
200
+ "epoch": 0.8666666666666667,
201
+ "eval_loss": 1.1902137994766235,
202
+ "eval_runtime": 3.3367,
203
+ "eval_samples_per_second": 8.991,
204
+ "eval_steps_per_second": 1.199,
205
+ "step": 13
206
+ },
207
+ {
208
+ "epoch": 0.9333333333333333,
209
+ "grad_norm": 0.8875225186347961,
210
+ "learning_rate": 0.00043333333333333337,
211
+ "loss": 1.1692,
212
+ "step": 14
213
+ },
214
+ {
215
+ "epoch": 0.9333333333333333,
216
+ "eval_loss": 1.129626989364624,
217
+ "eval_runtime": 3.3354,
218
+ "eval_samples_per_second": 8.994,
219
+ "eval_steps_per_second": 1.199,
220
+ "step": 14
221
+ },
222
+ {
223
+ "epoch": 1.0,
224
+ "grad_norm": 0.9996999502182007,
225
+ "learning_rate": 0.00046666666666666666,
226
+ "loss": 1.3193,
227
+ "step": 15
228
+ },
229
+ {
230
+ "epoch": 1.0,
231
+ "eval_loss": 1.0915361642837524,
232
+ "eval_runtime": 3.3299,
233
+ "eval_samples_per_second": 9.009,
234
+ "eval_steps_per_second": 1.201,
235
+ "step": 15
236
+ },
237
+ {
238
+ "epoch": 1.0666666666666667,
239
+ "grad_norm": 0.8160541653633118,
240
+ "learning_rate": 0.0005,
241
+ "loss": 1.0422,
242
+ "step": 16
243
+ },
244
+ {
245
+ "epoch": 1.0666666666666667,
246
+ "eval_loss": 1.0750960111618042,
247
+ "eval_runtime": 3.3294,
248
+ "eval_samples_per_second": 9.011,
249
+ "eval_steps_per_second": 1.201,
250
+ "step": 16
251
+ },
252
+ {
253
+ "epoch": 1.1333333333333333,
254
+ "grad_norm": 0.8319222927093506,
255
+ "learning_rate": 0.0004993910125649561,
256
+ "loss": 1.1637,
257
+ "step": 17
258
+ },
259
+ {
260
+ "epoch": 1.1333333333333333,
261
+ "eval_loss": 1.0480690002441406,
262
+ "eval_runtime": 3.3231,
263
+ "eval_samples_per_second": 9.028,
264
+ "eval_steps_per_second": 1.204,
265
+ "step": 17
266
+ },
267
+ {
268
+ "epoch": 1.2,
269
+ "grad_norm": 0.7125590443611145,
270
+ "learning_rate": 0.0004975670171853926,
271
+ "loss": 1.0326,
272
+ "step": 18
273
+ },
274
+ {
275
+ "epoch": 1.2,
276
+ "eval_loss": 1.0194019079208374,
277
+ "eval_runtime": 3.3294,
278
+ "eval_samples_per_second": 9.011,
279
+ "eval_steps_per_second": 1.201,
280
+ "step": 18
281
+ },
282
+ {
283
+ "epoch": 1.2666666666666666,
284
+ "grad_norm": 0.8782016038894653,
285
+ "learning_rate": 0.0004945369001834514,
286
+ "loss": 1.018,
287
+ "step": 19
288
+ },
289
+ {
290
+ "epoch": 1.2666666666666666,
291
+ "eval_loss": 1.0099557638168335,
292
+ "eval_runtime": 3.3268,
293
+ "eval_samples_per_second": 9.018,
294
+ "eval_steps_per_second": 1.202,
295
+ "step": 19
296
+ },
297
  {
298
  "epoch": 1.3333333333333333,
299
+ "grad_norm": 0.6835053563117981,
300
+ "learning_rate": 0.0004903154239845797,
301
+ "loss": 1.141,
302
  "step": 20
303
  },
304
  {
305
  "epoch": 1.3333333333333333,
306
+ "eval_loss": 1.0006548166275024,
307
+ "eval_runtime": 3.3331,
308
+ "eval_samples_per_second": 9.001,
309
+ "eval_steps_per_second": 1.2,
310
  "step": 20
311
  },
312
  {
313
+ "epoch": 1.4,
314
+ "grad_norm": 0.8351470232009888,
315
+ "learning_rate": 0.0004849231551964771,
316
+ "loss": 1.1354,
317
+ "step": 21
318
  },
319
  {
320
+ "epoch": 1.4,
321
+ "eval_loss": 0.9695132374763489,
322
+ "eval_runtime": 3.3403,
323
+ "eval_samples_per_second": 8.981,
324
+ "eval_steps_per_second": 1.197,
325
+ "step": 21
326
+ },
327
+ {
328
+ "epoch": 1.4666666666666668,
329
+ "grad_norm": 0.5992692708969116,
330
+ "learning_rate": 0.0004783863644106502,
331
+ "loss": 0.9994,
332
+ "step": 22
333
+ },
334
+ {
335
+ "epoch": 1.4666666666666668,
336
+ "eval_loss": 0.9532836675643921,
337
+ "eval_runtime": 3.34,
338
+ "eval_samples_per_second": 8.982,
339
+ "eval_steps_per_second": 1.198,
340
+ "step": 22
341
+ },
342
+ {
343
+ "epoch": 1.5333333333333332,
344
+ "grad_norm": 0.6349149346351624,
345
+ "learning_rate": 0.00047073689821473173,
346
+ "loss": 1.0141,
347
+ "step": 23
348
+ },
349
+ {
350
+ "epoch": 1.5333333333333332,
351
+ "eval_loss": 0.9443845152854919,
352
+ "eval_runtime": 3.3307,
353
+ "eval_samples_per_second": 9.007,
354
+ "eval_steps_per_second": 1.201,
355
+ "step": 23
356
+ },
357
+ {
358
+ "epoch": 1.6,
359
+ "grad_norm": 0.6412695646286011,
360
+ "learning_rate": 0.00046201202403910646,
361
+ "loss": 0.9325,
362
+ "step": 24
363
+ },
364
+ {
365
+ "epoch": 1.6,
366
+ "eval_loss": 0.9353991150856018,
367
  "eval_runtime": 3.3263,
368
  "eval_samples_per_second": 9.019,
369
  "eval_steps_per_second": 1.203,
370
+ "step": 24
371
  },
372
  {
373
+ "epoch": 1.6666666666666665,
374
+ "grad_norm": 0.6291660070419312,
375
+ "learning_rate": 0.0004522542485937369,
376
+ "loss": 0.9628,
377
+ "step": 25
378
  },
379
  {
380
+ "epoch": 1.6666666666666665,
381
+ "eval_loss": 0.9189165830612183,
382
+ "eval_runtime": 3.3278,
383
+ "eval_samples_per_second": 9.015,
384
+ "eval_steps_per_second": 1.202,
385
+ "step": 25
386
  },
387
  {
388
+ "epoch": 1.7333333333333334,
389
+ "grad_norm": 0.6544055342674255,
390
+ "learning_rate": 0.0004415111107797445,
391
+ "loss": 0.9646,
392
+ "step": 26
393
  },
394
  {
395
+ "epoch": 1.7333333333333334,
396
+ "eval_loss": 0.9056078195571899,
397
+ "eval_runtime": 3.3284,
398
+ "eval_samples_per_second": 9.013,
399
+ "eval_steps_per_second": 1.202,
400
+ "step": 26
401
  },
402
  {
403
+ "epoch": 1.8,
404
+ "grad_norm": 0.6583496928215027,
405
+ "learning_rate": 0.0004298349500846628,
406
+ "loss": 1.0333,
407
+ "step": 27
408
  },
409
  {
410
+ "epoch": 1.8,
411
+ "eval_loss": 0.8940725922584534,
412
+ "eval_runtime": 3.3318,
413
+ "eval_samples_per_second": 9.004,
414
+ "eval_steps_per_second": 1.201,
415
+ "step": 27
416
  },
417
  {
418
+ "epoch": 1.8666666666666667,
419
+ "grad_norm": 0.623849093914032,
420
+ "learning_rate": 0.0004172826515897146,
421
+ "loss": 1.0129,
422
+ "step": 28
423
  },
424
  {
425
+ "epoch": 1.8666666666666667,
426
+ "eval_loss": 0.8719626665115356,
427
+ "eval_runtime": 3.3349,
428
+ "eval_samples_per_second": 8.996,
429
+ "eval_steps_per_second": 1.199,
430
+ "step": 28
431
  },
432
  {
433
+ "epoch": 1.9333333333333333,
434
+ "grad_norm": 0.6031587719917297,
435
+ "learning_rate": 0.00040391536883141455,
436
+ "loss": 0.9091,
437
+ "step": 29
438
  },
439
  {
440
+ "epoch": 1.9333333333333333,
441
+ "eval_loss": 0.8551884889602661,
442
+ "eval_runtime": 3.3315,
443
+ "eval_samples_per_second": 9.005,
444
+ "eval_steps_per_second": 1.201,
445
+ "step": 29
446
  },
447
  {
448
+ "epoch": 2.0,
449
+ "grad_norm": 0.55727219581604,
450
+ "learning_rate": 0.0003897982258676867,
451
+ "loss": 0.9028,
452
+ "step": 30
453
  },
454
  {
455
+ "epoch": 2.0,
456
+ "eval_loss": 0.8516466617584229,
457
+ "eval_runtime": 3.329,
458
+ "eval_samples_per_second": 9.012,
459
+ "eval_steps_per_second": 1.202,
460
+ "step": 30
461
  },
462
  {
463
+ "epoch": 2.066666666666667,
464
+ "grad_norm": 0.7247292399406433,
465
+ "learning_rate": 0.000375,
466
+ "loss": 0.8681,
467
+ "step": 31
468
  },
469
  {
470
+ "epoch": 2.066666666666667,
471
+ "eval_loss": 0.8430901765823364,
472
+ "eval_runtime": 3.3279,
473
+ "eval_samples_per_second": 9.015,
474
+ "eval_steps_per_second": 1.202,
475
+ "step": 31
476
  },
477
  {
478
+ "epoch": 2.1333333333333333,
479
+ "grad_norm": 0.5927403569221497,
480
+ "learning_rate": 0.00035959278669726934,
481
+ "loss": 0.8846,
482
+ "step": 32
483
  },
484
  {
485
+ "epoch": 2.1333333333333333,
486
+ "eval_loss": 0.8356520533561707,
487
+ "eval_runtime": 3.3256,
488
  "eval_samples_per_second": 9.021,
489
  "eval_steps_per_second": 1.203,
490
+ "step": 32
491
  },
492
  {
493
+ "epoch": 2.2,
494
+ "grad_norm": 0.4770275950431824,
495
+ "learning_rate": 0.00034365164835397803,
496
+ "loss": 0.8181,
497
+ "step": 33
498
  },
499
  {
500
+ "epoch": 2.2,
501
+ "eval_loss": 0.8293011784553528,
502
+ "eval_runtime": 3.3314,
503
+ "eval_samples_per_second": 9.005,
504
+ "eval_steps_per_second": 1.201,
505
+ "step": 33
506
  },
507
  {
508
+ "epoch": 2.2666666666666666,
509
+ "grad_norm": 0.5398544073104858,
510
+ "learning_rate": 0.00032725424859373687,
511
+ "loss": 0.8316,
512
+ "step": 34
513
  },
514
  {
515
+ "epoch": 2.2666666666666666,
516
+ "eval_loss": 0.8157733678817749,
517
+ "eval_runtime": 3.3286,
518
+ "eval_samples_per_second": 9.013,
519
+ "eval_steps_per_second": 1.202,
520
+ "step": 34
521
  }
522
  ],
523
+ "logging_steps": 1,
524
+ "max_steps": 60,
525
  "num_input_tokens_seen": 0,
526
+ "num_train_epochs": 4,
527
+ "save_steps": 1,
528
  "stateful_callbacks": {
529
  "TrainerControl": {
530
  "args": {
 
537
  "attributes": {}
538
  }
539
  },
540
+ "total_flos": 1386766593552384.0,
541
  "train_batch_size": 1,
542
  "trial_name": null,
543
  "trial_params": null
training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f40df5ef3fda308412aedd4524b1fd39045d8e1f502806c33ac0c08305a45b46
3
  size 6033
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:35a31c5738d1e04a631eaba235b32a635a2d813fe2fdb0a67056063042a474b2
3
  size 6033