Ba2han commited on
Commit
58c4200
·
verified ·
1 Parent(s): 0cd62ec

Training in progress, step 1800, checkpoint

Browse files
last-checkpoint/model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7f67f1d5804901140d352d282be0f0bca9ac41b6a7668806a8f974edc493ccf9
3
  size 1229999800
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:54932d33ebcf25bfd3c895c34573324d8adbafd1f70c81b5a2545943b888b88d
3
  size 1229999800
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:eaf3c70caa256bded11cf0e17d2077b8dd2c2d0854f4b005c4585450add4750e
3
  size 490531915
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7a4e17e5d1f66bc9871b4e88176179cee4d65f598036901d05a6524ec93c2542
3
  size 490531915
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7722de3b342eecdb556c5c38e51203370dcaa2a8eac57d40ddc596ba15f16a3c
3
  size 1465
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2769ffe98e907a39e5a96dab75149dc1fea62d048c5ad6016b2e3232bd23df8e
3
  size 1465
last-checkpoint/trainer_state.json CHANGED
@@ -2,9 +2,9 @@
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
- "epoch": 0.03,
6
  "eval_steps": 3000,
7
- "global_step": 900,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
@@ -3158,6 +3158,3156 @@
3158
  "learning_rate": 0.024,
3159
  "loss": 2.820086717605591,
3160
  "step": 900
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3161
  }
3162
  ],
3163
  "logging_steps": 2,
@@ -3177,7 +6327,7 @@
3177
  "attributes": {}
3178
  }
3179
  },
3180
- "total_flos": 3.1703914975099617e+18,
3181
  "train_batch_size": 4,
3182
  "trial_name": null,
3183
  "trial_params": null
 
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
+ "epoch": 0.06,
6
  "eval_steps": 3000,
7
+ "global_step": 1800,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
 
3158
  "learning_rate": 0.024,
3159
  "loss": 2.820086717605591,
3160
  "step": 900
3161
+ },
3162
+ {
3163
+ "epoch": 0.030066666666666665,
3164
+ "grad_norm": 0.10986328125,
3165
+ "learning_rate": 0.024,
3166
+ "loss": 2.84414005279541,
3167
+ "step": 902
3168
+ },
3169
+ {
3170
+ "epoch": 0.030133333333333335,
3171
+ "grad_norm": 0.1015625,
3172
+ "learning_rate": 0.024,
3173
+ "loss": 2.8201422691345215,
3174
+ "step": 904
3175
+ },
3176
+ {
3177
+ "epoch": 0.0302,
3178
+ "grad_norm": 0.09326171875,
3179
+ "learning_rate": 0.024,
3180
+ "loss": 2.796955108642578,
3181
+ "step": 906
3182
+ },
3183
+ {
3184
+ "epoch": 0.030266666666666667,
3185
+ "grad_norm": 0.09375,
3186
+ "learning_rate": 0.024,
3187
+ "loss": 2.825699806213379,
3188
+ "step": 908
3189
+ },
3190
+ {
3191
+ "epoch": 0.030333333333333334,
3192
+ "grad_norm": 0.099609375,
3193
+ "learning_rate": 0.024,
3194
+ "loss": 2.8145434856414795,
3195
+ "step": 910
3196
+ },
3197
+ {
3198
+ "epoch": 0.0304,
3199
+ "grad_norm": 0.09814453125,
3200
+ "learning_rate": 0.024,
3201
+ "loss": 2.803483009338379,
3202
+ "step": 912
3203
+ },
3204
+ {
3205
+ "epoch": 0.030466666666666666,
3206
+ "grad_norm": 0.10205078125,
3207
+ "learning_rate": 0.024,
3208
+ "loss": 2.806793212890625,
3209
+ "step": 914
3210
+ },
3211
+ {
3212
+ "epoch": 0.030533333333333332,
3213
+ "grad_norm": 0.0966796875,
3214
+ "learning_rate": 0.024,
3215
+ "loss": 2.827284336090088,
3216
+ "step": 916
3217
+ },
3218
+ {
3219
+ "epoch": 0.0306,
3220
+ "grad_norm": 0.10400390625,
3221
+ "learning_rate": 0.024,
3222
+ "loss": 2.837221145629883,
3223
+ "step": 918
3224
+ },
3225
+ {
3226
+ "epoch": 0.030666666666666665,
3227
+ "grad_norm": 0.10498046875,
3228
+ "learning_rate": 0.024,
3229
+ "loss": 2.818112373352051,
3230
+ "step": 920
3231
+ },
3232
+ {
3233
+ "epoch": 0.030733333333333335,
3234
+ "grad_norm": 0.10009765625,
3235
+ "learning_rate": 0.024,
3236
+ "loss": 2.833923101425171,
3237
+ "step": 922
3238
+ },
3239
+ {
3240
+ "epoch": 0.0308,
3241
+ "grad_norm": 0.10986328125,
3242
+ "learning_rate": 0.024,
3243
+ "loss": 2.8147058486938477,
3244
+ "step": 924
3245
+ },
3246
+ {
3247
+ "epoch": 0.030866666666666667,
3248
+ "grad_norm": 0.1005859375,
3249
+ "learning_rate": 0.024,
3250
+ "loss": 2.812473773956299,
3251
+ "step": 926
3252
+ },
3253
+ {
3254
+ "epoch": 0.030933333333333334,
3255
+ "grad_norm": 0.099609375,
3256
+ "learning_rate": 0.024,
3257
+ "loss": 2.827530860900879,
3258
+ "step": 928
3259
+ },
3260
+ {
3261
+ "epoch": 0.031,
3262
+ "grad_norm": 0.1005859375,
3263
+ "learning_rate": 0.024,
3264
+ "loss": 2.830960750579834,
3265
+ "step": 930
3266
+ },
3267
+ {
3268
+ "epoch": 0.031066666666666666,
3269
+ "grad_norm": 0.0986328125,
3270
+ "learning_rate": 0.024,
3271
+ "loss": 2.8511834144592285,
3272
+ "step": 932
3273
+ },
3274
+ {
3275
+ "epoch": 0.031133333333333332,
3276
+ "grad_norm": 0.10009765625,
3277
+ "learning_rate": 0.024,
3278
+ "loss": 2.7979626655578613,
3279
+ "step": 934
3280
+ },
3281
+ {
3282
+ "epoch": 0.0312,
3283
+ "grad_norm": 0.107421875,
3284
+ "learning_rate": 0.024,
3285
+ "loss": 2.794445514678955,
3286
+ "step": 936
3287
+ },
3288
+ {
3289
+ "epoch": 0.031266666666666665,
3290
+ "grad_norm": 0.1015625,
3291
+ "learning_rate": 0.024,
3292
+ "loss": 2.8270511627197266,
3293
+ "step": 938
3294
+ },
3295
+ {
3296
+ "epoch": 0.03133333333333333,
3297
+ "grad_norm": 0.09765625,
3298
+ "learning_rate": 0.024,
3299
+ "loss": 2.7908849716186523,
3300
+ "step": 940
3301
+ },
3302
+ {
3303
+ "epoch": 0.0314,
3304
+ "grad_norm": 0.0908203125,
3305
+ "learning_rate": 0.024,
3306
+ "loss": 2.778679132461548,
3307
+ "step": 942
3308
+ },
3309
+ {
3310
+ "epoch": 0.031466666666666664,
3311
+ "grad_norm": 0.09033203125,
3312
+ "learning_rate": 0.024,
3313
+ "loss": 2.811432123184204,
3314
+ "step": 944
3315
+ },
3316
+ {
3317
+ "epoch": 0.03153333333333333,
3318
+ "grad_norm": 0.10302734375,
3319
+ "learning_rate": 0.024,
3320
+ "loss": 2.7870240211486816,
3321
+ "step": 946
3322
+ },
3323
+ {
3324
+ "epoch": 0.0316,
3325
+ "grad_norm": 0.1005859375,
3326
+ "learning_rate": 0.024,
3327
+ "loss": 2.806516647338867,
3328
+ "step": 948
3329
+ },
3330
+ {
3331
+ "epoch": 0.03166666666666667,
3332
+ "grad_norm": 0.0966796875,
3333
+ "learning_rate": 0.024,
3334
+ "loss": 2.814612865447998,
3335
+ "step": 950
3336
+ },
3337
+ {
3338
+ "epoch": 0.031733333333333336,
3339
+ "grad_norm": 0.09716796875,
3340
+ "learning_rate": 0.024,
3341
+ "loss": 2.7879371643066406,
3342
+ "step": 952
3343
+ },
3344
+ {
3345
+ "epoch": 0.0318,
3346
+ "grad_norm": 0.10400390625,
3347
+ "learning_rate": 0.024,
3348
+ "loss": 2.7705628871917725,
3349
+ "step": 954
3350
+ },
3351
+ {
3352
+ "epoch": 0.03186666666666667,
3353
+ "grad_norm": 0.10546875,
3354
+ "learning_rate": 0.024,
3355
+ "loss": 2.7990033626556396,
3356
+ "step": 956
3357
+ },
3358
+ {
3359
+ "epoch": 0.031933333333333334,
3360
+ "grad_norm": 0.10498046875,
3361
+ "learning_rate": 0.024,
3362
+ "loss": 2.7812788486480713,
3363
+ "step": 958
3364
+ },
3365
+ {
3366
+ "epoch": 0.032,
3367
+ "grad_norm": 0.10986328125,
3368
+ "learning_rate": 0.024,
3369
+ "loss": 2.7882254123687744,
3370
+ "step": 960
3371
+ },
3372
+ {
3373
+ "epoch": 0.03206666666666667,
3374
+ "grad_norm": 0.109375,
3375
+ "learning_rate": 0.024,
3376
+ "loss": 2.8173794746398926,
3377
+ "step": 962
3378
+ },
3379
+ {
3380
+ "epoch": 0.03213333333333333,
3381
+ "grad_norm": 0.11083984375,
3382
+ "learning_rate": 0.024,
3383
+ "loss": 2.7977731227874756,
3384
+ "step": 964
3385
+ },
3386
+ {
3387
+ "epoch": 0.0322,
3388
+ "grad_norm": 0.103515625,
3389
+ "learning_rate": 0.024,
3390
+ "loss": 2.8002774715423584,
3391
+ "step": 966
3392
+ },
3393
+ {
3394
+ "epoch": 0.032266666666666666,
3395
+ "grad_norm": 0.107421875,
3396
+ "learning_rate": 0.024,
3397
+ "loss": 2.7926082611083984,
3398
+ "step": 968
3399
+ },
3400
+ {
3401
+ "epoch": 0.03233333333333333,
3402
+ "grad_norm": 0.1005859375,
3403
+ "learning_rate": 0.024,
3404
+ "loss": 2.7950429916381836,
3405
+ "step": 970
3406
+ },
3407
+ {
3408
+ "epoch": 0.0324,
3409
+ "grad_norm": 0.099609375,
3410
+ "learning_rate": 0.024,
3411
+ "loss": 2.781982660293579,
3412
+ "step": 972
3413
+ },
3414
+ {
3415
+ "epoch": 0.032466666666666665,
3416
+ "grad_norm": 0.10107421875,
3417
+ "learning_rate": 0.024,
3418
+ "loss": 2.785252571105957,
3419
+ "step": 974
3420
+ },
3421
+ {
3422
+ "epoch": 0.03253333333333333,
3423
+ "grad_norm": 0.11083984375,
3424
+ "learning_rate": 0.024,
3425
+ "loss": 2.8186941146850586,
3426
+ "step": 976
3427
+ },
3428
+ {
3429
+ "epoch": 0.0326,
3430
+ "grad_norm": 0.1083984375,
3431
+ "learning_rate": 0.024,
3432
+ "loss": 2.7857353687286377,
3433
+ "step": 978
3434
+ },
3435
+ {
3436
+ "epoch": 0.03266666666666666,
3437
+ "grad_norm": 0.107421875,
3438
+ "learning_rate": 0.024,
3439
+ "loss": 2.800039529800415,
3440
+ "step": 980
3441
+ },
3442
+ {
3443
+ "epoch": 0.032733333333333337,
3444
+ "grad_norm": 0.09912109375,
3445
+ "learning_rate": 0.024,
3446
+ "loss": 2.7896716594696045,
3447
+ "step": 982
3448
+ },
3449
+ {
3450
+ "epoch": 0.0328,
3451
+ "grad_norm": 0.09521484375,
3452
+ "learning_rate": 0.024,
3453
+ "loss": 2.7848663330078125,
3454
+ "step": 984
3455
+ },
3456
+ {
3457
+ "epoch": 0.03286666666666667,
3458
+ "grad_norm": 0.09521484375,
3459
+ "learning_rate": 0.024,
3460
+ "loss": 2.7969632148742676,
3461
+ "step": 986
3462
+ },
3463
+ {
3464
+ "epoch": 0.032933333333333335,
3465
+ "grad_norm": 0.095703125,
3466
+ "learning_rate": 0.024,
3467
+ "loss": 2.7575149536132812,
3468
+ "step": 988
3469
+ },
3470
+ {
3471
+ "epoch": 0.033,
3472
+ "grad_norm": 0.10009765625,
3473
+ "learning_rate": 0.024,
3474
+ "loss": 2.788754940032959,
3475
+ "step": 990
3476
+ },
3477
+ {
3478
+ "epoch": 0.03306666666666667,
3479
+ "grad_norm": 0.09765625,
3480
+ "learning_rate": 0.024,
3481
+ "loss": 2.774020195007324,
3482
+ "step": 992
3483
+ },
3484
+ {
3485
+ "epoch": 0.033133333333333334,
3486
+ "grad_norm": 0.0966796875,
3487
+ "learning_rate": 0.024,
3488
+ "loss": 2.7490806579589844,
3489
+ "step": 994
3490
+ },
3491
+ {
3492
+ "epoch": 0.0332,
3493
+ "grad_norm": 0.09912109375,
3494
+ "learning_rate": 0.024,
3495
+ "loss": 2.8142213821411133,
3496
+ "step": 996
3497
+ },
3498
+ {
3499
+ "epoch": 0.03326666666666667,
3500
+ "grad_norm": 0.10693359375,
3501
+ "learning_rate": 0.024,
3502
+ "loss": 2.761265993118286,
3503
+ "step": 998
3504
+ },
3505
+ {
3506
+ "epoch": 0.03333333333333333,
3507
+ "grad_norm": 0.10693359375,
3508
+ "learning_rate": 0.024,
3509
+ "loss": 2.790125608444214,
3510
+ "step": 1000
3511
+ },
3512
+ {
3513
+ "epoch": 0.0334,
3514
+ "grad_norm": 0.1083984375,
3515
+ "learning_rate": 0.024,
3516
+ "loss": 2.7964024543762207,
3517
+ "step": 1002
3518
+ },
3519
+ {
3520
+ "epoch": 0.033466666666666665,
3521
+ "grad_norm": 0.1103515625,
3522
+ "learning_rate": 0.024,
3523
+ "loss": 2.7643680572509766,
3524
+ "step": 1004
3525
+ },
3526
+ {
3527
+ "epoch": 0.03353333333333333,
3528
+ "grad_norm": 0.10498046875,
3529
+ "learning_rate": 0.024,
3530
+ "loss": 2.76426362991333,
3531
+ "step": 1006
3532
+ },
3533
+ {
3534
+ "epoch": 0.0336,
3535
+ "grad_norm": 0.10791015625,
3536
+ "learning_rate": 0.024,
3537
+ "loss": 2.7857377529144287,
3538
+ "step": 1008
3539
+ },
3540
+ {
3541
+ "epoch": 0.033666666666666664,
3542
+ "grad_norm": 0.10791015625,
3543
+ "learning_rate": 0.024,
3544
+ "loss": 2.762406587600708,
3545
+ "step": 1010
3546
+ },
3547
+ {
3548
+ "epoch": 0.03373333333333333,
3549
+ "grad_norm": 0.10546875,
3550
+ "learning_rate": 0.024,
3551
+ "loss": 2.7521817684173584,
3552
+ "step": 1012
3553
+ },
3554
+ {
3555
+ "epoch": 0.0338,
3556
+ "grad_norm": 0.1123046875,
3557
+ "learning_rate": 0.024,
3558
+ "loss": 2.7525124549865723,
3559
+ "step": 1014
3560
+ },
3561
+ {
3562
+ "epoch": 0.03386666666666667,
3563
+ "grad_norm": 0.1025390625,
3564
+ "learning_rate": 0.024,
3565
+ "loss": 2.7618415355682373,
3566
+ "step": 1016
3567
+ },
3568
+ {
3569
+ "epoch": 0.033933333333333336,
3570
+ "grad_norm": 0.0986328125,
3571
+ "learning_rate": 0.024,
3572
+ "loss": 2.778041362762451,
3573
+ "step": 1018
3574
+ },
3575
+ {
3576
+ "epoch": 0.034,
3577
+ "grad_norm": 0.10986328125,
3578
+ "learning_rate": 0.024,
3579
+ "loss": 2.7916247844696045,
3580
+ "step": 1020
3581
+ },
3582
+ {
3583
+ "epoch": 0.03406666666666667,
3584
+ "grad_norm": 0.10693359375,
3585
+ "learning_rate": 0.024,
3586
+ "loss": 2.7812814712524414,
3587
+ "step": 1022
3588
+ },
3589
+ {
3590
+ "epoch": 0.034133333333333335,
3591
+ "grad_norm": 0.1083984375,
3592
+ "learning_rate": 0.024,
3593
+ "loss": 2.7785401344299316,
3594
+ "step": 1024
3595
+ },
3596
+ {
3597
+ "epoch": 0.0342,
3598
+ "grad_norm": 0.11474609375,
3599
+ "learning_rate": 0.024,
3600
+ "loss": 2.733985185623169,
3601
+ "step": 1026
3602
+ },
3603
+ {
3604
+ "epoch": 0.03426666666666667,
3605
+ "grad_norm": 0.1083984375,
3606
+ "learning_rate": 0.024,
3607
+ "loss": 2.761526107788086,
3608
+ "step": 1028
3609
+ },
3610
+ {
3611
+ "epoch": 0.034333333333333334,
3612
+ "grad_norm": 0.107421875,
3613
+ "learning_rate": 0.024,
3614
+ "loss": 2.76570463180542,
3615
+ "step": 1030
3616
+ },
3617
+ {
3618
+ "epoch": 0.0344,
3619
+ "grad_norm": 0.11279296875,
3620
+ "learning_rate": 0.024,
3621
+ "loss": 2.7665481567382812,
3622
+ "step": 1032
3623
+ },
3624
+ {
3625
+ "epoch": 0.034466666666666666,
3626
+ "grad_norm": 0.1123046875,
3627
+ "learning_rate": 0.024,
3628
+ "loss": 2.7671663761138916,
3629
+ "step": 1034
3630
+ },
3631
+ {
3632
+ "epoch": 0.03453333333333333,
3633
+ "grad_norm": 0.11083984375,
3634
+ "learning_rate": 0.024,
3635
+ "loss": 2.764285087585449,
3636
+ "step": 1036
3637
+ },
3638
+ {
3639
+ "epoch": 0.0346,
3640
+ "grad_norm": 0.10302734375,
3641
+ "learning_rate": 0.024,
3642
+ "loss": 2.708714485168457,
3643
+ "step": 1038
3644
+ },
3645
+ {
3646
+ "epoch": 0.034666666666666665,
3647
+ "grad_norm": 0.10400390625,
3648
+ "learning_rate": 0.024,
3649
+ "loss": 2.7590391635894775,
3650
+ "step": 1040
3651
+ },
3652
+ {
3653
+ "epoch": 0.03473333333333333,
3654
+ "grad_norm": 0.10302734375,
3655
+ "learning_rate": 0.024,
3656
+ "loss": 2.7633681297302246,
3657
+ "step": 1042
3658
+ },
3659
+ {
3660
+ "epoch": 0.0348,
3661
+ "grad_norm": 0.10546875,
3662
+ "learning_rate": 0.024,
3663
+ "loss": 2.7515978813171387,
3664
+ "step": 1044
3665
+ },
3666
+ {
3667
+ "epoch": 0.034866666666666664,
3668
+ "grad_norm": 0.10888671875,
3669
+ "learning_rate": 0.024,
3670
+ "loss": 2.806382656097412,
3671
+ "step": 1046
3672
+ },
3673
+ {
3674
+ "epoch": 0.03493333333333333,
3675
+ "grad_norm": 0.10400390625,
3676
+ "learning_rate": 0.024,
3677
+ "loss": 2.771369695663452,
3678
+ "step": 1048
3679
+ },
3680
+ {
3681
+ "epoch": 0.035,
3682
+ "grad_norm": 0.10693359375,
3683
+ "learning_rate": 0.024,
3684
+ "loss": 2.749994993209839,
3685
+ "step": 1050
3686
+ },
3687
+ {
3688
+ "epoch": 0.03506666666666667,
3689
+ "grad_norm": 0.1025390625,
3690
+ "learning_rate": 0.024,
3691
+ "loss": 2.7676138877868652,
3692
+ "step": 1052
3693
+ },
3694
+ {
3695
+ "epoch": 0.035133333333333336,
3696
+ "grad_norm": 0.10888671875,
3697
+ "learning_rate": 0.024,
3698
+ "loss": 2.7615389823913574,
3699
+ "step": 1054
3700
+ },
3701
+ {
3702
+ "epoch": 0.0352,
3703
+ "grad_norm": 0.0986328125,
3704
+ "learning_rate": 0.024,
3705
+ "loss": 2.7299084663391113,
3706
+ "step": 1056
3707
+ },
3708
+ {
3709
+ "epoch": 0.03526666666666667,
3710
+ "grad_norm": 0.09765625,
3711
+ "learning_rate": 0.024,
3712
+ "loss": 2.753152370452881,
3713
+ "step": 1058
3714
+ },
3715
+ {
3716
+ "epoch": 0.035333333333333335,
3717
+ "grad_norm": 0.09912109375,
3718
+ "learning_rate": 0.024,
3719
+ "loss": 2.703878402709961,
3720
+ "step": 1060
3721
+ },
3722
+ {
3723
+ "epoch": 0.0354,
3724
+ "grad_norm": 0.1162109375,
3725
+ "learning_rate": 0.024,
3726
+ "loss": 2.754636287689209,
3727
+ "step": 1062
3728
+ },
3729
+ {
3730
+ "epoch": 0.03546666666666667,
3731
+ "grad_norm": 0.111328125,
3732
+ "learning_rate": 0.024,
3733
+ "loss": 2.7444772720336914,
3734
+ "step": 1064
3735
+ },
3736
+ {
3737
+ "epoch": 0.03553333333333333,
3738
+ "grad_norm": 0.10546875,
3739
+ "learning_rate": 0.024,
3740
+ "loss": 2.7327966690063477,
3741
+ "step": 1066
3742
+ },
3743
+ {
3744
+ "epoch": 0.0356,
3745
+ "grad_norm": 0.09912109375,
3746
+ "learning_rate": 0.024,
3747
+ "loss": 2.7471470832824707,
3748
+ "step": 1068
3749
+ },
3750
+ {
3751
+ "epoch": 0.035666666666666666,
3752
+ "grad_norm": 0.103515625,
3753
+ "learning_rate": 0.024,
3754
+ "loss": 2.7181529998779297,
3755
+ "step": 1070
3756
+ },
3757
+ {
3758
+ "epoch": 0.03573333333333333,
3759
+ "grad_norm": 0.09912109375,
3760
+ "learning_rate": 0.024,
3761
+ "loss": 2.7239770889282227,
3762
+ "step": 1072
3763
+ },
3764
+ {
3765
+ "epoch": 0.0358,
3766
+ "grad_norm": 0.0927734375,
3767
+ "learning_rate": 0.024,
3768
+ "loss": 2.7475199699401855,
3769
+ "step": 1074
3770
+ },
3771
+ {
3772
+ "epoch": 0.035866666666666665,
3773
+ "grad_norm": 0.10107421875,
3774
+ "learning_rate": 0.024,
3775
+ "loss": 2.7368245124816895,
3776
+ "step": 1076
3777
+ },
3778
+ {
3779
+ "epoch": 0.03593333333333333,
3780
+ "grad_norm": 0.1025390625,
3781
+ "learning_rate": 0.024,
3782
+ "loss": 2.7495036125183105,
3783
+ "step": 1078
3784
+ },
3785
+ {
3786
+ "epoch": 0.036,
3787
+ "grad_norm": 0.1025390625,
3788
+ "learning_rate": 0.024,
3789
+ "loss": 2.7163753509521484,
3790
+ "step": 1080
3791
+ },
3792
+ {
3793
+ "epoch": 0.036066666666666664,
3794
+ "grad_norm": 0.0966796875,
3795
+ "learning_rate": 0.024,
3796
+ "loss": 2.712074041366577,
3797
+ "step": 1082
3798
+ },
3799
+ {
3800
+ "epoch": 0.03613333333333334,
3801
+ "grad_norm": 0.10693359375,
3802
+ "learning_rate": 0.024,
3803
+ "loss": 2.723572254180908,
3804
+ "step": 1084
3805
+ },
3806
+ {
3807
+ "epoch": 0.0362,
3808
+ "grad_norm": 0.08984375,
3809
+ "learning_rate": 0.024,
3810
+ "loss": 2.717650890350342,
3811
+ "step": 1086
3812
+ },
3813
+ {
3814
+ "epoch": 0.03626666666666667,
3815
+ "grad_norm": 0.08837890625,
3816
+ "learning_rate": 0.024,
3817
+ "loss": 2.72052001953125,
3818
+ "step": 1088
3819
+ },
3820
+ {
3821
+ "epoch": 0.036333333333333336,
3822
+ "grad_norm": 0.1015625,
3823
+ "learning_rate": 0.024,
3824
+ "loss": 2.7437314987182617,
3825
+ "step": 1090
3826
+ },
3827
+ {
3828
+ "epoch": 0.0364,
3829
+ "grad_norm": 0.10400390625,
3830
+ "learning_rate": 0.024,
3831
+ "loss": 2.747818946838379,
3832
+ "step": 1092
3833
+ },
3834
+ {
3835
+ "epoch": 0.03646666666666667,
3836
+ "grad_norm": 0.10546875,
3837
+ "learning_rate": 0.024,
3838
+ "loss": 2.742070198059082,
3839
+ "step": 1094
3840
+ },
3841
+ {
3842
+ "epoch": 0.036533333333333334,
3843
+ "grad_norm": 0.1083984375,
3844
+ "learning_rate": 0.024,
3845
+ "loss": 2.737666130065918,
3846
+ "step": 1096
3847
+ },
3848
+ {
3849
+ "epoch": 0.0366,
3850
+ "grad_norm": 0.1142578125,
3851
+ "learning_rate": 0.024,
3852
+ "loss": 2.7529306411743164,
3853
+ "step": 1098
3854
+ },
3855
+ {
3856
+ "epoch": 0.03666666666666667,
3857
+ "grad_norm": 0.10791015625,
3858
+ "learning_rate": 0.024,
3859
+ "loss": 2.7327070236206055,
3860
+ "step": 1100
3861
+ },
3862
+ {
3863
+ "epoch": 0.03673333333333333,
3864
+ "grad_norm": 0.11181640625,
3865
+ "learning_rate": 0.024,
3866
+ "loss": 2.7093605995178223,
3867
+ "step": 1102
3868
+ },
3869
+ {
3870
+ "epoch": 0.0368,
3871
+ "grad_norm": 0.1103515625,
3872
+ "learning_rate": 0.024,
3873
+ "loss": 2.7301089763641357,
3874
+ "step": 1104
3875
+ },
3876
+ {
3877
+ "epoch": 0.036866666666666666,
3878
+ "grad_norm": 0.11474609375,
3879
+ "learning_rate": 0.024,
3880
+ "loss": 2.697916030883789,
3881
+ "step": 1106
3882
+ },
3883
+ {
3884
+ "epoch": 0.03693333333333333,
3885
+ "grad_norm": 0.11474609375,
3886
+ "learning_rate": 0.024,
3887
+ "loss": 2.7137365341186523,
3888
+ "step": 1108
3889
+ },
3890
+ {
3891
+ "epoch": 0.037,
3892
+ "grad_norm": 0.11669921875,
3893
+ "learning_rate": 0.024,
3894
+ "loss": 2.6901283264160156,
3895
+ "step": 1110
3896
+ },
3897
+ {
3898
+ "epoch": 0.037066666666666664,
3899
+ "grad_norm": 0.111328125,
3900
+ "learning_rate": 0.024,
3901
+ "loss": 2.7093896865844727,
3902
+ "step": 1112
3903
+ },
3904
+ {
3905
+ "epoch": 0.03713333333333333,
3906
+ "grad_norm": 0.111328125,
3907
+ "learning_rate": 0.024,
3908
+ "loss": 2.710529088973999,
3909
+ "step": 1114
3910
+ },
3911
+ {
3912
+ "epoch": 0.0372,
3913
+ "grad_norm": 0.10791015625,
3914
+ "learning_rate": 0.024,
3915
+ "loss": 2.7012977600097656,
3916
+ "step": 1116
3917
+ },
3918
+ {
3919
+ "epoch": 0.03726666666666666,
3920
+ "grad_norm": 0.10498046875,
3921
+ "learning_rate": 0.024,
3922
+ "loss": 2.7281060218811035,
3923
+ "step": 1118
3924
+ },
3925
+ {
3926
+ "epoch": 0.037333333333333336,
3927
+ "grad_norm": 0.109375,
3928
+ "learning_rate": 0.024,
3929
+ "loss": 2.685462713241577,
3930
+ "step": 1120
3931
+ },
3932
+ {
3933
+ "epoch": 0.0374,
3934
+ "grad_norm": 0.1123046875,
3935
+ "learning_rate": 0.024,
3936
+ "loss": 2.7244138717651367,
3937
+ "step": 1122
3938
+ },
3939
+ {
3940
+ "epoch": 0.03746666666666667,
3941
+ "grad_norm": 0.09619140625,
3942
+ "learning_rate": 0.024,
3943
+ "loss": 2.716860294342041,
3944
+ "step": 1124
3945
+ },
3946
+ {
3947
+ "epoch": 0.037533333333333335,
3948
+ "grad_norm": 0.0966796875,
3949
+ "learning_rate": 0.024,
3950
+ "loss": 2.710181713104248,
3951
+ "step": 1126
3952
+ },
3953
+ {
3954
+ "epoch": 0.0376,
3955
+ "grad_norm": 0.10546875,
3956
+ "learning_rate": 0.024,
3957
+ "loss": 2.7161874771118164,
3958
+ "step": 1128
3959
+ },
3960
+ {
3961
+ "epoch": 0.03766666666666667,
3962
+ "grad_norm": 0.10302734375,
3963
+ "learning_rate": 0.024,
3964
+ "loss": 2.711965799331665,
3965
+ "step": 1130
3966
+ },
3967
+ {
3968
+ "epoch": 0.037733333333333334,
3969
+ "grad_norm": 0.103515625,
3970
+ "learning_rate": 0.024,
3971
+ "loss": 2.7050228118896484,
3972
+ "step": 1132
3973
+ },
3974
+ {
3975
+ "epoch": 0.0378,
3976
+ "grad_norm": 0.10009765625,
3977
+ "learning_rate": 0.024,
3978
+ "loss": 2.6972646713256836,
3979
+ "step": 1134
3980
+ },
3981
+ {
3982
+ "epoch": 0.037866666666666667,
3983
+ "grad_norm": 0.0947265625,
3984
+ "learning_rate": 0.024,
3985
+ "loss": 2.693840742111206,
3986
+ "step": 1136
3987
+ },
3988
+ {
3989
+ "epoch": 0.03793333333333333,
3990
+ "grad_norm": 0.11767578125,
3991
+ "learning_rate": 0.024,
3992
+ "loss": 2.7043051719665527,
3993
+ "step": 1138
3994
+ },
3995
+ {
3996
+ "epoch": 0.038,
3997
+ "grad_norm": 0.11474609375,
3998
+ "learning_rate": 0.024,
3999
+ "loss": 2.713038206100464,
4000
+ "step": 1140
4001
+ },
4002
+ {
4003
+ "epoch": 0.038066666666666665,
4004
+ "grad_norm": 0.111328125,
4005
+ "learning_rate": 0.024,
4006
+ "loss": 2.7129263877868652,
4007
+ "step": 1142
4008
+ },
4009
+ {
4010
+ "epoch": 0.03813333333333333,
4011
+ "grad_norm": 0.1025390625,
4012
+ "learning_rate": 0.024,
4013
+ "loss": 2.703742027282715,
4014
+ "step": 1144
4015
+ },
4016
+ {
4017
+ "epoch": 0.0382,
4018
+ "grad_norm": 0.10986328125,
4019
+ "learning_rate": 0.024,
4020
+ "loss": 2.676753282546997,
4021
+ "step": 1146
4022
+ },
4023
+ {
4024
+ "epoch": 0.038266666666666664,
4025
+ "grad_norm": 0.10791015625,
4026
+ "learning_rate": 0.024,
4027
+ "loss": 2.6828367710113525,
4028
+ "step": 1148
4029
+ },
4030
+ {
4031
+ "epoch": 0.03833333333333333,
4032
+ "grad_norm": 0.11767578125,
4033
+ "learning_rate": 0.024,
4034
+ "loss": 2.685385227203369,
4035
+ "step": 1150
4036
+ },
4037
+ {
4038
+ "epoch": 0.0384,
4039
+ "grad_norm": 0.11083984375,
4040
+ "learning_rate": 0.024,
4041
+ "loss": 2.7148327827453613,
4042
+ "step": 1152
4043
+ },
4044
+ {
4045
+ "epoch": 0.03846666666666667,
4046
+ "grad_norm": 0.10595703125,
4047
+ "learning_rate": 0.024,
4048
+ "loss": 2.681277275085449,
4049
+ "step": 1154
4050
+ },
4051
+ {
4052
+ "epoch": 0.038533333333333336,
4053
+ "grad_norm": 0.107421875,
4054
+ "learning_rate": 0.024,
4055
+ "loss": 2.7182884216308594,
4056
+ "step": 1156
4057
+ },
4058
+ {
4059
+ "epoch": 0.0386,
4060
+ "grad_norm": 0.11376953125,
4061
+ "learning_rate": 0.024,
4062
+ "loss": 2.685314655303955,
4063
+ "step": 1158
4064
+ },
4065
+ {
4066
+ "epoch": 0.03866666666666667,
4067
+ "grad_norm": 0.107421875,
4068
+ "learning_rate": 0.024,
4069
+ "loss": 2.707256317138672,
4070
+ "step": 1160
4071
+ },
4072
+ {
4073
+ "epoch": 0.038733333333333335,
4074
+ "grad_norm": 0.1025390625,
4075
+ "learning_rate": 0.024,
4076
+ "loss": 2.674233913421631,
4077
+ "step": 1162
4078
+ },
4079
+ {
4080
+ "epoch": 0.0388,
4081
+ "grad_norm": 0.1083984375,
4082
+ "learning_rate": 0.024,
4083
+ "loss": 2.7152352333068848,
4084
+ "step": 1164
4085
+ },
4086
+ {
4087
+ "epoch": 0.03886666666666667,
4088
+ "grad_norm": 0.10400390625,
4089
+ "learning_rate": 0.024,
4090
+ "loss": 2.6779754161834717,
4091
+ "step": 1166
4092
+ },
4093
+ {
4094
+ "epoch": 0.038933333333333334,
4095
+ "grad_norm": 0.11474609375,
4096
+ "learning_rate": 0.024,
4097
+ "loss": 2.70697021484375,
4098
+ "step": 1168
4099
+ },
4100
+ {
4101
+ "epoch": 0.039,
4102
+ "grad_norm": 0.1083984375,
4103
+ "learning_rate": 0.024,
4104
+ "loss": 2.69771146774292,
4105
+ "step": 1170
4106
+ },
4107
+ {
4108
+ "epoch": 0.039066666666666666,
4109
+ "grad_norm": 0.1103515625,
4110
+ "learning_rate": 0.024,
4111
+ "loss": 2.6987597942352295,
4112
+ "step": 1172
4113
+ },
4114
+ {
4115
+ "epoch": 0.03913333333333333,
4116
+ "grad_norm": 0.10498046875,
4117
+ "learning_rate": 0.024,
4118
+ "loss": 2.6748900413513184,
4119
+ "step": 1174
4120
+ },
4121
+ {
4122
+ "epoch": 0.0392,
4123
+ "grad_norm": 0.10107421875,
4124
+ "learning_rate": 0.024,
4125
+ "loss": 2.6924028396606445,
4126
+ "step": 1176
4127
+ },
4128
+ {
4129
+ "epoch": 0.039266666666666665,
4130
+ "grad_norm": 0.11083984375,
4131
+ "learning_rate": 0.024,
4132
+ "loss": 2.699601888656616,
4133
+ "step": 1178
4134
+ },
4135
+ {
4136
+ "epoch": 0.03933333333333333,
4137
+ "grad_norm": 0.103515625,
4138
+ "learning_rate": 0.024,
4139
+ "loss": 2.671154499053955,
4140
+ "step": 1180
4141
+ },
4142
+ {
4143
+ "epoch": 0.0394,
4144
+ "grad_norm": 0.1044921875,
4145
+ "learning_rate": 0.024,
4146
+ "loss": 2.655117988586426,
4147
+ "step": 1182
4148
+ },
4149
+ {
4150
+ "epoch": 0.039466666666666664,
4151
+ "grad_norm": 0.103515625,
4152
+ "learning_rate": 0.024,
4153
+ "loss": 2.6757497787475586,
4154
+ "step": 1184
4155
+ },
4156
+ {
4157
+ "epoch": 0.03953333333333333,
4158
+ "grad_norm": 0.109375,
4159
+ "learning_rate": 0.024,
4160
+ "loss": 2.682209014892578,
4161
+ "step": 1186
4162
+ },
4163
+ {
4164
+ "epoch": 0.0396,
4165
+ "grad_norm": 0.1142578125,
4166
+ "learning_rate": 0.024,
4167
+ "loss": 2.6739325523376465,
4168
+ "step": 1188
4169
+ },
4170
+ {
4171
+ "epoch": 0.03966666666666667,
4172
+ "grad_norm": 0.1142578125,
4173
+ "learning_rate": 0.024,
4174
+ "loss": 2.6894989013671875,
4175
+ "step": 1190
4176
+ },
4177
+ {
4178
+ "epoch": 0.039733333333333336,
4179
+ "grad_norm": 0.1123046875,
4180
+ "learning_rate": 0.024,
4181
+ "loss": 2.6611576080322266,
4182
+ "step": 1192
4183
+ },
4184
+ {
4185
+ "epoch": 0.0398,
4186
+ "grad_norm": 0.1044921875,
4187
+ "learning_rate": 0.024,
4188
+ "loss": 2.684026002883911,
4189
+ "step": 1194
4190
+ },
4191
+ {
4192
+ "epoch": 0.03986666666666667,
4193
+ "grad_norm": 0.1025390625,
4194
+ "learning_rate": 0.024,
4195
+ "loss": 2.6761555671691895,
4196
+ "step": 1196
4197
+ },
4198
+ {
4199
+ "epoch": 0.039933333333333335,
4200
+ "grad_norm": 0.10546875,
4201
+ "learning_rate": 0.024,
4202
+ "loss": 2.672459363937378,
4203
+ "step": 1198
4204
+ },
4205
+ {
4206
+ "epoch": 0.04,
4207
+ "grad_norm": 0.10693359375,
4208
+ "learning_rate": 0.024,
4209
+ "loss": 2.685039520263672,
4210
+ "step": 1200
4211
+ },
4212
+ {
4213
+ "epoch": 0.04006666666666667,
4214
+ "grad_norm": 0.1044921875,
4215
+ "learning_rate": 0.024,
4216
+ "loss": 2.6773715019226074,
4217
+ "step": 1202
4218
+ },
4219
+ {
4220
+ "epoch": 0.04013333333333333,
4221
+ "grad_norm": 0.109375,
4222
+ "learning_rate": 0.024,
4223
+ "loss": 2.6755688190460205,
4224
+ "step": 1204
4225
+ },
4226
+ {
4227
+ "epoch": 0.0402,
4228
+ "grad_norm": 0.10546875,
4229
+ "learning_rate": 0.024,
4230
+ "loss": 2.6578288078308105,
4231
+ "step": 1206
4232
+ },
4233
+ {
4234
+ "epoch": 0.040266666666666666,
4235
+ "grad_norm": 0.1005859375,
4236
+ "learning_rate": 0.024,
4237
+ "loss": 2.6953444480895996,
4238
+ "step": 1208
4239
+ },
4240
+ {
4241
+ "epoch": 0.04033333333333333,
4242
+ "grad_norm": 0.107421875,
4243
+ "learning_rate": 0.024,
4244
+ "loss": 2.6918187141418457,
4245
+ "step": 1210
4246
+ },
4247
+ {
4248
+ "epoch": 0.0404,
4249
+ "grad_norm": 0.10107421875,
4250
+ "learning_rate": 0.024,
4251
+ "loss": 2.671440601348877,
4252
+ "step": 1212
4253
+ },
4254
+ {
4255
+ "epoch": 0.040466666666666665,
4256
+ "grad_norm": 0.11767578125,
4257
+ "learning_rate": 0.024,
4258
+ "loss": 2.672053337097168,
4259
+ "step": 1214
4260
+ },
4261
+ {
4262
+ "epoch": 0.04053333333333333,
4263
+ "grad_norm": 0.12451171875,
4264
+ "learning_rate": 0.024,
4265
+ "loss": 2.6994171142578125,
4266
+ "step": 1216
4267
+ },
4268
+ {
4269
+ "epoch": 0.0406,
4270
+ "grad_norm": 0.11572265625,
4271
+ "learning_rate": 0.024,
4272
+ "loss": 2.667667865753174,
4273
+ "step": 1218
4274
+ },
4275
+ {
4276
+ "epoch": 0.04066666666666666,
4277
+ "grad_norm": 0.10791015625,
4278
+ "learning_rate": 0.024,
4279
+ "loss": 2.6678128242492676,
4280
+ "step": 1220
4281
+ },
4282
+ {
4283
+ "epoch": 0.04073333333333334,
4284
+ "grad_norm": 0.10791015625,
4285
+ "learning_rate": 0.024,
4286
+ "loss": 2.6831746101379395,
4287
+ "step": 1222
4288
+ },
4289
+ {
4290
+ "epoch": 0.0408,
4291
+ "grad_norm": 0.1083984375,
4292
+ "learning_rate": 0.024,
4293
+ "loss": 2.682405948638916,
4294
+ "step": 1224
4295
+ },
4296
+ {
4297
+ "epoch": 0.04086666666666667,
4298
+ "grad_norm": 0.1083984375,
4299
+ "learning_rate": 0.024,
4300
+ "loss": 2.6655311584472656,
4301
+ "step": 1226
4302
+ },
4303
+ {
4304
+ "epoch": 0.040933333333333335,
4305
+ "grad_norm": 0.1123046875,
4306
+ "learning_rate": 0.024,
4307
+ "loss": 2.644263505935669,
4308
+ "step": 1228
4309
+ },
4310
+ {
4311
+ "epoch": 0.041,
4312
+ "grad_norm": 0.1083984375,
4313
+ "learning_rate": 0.024,
4314
+ "loss": 2.646627426147461,
4315
+ "step": 1230
4316
+ },
4317
+ {
4318
+ "epoch": 0.04106666666666667,
4319
+ "grad_norm": 0.10693359375,
4320
+ "learning_rate": 0.024,
4321
+ "loss": 2.6594674587249756,
4322
+ "step": 1232
4323
+ },
4324
+ {
4325
+ "epoch": 0.041133333333333334,
4326
+ "grad_norm": 0.1064453125,
4327
+ "learning_rate": 0.024,
4328
+ "loss": 2.6861624717712402,
4329
+ "step": 1234
4330
+ },
4331
+ {
4332
+ "epoch": 0.0412,
4333
+ "grad_norm": 0.1123046875,
4334
+ "learning_rate": 0.024,
4335
+ "loss": 2.646416187286377,
4336
+ "step": 1236
4337
+ },
4338
+ {
4339
+ "epoch": 0.04126666666666667,
4340
+ "grad_norm": 0.11669921875,
4341
+ "learning_rate": 0.024,
4342
+ "loss": 2.683927536010742,
4343
+ "step": 1238
4344
+ },
4345
+ {
4346
+ "epoch": 0.04133333333333333,
4347
+ "grad_norm": 0.10888671875,
4348
+ "learning_rate": 0.024,
4349
+ "loss": 2.6340389251708984,
4350
+ "step": 1240
4351
+ },
4352
+ {
4353
+ "epoch": 0.0414,
4354
+ "grad_norm": 0.11279296875,
4355
+ "learning_rate": 0.024,
4356
+ "loss": 2.654724359512329,
4357
+ "step": 1242
4358
+ },
4359
+ {
4360
+ "epoch": 0.041466666666666666,
4361
+ "grad_norm": 0.11279296875,
4362
+ "learning_rate": 0.024,
4363
+ "loss": 2.6631879806518555,
4364
+ "step": 1244
4365
+ },
4366
+ {
4367
+ "epoch": 0.04153333333333333,
4368
+ "grad_norm": 0.1171875,
4369
+ "learning_rate": 0.024,
4370
+ "loss": 2.6561126708984375,
4371
+ "step": 1246
4372
+ },
4373
+ {
4374
+ "epoch": 0.0416,
4375
+ "grad_norm": 0.107421875,
4376
+ "learning_rate": 0.024,
4377
+ "loss": 2.7086315155029297,
4378
+ "step": 1248
4379
+ },
4380
+ {
4381
+ "epoch": 0.041666666666666664,
4382
+ "grad_norm": 0.10205078125,
4383
+ "learning_rate": 0.024,
4384
+ "loss": 2.66577410697937,
4385
+ "step": 1250
4386
+ },
4387
+ {
4388
+ "epoch": 0.04173333333333333,
4389
+ "grad_norm": 0.095703125,
4390
+ "learning_rate": 0.024,
4391
+ "loss": 2.637749433517456,
4392
+ "step": 1252
4393
+ },
4394
+ {
4395
+ "epoch": 0.0418,
4396
+ "grad_norm": 0.1025390625,
4397
+ "learning_rate": 0.024,
4398
+ "loss": 2.6726813316345215,
4399
+ "step": 1254
4400
+ },
4401
+ {
4402
+ "epoch": 0.04186666666666667,
4403
+ "grad_norm": 0.11328125,
4404
+ "learning_rate": 0.024,
4405
+ "loss": 2.6767454147338867,
4406
+ "step": 1256
4407
+ },
4408
+ {
4409
+ "epoch": 0.041933333333333336,
4410
+ "grad_norm": 0.11669921875,
4411
+ "learning_rate": 0.024,
4412
+ "loss": 2.6667513847351074,
4413
+ "step": 1258
4414
+ },
4415
+ {
4416
+ "epoch": 0.042,
4417
+ "grad_norm": 0.11376953125,
4418
+ "learning_rate": 0.024,
4419
+ "loss": 2.65313720703125,
4420
+ "step": 1260
4421
+ },
4422
+ {
4423
+ "epoch": 0.04206666666666667,
4424
+ "grad_norm": 0.11083984375,
4425
+ "learning_rate": 0.024,
4426
+ "loss": 2.6716127395629883,
4427
+ "step": 1262
4428
+ },
4429
+ {
4430
+ "epoch": 0.042133333333333335,
4431
+ "grad_norm": 0.11474609375,
4432
+ "learning_rate": 0.024,
4433
+ "loss": 2.659339666366577,
4434
+ "step": 1264
4435
+ },
4436
+ {
4437
+ "epoch": 0.0422,
4438
+ "grad_norm": 0.1201171875,
4439
+ "learning_rate": 0.024,
4440
+ "loss": 2.676624298095703,
4441
+ "step": 1266
4442
+ },
4443
+ {
4444
+ "epoch": 0.04226666666666667,
4445
+ "grad_norm": 0.11669921875,
4446
+ "learning_rate": 0.024,
4447
+ "loss": 2.644960880279541,
4448
+ "step": 1268
4449
+ },
4450
+ {
4451
+ "epoch": 0.042333333333333334,
4452
+ "grad_norm": 0.1083984375,
4453
+ "learning_rate": 0.024,
4454
+ "loss": 2.640815258026123,
4455
+ "step": 1270
4456
+ },
4457
+ {
4458
+ "epoch": 0.0424,
4459
+ "grad_norm": 0.1162109375,
4460
+ "learning_rate": 0.024,
4461
+ "loss": 2.6779441833496094,
4462
+ "step": 1272
4463
+ },
4464
+ {
4465
+ "epoch": 0.042466666666666666,
4466
+ "grad_norm": 0.10205078125,
4467
+ "learning_rate": 0.024,
4468
+ "loss": 2.640958309173584,
4469
+ "step": 1274
4470
+ },
4471
+ {
4472
+ "epoch": 0.04253333333333333,
4473
+ "grad_norm": 0.11181640625,
4474
+ "learning_rate": 0.024,
4475
+ "loss": 2.666661024093628,
4476
+ "step": 1276
4477
+ },
4478
+ {
4479
+ "epoch": 0.0426,
4480
+ "grad_norm": 0.1123046875,
4481
+ "learning_rate": 0.024,
4482
+ "loss": 2.654991626739502,
4483
+ "step": 1278
4484
+ },
4485
+ {
4486
+ "epoch": 0.042666666666666665,
4487
+ "grad_norm": 0.11962890625,
4488
+ "learning_rate": 0.024,
4489
+ "loss": 2.66662335395813,
4490
+ "step": 1280
4491
+ },
4492
+ {
4493
+ "epoch": 0.04273333333333333,
4494
+ "grad_norm": 0.11328125,
4495
+ "learning_rate": 0.024,
4496
+ "loss": 2.6735966205596924,
4497
+ "step": 1282
4498
+ },
4499
+ {
4500
+ "epoch": 0.0428,
4501
+ "grad_norm": 0.1123046875,
4502
+ "learning_rate": 0.024,
4503
+ "loss": 2.6571362018585205,
4504
+ "step": 1284
4505
+ },
4506
+ {
4507
+ "epoch": 0.042866666666666664,
4508
+ "grad_norm": 0.111328125,
4509
+ "learning_rate": 0.024,
4510
+ "loss": 2.64853572845459,
4511
+ "step": 1286
4512
+ },
4513
+ {
4514
+ "epoch": 0.04293333333333333,
4515
+ "grad_norm": 0.11572265625,
4516
+ "learning_rate": 0.024,
4517
+ "loss": 2.615042209625244,
4518
+ "step": 1288
4519
+ },
4520
+ {
4521
+ "epoch": 0.043,
4522
+ "grad_norm": 0.111328125,
4523
+ "learning_rate": 0.024,
4524
+ "loss": 2.648286819458008,
4525
+ "step": 1290
4526
+ },
4527
+ {
4528
+ "epoch": 0.04306666666666667,
4529
+ "grad_norm": 0.11181640625,
4530
+ "learning_rate": 0.024,
4531
+ "loss": 2.6406261920928955,
4532
+ "step": 1292
4533
+ },
4534
+ {
4535
+ "epoch": 0.043133333333333336,
4536
+ "grad_norm": 0.107421875,
4537
+ "learning_rate": 0.024,
4538
+ "loss": 2.6431515216827393,
4539
+ "step": 1294
4540
+ },
4541
+ {
4542
+ "epoch": 0.0432,
4543
+ "grad_norm": 0.10986328125,
4544
+ "learning_rate": 0.024,
4545
+ "loss": 2.6517653465270996,
4546
+ "step": 1296
4547
+ },
4548
+ {
4549
+ "epoch": 0.04326666666666667,
4550
+ "grad_norm": 0.1083984375,
4551
+ "learning_rate": 0.024,
4552
+ "loss": 2.611752510070801,
4553
+ "step": 1298
4554
+ },
4555
+ {
4556
+ "epoch": 0.043333333333333335,
4557
+ "grad_norm": 0.10693359375,
4558
+ "learning_rate": 0.024,
4559
+ "loss": 2.6625618934631348,
4560
+ "step": 1300
4561
+ },
4562
+ {
4563
+ "epoch": 0.0434,
4564
+ "grad_norm": 0.10986328125,
4565
+ "learning_rate": 0.024,
4566
+ "loss": 2.656841516494751,
4567
+ "step": 1302
4568
+ },
4569
+ {
4570
+ "epoch": 0.04346666666666667,
4571
+ "grad_norm": 0.11181640625,
4572
+ "learning_rate": 0.024,
4573
+ "loss": 2.657172679901123,
4574
+ "step": 1304
4575
+ },
4576
+ {
4577
+ "epoch": 0.043533333333333334,
4578
+ "grad_norm": 0.1171875,
4579
+ "learning_rate": 0.024,
4580
+ "loss": 2.667175531387329,
4581
+ "step": 1306
4582
+ },
4583
+ {
4584
+ "epoch": 0.0436,
4585
+ "grad_norm": 0.11474609375,
4586
+ "learning_rate": 0.024,
4587
+ "loss": 2.639892578125,
4588
+ "step": 1308
4589
+ },
4590
+ {
4591
+ "epoch": 0.043666666666666666,
4592
+ "grad_norm": 0.11083984375,
4593
+ "learning_rate": 0.024,
4594
+ "loss": 2.624441623687744,
4595
+ "step": 1310
4596
+ },
4597
+ {
4598
+ "epoch": 0.04373333333333333,
4599
+ "grad_norm": 0.12060546875,
4600
+ "learning_rate": 0.024,
4601
+ "loss": 2.65531063079834,
4602
+ "step": 1312
4603
+ },
4604
+ {
4605
+ "epoch": 0.0438,
4606
+ "grad_norm": 0.1396484375,
4607
+ "learning_rate": 0.024,
4608
+ "loss": 2.6507439613342285,
4609
+ "step": 1314
4610
+ },
4611
+ {
4612
+ "epoch": 0.043866666666666665,
4613
+ "grad_norm": 0.10693359375,
4614
+ "learning_rate": 0.024,
4615
+ "loss": 2.653048038482666,
4616
+ "step": 1316
4617
+ },
4618
+ {
4619
+ "epoch": 0.04393333333333333,
4620
+ "grad_norm": 0.10791015625,
4621
+ "learning_rate": 0.024,
4622
+ "loss": 2.656371831893921,
4623
+ "step": 1318
4624
+ },
4625
+ {
4626
+ "epoch": 0.044,
4627
+ "grad_norm": 0.1083984375,
4628
+ "learning_rate": 0.024,
4629
+ "loss": 2.6869208812713623,
4630
+ "step": 1320
4631
+ },
4632
+ {
4633
+ "epoch": 0.044066666666666664,
4634
+ "grad_norm": 0.1142578125,
4635
+ "learning_rate": 0.024,
4636
+ "loss": 2.6129229068756104,
4637
+ "step": 1322
4638
+ },
4639
+ {
4640
+ "epoch": 0.04413333333333333,
4641
+ "grad_norm": 0.12158203125,
4642
+ "learning_rate": 0.024,
4643
+ "loss": 2.6406350135803223,
4644
+ "step": 1324
4645
+ },
4646
+ {
4647
+ "epoch": 0.0442,
4648
+ "grad_norm": 0.11669921875,
4649
+ "learning_rate": 0.024,
4650
+ "loss": 2.639730930328369,
4651
+ "step": 1326
4652
+ },
4653
+ {
4654
+ "epoch": 0.04426666666666667,
4655
+ "grad_norm": 0.11279296875,
4656
+ "learning_rate": 0.024,
4657
+ "loss": 2.6669301986694336,
4658
+ "step": 1328
4659
+ },
4660
+ {
4661
+ "epoch": 0.044333333333333336,
4662
+ "grad_norm": 0.11572265625,
4663
+ "learning_rate": 0.024,
4664
+ "loss": 2.683695077896118,
4665
+ "step": 1330
4666
+ },
4667
+ {
4668
+ "epoch": 0.0444,
4669
+ "grad_norm": 0.11474609375,
4670
+ "learning_rate": 0.024,
4671
+ "loss": 2.648590564727783,
4672
+ "step": 1332
4673
+ },
4674
+ {
4675
+ "epoch": 0.04446666666666667,
4676
+ "grad_norm": 0.115234375,
4677
+ "learning_rate": 0.024,
4678
+ "loss": 2.6717681884765625,
4679
+ "step": 1334
4680
+ },
4681
+ {
4682
+ "epoch": 0.044533333333333334,
4683
+ "grad_norm": 0.10986328125,
4684
+ "learning_rate": 0.024,
4685
+ "loss": 2.6359903812408447,
4686
+ "step": 1336
4687
+ },
4688
+ {
4689
+ "epoch": 0.0446,
4690
+ "grad_norm": 0.10595703125,
4691
+ "learning_rate": 0.024,
4692
+ "loss": 2.6395883560180664,
4693
+ "step": 1338
4694
+ },
4695
+ {
4696
+ "epoch": 0.04466666666666667,
4697
+ "grad_norm": 0.1005859375,
4698
+ "learning_rate": 0.024,
4699
+ "loss": 2.63309907913208,
4700
+ "step": 1340
4701
+ },
4702
+ {
4703
+ "epoch": 0.04473333333333333,
4704
+ "grad_norm": 0.1044921875,
4705
+ "learning_rate": 0.024,
4706
+ "loss": 2.623721122741699,
4707
+ "step": 1342
4708
+ },
4709
+ {
4710
+ "epoch": 0.0448,
4711
+ "grad_norm": 0.1005859375,
4712
+ "learning_rate": 0.024,
4713
+ "loss": 2.6235339641571045,
4714
+ "step": 1344
4715
+ },
4716
+ {
4717
+ "epoch": 0.044866666666666666,
4718
+ "grad_norm": 0.11083984375,
4719
+ "learning_rate": 0.024,
4720
+ "loss": 2.645362377166748,
4721
+ "step": 1346
4722
+ },
4723
+ {
4724
+ "epoch": 0.04493333333333333,
4725
+ "grad_norm": 0.10693359375,
4726
+ "learning_rate": 0.024,
4727
+ "loss": 2.6370654106140137,
4728
+ "step": 1348
4729
+ },
4730
+ {
4731
+ "epoch": 0.045,
4732
+ "grad_norm": 0.10595703125,
4733
+ "learning_rate": 0.024,
4734
+ "loss": 2.6234326362609863,
4735
+ "step": 1350
4736
+ },
4737
+ {
4738
+ "epoch": 0.045066666666666665,
4739
+ "grad_norm": 0.12109375,
4740
+ "learning_rate": 0.024,
4741
+ "loss": 2.6561057567596436,
4742
+ "step": 1352
4743
+ },
4744
+ {
4745
+ "epoch": 0.04513333333333333,
4746
+ "grad_norm": 0.12255859375,
4747
+ "learning_rate": 0.024,
4748
+ "loss": 2.6376075744628906,
4749
+ "step": 1354
4750
+ },
4751
+ {
4752
+ "epoch": 0.0452,
4753
+ "grad_norm": 0.12060546875,
4754
+ "learning_rate": 0.024,
4755
+ "loss": 2.637629270553589,
4756
+ "step": 1356
4757
+ },
4758
+ {
4759
+ "epoch": 0.04526666666666666,
4760
+ "grad_norm": 0.11328125,
4761
+ "learning_rate": 0.024,
4762
+ "loss": 2.65116024017334,
4763
+ "step": 1358
4764
+ },
4765
+ {
4766
+ "epoch": 0.04533333333333334,
4767
+ "grad_norm": 0.1142578125,
4768
+ "learning_rate": 0.024,
4769
+ "loss": 2.6432247161865234,
4770
+ "step": 1360
4771
+ },
4772
+ {
4773
+ "epoch": 0.0454,
4774
+ "grad_norm": 0.1162109375,
4775
+ "learning_rate": 0.024,
4776
+ "loss": 2.6329054832458496,
4777
+ "step": 1362
4778
+ },
4779
+ {
4780
+ "epoch": 0.04546666666666667,
4781
+ "grad_norm": 0.11865234375,
4782
+ "learning_rate": 0.024,
4783
+ "loss": 2.634704828262329,
4784
+ "step": 1364
4785
+ },
4786
+ {
4787
+ "epoch": 0.045533333333333335,
4788
+ "grad_norm": 0.1318359375,
4789
+ "learning_rate": 0.024,
4790
+ "loss": 2.64212703704834,
4791
+ "step": 1366
4792
+ },
4793
+ {
4794
+ "epoch": 0.0456,
4795
+ "grad_norm": 0.1220703125,
4796
+ "learning_rate": 0.024,
4797
+ "loss": 2.6525015830993652,
4798
+ "step": 1368
4799
+ },
4800
+ {
4801
+ "epoch": 0.04566666666666667,
4802
+ "grad_norm": 0.11279296875,
4803
+ "learning_rate": 0.024,
4804
+ "loss": 2.64261794090271,
4805
+ "step": 1370
4806
+ },
4807
+ {
4808
+ "epoch": 0.045733333333333334,
4809
+ "grad_norm": 0.10498046875,
4810
+ "learning_rate": 0.024,
4811
+ "loss": 2.6361327171325684,
4812
+ "step": 1372
4813
+ },
4814
+ {
4815
+ "epoch": 0.0458,
4816
+ "grad_norm": 0.10791015625,
4817
+ "learning_rate": 0.024,
4818
+ "loss": 2.6056675910949707,
4819
+ "step": 1374
4820
+ },
4821
+ {
4822
+ "epoch": 0.04586666666666667,
4823
+ "grad_norm": 0.1015625,
4824
+ "learning_rate": 0.024,
4825
+ "loss": 2.6333560943603516,
4826
+ "step": 1376
4827
+ },
4828
+ {
4829
+ "epoch": 0.04593333333333333,
4830
+ "grad_norm": 0.1083984375,
4831
+ "learning_rate": 0.024,
4832
+ "loss": 2.6566824913024902,
4833
+ "step": 1378
4834
+ },
4835
+ {
4836
+ "epoch": 0.046,
4837
+ "grad_norm": 0.0986328125,
4838
+ "learning_rate": 0.024,
4839
+ "loss": 2.630955457687378,
4840
+ "step": 1380
4841
+ },
4842
+ {
4843
+ "epoch": 0.046066666666666665,
4844
+ "grad_norm": 0.1064453125,
4845
+ "learning_rate": 0.024,
4846
+ "loss": 2.623918056488037,
4847
+ "step": 1382
4848
+ },
4849
+ {
4850
+ "epoch": 0.04613333333333333,
4851
+ "grad_norm": 0.103515625,
4852
+ "learning_rate": 0.024,
4853
+ "loss": 2.644831657409668,
4854
+ "step": 1384
4855
+ },
4856
+ {
4857
+ "epoch": 0.0462,
4858
+ "grad_norm": 0.12890625,
4859
+ "learning_rate": 0.024,
4860
+ "loss": 2.64569091796875,
4861
+ "step": 1386
4862
+ },
4863
+ {
4864
+ "epoch": 0.046266666666666664,
4865
+ "grad_norm": 0.12890625,
4866
+ "learning_rate": 0.024,
4867
+ "loss": 2.6295764446258545,
4868
+ "step": 1388
4869
+ },
4870
+ {
4871
+ "epoch": 0.04633333333333333,
4872
+ "grad_norm": 0.123046875,
4873
+ "learning_rate": 0.024,
4874
+ "loss": 2.619992971420288,
4875
+ "step": 1390
4876
+ },
4877
+ {
4878
+ "epoch": 0.0464,
4879
+ "grad_norm": 0.1298828125,
4880
+ "learning_rate": 0.024,
4881
+ "loss": 2.6436917781829834,
4882
+ "step": 1392
4883
+ },
4884
+ {
4885
+ "epoch": 0.04646666666666667,
4886
+ "grad_norm": 0.12158203125,
4887
+ "learning_rate": 0.024,
4888
+ "loss": 2.627943992614746,
4889
+ "step": 1394
4890
+ },
4891
+ {
4892
+ "epoch": 0.046533333333333336,
4893
+ "grad_norm": 0.12353515625,
4894
+ "learning_rate": 0.024,
4895
+ "loss": 2.6390738487243652,
4896
+ "step": 1396
4897
+ },
4898
+ {
4899
+ "epoch": 0.0466,
4900
+ "grad_norm": 0.11962890625,
4901
+ "learning_rate": 0.024,
4902
+ "loss": 2.617884635925293,
4903
+ "step": 1398
4904
+ },
4905
+ {
4906
+ "epoch": 0.04666666666666667,
4907
+ "grad_norm": 0.11669921875,
4908
+ "learning_rate": 0.024,
4909
+ "loss": 2.6508145332336426,
4910
+ "step": 1400
4911
+ },
4912
+ {
4913
+ "epoch": 0.046733333333333335,
4914
+ "grad_norm": 0.1103515625,
4915
+ "learning_rate": 0.024,
4916
+ "loss": 2.6261043548583984,
4917
+ "step": 1402
4918
+ },
4919
+ {
4920
+ "epoch": 0.0468,
4921
+ "grad_norm": 0.10791015625,
4922
+ "learning_rate": 0.024,
4923
+ "loss": 2.630373239517212,
4924
+ "step": 1404
4925
+ },
4926
+ {
4927
+ "epoch": 0.04686666666666667,
4928
+ "grad_norm": 0.10302734375,
4929
+ "learning_rate": 0.024,
4930
+ "loss": 2.632209300994873,
4931
+ "step": 1406
4932
+ },
4933
+ {
4934
+ "epoch": 0.046933333333333334,
4935
+ "grad_norm": 0.1162109375,
4936
+ "learning_rate": 0.024,
4937
+ "loss": 2.6273231506347656,
4938
+ "step": 1408
4939
+ },
4940
+ {
4941
+ "epoch": 0.047,
4942
+ "grad_norm": 0.1201171875,
4943
+ "learning_rate": 0.024,
4944
+ "loss": 2.6511852741241455,
4945
+ "step": 1410
4946
+ },
4947
+ {
4948
+ "epoch": 0.047066666666666666,
4949
+ "grad_norm": 0.1396484375,
4950
+ "learning_rate": 0.024,
4951
+ "loss": 2.6411185264587402,
4952
+ "step": 1412
4953
+ },
4954
+ {
4955
+ "epoch": 0.04713333333333333,
4956
+ "grad_norm": 0.1162109375,
4957
+ "learning_rate": 0.024,
4958
+ "loss": 2.5973145961761475,
4959
+ "step": 1414
4960
+ },
4961
+ {
4962
+ "epoch": 0.0472,
4963
+ "grad_norm": 0.11669921875,
4964
+ "learning_rate": 0.024,
4965
+ "loss": 2.6438703536987305,
4966
+ "step": 1416
4967
+ },
4968
+ {
4969
+ "epoch": 0.047266666666666665,
4970
+ "grad_norm": 0.1220703125,
4971
+ "learning_rate": 0.024,
4972
+ "loss": 2.5826196670532227,
4973
+ "step": 1418
4974
+ },
4975
+ {
4976
+ "epoch": 0.04733333333333333,
4977
+ "grad_norm": 0.1123046875,
4978
+ "learning_rate": 0.024,
4979
+ "loss": 2.6327414512634277,
4980
+ "step": 1420
4981
+ },
4982
+ {
4983
+ "epoch": 0.0474,
4984
+ "grad_norm": 0.1025390625,
4985
+ "learning_rate": 0.024,
4986
+ "loss": 2.61702299118042,
4987
+ "step": 1422
4988
+ },
4989
+ {
4990
+ "epoch": 0.047466666666666664,
4991
+ "grad_norm": 0.107421875,
4992
+ "learning_rate": 0.024,
4993
+ "loss": 2.624552011489868,
4994
+ "step": 1424
4995
+ },
4996
+ {
4997
+ "epoch": 0.04753333333333333,
4998
+ "grad_norm": 0.11962890625,
4999
+ "learning_rate": 0.024,
5000
+ "loss": 2.625518798828125,
5001
+ "step": 1426
5002
+ },
5003
+ {
5004
+ "epoch": 0.0476,
5005
+ "grad_norm": 0.125,
5006
+ "learning_rate": 0.024,
5007
+ "loss": 2.6518330574035645,
5008
+ "step": 1428
5009
+ },
5010
+ {
5011
+ "epoch": 0.04766666666666667,
5012
+ "grad_norm": 0.115234375,
5013
+ "learning_rate": 0.024,
5014
+ "loss": 2.609833240509033,
5015
+ "step": 1430
5016
+ },
5017
+ {
5018
+ "epoch": 0.047733333333333336,
5019
+ "grad_norm": 0.11572265625,
5020
+ "learning_rate": 0.024,
5021
+ "loss": 2.621513843536377,
5022
+ "step": 1432
5023
+ },
5024
+ {
5025
+ "epoch": 0.0478,
5026
+ "grad_norm": 0.1162109375,
5027
+ "learning_rate": 0.024,
5028
+ "loss": 2.631045341491699,
5029
+ "step": 1434
5030
+ },
5031
+ {
5032
+ "epoch": 0.04786666666666667,
5033
+ "grad_norm": 0.10693359375,
5034
+ "learning_rate": 0.024,
5035
+ "loss": 2.579033613204956,
5036
+ "step": 1436
5037
+ },
5038
+ {
5039
+ "epoch": 0.047933333333333335,
5040
+ "grad_norm": 0.10400390625,
5041
+ "learning_rate": 0.024,
5042
+ "loss": 2.612058162689209,
5043
+ "step": 1438
5044
+ },
5045
+ {
5046
+ "epoch": 0.048,
5047
+ "grad_norm": 0.109375,
5048
+ "learning_rate": 0.024,
5049
+ "loss": 2.6215615272521973,
5050
+ "step": 1440
5051
+ },
5052
+ {
5053
+ "epoch": 0.04806666666666667,
5054
+ "grad_norm": 0.10400390625,
5055
+ "learning_rate": 0.024,
5056
+ "loss": 2.596907138824463,
5057
+ "step": 1442
5058
+ },
5059
+ {
5060
+ "epoch": 0.048133333333333334,
5061
+ "grad_norm": 0.1025390625,
5062
+ "learning_rate": 0.024,
5063
+ "loss": 2.623187780380249,
5064
+ "step": 1444
5065
+ },
5066
+ {
5067
+ "epoch": 0.0482,
5068
+ "grad_norm": 0.11572265625,
5069
+ "learning_rate": 0.024,
5070
+ "loss": 2.620764970779419,
5071
+ "step": 1446
5072
+ },
5073
+ {
5074
+ "epoch": 0.048266666666666666,
5075
+ "grad_norm": 0.12255859375,
5076
+ "learning_rate": 0.024,
5077
+ "loss": 2.599493980407715,
5078
+ "step": 1448
5079
+ },
5080
+ {
5081
+ "epoch": 0.04833333333333333,
5082
+ "grad_norm": 0.130859375,
5083
+ "learning_rate": 0.024,
5084
+ "loss": 2.605029344558716,
5085
+ "step": 1450
5086
+ },
5087
+ {
5088
+ "epoch": 0.0484,
5089
+ "grad_norm": 0.1298828125,
5090
+ "learning_rate": 0.024,
5091
+ "loss": 2.624603271484375,
5092
+ "step": 1452
5093
+ },
5094
+ {
5095
+ "epoch": 0.048466666666666665,
5096
+ "grad_norm": 0.11083984375,
5097
+ "learning_rate": 0.024,
5098
+ "loss": 2.5769808292388916,
5099
+ "step": 1454
5100
+ },
5101
+ {
5102
+ "epoch": 0.04853333333333333,
5103
+ "grad_norm": 0.1162109375,
5104
+ "learning_rate": 0.024,
5105
+ "loss": 2.646453857421875,
5106
+ "step": 1456
5107
+ },
5108
+ {
5109
+ "epoch": 0.0486,
5110
+ "grad_norm": 0.1142578125,
5111
+ "learning_rate": 0.024,
5112
+ "loss": 2.634368658065796,
5113
+ "step": 1458
5114
+ },
5115
+ {
5116
+ "epoch": 0.048666666666666664,
5117
+ "grad_norm": 0.1201171875,
5118
+ "learning_rate": 0.024,
5119
+ "loss": 2.6361021995544434,
5120
+ "step": 1460
5121
+ },
5122
+ {
5123
+ "epoch": 0.04873333333333333,
5124
+ "grad_norm": 0.11279296875,
5125
+ "learning_rate": 0.024,
5126
+ "loss": 2.5951027870178223,
5127
+ "step": 1462
5128
+ },
5129
+ {
5130
+ "epoch": 0.0488,
5131
+ "grad_norm": 0.11279296875,
5132
+ "learning_rate": 0.024,
5133
+ "loss": 2.607625961303711,
5134
+ "step": 1464
5135
+ },
5136
+ {
5137
+ "epoch": 0.04886666666666667,
5138
+ "grad_norm": 0.11279296875,
5139
+ "learning_rate": 0.024,
5140
+ "loss": 2.576935052871704,
5141
+ "step": 1466
5142
+ },
5143
+ {
5144
+ "epoch": 0.048933333333333336,
5145
+ "grad_norm": 0.1181640625,
5146
+ "learning_rate": 0.024,
5147
+ "loss": 2.613002300262451,
5148
+ "step": 1468
5149
+ },
5150
+ {
5151
+ "epoch": 0.049,
5152
+ "grad_norm": 0.12353515625,
5153
+ "learning_rate": 0.024,
5154
+ "loss": 2.5958878993988037,
5155
+ "step": 1470
5156
+ },
5157
+ {
5158
+ "epoch": 0.04906666666666667,
5159
+ "grad_norm": 0.115234375,
5160
+ "learning_rate": 0.024,
5161
+ "loss": 2.6022660732269287,
5162
+ "step": 1472
5163
+ },
5164
+ {
5165
+ "epoch": 0.049133333333333334,
5166
+ "grad_norm": 0.11767578125,
5167
+ "learning_rate": 0.024,
5168
+ "loss": 2.606126546859741,
5169
+ "step": 1474
5170
+ },
5171
+ {
5172
+ "epoch": 0.0492,
5173
+ "grad_norm": 0.11328125,
5174
+ "learning_rate": 0.024,
5175
+ "loss": 2.619361400604248,
5176
+ "step": 1476
5177
+ },
5178
+ {
5179
+ "epoch": 0.04926666666666667,
5180
+ "grad_norm": 0.11474609375,
5181
+ "learning_rate": 0.024,
5182
+ "loss": 2.6157374382019043,
5183
+ "step": 1478
5184
+ },
5185
+ {
5186
+ "epoch": 0.04933333333333333,
5187
+ "grad_norm": 0.11181640625,
5188
+ "learning_rate": 0.024,
5189
+ "loss": 2.6137595176696777,
5190
+ "step": 1480
5191
+ },
5192
+ {
5193
+ "epoch": 0.0494,
5194
+ "grad_norm": 0.10693359375,
5195
+ "learning_rate": 0.024,
5196
+ "loss": 2.5675048828125,
5197
+ "step": 1482
5198
+ },
5199
+ {
5200
+ "epoch": 0.049466666666666666,
5201
+ "grad_norm": 0.10888671875,
5202
+ "learning_rate": 0.024,
5203
+ "loss": 2.628835678100586,
5204
+ "step": 1484
5205
+ },
5206
+ {
5207
+ "epoch": 0.04953333333333333,
5208
+ "grad_norm": 0.11181640625,
5209
+ "learning_rate": 0.024,
5210
+ "loss": 2.5960402488708496,
5211
+ "step": 1486
5212
+ },
5213
+ {
5214
+ "epoch": 0.0496,
5215
+ "grad_norm": 0.11474609375,
5216
+ "learning_rate": 0.024,
5217
+ "loss": 2.6197338104248047,
5218
+ "step": 1488
5219
+ },
5220
+ {
5221
+ "epoch": 0.049666666666666665,
5222
+ "grad_norm": 0.115234375,
5223
+ "learning_rate": 0.024,
5224
+ "loss": 2.578519105911255,
5225
+ "step": 1490
5226
+ },
5227
+ {
5228
+ "epoch": 0.04973333333333333,
5229
+ "grad_norm": 0.1328125,
5230
+ "learning_rate": 0.024,
5231
+ "loss": 2.600905418395996,
5232
+ "step": 1492
5233
+ },
5234
+ {
5235
+ "epoch": 0.0498,
5236
+ "grad_norm": 0.12890625,
5237
+ "learning_rate": 0.024,
5238
+ "loss": 2.611905574798584,
5239
+ "step": 1494
5240
+ },
5241
+ {
5242
+ "epoch": 0.04986666666666666,
5243
+ "grad_norm": 0.1240234375,
5244
+ "learning_rate": 0.024,
5245
+ "loss": 2.6034443378448486,
5246
+ "step": 1496
5247
+ },
5248
+ {
5249
+ "epoch": 0.049933333333333337,
5250
+ "grad_norm": 0.1181640625,
5251
+ "learning_rate": 0.024,
5252
+ "loss": 2.5897111892700195,
5253
+ "step": 1498
5254
+ },
5255
+ {
5256
+ "epoch": 0.05,
5257
+ "grad_norm": 0.1181640625,
5258
+ "learning_rate": 0.024,
5259
+ "loss": 2.6069107055664062,
5260
+ "step": 1500
5261
+ },
5262
+ {
5263
+ "epoch": 0.05006666666666667,
5264
+ "grad_norm": 0.1328125,
5265
+ "learning_rate": 0.024,
5266
+ "loss": 2.611384868621826,
5267
+ "step": 1502
5268
+ },
5269
+ {
5270
+ "epoch": 0.050133333333333335,
5271
+ "grad_norm": 0.1171875,
5272
+ "learning_rate": 0.024,
5273
+ "loss": 2.58235502243042,
5274
+ "step": 1504
5275
+ },
5276
+ {
5277
+ "epoch": 0.0502,
5278
+ "grad_norm": 0.12451171875,
5279
+ "learning_rate": 0.024,
5280
+ "loss": 2.6123249530792236,
5281
+ "step": 1506
5282
+ },
5283
+ {
5284
+ "epoch": 0.05026666666666667,
5285
+ "grad_norm": 0.11767578125,
5286
+ "learning_rate": 0.024,
5287
+ "loss": 2.5901761054992676,
5288
+ "step": 1508
5289
+ },
5290
+ {
5291
+ "epoch": 0.050333333333333334,
5292
+ "grad_norm": 0.11767578125,
5293
+ "learning_rate": 0.024,
5294
+ "loss": 2.615692615509033,
5295
+ "step": 1510
5296
+ },
5297
+ {
5298
+ "epoch": 0.0504,
5299
+ "grad_norm": 0.115234375,
5300
+ "learning_rate": 0.024,
5301
+ "loss": 2.593639373779297,
5302
+ "step": 1512
5303
+ },
5304
+ {
5305
+ "epoch": 0.05046666666666667,
5306
+ "grad_norm": 0.1162109375,
5307
+ "learning_rate": 0.024,
5308
+ "loss": 2.576578140258789,
5309
+ "step": 1514
5310
+ },
5311
+ {
5312
+ "epoch": 0.05053333333333333,
5313
+ "grad_norm": 0.11767578125,
5314
+ "learning_rate": 0.024,
5315
+ "loss": 2.5825276374816895,
5316
+ "step": 1516
5317
+ },
5318
+ {
5319
+ "epoch": 0.0506,
5320
+ "grad_norm": 0.11572265625,
5321
+ "learning_rate": 0.024,
5322
+ "loss": 2.601933479309082,
5323
+ "step": 1518
5324
+ },
5325
+ {
5326
+ "epoch": 0.050666666666666665,
5327
+ "grad_norm": 0.11474609375,
5328
+ "learning_rate": 0.024,
5329
+ "loss": 2.5990073680877686,
5330
+ "step": 1520
5331
+ },
5332
+ {
5333
+ "epoch": 0.05073333333333333,
5334
+ "grad_norm": 0.11669921875,
5335
+ "learning_rate": 0.024,
5336
+ "loss": 2.5695695877075195,
5337
+ "step": 1522
5338
+ },
5339
+ {
5340
+ "epoch": 0.0508,
5341
+ "grad_norm": 0.1162109375,
5342
+ "learning_rate": 0.024,
5343
+ "loss": 2.572387218475342,
5344
+ "step": 1524
5345
+ },
5346
+ {
5347
+ "epoch": 0.050866666666666664,
5348
+ "grad_norm": 0.12255859375,
5349
+ "learning_rate": 0.024,
5350
+ "loss": 2.6148483753204346,
5351
+ "step": 1526
5352
+ },
5353
+ {
5354
+ "epoch": 0.05093333333333333,
5355
+ "grad_norm": 0.12451171875,
5356
+ "learning_rate": 0.024,
5357
+ "loss": 2.5818052291870117,
5358
+ "step": 1528
5359
+ },
5360
+ {
5361
+ "epoch": 0.051,
5362
+ "grad_norm": 0.11767578125,
5363
+ "learning_rate": 0.024,
5364
+ "loss": 2.5965139865875244,
5365
+ "step": 1530
5366
+ },
5367
+ {
5368
+ "epoch": 0.05106666666666667,
5369
+ "grad_norm": 0.123046875,
5370
+ "learning_rate": 0.024,
5371
+ "loss": 2.6247901916503906,
5372
+ "step": 1532
5373
+ },
5374
+ {
5375
+ "epoch": 0.051133333333333336,
5376
+ "grad_norm": 0.1103515625,
5377
+ "learning_rate": 0.024,
5378
+ "loss": 2.5938351154327393,
5379
+ "step": 1534
5380
+ },
5381
+ {
5382
+ "epoch": 0.0512,
5383
+ "grad_norm": 0.1044921875,
5384
+ "learning_rate": 0.024,
5385
+ "loss": 2.591001033782959,
5386
+ "step": 1536
5387
+ },
5388
+ {
5389
+ "epoch": 0.05126666666666667,
5390
+ "grad_norm": 0.1142578125,
5391
+ "learning_rate": 0.024,
5392
+ "loss": 2.6221001148223877,
5393
+ "step": 1538
5394
+ },
5395
+ {
5396
+ "epoch": 0.051333333333333335,
5397
+ "grad_norm": 0.10546875,
5398
+ "learning_rate": 0.024,
5399
+ "loss": 2.6043143272399902,
5400
+ "step": 1540
5401
+ },
5402
+ {
5403
+ "epoch": 0.0514,
5404
+ "grad_norm": 0.111328125,
5405
+ "learning_rate": 0.024,
5406
+ "loss": 2.5980687141418457,
5407
+ "step": 1542
5408
+ },
5409
+ {
5410
+ "epoch": 0.05146666666666667,
5411
+ "grad_norm": 0.11767578125,
5412
+ "learning_rate": 0.024,
5413
+ "loss": 2.5791831016540527,
5414
+ "step": 1544
5415
+ },
5416
+ {
5417
+ "epoch": 0.051533333333333334,
5418
+ "grad_norm": 0.10546875,
5419
+ "learning_rate": 0.024,
5420
+ "loss": 2.5555572509765625,
5421
+ "step": 1546
5422
+ },
5423
+ {
5424
+ "epoch": 0.0516,
5425
+ "grad_norm": 0.10986328125,
5426
+ "learning_rate": 0.024,
5427
+ "loss": 2.600560426712036,
5428
+ "step": 1548
5429
+ },
5430
+ {
5431
+ "epoch": 0.051666666666666666,
5432
+ "grad_norm": 0.13671875,
5433
+ "learning_rate": 0.024,
5434
+ "loss": 2.5958456993103027,
5435
+ "step": 1550
5436
+ },
5437
+ {
5438
+ "epoch": 0.05173333333333333,
5439
+ "grad_norm": 0.126953125,
5440
+ "learning_rate": 0.024,
5441
+ "loss": 2.6142563819885254,
5442
+ "step": 1552
5443
+ },
5444
+ {
5445
+ "epoch": 0.0518,
5446
+ "grad_norm": 0.126953125,
5447
+ "learning_rate": 0.024,
5448
+ "loss": 2.5973172187805176,
5449
+ "step": 1554
5450
+ },
5451
+ {
5452
+ "epoch": 0.051866666666666665,
5453
+ "grad_norm": 0.130859375,
5454
+ "learning_rate": 0.024,
5455
+ "loss": 2.598386764526367,
5456
+ "step": 1556
5457
+ },
5458
+ {
5459
+ "epoch": 0.05193333333333333,
5460
+ "grad_norm": 0.12255859375,
5461
+ "learning_rate": 0.024,
5462
+ "loss": 2.6047744750976562,
5463
+ "step": 1558
5464
+ },
5465
+ {
5466
+ "epoch": 0.052,
5467
+ "grad_norm": 0.130859375,
5468
+ "learning_rate": 0.024,
5469
+ "loss": 2.596937894821167,
5470
+ "step": 1560
5471
+ },
5472
+ {
5473
+ "epoch": 0.052066666666666664,
5474
+ "grad_norm": 0.125,
5475
+ "learning_rate": 0.024,
5476
+ "loss": 2.5902256965637207,
5477
+ "step": 1562
5478
+ },
5479
+ {
5480
+ "epoch": 0.05213333333333333,
5481
+ "grad_norm": 0.11962890625,
5482
+ "learning_rate": 0.024,
5483
+ "loss": 2.5925097465515137,
5484
+ "step": 1564
5485
+ },
5486
+ {
5487
+ "epoch": 0.0522,
5488
+ "grad_norm": 0.1337890625,
5489
+ "learning_rate": 0.024,
5490
+ "loss": 2.5859932899475098,
5491
+ "step": 1566
5492
+ },
5493
+ {
5494
+ "epoch": 0.05226666666666667,
5495
+ "grad_norm": 0.12890625,
5496
+ "learning_rate": 0.024,
5497
+ "loss": 2.5853452682495117,
5498
+ "step": 1568
5499
+ },
5500
+ {
5501
+ "epoch": 0.052333333333333336,
5502
+ "grad_norm": 0.12158203125,
5503
+ "learning_rate": 0.024,
5504
+ "loss": 2.5683794021606445,
5505
+ "step": 1570
5506
+ },
5507
+ {
5508
+ "epoch": 0.0524,
5509
+ "grad_norm": 0.115234375,
5510
+ "learning_rate": 0.024,
5511
+ "loss": 2.5935745239257812,
5512
+ "step": 1572
5513
+ },
5514
+ {
5515
+ "epoch": 0.05246666666666667,
5516
+ "grad_norm": 0.1103515625,
5517
+ "learning_rate": 0.024,
5518
+ "loss": 2.5718045234680176,
5519
+ "step": 1574
5520
+ },
5521
+ {
5522
+ "epoch": 0.052533333333333335,
5523
+ "grad_norm": 0.1220703125,
5524
+ "learning_rate": 0.024,
5525
+ "loss": 2.5975918769836426,
5526
+ "step": 1576
5527
+ },
5528
+ {
5529
+ "epoch": 0.0526,
5530
+ "grad_norm": 0.115234375,
5531
+ "learning_rate": 0.024,
5532
+ "loss": 2.5867679119110107,
5533
+ "step": 1578
5534
+ },
5535
+ {
5536
+ "epoch": 0.05266666666666667,
5537
+ "grad_norm": 0.12451171875,
5538
+ "learning_rate": 0.024,
5539
+ "loss": 2.5908994674682617,
5540
+ "step": 1580
5541
+ },
5542
+ {
5543
+ "epoch": 0.05273333333333333,
5544
+ "grad_norm": 0.1240234375,
5545
+ "learning_rate": 0.024,
5546
+ "loss": 2.597536087036133,
5547
+ "step": 1582
5548
+ },
5549
+ {
5550
+ "epoch": 0.0528,
5551
+ "grad_norm": 0.11083984375,
5552
+ "learning_rate": 0.024,
5553
+ "loss": 2.56665301322937,
5554
+ "step": 1584
5555
+ },
5556
+ {
5557
+ "epoch": 0.052866666666666666,
5558
+ "grad_norm": 0.11767578125,
5559
+ "learning_rate": 0.024,
5560
+ "loss": 2.575469493865967,
5561
+ "step": 1586
5562
+ },
5563
+ {
5564
+ "epoch": 0.05293333333333333,
5565
+ "grad_norm": 0.126953125,
5566
+ "learning_rate": 0.024,
5567
+ "loss": 2.598961591720581,
5568
+ "step": 1588
5569
+ },
5570
+ {
5571
+ "epoch": 0.053,
5572
+ "grad_norm": 0.11962890625,
5573
+ "learning_rate": 0.024,
5574
+ "loss": 2.5680768489837646,
5575
+ "step": 1590
5576
+ },
5577
+ {
5578
+ "epoch": 0.053066666666666665,
5579
+ "grad_norm": 0.125,
5580
+ "learning_rate": 0.024,
5581
+ "loss": 2.6187450885772705,
5582
+ "step": 1592
5583
+ },
5584
+ {
5585
+ "epoch": 0.05313333333333333,
5586
+ "grad_norm": 0.1181640625,
5587
+ "learning_rate": 0.024,
5588
+ "loss": 2.571445941925049,
5589
+ "step": 1594
5590
+ },
5591
+ {
5592
+ "epoch": 0.0532,
5593
+ "grad_norm": 0.12109375,
5594
+ "learning_rate": 0.024,
5595
+ "loss": 2.5824804306030273,
5596
+ "step": 1596
5597
+ },
5598
+ {
5599
+ "epoch": 0.053266666666666664,
5600
+ "grad_norm": 0.1259765625,
5601
+ "learning_rate": 0.024,
5602
+ "loss": 2.5884318351745605,
5603
+ "step": 1598
5604
+ },
5605
+ {
5606
+ "epoch": 0.05333333333333334,
5607
+ "grad_norm": 0.11376953125,
5608
+ "learning_rate": 0.024,
5609
+ "loss": 2.57258939743042,
5610
+ "step": 1600
5611
+ },
5612
+ {
5613
+ "epoch": 0.0534,
5614
+ "grad_norm": 0.11328125,
5615
+ "learning_rate": 0.024,
5616
+ "loss": 2.557802677154541,
5617
+ "step": 1602
5618
+ },
5619
+ {
5620
+ "epoch": 0.05346666666666667,
5621
+ "grad_norm": 0.1162109375,
5622
+ "learning_rate": 0.024,
5623
+ "loss": 2.5890755653381348,
5624
+ "step": 1604
5625
+ },
5626
+ {
5627
+ "epoch": 0.053533333333333336,
5628
+ "grad_norm": 0.1162109375,
5629
+ "learning_rate": 0.024,
5630
+ "loss": 2.5772666931152344,
5631
+ "step": 1606
5632
+ },
5633
+ {
5634
+ "epoch": 0.0536,
5635
+ "grad_norm": 0.11669921875,
5636
+ "learning_rate": 0.024,
5637
+ "loss": 2.5823416709899902,
5638
+ "step": 1608
5639
+ },
5640
+ {
5641
+ "epoch": 0.05366666666666667,
5642
+ "grad_norm": 0.1181640625,
5643
+ "learning_rate": 0.024,
5644
+ "loss": 2.5693094730377197,
5645
+ "step": 1610
5646
+ },
5647
+ {
5648
+ "epoch": 0.053733333333333334,
5649
+ "grad_norm": 0.12255859375,
5650
+ "learning_rate": 0.024,
5651
+ "loss": 2.5665066242218018,
5652
+ "step": 1612
5653
+ },
5654
+ {
5655
+ "epoch": 0.0538,
5656
+ "grad_norm": 0.11767578125,
5657
+ "learning_rate": 0.024,
5658
+ "loss": 2.591248035430908,
5659
+ "step": 1614
5660
+ },
5661
+ {
5662
+ "epoch": 0.05386666666666667,
5663
+ "grad_norm": 0.11669921875,
5664
+ "learning_rate": 0.024,
5665
+ "loss": 2.557893753051758,
5666
+ "step": 1616
5667
+ },
5668
+ {
5669
+ "epoch": 0.05393333333333333,
5670
+ "grad_norm": 0.11181640625,
5671
+ "learning_rate": 0.024,
5672
+ "loss": 2.5894339084625244,
5673
+ "step": 1618
5674
+ },
5675
+ {
5676
+ "epoch": 0.054,
5677
+ "grad_norm": 0.10986328125,
5678
+ "learning_rate": 0.024,
5679
+ "loss": 2.566544771194458,
5680
+ "step": 1620
5681
+ },
5682
+ {
5683
+ "epoch": 0.054066666666666666,
5684
+ "grad_norm": 0.1328125,
5685
+ "learning_rate": 0.024,
5686
+ "loss": 2.590630054473877,
5687
+ "step": 1622
5688
+ },
5689
+ {
5690
+ "epoch": 0.05413333333333333,
5691
+ "grad_norm": 0.1279296875,
5692
+ "learning_rate": 0.024,
5693
+ "loss": 2.5778560638427734,
5694
+ "step": 1624
5695
+ },
5696
+ {
5697
+ "epoch": 0.0542,
5698
+ "grad_norm": 0.13671875,
5699
+ "learning_rate": 0.024,
5700
+ "loss": 2.588923692703247,
5701
+ "step": 1626
5702
+ },
5703
+ {
5704
+ "epoch": 0.054266666666666664,
5705
+ "grad_norm": 0.12109375,
5706
+ "learning_rate": 0.024,
5707
+ "loss": 2.5892438888549805,
5708
+ "step": 1628
5709
+ },
5710
+ {
5711
+ "epoch": 0.05433333333333333,
5712
+ "grad_norm": 0.1279296875,
5713
+ "learning_rate": 0.024,
5714
+ "loss": 2.6228580474853516,
5715
+ "step": 1630
5716
+ },
5717
+ {
5718
+ "epoch": 0.0544,
5719
+ "grad_norm": 0.126953125,
5720
+ "learning_rate": 0.024,
5721
+ "loss": 2.5692553520202637,
5722
+ "step": 1632
5723
+ },
5724
+ {
5725
+ "epoch": 0.05446666666666666,
5726
+ "grad_norm": 0.1298828125,
5727
+ "learning_rate": 0.024,
5728
+ "loss": 2.5936594009399414,
5729
+ "step": 1634
5730
+ },
5731
+ {
5732
+ "epoch": 0.054533333333333336,
5733
+ "grad_norm": 0.12109375,
5734
+ "learning_rate": 0.024,
5735
+ "loss": 2.5893115997314453,
5736
+ "step": 1636
5737
+ },
5738
+ {
5739
+ "epoch": 0.0546,
5740
+ "grad_norm": 0.1259765625,
5741
+ "learning_rate": 0.024,
5742
+ "loss": 2.604114055633545,
5743
+ "step": 1638
5744
+ },
5745
+ {
5746
+ "epoch": 0.05466666666666667,
5747
+ "grad_norm": 0.1279296875,
5748
+ "learning_rate": 0.024,
5749
+ "loss": 2.57619047164917,
5750
+ "step": 1640
5751
+ },
5752
+ {
5753
+ "epoch": 0.054733333333333335,
5754
+ "grad_norm": 0.11962890625,
5755
+ "learning_rate": 0.024,
5756
+ "loss": 2.5832417011260986,
5757
+ "step": 1642
5758
+ },
5759
+ {
5760
+ "epoch": 0.0548,
5761
+ "grad_norm": 0.109375,
5762
+ "learning_rate": 0.024,
5763
+ "loss": 2.5722920894622803,
5764
+ "step": 1644
5765
+ },
5766
+ {
5767
+ "epoch": 0.05486666666666667,
5768
+ "grad_norm": 0.1279296875,
5769
+ "learning_rate": 0.024,
5770
+ "loss": 2.57745623588562,
5771
+ "step": 1646
5772
+ },
5773
+ {
5774
+ "epoch": 0.054933333333333334,
5775
+ "grad_norm": 0.11767578125,
5776
+ "learning_rate": 0.024,
5777
+ "loss": 2.567213773727417,
5778
+ "step": 1648
5779
+ },
5780
+ {
5781
+ "epoch": 0.055,
5782
+ "grad_norm": 0.119140625,
5783
+ "learning_rate": 0.024,
5784
+ "loss": 2.583733081817627,
5785
+ "step": 1650
5786
+ },
5787
+ {
5788
+ "epoch": 0.05506666666666667,
5789
+ "grad_norm": 0.1259765625,
5790
+ "learning_rate": 0.024,
5791
+ "loss": 2.596343517303467,
5792
+ "step": 1652
5793
+ },
5794
+ {
5795
+ "epoch": 0.05513333333333333,
5796
+ "grad_norm": 0.126953125,
5797
+ "learning_rate": 0.024,
5798
+ "loss": 2.589913845062256,
5799
+ "step": 1654
5800
+ },
5801
+ {
5802
+ "epoch": 0.0552,
5803
+ "grad_norm": 0.1220703125,
5804
+ "learning_rate": 0.024,
5805
+ "loss": 2.5696635246276855,
5806
+ "step": 1656
5807
+ },
5808
+ {
5809
+ "epoch": 0.055266666666666665,
5810
+ "grad_norm": 0.1240234375,
5811
+ "learning_rate": 0.024,
5812
+ "loss": 2.5637292861938477,
5813
+ "step": 1658
5814
+ },
5815
+ {
5816
+ "epoch": 0.05533333333333333,
5817
+ "grad_norm": 0.11279296875,
5818
+ "learning_rate": 0.024,
5819
+ "loss": 2.6024417877197266,
5820
+ "step": 1660
5821
+ },
5822
+ {
5823
+ "epoch": 0.0554,
5824
+ "grad_norm": 0.12255859375,
5825
+ "learning_rate": 0.024,
5826
+ "loss": 2.5673327445983887,
5827
+ "step": 1662
5828
+ },
5829
+ {
5830
+ "epoch": 0.055466666666666664,
5831
+ "grad_norm": 0.1171875,
5832
+ "learning_rate": 0.024,
5833
+ "loss": 2.5637764930725098,
5834
+ "step": 1664
5835
+ },
5836
+ {
5837
+ "epoch": 0.05553333333333333,
5838
+ "grad_norm": 0.12060546875,
5839
+ "learning_rate": 0.024,
5840
+ "loss": 2.604787588119507,
5841
+ "step": 1666
5842
+ },
5843
+ {
5844
+ "epoch": 0.0556,
5845
+ "grad_norm": 0.12890625,
5846
+ "learning_rate": 0.024,
5847
+ "loss": 2.6125056743621826,
5848
+ "step": 1668
5849
+ },
5850
+ {
5851
+ "epoch": 0.05566666666666667,
5852
+ "grad_norm": 0.12255859375,
5853
+ "learning_rate": 0.024,
5854
+ "loss": 2.5494978427886963,
5855
+ "step": 1670
5856
+ },
5857
+ {
5858
+ "epoch": 0.055733333333333336,
5859
+ "grad_norm": 0.111328125,
5860
+ "learning_rate": 0.024,
5861
+ "loss": 2.5531435012817383,
5862
+ "step": 1672
5863
+ },
5864
+ {
5865
+ "epoch": 0.0558,
5866
+ "grad_norm": 0.11669921875,
5867
+ "learning_rate": 0.024,
5868
+ "loss": 2.582603931427002,
5869
+ "step": 1674
5870
+ },
5871
+ {
5872
+ "epoch": 0.05586666666666667,
5873
+ "grad_norm": 0.11376953125,
5874
+ "learning_rate": 0.024,
5875
+ "loss": 2.5770416259765625,
5876
+ "step": 1676
5877
+ },
5878
+ {
5879
+ "epoch": 0.055933333333333335,
5880
+ "grad_norm": 0.1142578125,
5881
+ "learning_rate": 0.024,
5882
+ "loss": 2.5648701190948486,
5883
+ "step": 1678
5884
+ },
5885
+ {
5886
+ "epoch": 0.056,
5887
+ "grad_norm": 0.12353515625,
5888
+ "learning_rate": 0.024,
5889
+ "loss": 2.583848714828491,
5890
+ "step": 1680
5891
+ },
5892
+ {
5893
+ "epoch": 0.05606666666666667,
5894
+ "grad_norm": 0.1376953125,
5895
+ "learning_rate": 0.024,
5896
+ "loss": 2.581005096435547,
5897
+ "step": 1682
5898
+ },
5899
+ {
5900
+ "epoch": 0.056133333333333334,
5901
+ "grad_norm": 0.130859375,
5902
+ "learning_rate": 0.024,
5903
+ "loss": 2.567326068878174,
5904
+ "step": 1684
5905
+ },
5906
+ {
5907
+ "epoch": 0.0562,
5908
+ "grad_norm": 0.1240234375,
5909
+ "learning_rate": 0.024,
5910
+ "loss": 2.550015926361084,
5911
+ "step": 1686
5912
+ },
5913
+ {
5914
+ "epoch": 0.056266666666666666,
5915
+ "grad_norm": 0.1376953125,
5916
+ "learning_rate": 0.024,
5917
+ "loss": 2.572901725769043,
5918
+ "step": 1688
5919
+ },
5920
+ {
5921
+ "epoch": 0.05633333333333333,
5922
+ "grad_norm": 0.134765625,
5923
+ "learning_rate": 0.024,
5924
+ "loss": 2.6039135456085205,
5925
+ "step": 1690
5926
+ },
5927
+ {
5928
+ "epoch": 0.0564,
5929
+ "grad_norm": 0.1318359375,
5930
+ "learning_rate": 0.024,
5931
+ "loss": 2.5488972663879395,
5932
+ "step": 1692
5933
+ },
5934
+ {
5935
+ "epoch": 0.056466666666666665,
5936
+ "grad_norm": 0.12255859375,
5937
+ "learning_rate": 0.024,
5938
+ "loss": 2.579465389251709,
5939
+ "step": 1694
5940
+ },
5941
+ {
5942
+ "epoch": 0.05653333333333333,
5943
+ "grad_norm": 0.1279296875,
5944
+ "learning_rate": 0.024,
5945
+ "loss": 2.5769503116607666,
5946
+ "step": 1696
5947
+ },
5948
+ {
5949
+ "epoch": 0.0566,
5950
+ "grad_norm": 0.11669921875,
5951
+ "learning_rate": 0.024,
5952
+ "loss": 2.565908670425415,
5953
+ "step": 1698
5954
+ },
5955
+ {
5956
+ "epoch": 0.056666666666666664,
5957
+ "grad_norm": 0.1162109375,
5958
+ "learning_rate": 0.024,
5959
+ "loss": 2.584473133087158,
5960
+ "step": 1700
5961
+ },
5962
+ {
5963
+ "epoch": 0.05673333333333333,
5964
+ "grad_norm": 0.11865234375,
5965
+ "learning_rate": 0.024,
5966
+ "loss": 2.5787506103515625,
5967
+ "step": 1702
5968
+ },
5969
+ {
5970
+ "epoch": 0.0568,
5971
+ "grad_norm": 0.138671875,
5972
+ "learning_rate": 0.024,
5973
+ "loss": 2.584169387817383,
5974
+ "step": 1704
5975
+ },
5976
+ {
5977
+ "epoch": 0.05686666666666667,
5978
+ "grad_norm": 0.1220703125,
5979
+ "learning_rate": 0.024,
5980
+ "loss": 2.5598130226135254,
5981
+ "step": 1706
5982
+ },
5983
+ {
5984
+ "epoch": 0.056933333333333336,
5985
+ "grad_norm": 0.1259765625,
5986
+ "learning_rate": 0.024,
5987
+ "loss": 2.6092562675476074,
5988
+ "step": 1708
5989
+ },
5990
+ {
5991
+ "epoch": 0.057,
5992
+ "grad_norm": 0.125,
5993
+ "learning_rate": 0.024,
5994
+ "loss": 2.585153102874756,
5995
+ "step": 1710
5996
+ },
5997
+ {
5998
+ "epoch": 0.05706666666666667,
5999
+ "grad_norm": 0.130859375,
6000
+ "learning_rate": 0.024,
6001
+ "loss": 2.5852773189544678,
6002
+ "step": 1712
6003
+ },
6004
+ {
6005
+ "epoch": 0.057133333333333335,
6006
+ "grad_norm": 0.11572265625,
6007
+ "learning_rate": 0.024,
6008
+ "loss": 2.5211057662963867,
6009
+ "step": 1714
6010
+ },
6011
+ {
6012
+ "epoch": 0.0572,
6013
+ "grad_norm": 0.125,
6014
+ "learning_rate": 0.024,
6015
+ "loss": 2.574256181716919,
6016
+ "step": 1716
6017
+ },
6018
+ {
6019
+ "epoch": 0.05726666666666667,
6020
+ "grad_norm": 0.1220703125,
6021
+ "learning_rate": 0.024,
6022
+ "loss": 2.57222056388855,
6023
+ "step": 1718
6024
+ },
6025
+ {
6026
+ "epoch": 0.05733333333333333,
6027
+ "grad_norm": 0.11767578125,
6028
+ "learning_rate": 0.024,
6029
+ "loss": 2.5546011924743652,
6030
+ "step": 1720
6031
+ },
6032
+ {
6033
+ "epoch": 0.0574,
6034
+ "grad_norm": 0.1162109375,
6035
+ "learning_rate": 0.024,
6036
+ "loss": 2.568448066711426,
6037
+ "step": 1722
6038
+ },
6039
+ {
6040
+ "epoch": 0.057466666666666666,
6041
+ "grad_norm": 0.11083984375,
6042
+ "learning_rate": 0.024,
6043
+ "loss": 2.5641651153564453,
6044
+ "step": 1724
6045
+ },
6046
+ {
6047
+ "epoch": 0.05753333333333333,
6048
+ "grad_norm": 0.115234375,
6049
+ "learning_rate": 0.024,
6050
+ "loss": 2.5845165252685547,
6051
+ "step": 1726
6052
+ },
6053
+ {
6054
+ "epoch": 0.0576,
6055
+ "grad_norm": 0.1103515625,
6056
+ "learning_rate": 0.024,
6057
+ "loss": 2.5607261657714844,
6058
+ "step": 1728
6059
+ },
6060
+ {
6061
+ "epoch": 0.057666666666666665,
6062
+ "grad_norm": 0.1357421875,
6063
+ "learning_rate": 0.024,
6064
+ "loss": 2.552705764770508,
6065
+ "step": 1730
6066
+ },
6067
+ {
6068
+ "epoch": 0.05773333333333333,
6069
+ "grad_norm": 0.1318359375,
6070
+ "learning_rate": 0.024,
6071
+ "loss": 2.574779510498047,
6072
+ "step": 1732
6073
+ },
6074
+ {
6075
+ "epoch": 0.0578,
6076
+ "grad_norm": 0.140625,
6077
+ "learning_rate": 0.024,
6078
+ "loss": 2.5517289638519287,
6079
+ "step": 1734
6080
+ },
6081
+ {
6082
+ "epoch": 0.057866666666666663,
6083
+ "grad_norm": 0.134765625,
6084
+ "learning_rate": 0.024,
6085
+ "loss": 2.5506882667541504,
6086
+ "step": 1736
6087
+ },
6088
+ {
6089
+ "epoch": 0.05793333333333334,
6090
+ "grad_norm": 0.1279296875,
6091
+ "learning_rate": 0.024,
6092
+ "loss": 2.5504963397979736,
6093
+ "step": 1738
6094
+ },
6095
+ {
6096
+ "epoch": 0.058,
6097
+ "grad_norm": 0.1328125,
6098
+ "learning_rate": 0.024,
6099
+ "loss": 2.549194574356079,
6100
+ "step": 1740
6101
+ },
6102
+ {
6103
+ "epoch": 0.05806666666666667,
6104
+ "grad_norm": 0.1337890625,
6105
+ "learning_rate": 0.024,
6106
+ "loss": 2.561619281768799,
6107
+ "step": 1742
6108
+ },
6109
+ {
6110
+ "epoch": 0.058133333333333335,
6111
+ "grad_norm": 0.1357421875,
6112
+ "learning_rate": 0.024,
6113
+ "loss": 2.569553852081299,
6114
+ "step": 1744
6115
+ },
6116
+ {
6117
+ "epoch": 0.0582,
6118
+ "grad_norm": 0.130859375,
6119
+ "learning_rate": 0.024,
6120
+ "loss": 2.5810155868530273,
6121
+ "step": 1746
6122
+ },
6123
+ {
6124
+ "epoch": 0.05826666666666667,
6125
+ "grad_norm": 0.1259765625,
6126
+ "learning_rate": 0.024,
6127
+ "loss": 2.587503433227539,
6128
+ "step": 1748
6129
+ },
6130
+ {
6131
+ "epoch": 0.058333333333333334,
6132
+ "grad_norm": 0.11669921875,
6133
+ "learning_rate": 0.024,
6134
+ "loss": 2.557302474975586,
6135
+ "step": 1750
6136
+ },
6137
+ {
6138
+ "epoch": 0.0584,
6139
+ "grad_norm": 0.11474609375,
6140
+ "learning_rate": 0.024,
6141
+ "loss": 2.559131145477295,
6142
+ "step": 1752
6143
+ },
6144
+ {
6145
+ "epoch": 0.05846666666666667,
6146
+ "grad_norm": 0.1259765625,
6147
+ "learning_rate": 0.024,
6148
+ "loss": 2.5789217948913574,
6149
+ "step": 1754
6150
+ },
6151
+ {
6152
+ "epoch": 0.05853333333333333,
6153
+ "grad_norm": 0.1279296875,
6154
+ "learning_rate": 0.024,
6155
+ "loss": 2.6011600494384766,
6156
+ "step": 1756
6157
+ },
6158
+ {
6159
+ "epoch": 0.0586,
6160
+ "grad_norm": 0.12353515625,
6161
+ "learning_rate": 0.024,
6162
+ "loss": 2.548956871032715,
6163
+ "step": 1758
6164
+ },
6165
+ {
6166
+ "epoch": 0.058666666666666666,
6167
+ "grad_norm": 0.12890625,
6168
+ "learning_rate": 0.024,
6169
+ "loss": 2.575629711151123,
6170
+ "step": 1760
6171
+ },
6172
+ {
6173
+ "epoch": 0.05873333333333333,
6174
+ "grad_norm": 0.1240234375,
6175
+ "learning_rate": 0.024,
6176
+ "loss": 2.574357748031616,
6177
+ "step": 1762
6178
+ },
6179
+ {
6180
+ "epoch": 0.0588,
6181
+ "grad_norm": 0.12451171875,
6182
+ "learning_rate": 0.024,
6183
+ "loss": 2.5446419715881348,
6184
+ "step": 1764
6185
+ },
6186
+ {
6187
+ "epoch": 0.058866666666666664,
6188
+ "grad_norm": 0.11767578125,
6189
+ "learning_rate": 0.024,
6190
+ "loss": 2.593294620513916,
6191
+ "step": 1766
6192
+ },
6193
+ {
6194
+ "epoch": 0.05893333333333333,
6195
+ "grad_norm": 0.1259765625,
6196
+ "learning_rate": 0.024,
6197
+ "loss": 2.5396246910095215,
6198
+ "step": 1768
6199
+ },
6200
+ {
6201
+ "epoch": 0.059,
6202
+ "grad_norm": 0.12158203125,
6203
+ "learning_rate": 0.024,
6204
+ "loss": 2.544818878173828,
6205
+ "step": 1770
6206
+ },
6207
+ {
6208
+ "epoch": 0.05906666666666667,
6209
+ "grad_norm": 0.138671875,
6210
+ "learning_rate": 0.024,
6211
+ "loss": 2.559877634048462,
6212
+ "step": 1772
6213
+ },
6214
+ {
6215
+ "epoch": 0.059133333333333336,
6216
+ "grad_norm": 0.130859375,
6217
+ "learning_rate": 0.024,
6218
+ "loss": 2.575092315673828,
6219
+ "step": 1774
6220
+ },
6221
+ {
6222
+ "epoch": 0.0592,
6223
+ "grad_norm": 0.123046875,
6224
+ "learning_rate": 0.024,
6225
+ "loss": 2.557692050933838,
6226
+ "step": 1776
6227
+ },
6228
+ {
6229
+ "epoch": 0.05926666666666667,
6230
+ "grad_norm": 0.1337890625,
6231
+ "learning_rate": 0.024,
6232
+ "loss": 2.5755789279937744,
6233
+ "step": 1778
6234
+ },
6235
+ {
6236
+ "epoch": 0.059333333333333335,
6237
+ "grad_norm": 0.11962890625,
6238
+ "learning_rate": 0.024,
6239
+ "loss": 2.5832228660583496,
6240
+ "step": 1780
6241
+ },
6242
+ {
6243
+ "epoch": 0.0594,
6244
+ "grad_norm": 0.12109375,
6245
+ "learning_rate": 0.024,
6246
+ "loss": 2.561962366104126,
6247
+ "step": 1782
6248
+ },
6249
+ {
6250
+ "epoch": 0.05946666666666667,
6251
+ "grad_norm": 0.12109375,
6252
+ "learning_rate": 0.024,
6253
+ "loss": 2.5464601516723633,
6254
+ "step": 1784
6255
+ },
6256
+ {
6257
+ "epoch": 0.059533333333333334,
6258
+ "grad_norm": 0.123046875,
6259
+ "learning_rate": 0.024,
6260
+ "loss": 2.5717644691467285,
6261
+ "step": 1786
6262
+ },
6263
+ {
6264
+ "epoch": 0.0596,
6265
+ "grad_norm": 0.1337890625,
6266
+ "learning_rate": 0.024,
6267
+ "loss": 2.525254011154175,
6268
+ "step": 1788
6269
+ },
6270
+ {
6271
+ "epoch": 0.059666666666666666,
6272
+ "grad_norm": 0.1318359375,
6273
+ "learning_rate": 0.024,
6274
+ "loss": 2.5323896408081055,
6275
+ "step": 1790
6276
+ },
6277
+ {
6278
+ "epoch": 0.05973333333333333,
6279
+ "grad_norm": 0.12158203125,
6280
+ "learning_rate": 0.024,
6281
+ "loss": 2.5549697875976562,
6282
+ "step": 1792
6283
+ },
6284
+ {
6285
+ "epoch": 0.0598,
6286
+ "grad_norm": 0.123046875,
6287
+ "learning_rate": 0.024,
6288
+ "loss": 2.5591440200805664,
6289
+ "step": 1794
6290
+ },
6291
+ {
6292
+ "epoch": 0.059866666666666665,
6293
+ "grad_norm": 0.1220703125,
6294
+ "learning_rate": 0.024,
6295
+ "loss": 2.575269937515259,
6296
+ "step": 1796
6297
+ },
6298
+ {
6299
+ "epoch": 0.05993333333333333,
6300
+ "grad_norm": 0.12890625,
6301
+ "learning_rate": 0.024,
6302
+ "loss": 2.5664448738098145,
6303
+ "step": 1798
6304
+ },
6305
+ {
6306
+ "epoch": 0.06,
6307
+ "grad_norm": 0.1259765625,
6308
+ "learning_rate": 0.024,
6309
+ "loss": 2.5452637672424316,
6310
+ "step": 1800
6311
  }
6312
  ],
6313
  "logging_steps": 2,
 
6327
  "attributes": {}
6328
  }
6329
  },
6330
+ "total_flos": 6.353926565071421e+18,
6331
  "train_batch_size": 4,
6332
  "trial_name": null,
6333
  "trial_params": null