Training in progress, epoch 1, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/config.json +1 -1
last-checkpoint/model.safetensors +2 -2
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +11 -866
last-checkpoint/training_args.bin +1 -1

last-checkpoint/config.json CHANGED Viewed

@@ -7,7 +7,7 @@
   "grid_size": 48,
   "intermediate_dim": 3072,
   "nhead": 4,
-  "nlayer": 2,
   "ntarget": 1,
   "torch_dtype": "float32",
   "transformers_version": "4.52.4"

   "grid_size": 48,
   "intermediate_dim": 3072,
   "nhead": 4,
+  "nlayer": 4,
   "ntarget": 1,
   "torch_dtype": "float32",
   "transformers_version": "4.52.4"

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:593f45feb57b6cf6b72deb4c2b645da0e09ef0560bb117ead2f8e48a01ba523c
-size 13132

 version https://git-lfs.github.com/spec/v1
+oid sha256:0de6c980717d1de9d5f5025dc7b99f9e288680030e17a953d05f9f168bf9b51f
+size 113571648

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a83b182f0c5a15cc7cc60e05979466978862b18bd2943c1c557801b2452f1335
-size 29970

 version https://git-lfs.github.com/spec/v1
+oid sha256:c7594e1c89f2ef9e9f95d4a3bba880189c707c44cc11259ce7368ca28f4b59e8
+size 227177722

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d6dbaea400350134c87609f2a6e7d568a19190ab54bccf06fc0c89f270eb6d2
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:097be1815f079414e8ed991ad49c6cfd1743fb95655b62a7bef9de98ee947e32
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5815cf5dbd0e8e9b0a43084f1040b0b93a4a2d0c9a55323787cef2a001436293
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b15aa4812dcef7f4211bf5dd0a9f6e03dda77ee314ae3cfe7bc5f3ef8d762a87
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,883 +1,28 @@
 {
-  "best_global_step": 58,
-  "best_metric": 0.32613325119018555,
-  "best_model_checkpoint": "./results/checkpoint-58",
-  "epoch": 58.0,
   "eval_steps": 500,
-  "global_step": 58,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 0.838614821434021,
       "learning_rate": 1e-05,
-      "loss": 0.3287,
       "step": 1
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.328641802072525,
-      "eval_runtime": 0.0155,
-      "eval_samples_per_second": 644.821,
-      "eval_steps_per_second": 128.964,
       "step": 1
-    },
-    {
-      "epoch": 2.0,
-      "grad_norm": 0.8384326100349426,
-      "learning_rate": 9.9e-06,
-      "loss": 0.3286,
-      "step": 2
-    },
-    {
-      "epoch": 2.0,
-      "eval_loss": 0.3285800814628601,
-      "eval_runtime": 0.0447,
-      "eval_samples_per_second": 223.596,
-      "eval_steps_per_second": 44.719,
-      "step": 2
-    },
-    {
-      "epoch": 3.0,
-      "grad_norm": 0.8382521867752075,
-      "learning_rate": 9.800000000000001e-06,
-      "loss": 0.3286,
-      "step": 3
-    },
-    {
-      "epoch": 3.0,
-      "eval_loss": 0.3285190165042877,
-      "eval_runtime": 0.0147,
-      "eval_samples_per_second": 681.358,
-      "eval_steps_per_second": 136.272,
-      "step": 3
-    },
-    {
-      "epoch": 4.0,
-      "grad_norm": 0.8380736112594604,
-      "learning_rate": 9.7e-06,
-      "loss": 0.3285,
-      "step": 4
-    },
-    {
-      "epoch": 4.0,
-      "eval_loss": 0.3284585475921631,
-      "eval_runtime": 0.015,
-      "eval_samples_per_second": 664.929,
-      "eval_steps_per_second": 132.986,
-      "step": 4
-    },
-    {
-      "epoch": 5.0,
-      "grad_norm": 0.8378969430923462,
-      "learning_rate": 9.600000000000001e-06,
-      "loss": 0.3285,
-      "step": 5
-    },
-    {
-      "epoch": 5.0,
-      "eval_loss": 0.32839876413345337,
-      "eval_runtime": 0.0146,
-      "eval_samples_per_second": 682.967,
-      "eval_steps_per_second": 136.593,
-      "step": 5
-    },
-    {
-      "epoch": 6.0,
-      "grad_norm": 0.8377220034599304,
-      "learning_rate": 9.5e-06,
-      "loss": 0.3284,
-      "step": 6
-    },
-    {
-      "epoch": 6.0,
-      "eval_loss": 0.3283396065235138,
-      "eval_runtime": 0.0171,
-      "eval_samples_per_second": 584.458,
-      "eval_steps_per_second": 116.892,
-      "step": 6
-    },
-    {
-      "epoch": 7.0,
-      "grad_norm": 0.8375489711761475,
-      "learning_rate": 9.4e-06,
-      "loss": 0.3283,
-      "step": 7
-    },
-    {
-      "epoch": 7.0,
-      "eval_loss": 0.328281044960022,
-      "eval_runtime": 0.0139,
-      "eval_samples_per_second": 719.089,
-      "eval_steps_per_second": 143.818,
-      "step": 7
-    },
-    {
-      "epoch": 8.0,
-      "grad_norm": 0.8373778462409973,
-      "learning_rate": 9.3e-06,
-      "loss": 0.3283,
-      "step": 8
-    },
-    {
-      "epoch": 8.0,
-      "eval_loss": 0.3282231390476227,
-      "eval_runtime": 0.0142,
-      "eval_samples_per_second": 705.138,
-      "eval_steps_per_second": 141.028,
-      "step": 8
-    },
-    {
-      "epoch": 9.0,
-      "grad_norm": 0.8372084498405457,
-      "learning_rate": 9.200000000000002e-06,
-      "loss": 0.3282,
-      "step": 9
-    },
-    {
-      "epoch": 9.0,
-      "eval_loss": 0.32816585898399353,
-      "eval_runtime": 0.0144,
-      "eval_samples_per_second": 695.135,
-      "eval_steps_per_second": 139.027,
-      "step": 9
-    },
-    {
-      "epoch": 10.0,
-      "grad_norm": 0.837040901184082,
-      "learning_rate": 9.100000000000001e-06,
-      "loss": 0.3282,
-      "step": 10
-    },
-    {
-      "epoch": 10.0,
-      "eval_loss": 0.328109472990036,
-      "eval_runtime": 0.0164,
-      "eval_samples_per_second": 609.921,
-      "eval_steps_per_second": 121.984,
-      "step": 10
-    },
-    {
-      "epoch": 11.0,
-      "grad_norm": 0.8362537622451782,
-      "learning_rate": 9e-06,
-      "loss": 0.3281,
-      "step": 11
-    },
-    {
-      "epoch": 11.0,
-      "eval_loss": 0.3280538320541382,
-      "eval_runtime": 0.0139,
-      "eval_samples_per_second": 720.72,
-      "eval_steps_per_second": 144.144,
-      "step": 11
-    },
-    {
-      "epoch": 12.0,
-      "grad_norm": 0.8360907435417175,
-      "learning_rate": 8.900000000000001e-06,
-      "loss": 0.3281,
-      "step": 12
-    },
-    {
-      "epoch": 12.0,
-      "eval_loss": 0.3279987871646881,
-      "eval_runtime": 0.0164,
-      "eval_samples_per_second": 611.219,
-      "eval_steps_per_second": 122.244,
-      "step": 12
-    },
-    {
-      "epoch": 13.0,
-      "grad_norm": 0.8359295129776001,
-      "learning_rate": 8.8e-06,
-      "loss": 0.328,
-      "step": 13
-    },
-    {
-      "epoch": 13.0,
-      "eval_loss": 0.32794439792633057,
-      "eval_runtime": 0.0145,
-      "eval_samples_per_second": 689.977,
-      "eval_steps_per_second": 137.995,
-      "step": 13
-    },
-    {
-      "epoch": 14.0,
-      "grad_norm": 0.8357701301574707,
-      "learning_rate": 8.700000000000001e-06,
-      "loss": 0.3279,
-      "step": 14
-    },
-    {
-      "epoch": 14.0,
-      "eval_loss": 0.3278906047344208,
-      "eval_runtime": 0.0146,
-      "eval_samples_per_second": 686.398,
-      "eval_steps_per_second": 137.28,
-      "step": 14
-    },
-    {
-      "epoch": 15.0,
-      "grad_norm": 0.8356127142906189,
-      "learning_rate": 8.6e-06,
-      "loss": 0.3279,
-      "step": 15
-    },
-    {
-      "epoch": 15.0,
-      "eval_loss": 0.3278374969959259,
-      "eval_runtime": 0.0164,
-      "eval_samples_per_second": 610.347,
-      "eval_steps_per_second": 122.069,
-      "step": 15
-    },
-    {
-      "epoch": 16.0,
-      "grad_norm": 0.8354570269584656,
-      "learning_rate": 8.5e-06,
-      "loss": 0.3278,
-      "step": 16
-    },
-    {
-      "epoch": 16.0,
-      "eval_loss": 0.3277849853038788,
-      "eval_runtime": 0.0141,
-      "eval_samples_per_second": 708.402,
-      "eval_steps_per_second": 141.68,
-      "step": 16
-    },
-    {
-      "epoch": 17.0,
-      "grad_norm": 0.8353032469749451,
-      "learning_rate": 8.400000000000001e-06,
-      "loss": 0.3278,
-      "step": 17
-    },
-    {
-      "epoch": 17.0,
-      "eval_loss": 0.3277330994606018,
-      "eval_runtime": 0.0172,
-      "eval_samples_per_second": 581.516,
-      "eval_steps_per_second": 116.303,
-      "step": 17
-    },
-    {
-      "epoch": 18.0,
-      "grad_norm": 0.8351512551307678,
-      "learning_rate": 8.3e-06,
-      "loss": 0.3277,
-      "step": 18
-    },
-    {
-      "epoch": 18.0,
-      "eval_loss": 0.32768189907073975,
-      "eval_runtime": 0.0189,
-      "eval_samples_per_second": 529.918,
-      "eval_steps_per_second": 105.984,
-      "step": 18
-    },
-    {
-      "epoch": 19.0,
-      "grad_norm": 0.8350011706352234,
-      "learning_rate": 8.2e-06,
-      "loss": 0.3277,
-      "step": 19
-    },
-    {
-      "epoch": 19.0,
-      "eval_loss": 0.3276313245296478,
-      "eval_runtime": 0.0147,
-      "eval_samples_per_second": 679.691,
-      "eval_steps_per_second": 135.938,
-      "step": 19
-    },
-    {
-      "epoch": 20.0,
-      "grad_norm": 0.8348528742790222,
-      "learning_rate": 8.1e-06,
-      "loss": 0.3276,
-      "step": 20
-    },
-    {
-      "epoch": 20.0,
-      "eval_loss": 0.32758134603500366,
-      "eval_runtime": 0.0141,
-      "eval_samples_per_second": 707.672,
-      "eval_steps_per_second": 141.534,
-      "step": 20
-    },
-    {
-      "epoch": 21.0,
-      "grad_norm": 0.8347064852714539,
-      "learning_rate": 8.000000000000001e-06,
-      "loss": 0.3276,
-      "step": 21
-    },
-    {
-      "epoch": 21.0,
-      "eval_loss": 0.32753199338912964,
-      "eval_runtime": 0.0192,
-      "eval_samples_per_second": 522.167,
-      "eval_steps_per_second": 104.433,
-      "step": 21
-    },
-    {
-      "epoch": 22.0,
-      "grad_norm": 0.834561824798584,
-      "learning_rate": 7.9e-06,
-      "loss": 0.3275,
-      "step": 22
-    },
-    {
-      "epoch": 22.0,
-      "eval_loss": 0.3274833559989929,
-      "eval_runtime": 0.0135,
-      "eval_samples_per_second": 738.109,
-      "eval_steps_per_second": 147.622,
-      "step": 22
-    },
-    {
-      "epoch": 23.0,
-      "grad_norm": 0.8344190716743469,
-      "learning_rate": 7.800000000000002e-06,
-      "loss": 0.3275,
-      "step": 23
-    },
-    {
-      "epoch": 23.0,
-      "eval_loss": 0.3274352252483368,
-      "eval_runtime": 0.0144,
-      "eval_samples_per_second": 694.812,
-      "eval_steps_per_second": 138.962,
-      "step": 23
-    },
-    {
-      "epoch": 24.0,
-      "grad_norm": 0.8342781662940979,
-      "learning_rate": 7.7e-06,
-      "loss": 0.3274,
-      "step": 24
-    },
-    {
-      "epoch": 24.0,
-      "eval_loss": 0.32738780975341797,
-      "eval_runtime": 0.0141,
-      "eval_samples_per_second": 710.779,
-      "eval_steps_per_second": 142.156,
-      "step": 24
-    },
-    {
-      "epoch": 25.0,
-      "grad_norm": 0.8341390490531921,
-      "learning_rate": 7.600000000000001e-06,
-      "loss": 0.3274,
-      "step": 25
-    },
-    {
-      "epoch": 25.0,
-      "eval_loss": 0.3273409605026245,
-      "eval_runtime": 0.0141,
-      "eval_samples_per_second": 709.072,
-      "eval_steps_per_second": 141.814,
-      "step": 25
-    },
-    {
-      "epoch": 26.0,
-      "grad_norm": 0.8340017795562744,
-      "learning_rate": 7.500000000000001e-06,
-      "loss": 0.3273,
-      "step": 26
-    },
-    {
-      "epoch": 26.0,
-      "eval_loss": 0.32729482650756836,
-      "eval_runtime": 0.0158,
-      "eval_samples_per_second": 634.194,
-      "eval_steps_per_second": 126.839,
-      "step": 26
-    },
-    {
-      "epoch": 27.0,
-      "grad_norm": 0.8338663578033447,
-      "learning_rate": 7.4e-06,
-      "loss": 0.3273,
-      "step": 27
-    },
-    {
-      "epoch": 27.0,
-      "eval_loss": 0.3272492289543152,
-      "eval_runtime": 0.0137,
-      "eval_samples_per_second": 729.495,
-      "eval_steps_per_second": 145.899,
-      "step": 27
-    },
-    {
-      "epoch": 28.0,
-      "grad_norm": 0.8337326645851135,
-      "learning_rate": 7.3e-06,
-      "loss": 0.3272,
-      "step": 28
-    },
-    {
-      "epoch": 28.0,
-      "eval_loss": 0.32720428705215454,
-      "eval_runtime": 0.0156,
-      "eval_samples_per_second": 639.834,
-      "eval_steps_per_second": 127.967,
-      "step": 28
-    },
-    {
-      "epoch": 29.0,
-      "grad_norm": 0.8336009383201599,
-      "learning_rate": 7.2000000000000005e-06,
-      "loss": 0.3272,
-      "step": 29
-    },
-    {
-      "epoch": 29.0,
-      "eval_loss": 0.32715997099876404,
-      "eval_runtime": 0.0135,
-      "eval_samples_per_second": 741.24,
-      "eval_steps_per_second": 148.248,
-      "step": 29
-    },
-    {
-      "epoch": 30.0,
-      "grad_norm": 0.8334709405899048,
-      "learning_rate": 7.100000000000001e-06,
-      "loss": 0.3272,
-      "step": 30
-    },
-    {
-      "epoch": 30.0,
-      "eval_loss": 0.3271161913871765,
-      "eval_runtime": 0.0157,
-      "eval_samples_per_second": 638.908,
-      "eval_steps_per_second": 127.782,
-      "step": 30
-    },
-    {
-      "epoch": 31.0,
-      "grad_norm": 0.834907054901123,
-      "learning_rate": 7e-06,
-      "loss": 0.3271,
-      "step": 31
-    },
-    {
-      "epoch": 31.0,
-      "eval_loss": 0.32707276940345764,
-      "eval_runtime": 0.0147,
-      "eval_samples_per_second": 678.679,
-      "eval_steps_per_second": 135.736,
-      "step": 31
-    },
-    {
-      "epoch": 32.0,
-      "grad_norm": 0.8347804546356201,
-      "learning_rate": 6.9e-06,
-      "loss": 0.3271,
-      "step": 32
-    },
-    {
-      "epoch": 32.0,
-      "eval_loss": 0.32702988386154175,
-      "eval_runtime": 0.0137,
-      "eval_samples_per_second": 731.48,
-      "eval_steps_per_second": 146.296,
-      "step": 32
-    },
-    {
-      "epoch": 33.0,
-      "grad_norm": 0.8346555829048157,
-      "learning_rate": 6.800000000000001e-06,
-      "loss": 0.327,
-      "step": 33
-    },
-    {
-      "epoch": 33.0,
-      "eval_loss": 0.326987624168396,
-      "eval_runtime": 0.0154,
-      "eval_samples_per_second": 647.809,
-      "eval_steps_per_second": 129.562,
-      "step": 33
-    },
-    {
-      "epoch": 34.0,
-      "grad_norm": 0.8345323801040649,
-      "learning_rate": 6.700000000000001e-06,
-      "loss": 0.327,
-      "step": 34
-    },
-    {
-      "epoch": 34.0,
-      "eval_loss": 0.326945960521698,
-      "eval_runtime": 0.015,
-      "eval_samples_per_second": 668.532,
-      "eval_steps_per_second": 133.706,
-      "step": 34
-    },
-    {
-      "epoch": 35.0,
-      "grad_norm": 0.8344109654426575,
-      "learning_rate": 6.600000000000001e-06,
-      "loss": 0.3269,
-      "step": 35
-    },
-    {
-      "epoch": 35.0,
-      "eval_loss": 0.32690495252609253,
-      "eval_runtime": 0.0141,
-      "eval_samples_per_second": 711.152,
-      "eval_steps_per_second": 142.23,
-      "step": 35
-    },
-    {
-      "epoch": 36.0,
-      "grad_norm": 0.8342913389205933,
-      "learning_rate": 6.5000000000000004e-06,
-      "loss": 0.3269,
-      "step": 36
-    },
-    {
-      "epoch": 36.0,
-      "eval_loss": 0.3268645405769348,
-      "eval_runtime": 0.0148,
-      "eval_samples_per_second": 676.653,
-      "eval_steps_per_second": 135.331,
-      "step": 36
-    },
-    {
-      "epoch": 37.0,
-      "grad_norm": 0.8341735005378723,
-      "learning_rate": 6.4000000000000006e-06,
-      "loss": 0.3269,
-      "step": 37
-    },
-    {
-      "epoch": 37.0,
-      "eval_loss": 0.32682472467422485,
-      "eval_runtime": 0.0184,
-      "eval_samples_per_second": 544.856,
-      "eval_steps_per_second": 108.971,
-      "step": 37
-    },
-    {
-      "epoch": 38.0,
-      "grad_norm": 0.8340575098991394,
-      "learning_rate": 6.300000000000001e-06,
-      "loss": 0.3268,
-      "step": 38
-    },
-    {
-      "epoch": 38.0,
-      "eval_loss": 0.32678553462028503,
-      "eval_runtime": 0.0135,
-      "eval_samples_per_second": 738.577,
-      "eval_steps_per_second": 147.715,
-      "step": 38
-    },
-    {
-      "epoch": 39.0,
-      "grad_norm": 0.8339433073997498,
-      "learning_rate": 6.200000000000001e-06,
-      "loss": 0.3268,
-      "step": 39
-    },
-    {
-      "epoch": 39.0,
-      "eval_loss": 0.32674694061279297,
-      "eval_runtime": 0.0139,
-      "eval_samples_per_second": 720.337,
-      "eval_steps_per_second": 144.067,
-      "step": 39
-    },
-    {
-      "epoch": 40.0,
-      "grad_norm": 0.8338308334350586,
-      "learning_rate": 6.1e-06,
-      "loss": 0.3267,
-      "step": 40
-    },
-    {
-      "epoch": 40.0,
-      "eval_loss": 0.3267090320587158,
-      "eval_runtime": 0.0146,
-      "eval_samples_per_second": 685.064,
-      "eval_steps_per_second": 137.013,
-      "step": 40
-    },
-    {
-      "epoch": 41.0,
-      "grad_norm": 0.8337202668190002,
-      "learning_rate": 6e-06,
-      "loss": 0.3267,
-      "step": 41
-    },
-    {
-      "epoch": 41.0,
-      "eval_loss": 0.32667168974876404,
-      "eval_runtime": 0.0137,
-      "eval_samples_per_second": 729.584,
-      "eval_steps_per_second": 145.917,
-      "step": 41
-    },
-    {
-      "epoch": 42.0,
-      "grad_norm": 0.8336114883422852,
-      "learning_rate": 5.9e-06,
-      "loss": 0.3267,
-      "step": 42
-    },
-    {
-      "epoch": 42.0,
-      "eval_loss": 0.32663506269454956,
-      "eval_runtime": 0.0139,
-      "eval_samples_per_second": 721.154,
-      "eval_steps_per_second": 144.231,
-      "step": 42
-    },
-    {
-      "epoch": 43.0,
-      "grad_norm": 0.8335044384002686,
-      "learning_rate": 5.8e-06,
-      "loss": 0.3266,
-      "step": 43
-    },
-    {
-      "epoch": 43.0,
-      "eval_loss": 0.32659897208213806,
-      "eval_runtime": 0.0163,
-      "eval_samples_per_second": 613.75,
-      "eval_steps_per_second": 122.75,
-      "step": 43
-    },
-    {
-      "epoch": 44.0,
-      "grad_norm": 0.8333994150161743,
-      "learning_rate": 5.7e-06,
-      "loss": 0.3266,
-      "step": 44
-    },
-    {
-      "epoch": 44.0,
-      "eval_loss": 0.3265635371208191,
-      "eval_runtime": 0.0137,
-      "eval_samples_per_second": 730.842,
-      "eval_steps_per_second": 146.168,
-      "step": 44
-    },
-    {
-      "epoch": 45.0,
-      "grad_norm": 0.8332960605621338,
-      "learning_rate": 5.600000000000001e-06,
-      "loss": 0.3266,
-      "step": 45
-    },
-    {
-      "epoch": 45.0,
-      "eval_loss": 0.32652872800827026,
-      "eval_runtime": 0.015,
-      "eval_samples_per_second": 667.819,
-      "eval_steps_per_second": 133.564,
-      "step": 45
-    },
-    {
-      "epoch": 46.0,
-      "grad_norm": 0.8331945538520813,
-      "learning_rate": 5.500000000000001e-06,
-      "loss": 0.3265,
-      "step": 46
-    },
-    {
-      "epoch": 46.0,
-      "eval_loss": 0.3264945149421692,
-      "eval_runtime": 0.0148,
-      "eval_samples_per_second": 674.141,
-      "eval_steps_per_second": 134.828,
-      "step": 46
-    },
-    {
-      "epoch": 47.0,
-      "grad_norm": 0.8330948948860168,
-      "learning_rate": 5.400000000000001e-06,
-      "loss": 0.3265,
-      "step": 47
-    },
-    {
-      "epoch": 47.0,
-      "eval_loss": 0.32646098732948303,
-      "eval_runtime": 0.0147,
-      "eval_samples_per_second": 678.086,
-      "eval_steps_per_second": 135.617,
-      "step": 47
-    },
-    {
-      "epoch": 48.0,
-      "grad_norm": 0.8329970240592957,
-      "learning_rate": 5.300000000000001e-06,
-      "loss": 0.3265,
-      "step": 48
-    },
-    {
-      "epoch": 48.0,
-      "eval_loss": 0.32642805576324463,
-      "eval_runtime": 0.0151,
-      "eval_samples_per_second": 663.53,
-      "eval_steps_per_second": 132.706,
-      "step": 48
-    },
-    {
-      "epoch": 49.0,
-      "grad_norm": 0.8329010009765625,
-      "learning_rate": 5.2e-06,
-      "loss": 0.3264,
-      "step": 49
-    },
-    {
-      "epoch": 49.0,
-      "eval_loss": 0.32639575004577637,
-      "eval_runtime": 0.0141,
-      "eval_samples_per_second": 707.1,
-      "eval_steps_per_second": 141.42,
-      "step": 49
-    },
-    {
-      "epoch": 50.0,
-      "grad_norm": 0.8328068852424622,
-      "learning_rate": 5.1e-06,
-      "loss": 0.3264,
-      "step": 50
-    },
-    {
-      "epoch": 50.0,
-      "eval_loss": 0.32636409997940063,
-      "eval_runtime": 0.0154,
-      "eval_samples_per_second": 650.905,
-      "eval_steps_per_second": 130.181,
-      "step": 50
-    },
-    {
-      "epoch": 51.0,
-      "grad_norm": 0.8327144384384155,
-      "learning_rate": 5e-06,
-      "loss": 0.3264,
-      "step": 51
-    },
-    {
-      "epoch": 51.0,
-      "eval_loss": 0.3263329863548279,
-      "eval_runtime": 0.0156,
-      "eval_samples_per_second": 639.142,
-      "eval_steps_per_second": 127.828,
-      "step": 51
-    },
-    {
-      "epoch": 52.0,
-      "grad_norm": 0.8326238989830017,
-      "learning_rate": 4.9000000000000005e-06,
-      "loss": 0.3263,
-      "step": 52
-    },
-    {
-      "epoch": 52.0,
-      "eval_loss": 0.32630258798599243,
-      "eval_runtime": 0.0155,
-      "eval_samples_per_second": 645.069,
-      "eval_steps_per_second": 129.014,
-      "step": 52
-    },
-    {
-      "epoch": 53.0,
-      "grad_norm": 0.8325351476669312,
-      "learning_rate": 4.800000000000001e-06,
-      "loss": 0.3263,
-      "step": 53
-    },
-    {
-      "epoch": 53.0,
-      "eval_loss": 0.32627278566360474,
-      "eval_runtime": 0.0138,
-      "eval_samples_per_second": 724.205,
-      "eval_steps_per_second": 144.841,
-      "step": 53
-    },
-    {
-      "epoch": 54.0,
-      "grad_norm": 0.8324483036994934,
-      "learning_rate": 4.7e-06,
-      "loss": 0.3263,
-      "step": 54
-    },
-    {
-      "epoch": 54.0,
-      "eval_loss": 0.32624363899230957,
-      "eval_runtime": 0.0156,
-      "eval_samples_per_second": 642.933,
-      "eval_steps_per_second": 128.587,
-      "step": 54
-    },
-    {
-      "epoch": 55.0,
-      "grad_norm": 0.8323632478713989,
-      "learning_rate": 4.600000000000001e-06,
-      "loss": 0.3262,
-      "step": 55
-    },
-    {
-      "epoch": 55.0,
-      "eval_loss": 0.32621514797210693,
-      "eval_runtime": 0.0137,
-      "eval_samples_per_second": 728.203,
-      "eval_steps_per_second": 145.641,
-      "step": 55
-    },
-    {
-      "epoch": 56.0,
-      "grad_norm": 0.8322799205780029,
-      "learning_rate": 4.5e-06,
-      "loss": 0.3262,
-      "step": 56
-    },
-    {
-      "epoch": 56.0,
-      "eval_loss": 0.3261871933937073,
-      "eval_runtime": 0.0148,
-      "eval_samples_per_second": 674.466,
-      "eval_steps_per_second": 134.893,
-      "step": 56
-    },
-    {
-      "epoch": 57.0,
-      "grad_norm": 0.8321985602378845,
-      "learning_rate": 4.4e-06,
-      "loss": 0.3262,
-      "step": 57
-    },
-    {
-      "epoch": 57.0,
-      "eval_loss": 0.32615989446640015,
-      "eval_runtime": 0.0139,
-      "eval_samples_per_second": 718.24,
-      "eval_steps_per_second": 143.648,
-      "step": 57
-    },
-    {
-      "epoch": 58.0,
-      "grad_norm": 0.8321189880371094,
-      "learning_rate": 4.3e-06,
-      "loss": 0.3262,
-      "step": 58
-    },
-    {
-      "epoch": 58.0,
-      "eval_loss": 0.32613325119018555,
-      "eval_runtime": 0.015,
-      "eval_samples_per_second": 664.865,
-      "eval_steps_per_second": 132.973,
-      "step": 58
     }
   ],
   "logging_steps": 1,

 {
+  "best_global_step": 1,
+  "best_metric": 0.4375569820404053,
+  "best_model_checkpoint": "./results/checkpoint-1",
+  "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 1,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 54.102176666259766,
       "learning_rate": 1e-05,
+      "loss": 1.2727,
       "step": 1
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.4375569820404053,
+      "eval_runtime": 0.0264,
+      "eval_samples_per_second": 378.107,
+      "eval_steps_per_second": 75.621,
       "step": 1
     }
   ],
   "logging_steps": 1,

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ecd73cb550045f899afabe89c641c38d60c245246169ca4d469382eb3f211c73
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad0a5856f1dd671dce14167996dc77cbafeea2d708933604506fbaa750ea80db
 size 5304