Training in progress, epoch 1

Browse files

Files changed (8) hide show

all_results.json +8 -0
confusion_matrix.jpg +0 -0
model.safetensors +1 -1
runs/Aug11_13-22-52_prod3/events.out.tfevents.1754890678.prod3.730045.1 +3 -0
runs/Aug11_13-45-55_prod3/events.out.tfevents.1754891163.prod3.753305.0 +3 -0
test_results.json +8 -0
trainer_state.json +395 -0
training_args.bin +1 -1

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 6.142857142857143,
+    "eval_accuracy": 0.7804878048780488,
+    "eval_loss": 1.077329158782959,
+    "eval_runtime": 5.6706,
+    "eval_samples_per_second": 14.461,
+    "eval_steps_per_second": 3.703
+}

confusion_matrix.jpg CHANGED Viewed

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59292649f7eb3d4ee8f49a34dd43ec407f534a3f98d4ef95687ba5900ee5707a
 size 344952716

 version https://git-lfs.github.com/spec/v1
+oid sha256:04c7b5d0cb1d714a52696a8ff0f6dc1293167be17242fb1b444307772c973ad9
 size 344952716

runs/Aug11_13-22-52_prod3/events.out.tfevents.1754890678.prod3.730045.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a72647c4ece89c4638cf84c0ef336f15a835e947a7591c59a84e5e9a6945ec16
+size 411

runs/Aug11_13-45-55_prod3/events.out.tfevents.1754891163.prod3.753305.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:41c2c7e858cddad8e172f12987e7e173a48429d302a8207374e46ace10fec806
+size 8424

test_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 6.142857142857143,
+    "eval_accuracy": 0.7804878048780488,
+    "eval_loss": 1.077329158782959,
+    "eval_runtime": 5.6706,
+    "eval_samples_per_second": 14.461,
+    "eval_steps_per_second": 3.703
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,395 @@

+{
+  "best_global_step": 230,
+  "best_metric": 0.7804878048780488,
+  "best_model_checkpoint": "./Models/Matcha_clips_224_fintuned_5/checkpoint-230",
+  "epoch": 6.142857142857143,
+  "eval_steps": 500,
+  "global_step": 805,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.024844720496894408,
+      "grad_norm": 11.596962928771973,
+      "learning_rate": 1.1728395061728396e-05,
+      "loss": 1.6871,
+      "step": 20
+    },
+    {
+      "epoch": 0.049689440993788817,
+      "grad_norm": 15.900735855102539,
+      "learning_rate": 2.4074074074074074e-05,
+      "loss": 0.9615,
+      "step": 40
+    },
+    {
+      "epoch": 0.07453416149068323,
+      "grad_norm": 4.670846939086914,
+      "learning_rate": 3.6419753086419754e-05,
+      "loss": 0.5851,
+      "step": 60
+    },
+    {
+      "epoch": 0.09937888198757763,
+      "grad_norm": 6.628495216369629,
+      "learning_rate": 4.876543209876544e-05,
+      "loss": 0.3508,
+      "step": 80
+    },
+    {
+      "epoch": 0.12422360248447205,
+      "grad_norm": 10.711517333984375,
+      "learning_rate": 4.875690607734807e-05,
+      "loss": 0.3922,
+      "step": 100
+    },
+    {
+      "epoch": 0.14285714285714285,
+      "eval_accuracy": 0.7682926829268293,
+      "eval_loss": 0.996225118637085,
+      "eval_runtime": 6.4019,
+      "eval_samples_per_second": 12.809,
+      "eval_steps_per_second": 3.28,
+      "step": 115
+    },
+    {
+      "epoch": 1.0062111801242235,
+      "grad_norm": 0.29712462425231934,
+      "learning_rate": 4.737569060773481e-05,
+      "loss": 0.1851,
+      "step": 120
+    },
+    {
+      "epoch": 1.031055900621118,
+      "grad_norm": 3.168236494064331,
+      "learning_rate": 4.599447513812155e-05,
+      "loss": 0.1939,
+      "step": 140
+    },
+    {
+      "epoch": 1.0559006211180124,
+      "grad_norm": 0.13498322665691376,
+      "learning_rate": 4.461325966850829e-05,
+      "loss": 0.3082,
+      "step": 160
+    },
+    {
+      "epoch": 1.0807453416149069,
+      "grad_norm": 0.22494107484817505,
+      "learning_rate": 4.323204419889503e-05,
+      "loss": 0.0559,
+      "step": 180
+    },
+    {
+      "epoch": 1.1055900621118013,
+      "grad_norm": 0.5178938508033752,
+      "learning_rate": 4.1850828729281773e-05,
+      "loss": 0.2148,
+      "step": 200
+    },
+    {
+      "epoch": 1.1304347826086956,
+      "grad_norm": 0.1849067360162735,
+      "learning_rate": 4.046961325966851e-05,
+      "loss": 0.208,
+      "step": 220
+    },
+    {
+      "epoch": 1.1428571428571428,
+      "eval_accuracy": 0.7804878048780488,
+      "eval_loss": 1.0773290395736694,
+      "eval_runtime": 6.2229,
+      "eval_samples_per_second": 13.177,
+      "eval_steps_per_second": 3.375,
+      "step": 230
+    },
+    {
+      "epoch": 2.012422360248447,
+      "grad_norm": 2.8872368335723877,
+      "learning_rate": 3.9088397790055245e-05,
+      "loss": 0.1527,
+      "step": 240
+    },
+    {
+      "epoch": 2.0372670807453415,
+      "grad_norm": 0.04912768676877022,
+      "learning_rate": 3.770718232044199e-05,
+      "loss": 0.0707,
+      "step": 260
+    },
+    {
+      "epoch": 2.062111801242236,
+      "grad_norm": 0.0381060354411602,
+      "learning_rate": 3.632596685082873e-05,
+      "loss": 0.0086,
+      "step": 280
+    },
+    {
+      "epoch": 2.0869565217391304,
+      "grad_norm": 42.93180465698242,
+      "learning_rate": 3.4944751381215476e-05,
+      "loss": 0.022,
+      "step": 300
+    },
+    {
+      "epoch": 2.111801242236025,
+      "grad_norm": 9.570910453796387,
+      "learning_rate": 3.3563535911602215e-05,
+      "loss": 0.0579,
+      "step": 320
+    },
+    {
+      "epoch": 2.1366459627329193,
+      "grad_norm": 0.1904195100069046,
+      "learning_rate": 3.218232044198895e-05,
+      "loss": 0.0868,
+      "step": 340
+    },
+    {
+      "epoch": 2.142857142857143,
+      "eval_accuracy": 0.7317073170731707,
+      "eval_loss": 1.2267667055130005,
+      "eval_runtime": 6.118,
+      "eval_samples_per_second": 13.403,
+      "eval_steps_per_second": 3.432,
+      "step": 345
+    },
+    {
+      "epoch": 3.018633540372671,
+      "grad_norm": 0.011533539742231369,
+      "learning_rate": 3.0801104972375693e-05,
+      "loss": 0.0023,
+      "step": 360
+    },
+    {
+      "epoch": 3.0434782608695654,
+      "grad_norm": 0.018733657896518707,
+      "learning_rate": 2.9419889502762433e-05,
+      "loss": 0.0034,
+      "step": 380
+    },
+    {
+      "epoch": 3.0683229813664594,
+      "grad_norm": 0.02364545315504074,
+      "learning_rate": 2.8038674033149172e-05,
+      "loss": 0.0041,
+      "step": 400
+    },
+    {
+      "epoch": 3.093167701863354,
+      "grad_norm": 0.011309165507555008,
+      "learning_rate": 2.6657458563535914e-05,
+      "loss": 0.0014,
+      "step": 420
+    },
+    {
+      "epoch": 3.1180124223602483,
+      "grad_norm": 0.01748155988752842,
+      "learning_rate": 2.5276243093922653e-05,
+      "loss": 0.0042,
+      "step": 440
+    },
+    {
+      "epoch": 3.142857142857143,
+      "grad_norm": 0.025904180482029915,
+      "learning_rate": 2.3895027624309393e-05,
+      "loss": 0.0032,
+      "step": 460
+    },
+    {
+      "epoch": 3.142857142857143,
+      "eval_accuracy": 0.7317073170731707,
+      "eval_loss": 1.3057693243026733,
+      "eval_runtime": 6.2762,
+      "eval_samples_per_second": 13.065,
+      "eval_steps_per_second": 3.346,
+      "step": 460
+    },
+    {
+      "epoch": 4.024844720496894,
+      "grad_norm": 0.04104848951101303,
+      "learning_rate": 2.2513812154696135e-05,
+      "loss": 0.0012,
+      "step": 480
+    },
+    {
+      "epoch": 4.049689440993789,
+      "grad_norm": 0.013835583813488483,
+      "learning_rate": 2.1132596685082874e-05,
+      "loss": 0.0009,
+      "step": 500
+    },
+    {
+      "epoch": 4.074534161490683,
+      "grad_norm": 0.016223575919866562,
+      "learning_rate": 1.9751381215469613e-05,
+      "loss": 0.001,
+      "step": 520
+    },
+    {
+      "epoch": 4.099378881987578,
+      "grad_norm": 0.010322828777134418,
+      "learning_rate": 1.8370165745856356e-05,
+      "loss": 0.0008,
+      "step": 540
+    },
+    {
+      "epoch": 4.124223602484472,
+      "grad_norm": 0.012116617523133755,
+      "learning_rate": 1.6988950276243095e-05,
+      "loss": 0.0014,
+      "step": 560
+    },
+    {
+      "epoch": 4.142857142857143,
+      "eval_accuracy": 0.7317073170731707,
+      "eval_loss": 1.3161958456039429,
+      "eval_runtime": 6.3153,
+      "eval_samples_per_second": 12.984,
+      "eval_steps_per_second": 3.325,
+      "step": 575
+    },
+    {
+      "epoch": 5.0062111801242235,
+      "grad_norm": 0.012491249479353428,
+      "learning_rate": 1.5607734806629834e-05,
+      "loss": 0.0008,
+      "step": 580
+    },
+    {
+      "epoch": 5.031055900621118,
+      "grad_norm": 0.040033698081970215,
+      "learning_rate": 1.4226519337016575e-05,
+      "loss": 0.0007,
+      "step": 600
+    },
+    {
+      "epoch": 5.055900621118012,
+      "grad_norm": 0.010547437705099583,
+      "learning_rate": 1.2845303867403316e-05,
+      "loss": 0.0006,
+      "step": 620
+    },
+    {
+      "epoch": 5.080745341614906,
+      "grad_norm": 0.016931477934122086,
+      "learning_rate": 1.1464088397790055e-05,
+      "loss": 0.0009,
+      "step": 640
+    },
+    {
+      "epoch": 5.105590062111801,
+      "grad_norm": 0.021733667701482773,
+      "learning_rate": 1.0082872928176797e-05,
+      "loss": 0.0006,
+      "step": 660
+    },
+    {
+      "epoch": 5.130434782608695,
+      "grad_norm": 0.053632985800504684,
+      "learning_rate": 8.701657458563537e-06,
+      "loss": 0.0007,
+      "step": 680
+    },
+    {
+      "epoch": 5.142857142857143,
+      "eval_accuracy": 0.7317073170731707,
+      "eval_loss": 1.3207590579986572,
+      "eval_runtime": 6.2982,
+      "eval_samples_per_second": 13.02,
+      "eval_steps_per_second": 3.334,
+      "step": 690
+    },
+    {
+      "epoch": 6.012422360248447,
+      "grad_norm": 0.01116255484521389,
+      "learning_rate": 7.320441988950276e-06,
+      "loss": 0.0006,
+      "step": 700
+    },
+    {
+      "epoch": 6.037267080745342,
+      "grad_norm": 0.01857682503759861,
+      "learning_rate": 5.939226519337017e-06,
+      "loss": 0.0006,
+      "step": 720
+    },
+    {
+      "epoch": 6.062111801242236,
+      "grad_norm": 0.010129285044968128,
+      "learning_rate": 4.5580110497237574e-06,
+      "loss": 0.0006,
+      "step": 740
+    },
+    {
+      "epoch": 6.086956521739131,
+      "grad_norm": 0.007020850665867329,
+      "learning_rate": 3.1767955801104974e-06,
+      "loss": 0.0006,
+      "step": 760
+    },
+    {
+      "epoch": 6.111801242236025,
+      "grad_norm": 0.009550134651362896,
+      "learning_rate": 1.7955801104972376e-06,
+      "loss": 0.0006,
+      "step": 780
+    },
+    {
+      "epoch": 6.136645962732919,
+      "grad_norm": 0.013940293341875076,
+      "learning_rate": 4.143646408839779e-07,
+      "loss": 0.0007,
+      "step": 800
+    },
+    {
+      "epoch": 6.142857142857143,
+      "eval_accuracy": 0.7317073170731707,
+      "eval_loss": 1.3218822479248047,
+      "eval_runtime": 6.2549,
+      "eval_samples_per_second": 13.11,
+      "eval_steps_per_second": 3.357,
+      "step": 805
+    },
+    {
+      "epoch": 6.142857142857143,
+      "step": 805,
+      "total_flos": 4.012506890622075e+18,
+      "train_loss": 0.1384738716829036,
+      "train_runtime": 848.1252,
+      "train_samples_per_second": 3.797,
+      "train_steps_per_second": 0.949
+    },
+    {
+      "epoch": 6.142857142857143,
+      "eval_accuracy": 0.7804878048780488,
+      "eval_loss": 1.077329158782959,
+      "eval_runtime": 5.6706,
+      "eval_samples_per_second": 14.461,
+      "eval_steps_per_second": 3.703,
+      "step": 805
+    }
+  ],
+  "logging_steps": 20,
+  "max_steps": 805,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 9223372036854775807,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.012506890622075e+18,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81c007e31d6c153b7ddf44f7a4662355c7cec244c581e5ea1720ae0f8fc18169
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:acfa06c9a4d7a0d20f474dc00057d5fe4ef6648d6c36d35f2ad4dfe9c51a8a7b
 size 5368