End of training

Browse files

Files changed (8) hide show

README.md +2 -0
all_results.json +25 -0
eval_results.json +12 -0
predict_results.json +10 -0
predictions.txt +0 -0
runs/May25_10-40-37_indolem-petl-vm/events.out.tfevents.1716634900.indolem-petl-vm.2110685.1 +3 -0
train_results.json +8 -0
trainer_state.json +410 -0

README.md CHANGED Viewed

@@ -1,4 +1,6 @@
 ---
 license: mit
 base_model: indolem/indobert-base-uncased
 tags:

 ---
+language:
+- id
 license: mit
 base_model: indolem/indobert-base-uncased
 tags:

all_results.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+    "epoch": 20.0,
+    "eval_accuracy": 0.9449965219119547,
+    "eval_f1": 0.7285333333333335,
+    "eval_loss": 0.16621001064777374,
+    "eval_precision": 0.6732380482996551,
+    "eval_recall": 0.7937245787332946,
+    "eval_runtime": 4.4648,
+    "eval_samples": 935,
+    "eval_samples_per_second": 209.418,
+    "eval_steps_per_second": 3.36,
+    "predict_accuracy": 0.948689109525287,
+    "predict_f1": 0.7123558484349258,
+    "predict_loss": 0.15243284404277802,
+    "predict_precision": 0.6682464454976303,
+    "predict_recall": 0.7626999059266227,
+    "predict_runtime": 10.3714,
+    "predict_samples_per_second": 225.909,
+    "predict_steps_per_second": 3.567,
+    "train_loss": 0.26384454712723243,
+    "train_runtime": 1246.4432,
+    "train_samples": 8437,
+    "train_samples_per_second": 135.377,
+    "train_steps_per_second": 8.472
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 20.0,
+    "eval_accuracy": 0.9449965219119547,
+    "eval_f1": 0.7285333333333335,
+    "eval_loss": 0.16621001064777374,
+    "eval_precision": 0.6732380482996551,
+    "eval_recall": 0.7937245787332946,
+    "eval_runtime": 4.4648,
+    "eval_samples": 935,
+    "eval_samples_per_second": 209.418,
+    "eval_steps_per_second": 3.36
+}

predict_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "predict_accuracy": 0.948689109525287,
+    "predict_f1": 0.7123558484349258,
+    "predict_loss": 0.15243284404277802,
+    "predict_precision": 0.6682464454976303,
+    "predict_recall": 0.7626999059266227,
+    "predict_runtime": 10.3714,
+    "predict_samples_per_second": 225.909,
+    "predict_steps_per_second": 3.567
+}

predictions.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

runs/May25_10-40-37_indolem-petl-vm/events.out.tfevents.1716634900.indolem-petl-vm.2110685.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f772210b3d346a03124a284fc71b3eada7162b6cfaceb54a75cbd32b4bfad0a0
+size 560

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 20.0,
+    "train_loss": 0.26384454712723243,
+    "train_runtime": 1246.4432,
+    "train_samples": 8437,
+    "train_samples_per_second": 135.377,
+    "train_steps_per_second": 8.472
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,410 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 20.0,
+  "eval_steps": 500,
+  "global_step": 10560,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.263325572013855,
+      "learning_rate": 4.75e-05,
+      "loss": 0.8173,
+      "step": 528
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8480075524197556,
+      "eval_f1": 0.05425143453312468,
+      "eval_loss": 0.5014122128486633,
+      "eval_precision": 0.2653061224489796,
+      "eval_recall": 0.03021499128413713,
+      "eval_runtime": 3.9202,
+      "eval_samples_per_second": 238.51,
+      "eval_steps_per_second": 3.826,
+      "step": 528
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 1.040271520614624,
+      "learning_rate": 4.5e-05,
+      "loss": 0.4808,
+      "step": 1056
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8941170625062109,
+      "eval_f1": 0.3863885839736554,
+      "eval_loss": 0.3564635217189789,
+      "eval_precision": 0.5217391304347826,
+      "eval_recall": 0.30679837303893087,
+      "eval_runtime": 4.2946,
+      "eval_samples_per_second": 217.716,
+      "eval_steps_per_second": 3.493,
+      "step": 1056
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 1.256822943687439,
+      "learning_rate": 4.25e-05,
+      "loss": 0.3767,
+      "step": 1584
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.919358044320779,
+      "eval_f1": 0.5637982195845698,
+      "eval_loss": 0.2893461287021637,
+      "eval_precision": 0.5761067313523347,
+      "eval_recall": 0.5520046484601976,
+      "eval_runtime": 4.4845,
+      "eval_samples_per_second": 208.498,
+      "eval_steps_per_second": 3.345,
+      "step": 1584
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 1.3887470960617065,
+      "learning_rate": 4e-05,
+      "loss": 0.3159,
+      "step": 2112
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9279042035178376,
+      "eval_f1": 0.6389668725435149,
+      "eval_loss": 0.24789083003997803,
+      "eval_precision": 0.6181423139598045,
+      "eval_recall": 0.6612434631028472,
+      "eval_runtime": 4.6339,
+      "eval_samples_per_second": 201.774,
+      "eval_steps_per_second": 3.237,
+      "step": 2112
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.7730798125267029,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.2785,
+      "step": 2640
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.9330716486137335,
+      "eval_f1": 0.6637314254265273,
+      "eval_loss": 0.2236042320728302,
+      "eval_precision": 0.6304234187140617,
+      "eval_recall": 0.7007553747821035,
+      "eval_runtime": 4.6093,
+      "eval_samples_per_second": 202.851,
+      "eval_steps_per_second": 3.254,
+      "step": 2640
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 1.3244330883026123,
+      "learning_rate": 3.5e-05,
+      "loss": 0.2527,
+      "step": 3168
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.9360528669382888,
+      "eval_f1": 0.6862425231103861,
+      "eval_loss": 0.20973308384418488,
+      "eval_precision": 0.6448645886561063,
+      "eval_recall": 0.7332945961650204,
+      "eval_runtime": 4.5728,
+      "eval_samples_per_second": 204.47,
+      "eval_steps_per_second": 3.28,
+      "step": 3168
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 1.106473684310913,
+      "learning_rate": 3.2500000000000004e-05,
+      "loss": 0.2365,
+      "step": 3696
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.9376428500447183,
+      "eval_f1": 0.6923488496522204,
+      "eval_loss": 0.1997063159942627,
+      "eval_precision": 0.6415468517600397,
+      "eval_recall": 0.7518884369552585,
+      "eval_runtime": 4.5493,
+      "eval_samples_per_second": 205.525,
+      "eval_steps_per_second": 3.297,
+      "step": 3696
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.7820762991905212,
+      "learning_rate": 3e-05,
+      "loss": 0.2243,
+      "step": 4224
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.9394315810394515,
+      "eval_f1": 0.703166935050993,
+      "eval_loss": 0.19049784541130066,
+      "eval_precision": 0.6533665835411472,
+      "eval_recall": 0.7611853573503777,
+      "eval_runtime": 4.544,
+      "eval_samples_per_second": 205.764,
+      "eval_steps_per_second": 3.301,
+      "step": 4224
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 0.5380152463912964,
+      "learning_rate": 2.7500000000000004e-05,
+      "loss": 0.2134,
+      "step": 4752
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.9398290768160589,
+      "eval_f1": 0.7064464571124135,
+      "eval_loss": 0.18573088943958282,
+      "eval_precision": 0.6522380718150517,
+      "eval_recall": 0.7704822777454968,
+      "eval_runtime": 4.499,
+      "eval_samples_per_second": 207.826,
+      "eval_steps_per_second": 3.334,
+      "step": 4752
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 1.0374780893325806,
+      "learning_rate": 2.5e-05,
+      "loss": 0.2072,
+      "step": 5280
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.9418165556990957,
+      "eval_f1": 0.7126925119490174,
+      "eval_loss": 0.18140505254268646,
+      "eval_precision": 0.6562347188264058,
+      "eval_recall": 0.7797791981406159,
+      "eval_runtime": 4.8822,
+      "eval_samples_per_second": 191.511,
+      "eval_steps_per_second": 3.072,
+      "step": 5280
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 0.8238540291786194,
+      "learning_rate": 2.25e-05,
+      "loss": 0.2009,
+      "step": 5808
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.9426115472523104,
+      "eval_f1": 0.7149706979222165,
+      "eval_loss": 0.17563943564891815,
+      "eval_precision": 0.6601082144613871,
+      "eval_recall": 0.7797791981406159,
+      "eval_runtime": 4.6573,
+      "eval_samples_per_second": 200.759,
+      "eval_steps_per_second": 3.221,
+      "step": 5808
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 1.7851293087005615,
+      "learning_rate": 2e-05,
+      "loss": 0.1962,
+      "step": 6336
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.9436052866938289,
+      "eval_f1": 0.7161803713527852,
+      "eval_loss": 0.1738174557685852,
+      "eval_precision": 0.6588579795021962,
+      "eval_recall": 0.7844276583381755,
+      "eval_runtime": 4.5908,
+      "eval_samples_per_second": 203.669,
+      "eval_steps_per_second": 3.267,
+      "step": 6336
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 1.3740888833999634,
+      "learning_rate": 1.75e-05,
+      "loss": 0.1921,
+      "step": 6864
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.94420153035874,
+      "eval_f1": 0.7210164107993647,
+      "eval_loss": 0.17201030254364014,
+      "eval_precision": 0.6621293145357317,
+      "eval_recall": 0.7914003486345148,
+      "eval_runtime": 4.584,
+      "eval_samples_per_second": 203.972,
+      "eval_steps_per_second": 3.272,
+      "step": 6864
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 0.6247196197509766,
+      "learning_rate": 1.5e-05,
+      "loss": 0.1887,
+      "step": 7392
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.94420153035874,
+      "eval_f1": 0.7210164107993647,
+      "eval_loss": 0.1705305576324463,
+      "eval_precision": 0.6621293145357317,
+      "eval_recall": 0.7914003486345148,
+      "eval_runtime": 4.5864,
+      "eval_samples_per_second": 203.864,
+      "eval_steps_per_second": 3.271,
+      "step": 7392
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 0.5709086060523987,
+      "learning_rate": 1.25e-05,
+      "loss": 0.1857,
+      "step": 7920
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.944797774023651,
+      "eval_f1": 0.7254381306425917,
+      "eval_loss": 0.16876670718193054,
+      "eval_precision": 0.6679706601466993,
+      "eval_recall": 0.7937245787332946,
+      "eval_runtime": 4.4753,
+      "eval_samples_per_second": 208.925,
+      "eval_steps_per_second": 3.352,
+      "step": 7920
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 0.8432120680809021,
+      "learning_rate": 1e-05,
+      "loss": 0.1846,
+      "step": 8448
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.9449965219119547,
+      "eval_f1": 0.7283359914938863,
+      "eval_loss": 0.16835170984268188,
+      "eval_precision": 0.6712395884370407,
+      "eval_recall": 0.7960488088320744,
+      "eval_runtime": 4.493,
+      "eval_samples_per_second": 208.103,
+      "eval_steps_per_second": 3.339,
+      "step": 8448
+    },
+    {
+      "epoch": 17.0,
+      "grad_norm": 0.8022745251655579,
+      "learning_rate": 7.5e-06,
+      "loss": 0.1833,
+      "step": 8976
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.9445990261353473,
+      "eval_f1": 0.7269824374667376,
+      "eval_loss": 0.16759617626667023,
+      "eval_precision": 0.6705940108001963,
+      "eval_recall": 0.7937245787332946,
+      "eval_runtime": 4.5329,
+      "eval_samples_per_second": 206.268,
+      "eval_steps_per_second": 3.309,
+      "step": 8976
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 0.9574353694915771,
+      "learning_rate": 5e-06,
+      "loss": 0.1804,
+      "step": 9504
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.9445990261353473,
+      "eval_f1": 0.7277570591369206,
+      "eval_loss": 0.1666666567325592,
+      "eval_precision": 0.6719134284308903,
+      "eval_recall": 0.7937245787332946,
+      "eval_runtime": 4.5749,
+      "eval_samples_per_second": 204.377,
+      "eval_steps_per_second": 3.279,
+      "step": 9504
+    },
+    {
+      "epoch": 19.0,
+      "grad_norm": 0.7483543157577515,
+      "learning_rate": 2.5e-06,
+      "loss": 0.1816,
+      "step": 10032
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.944797774023651,
+      "eval_f1": 0.7277570591369206,
+      "eval_loss": 0.1664123684167862,
+      "eval_precision": 0.6719134284308903,
+      "eval_recall": 0.7937245787332946,
+      "eval_runtime": 4.5817,
+      "eval_samples_per_second": 204.074,
+      "eval_steps_per_second": 3.274,
+      "step": 10032
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 1.1839972734451294,
+      "learning_rate": 0.0,
+      "loss": 0.1801,
+      "step": 10560
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.9449965219119547,
+      "eval_f1": 0.7285333333333335,
+      "eval_loss": 0.16621001064777374,
+      "eval_precision": 0.6732380482996551,
+      "eval_recall": 0.7937245787332946,
+      "eval_runtime": 4.5007,
+      "eval_samples_per_second": 207.747,
+      "eval_steps_per_second": 3.333,
+      "step": 10560
+    },
+    {
+      "epoch": 20.0,
+      "step": 10560,
+      "total_flos": 4540180991527230.0,
+      "train_loss": 0.26384454712723243,
+      "train_runtime": 1246.4432,
+      "train_samples_per_second": 135.377,
+      "train_steps_per_second": 8.472
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 10560,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "total_flos": 4540180991527230.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}