Training in progress, epoch 17, checkpoint

Browse files

Files changed (7) hide show

checkpoint-680/config.json +136 -0
checkpoint-680/model.safetensors +3 -0
checkpoint-680/optimizer.pt +3 -0
checkpoint-680/rng_state.pth +3 -0
checkpoint-680/scheduler.pt +3 -0
checkpoint-680/trainer_state.json +833 -0
checkpoint-680/training_args.bin +3 -0

checkpoint-680/config.json ADDED Viewed

	@@ -0,0 +1,136 @@

+{
+  "activation_dropout": 0.0,
+  "adapter_attn_dim": null,
+  "adapter_kernel_size": 3,
+  "adapter_stride": 2,
+  "add_adapter": false,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "codevector_dim": 256,
+  "contrastive_logits_temperature": 0.1,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "diversity_loss_weight": 0.1,
+  "do_stable_layer_norm": false,
+  "dtype": "float32",
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.1,
+  "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.0,
+  "freeze_feat_extract_train": true,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "water",
+    "1": "resident",
+    "2": "transient",
+    "3": "humpback",
+    "4": "vessel",
+    "5": "jingle",
+    "6": "human"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "human": 6,
+    "humpback": 3,
+    "jingle": 5,
+    "resident": 1,
+    "transient": 2,
+    "vessel": 4,
+    "water": 0
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_channel_length": 10,
+  "mask_channel_min_space": 1,
+  "mask_channel_other": 0.0,
+  "mask_channel_prob": 0.0,
+  "mask_channel_selection": "static",
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_min_space": 1,
+  "mask_time_other": 0.0,
+  "mask_time_prob": 0.05,
+  "mask_time_selection": "static",
+  "model_type": "wav2vec2",
+  "no_mask_channel_overlap": false,
+  "no_mask_time_overlap": false,
+  "num_adapter_layers": 3,
+  "num_attention_heads": 12,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 12,
+  "num_negatives": 100,
+  "output_hidden_size": 768,
+  "pad_token_id": 0,
+  "proj_codevector_dim": 256,
+  "tdnn_dilation": [
+    1,
+    2,
+    3,
+    1,
+    1
+  ],
+  "tdnn_dim": [
+    512,
+    512,
+    512,
+    512,
+    1500
+  ],
+  "tdnn_kernel": [
+    5,
+    3,
+    3,
+    1,
+    1
+  ],
+  "transformers_version": "5.8.1",
+  "use_cache": false,
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32,
+  "xvector_output_dim": 512
+}

checkpoint-680/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:29ae44fba16923f788a88e3231328d1d742a775837d74e86e0dd88a4072c1fae
+size 378307452

checkpoint-680/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:97fc7e9afb08cca5d69aa5d4dbe7816715bd4b28d6273a1a737d258849946e40
+size 756737291

checkpoint-680/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ffee1d2b13173a0107f353d191e7420c4f2ad92b3e62d9acc7d1135c13a817ee
+size 14455

checkpoint-680/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6be5a37d34589451b236a9d3ec56d84bc640c63dc5637576c96a28f7ec63b27b
+size 1465

checkpoint-680/trainer_state.json ADDED Viewed

	@@ -0,0 +1,833 @@

+{
+  "best_global_step": 680,
+  "best_metric": 0.7774170274170275,
+  "best_model_checkpoint": "/home/runner/work/pods-ai/pods-ai/model/multiclass/checkpoint-680",
+  "epoch": 17.0,
+  "eval_steps": 500,
+  "global_step": 680,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.25,
+      "grad_norm": 1.8668311834335327,
+      "learning_rate": 3.3750000000000003e-06,
+      "loss": 1.9396303176879883,
+      "step": 10
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 2.939877986907959,
+      "learning_rate": 7.1249999999999995e-06,
+      "loss": 1.9260967254638672,
+      "step": 20
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 1.882246971130371,
+      "learning_rate": 1.0875e-05,
+      "loss": 1.9058483123779297,
+      "step": 30
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 2.8229551315307617,
+      "learning_rate": 1.4625e-05,
+      "loss": 1.857316780090332,
+      "step": 40
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.2875,
+      "eval_f1": 0.1488673139158576,
+      "eval_f1_human": 0.0,
+      "eval_f1_humpback": 0.0,
+      "eval_f1_jingle": 0.0,
+      "eval_f1_resident": 0.44660194174757284,
+      "eval_f1_transient": 0.0,
+      "eval_f1_vessel": 0.0,
+      "eval_f1_water": 0.0,
+      "eval_loss": 1.8598134517669678,
+      "eval_precision": 0.08265625,
+      "eval_recall": 0.2875,
+      "eval_runtime": 24.6324,
+      "eval_samples_per_second": 3.248,
+      "eval_steps_per_second": 0.406,
+      "step": 40
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 4.461022853851318,
+      "learning_rate": 1.8375000000000003e-05,
+      "loss": 1.8402133941650392,
+      "step": 50
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 2.3800013065338135,
+      "learning_rate": 2.2125000000000002e-05,
+      "loss": 1.7940902709960938,
+      "step": 60
+    },
+    {
+      "epoch": 1.75,
+      "grad_norm": 2.871340274810791,
+      "learning_rate": 2.5875000000000002e-05,
+      "loss": 1.7933925628662108,
+      "step": 70
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 13.321478843688965,
+      "learning_rate": 2.9625000000000002e-05,
+      "loss": 1.8077194213867187,
+      "step": 80
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.3375,
+      "eval_f1": 0.1631205673758865,
+      "eval_f1_human": 0.46153846153846156,
+      "eval_f1_humpback": 0.0,
+      "eval_f1_jingle": 0.0,
+      "eval_f1_resident": 0.48936170212765956,
+      "eval_f1_transient": 0.0,
+      "eval_f1_vessel": 0.13333333333333333,
+      "eval_f1_water": 0.0,
+      "eval_loss": 1.8714452981948853,
+      "eval_precision": 0.2025088028169014,
+      "eval_recall": 0.3375,
+      "eval_runtime": 24.7133,
+      "eval_samples_per_second": 3.237,
+      "eval_steps_per_second": 0.405,
+      "step": 80
+    },
+    {
+      "epoch": 2.25,
+      "grad_norm": 8.10289192199707,
+      "learning_rate": 2.9625000000000002e-05,
+      "loss": 1.7730058670043944,
+      "step": 90
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 5.406036853790283,
+      "learning_rate": 2.9208333333333333e-05,
+      "loss": 1.691044235229492,
+      "step": 100
+    },
+    {
+      "epoch": 2.75,
+      "grad_norm": 3.6219217777252197,
+      "learning_rate": 2.8791666666666667e-05,
+      "loss": 1.7048904418945312,
+      "step": 110
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 5.970705509185791,
+      "learning_rate": 2.8375e-05,
+      "loss": 1.6433557510375976,
+      "step": 120
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.3375,
+      "eval_f1": 0.21201814058956917,
+      "eval_f1_human": 0.46153846153846156,
+      "eval_f1_humpback": 0.16666666666666666,
+      "eval_f1_jingle": 0.0,
+      "eval_f1_resident": 0.46938775510204084,
+      "eval_f1_transient": 0.0,
+      "eval_f1_vessel": 0.0,
+      "eval_f1_water": 0.0,
+      "eval_loss": 1.6715224981307983,
+      "eval_precision": 0.31004166666666666,
+      "eval_recall": 0.3375,
+      "eval_runtime": 24.7734,
+      "eval_samples_per_second": 3.229,
+      "eval_steps_per_second": 0.404,
+      "step": 120
+    },
+    {
+      "epoch": 3.25,
+      "grad_norm": 10.863486289978027,
+      "learning_rate": 2.7958333333333333e-05,
+      "loss": 1.5631604194641113,
+      "step": 130
+    },
+    {
+      "epoch": 3.5,
+      "grad_norm": 8.574637413024902,
+      "learning_rate": 2.7541666666666668e-05,
+      "loss": 1.5334065437316895,
+      "step": 140
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 7.105515003204346,
+      "learning_rate": 2.7125000000000002e-05,
+      "loss": 1.5497626304626464,
+      "step": 150
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 16.305498123168945,
+      "learning_rate": 2.6708333333333333e-05,
+      "loss": 1.5918970108032227,
+      "step": 160
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.4625,
+      "eval_f1": 0.5654970760233918,
+      "eval_f1_human": 0.4444444444444444,
+      "eval_f1_humpback": 0.5,
+      "eval_f1_jingle": 0.0,
+      "eval_f1_resident": 0.5964912280701754,
+      "eval_f1_transient": 0.6,
+      "eval_f1_vessel": 0.0,
+      "eval_f1_water": 0.0,
+      "eval_loss": 1.6689106225967407,
+      "eval_precision": 0.35366379310344825,
+      "eval_recall": 0.4625,
+      "eval_runtime": 24.6211,
+      "eval_samples_per_second": 3.249,
+      "eval_steps_per_second": 0.406,
+      "step": 160
+    },
+    {
+      "epoch": 4.25,
+      "grad_norm": 22.159957885742188,
+      "learning_rate": 2.6291666666666668e-05,
+      "loss": 1.458185577392578,
+      "step": 170
+    },
+    {
+      "epoch": 4.5,
+      "grad_norm": 5.997427940368652,
+      "learning_rate": 2.5875000000000002e-05,
+      "loss": 1.4319477081298828,
+      "step": 180
+    },
+    {
+      "epoch": 4.75,
+      "grad_norm": 15.294506072998047,
+      "learning_rate": 2.5458333333333333e-05,
+      "loss": 1.4154382705688477,
+      "step": 190
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 14.528937339782715,
+      "learning_rate": 2.5041666666666668e-05,
+      "loss": 1.3779909133911132,
+      "step": 200
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.5875,
+      "eval_f1": 0.6944318983209324,
+      "eval_f1_human": 0.6666666666666666,
+      "eval_f1_humpback": 0.7096774193548387,
+      "eval_f1_jingle": 0.0,
+      "eval_f1_resident": 0.6779661016949152,
+      "eval_f1_transient": 0.6956521739130435,
+      "eval_f1_vessel": 0.0,
+      "eval_f1_water": 0.2222222222222222,
+      "eval_loss": 1.3697296380996704,
+      "eval_precision": 0.5100631313131313,
+      "eval_recall": 0.5875,
+      "eval_runtime": 24.6436,
+      "eval_samples_per_second": 3.246,
+      "eval_steps_per_second": 0.406,
+      "step": 200
+    },
+    {
+      "epoch": 5.25,
+      "grad_norm": 14.52349853515625,
+      "learning_rate": 2.4625e-05,
+      "loss": 1.2567331314086914,
+      "step": 210
+    },
+    {
+      "epoch": 5.5,
+      "grad_norm": 3.960951805114746,
+      "learning_rate": 2.4208333333333333e-05,
+      "loss": 1.1996272087097168,
+      "step": 220
+    },
+    {
+      "epoch": 5.75,
+      "grad_norm": 15.082646369934082,
+      "learning_rate": 2.3791666666666664e-05,
+      "loss": 1.195827102661133,
+      "step": 230
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 4.821845531463623,
+      "learning_rate": 2.3375000000000002e-05,
+      "loss": 1.2418400764465332,
+      "step": 240
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.5125,
+      "eval_f1": 0.5613756613756614,
+      "eval_f1_human": 0.46153846153846156,
+      "eval_f1_humpback": 0.5555555555555556,
+      "eval_f1_jingle": 0.0,
+      "eval_f1_resident": 0.6285714285714286,
+      "eval_f1_transient": 0.5,
+      "eval_f1_vessel": 0.3333333333333333,
+      "eval_f1_water": 0.3333333333333333,
+      "eval_loss": 1.4040424823760986,
+      "eval_precision": 0.5577887537993921,
+      "eval_recall": 0.5125,
+      "eval_runtime": 24.5561,
+      "eval_samples_per_second": 3.258,
+      "eval_steps_per_second": 0.407,
+      "step": 240
+    },
+    {
+      "epoch": 6.25,
+      "grad_norm": 8.668111801147461,
+      "learning_rate": 2.2958333333333333e-05,
+      "loss": 1.0798751831054687,
+      "step": 250
+    },
+    {
+      "epoch": 6.5,
+      "grad_norm": 40.171241760253906,
+      "learning_rate": 2.2541666666666668e-05,
+      "loss": 1.1611945152282714,
+      "step": 260
+    },
+    {
+      "epoch": 6.75,
+      "grad_norm": 7.711854457855225,
+      "learning_rate": 2.2125000000000002e-05,
+      "loss": 1.20938138961792,
+      "step": 270
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 32.661705017089844,
+      "learning_rate": 2.1708333333333334e-05,
+      "loss": 1.181071662902832,
+      "step": 280
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.575,
+      "eval_f1": 0.5869708994708994,
+      "eval_f1_human": 0.5714285714285714,
+      "eval_f1_humpback": 0.5,
+      "eval_f1_jingle": 0.2222222222222222,
+      "eval_f1_resident": 0.6984126984126984,
+      "eval_f1_transient": 0.5625,
+      "eval_f1_vessel": 0.46153846153846156,
+      "eval_f1_water": 0.46153846153846156,
+      "eval_loss": 1.371209979057312,
+      "eval_precision": 0.6543750000000002,
+      "eval_recall": 0.575,
+      "eval_runtime": 24.6292,
+      "eval_samples_per_second": 3.248,
+      "eval_steps_per_second": 0.406,
+      "step": 280
+    },
+    {
+      "epoch": 7.25,
+      "grad_norm": 21.662912368774414,
+      "learning_rate": 2.1291666666666668e-05,
+      "loss": 1.0008769035339355,
+      "step": 290
+    },
+    {
+      "epoch": 7.5,
+      "grad_norm": 23.016326904296875,
+      "learning_rate": 2.0875e-05,
+      "loss": 1.0207538604736328,
+      "step": 300
+    },
+    {
+      "epoch": 7.75,
+      "grad_norm": 6.426280975341797,
+      "learning_rate": 2.0458333333333334e-05,
+      "loss": 0.9328726768493653,
+      "step": 310
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 21.511892318725586,
+      "learning_rate": 2.0041666666666665e-05,
+      "loss": 1.0631596565246582,
+      "step": 320
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.5625,
+      "eval_f1": 0.6611394557823129,
+      "eval_f1_human": 0.5333333333333333,
+      "eval_f1_humpback": 0.6875,
+      "eval_f1_jingle": 0.42857142857142855,
+      "eval_f1_resident": 0.6530612244897959,
+      "eval_f1_transient": 0.6428571428571429,
+      "eval_f1_vessel": 0.16666666666666666,
+      "eval_f1_water": 0.2,
+      "eval_loss": 1.2977354526519775,
+      "eval_precision": 0.5583218864468865,
+      "eval_recall": 0.5625,
+      "eval_runtime": 24.5826,
+      "eval_samples_per_second": 3.254,
+      "eval_steps_per_second": 0.407,
+      "step": 320
+    },
+    {
+      "epoch": 8.25,
+      "grad_norm": 23.638885498046875,
+      "learning_rate": 1.9625e-05,
+      "loss": 0.945561695098877,
+      "step": 330
+    },
+    {
+      "epoch": 8.5,
+      "grad_norm": 21.955652236938477,
+      "learning_rate": 1.9208333333333334e-05,
+      "loss": 0.8307452201843262,
+      "step": 340
+    },
+    {
+      "epoch": 8.75,
+      "grad_norm": 37.24247360229492,
+      "learning_rate": 1.8791666666666668e-05,
+      "loss": 0.8966250419616699,
+      "step": 350
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 34.65521240234375,
+      "learning_rate": 1.8375000000000003e-05,
+      "loss": 1.0554585456848145,
+      "step": 360
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.5875,
+      "eval_f1": 0.5537155434440834,
+      "eval_f1_human": 0.5333333333333333,
+      "eval_f1_humpback": 0.42857142857142855,
+      "eval_f1_jingle": 0.6666666666666666,
+      "eval_f1_resident": 0.6808510638297872,
+      "eval_f1_transient": 0.5517241379310345,
+      "eval_f1_vessel": 0.47058823529411764,
+      "eval_f1_water": 0.6086956521739131,
+      "eval_loss": 1.3107037544250488,
+      "eval_precision": 0.6475376400560224,
+      "eval_recall": 0.5875,
+      "eval_runtime": 24.6061,
+      "eval_samples_per_second": 3.251,
+      "eval_steps_per_second": 0.406,
+      "step": 360
+    },
+    {
+      "epoch": 9.25,
+      "grad_norm": 3.1358461380004883,
+      "learning_rate": 1.7958333333333334e-05,
+      "loss": 0.9766130447387695,
+      "step": 370
+    },
+    {
+      "epoch": 9.5,
+      "grad_norm": 16.83808135986328,
+      "learning_rate": 1.754166666666667e-05,
+      "loss": 0.7928431987762451,
+      "step": 380
+    },
+    {
+      "epoch": 9.75,
+      "grad_norm": 19.454648971557617,
+      "learning_rate": 1.7125e-05,
+      "loss": 0.8157154083251953,
+      "step": 390
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 48.8062858581543,
+      "learning_rate": 1.6708333333333334e-05,
+      "loss": 0.6693048477172852,
+      "step": 400
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.6125,
+      "eval_f1": 0.6450635386119258,
+      "eval_f1_human": 0.5882352941176471,
+      "eval_f1_humpback": 0.7,
+      "eval_f1_jingle": 0.5454545454545454,
+      "eval_f1_resident": 0.6545454545454545,
+      "eval_f1_transient": 0.5806451612903226,
+      "eval_f1_vessel": 0.46153846153846156,
+      "eval_f1_water": 0.6153846153846154,
+      "eval_loss": 1.231101393699646,
+      "eval_precision": 0.6806533260233918,
+      "eval_recall": 0.6125,
+      "eval_runtime": 24.5768,
+      "eval_samples_per_second": 3.255,
+      "eval_steps_per_second": 0.407,
+      "step": 400
+    },
+    {
+      "epoch": 10.25,
+      "grad_norm": 23.585220336914062,
+      "learning_rate": 1.6291666666666665e-05,
+      "loss": 0.8009570121765137,
+      "step": 410
+    },
+    {
+      "epoch": 10.5,
+      "grad_norm": 52.430931091308594,
+      "learning_rate": 1.5875e-05,
+      "loss": 0.6774312019348144,
+      "step": 420
+    },
+    {
+      "epoch": 10.75,
+      "grad_norm": 12.286913871765137,
+      "learning_rate": 1.545833333333333e-05,
+      "loss": 0.6904989719390869,
+      "step": 430
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 2.2310545444488525,
+      "learning_rate": 1.5041666666666667e-05,
+      "loss": 0.6417029857635498,
+      "step": 440
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.675,
+      "eval_f1": 0.7315462315462314,
+      "eval_f1_human": 0.6666666666666666,
+      "eval_f1_humpback": 0.8461538461538461,
+      "eval_f1_jingle": 0.6,
+      "eval_f1_resident": 0.6818181818181818,
+      "eval_f1_transient": 0.6666666666666666,
+      "eval_f1_vessel": 0.5833333333333334,
+      "eval_f1_water": 0.5454545454545454,
+      "eval_loss": 1.1498925685882568,
+      "eval_precision": 0.7211904761904762,
+      "eval_recall": 0.675,
+      "eval_runtime": 24.6377,
+      "eval_samples_per_second": 3.247,
+      "eval_steps_per_second": 0.406,
+      "step": 440
+    },
+    {
+      "epoch": 11.25,
+      "grad_norm": 20.12211799621582,
+      "learning_rate": 1.4625e-05,
+      "loss": 0.5296733379364014,
+      "step": 450
+    },
+    {
+      "epoch": 11.5,
+      "grad_norm": 8.15372085571289,
+      "learning_rate": 1.4208333333333333e-05,
+      "loss": 0.5555210590362549,
+      "step": 460
+    },
+    {
+      "epoch": 11.75,
+      "grad_norm": 2.4559547901153564,
+      "learning_rate": 1.3791666666666667e-05,
+      "loss": 0.5045695304870605,
+      "step": 470
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 3.179777145385742,
+      "learning_rate": 1.3375000000000002e-05,
+      "loss": 0.5730883598327636,
+      "step": 480
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.7125,
+      "eval_f1": 0.7511142387989679,
+      "eval_f1_human": 0.75,
+      "eval_f1_humpback": 0.8571428571428571,
+      "eval_f1_jingle": 0.6,
+      "eval_f1_resident": 0.7755102040816326,
+      "eval_f1_transient": 0.6206896551724138,
+      "eval_f1_vessel": 0.5,
+      "eval_f1_water": 0.7368421052631579,
+      "eval_loss": 1.0407167673110962,
+      "eval_precision": 0.7441561869503046,
+      "eval_recall": 0.7125,
+      "eval_runtime": 24.5853,
+      "eval_samples_per_second": 3.254,
+      "eval_steps_per_second": 0.407,
+      "step": 480
+    },
+    {
+      "epoch": 12.25,
+      "grad_norm": 29.25799560546875,
+      "learning_rate": 1.2958333333333334e-05,
+      "loss": 0.44350547790527345,
+      "step": 490
+    },
+    {
+      "epoch": 12.5,
+      "grad_norm": 1.266361117362976,
+      "learning_rate": 1.2541666666666667e-05,
+      "loss": 0.4634674549102783,
+      "step": 500
+    },
+    {
+      "epoch": 12.75,
+      "grad_norm": 29.000402450561523,
+      "learning_rate": 1.2125e-05,
+      "loss": 0.48257694244384763,
+      "step": 510
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 19.07715606689453,
+      "learning_rate": 1.1708333333333334e-05,
+      "loss": 0.44806995391845705,
+      "step": 520
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.6375,
+      "eval_f1": 0.5983333333333333,
+      "eval_f1_human": 0.8,
+      "eval_f1_humpback": 0.625,
+      "eval_f1_jingle": 0.7272727272727273,
+      "eval_f1_resident": 0.72,
+      "eval_f1_transient": 0.45,
+      "eval_f1_vessel": 0.625,
+      "eval_f1_water": 0.6666666666666666,
+      "eval_loss": 1.2673215866088867,
+      "eval_precision": 0.781547619047619,
+      "eval_recall": 0.6375,
+      "eval_runtime": 24.6097,
+      "eval_samples_per_second": 3.251,
+      "eval_steps_per_second": 0.406,
+      "step": 520
+    },
+    {
+      "epoch": 13.25,
+      "grad_norm": 1.2666140794754028,
+      "learning_rate": 1.1291666666666667e-05,
+      "loss": 0.40395755767822267,
+      "step": 530
+    },
+    {
+      "epoch": 13.5,
+      "grad_norm": 1.897343397140503,
+      "learning_rate": 1.0875e-05,
+      "loss": 0.36233084201812743,
+      "step": 540
+    },
+    {
+      "epoch": 13.75,
+      "grad_norm": 9.512198448181152,
+      "learning_rate": 1.0458333333333333e-05,
+      "loss": 0.4046651840209961,
+      "step": 550
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 1.0725066661834717,
+      "learning_rate": 1.0041666666666666e-05,
+      "loss": 0.443222713470459,
+      "step": 560
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.6875,
+      "eval_f1": 0.7554737695714554,
+      "eval_f1_human": 0.7058823529411765,
+      "eval_f1_humpback": 0.9565217391304348,
+      "eval_f1_jingle": 0.6,
+      "eval_f1_resident": 0.7804878048780488,
+      "eval_f1_transient": 0.5294117647058824,
+      "eval_f1_vessel": 0.47619047619047616,
+      "eval_f1_water": 0.7142857142857143,
+      "eval_loss": 1.0391490459442139,
+      "eval_precision": 0.7549873737373737,
+      "eval_recall": 0.6875,
+      "eval_runtime": 24.598,
+      "eval_samples_per_second": 3.252,
+      "eval_steps_per_second": 0.407,
+      "step": 560
+    },
+    {
+      "epoch": 14.25,
+      "grad_norm": 1.366147756576538,
+      "learning_rate": 9.625000000000002e-06,
+      "loss": 0.3922883987426758,
+      "step": 570
+    },
+    {
+      "epoch": 14.5,
+      "grad_norm": 3.1276583671569824,
+      "learning_rate": 9.208333333333335e-06,
+      "loss": 0.2765415906906128,
+      "step": 580
+    },
+    {
+      "epoch": 14.75,
+      "grad_norm": 29.363941192626953,
+      "learning_rate": 8.791666666666667e-06,
+      "loss": 0.28803434371948244,
+      "step": 590
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 1.404604434967041,
+      "learning_rate": 8.375e-06,
+      "loss": 0.22552995681762694,
+      "step": 600
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.7,
+      "eval_f1": 0.7393939393939394,
+      "eval_f1_human": 0.75,
+      "eval_f1_humpback": 0.8181818181818182,
+      "eval_f1_jingle": 0.5454545454545454,
+      "eval_f1_resident": 0.8,
+      "eval_f1_transient": 0.6,
+      "eval_f1_vessel": 0.5,
+      "eval_f1_water": 0.75,
+      "eval_loss": 0.9604784250259399,
+      "eval_precision": 0.7222808441558441,
+      "eval_recall": 0.7,
+      "eval_runtime": 24.6142,
+      "eval_samples_per_second": 3.25,
+      "eval_steps_per_second": 0.406,
+      "step": 600
+    },
+    {
+      "epoch": 15.25,
+      "grad_norm": 2.0040385723114014,
+      "learning_rate": 7.958333333333333e-06,
+      "loss": 0.3015956163406372,
+      "step": 610
+    },
+    {
+      "epoch": 15.5,
+      "grad_norm": 0.7820137739181519,
+      "learning_rate": 7.541666666666667e-06,
+      "loss": 0.2632955312728882,
+      "step": 620
+    },
+    {
+      "epoch": 15.75,
+      "grad_norm": 2.9510080814361572,
+      "learning_rate": 7.1249999999999995e-06,
+      "loss": 0.2560471296310425,
+      "step": 630
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 0.9953803420066833,
+      "learning_rate": 6.708333333333334e-06,
+      "loss": 0.17468478679656982,
+      "step": 640
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.6625,
+      "eval_f1": 0.7507989907485282,
+      "eval_f1_human": 0.7058823529411765,
+      "eval_f1_humpback": 0.9,
+      "eval_f1_jingle": 0.625,
+      "eval_f1_resident": 0.7317073170731707,
+      "eval_f1_transient": 0.6206896551724138,
+      "eval_f1_vessel": 0.5384615384615384,
+      "eval_f1_water": 0.36363636363636365,
+      "eval_loss": 1.155379056930542,
+      "eval_precision": 0.7108353758169935,
+      "eval_recall": 0.6625,
+      "eval_runtime": 24.5906,
+      "eval_samples_per_second": 3.253,
+      "eval_steps_per_second": 0.407,
+      "step": 640
+    },
+    {
+      "epoch": 16.25,
+      "grad_norm": 2.6758124828338623,
+      "learning_rate": 6.291666666666667e-06,
+      "loss": 0.23684515953063964,
+      "step": 650
+    },
+    {
+      "epoch": 16.5,
+      "grad_norm": 25.291175842285156,
+      "learning_rate": 5.8750000000000005e-06,
+      "loss": 0.21341469287872314,
+      "step": 660
+    },
+    {
+      "epoch": 16.75,
+      "grad_norm": 2.370605230331421,
+      "learning_rate": 5.458333333333333e-06,
+      "loss": 0.22325022220611573,
+      "step": 670
+    },
+    {
+      "epoch": 17.0,
+      "grad_norm": 10.337233543395996,
+      "learning_rate": 5.041666666666667e-06,
+      "loss": 0.1329780101776123,
+      "step": 680
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.7375,
+      "eval_f1": 0.7774170274170275,
+      "eval_f1_human": 0.75,
+      "eval_f1_humpback": 0.9166666666666666,
+      "eval_f1_jingle": 0.7272727272727273,
+      "eval_f1_resident": 0.7727272727272727,
+      "eval_f1_transient": 0.6428571428571429,
+      "eval_f1_vessel": 0.5714285714285714,
+      "eval_f1_water": 0.75,
+      "eval_loss": 1.025275468826294,
+      "eval_precision": 0.7605696386946387,
+      "eval_recall": 0.7375,
+      "eval_runtime": 24.6098,
+      "eval_samples_per_second": 3.251,
+      "eval_steps_per_second": 0.406,
+      "step": 680
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 800,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.46776248252e+17,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-680/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9eacba371db8e703397a0ed872eaf7f526989f7fa3a293cf644b4fa8d0bead78
+size 5329