End of training

Browse files

Files changed (14) hide show

README.md +69 -0
model.safetensors +3 -0
preprocessor_config.json +9 -0
release/.ipynb_checkpoints/preprocessor_config-checkpoint.json +9 -0
release/.ipynb_checkpoints/trainer_state-checkpoint.json +783 -0
release/model.safetensors +3 -0
release/optimizer.pt +3 -0
release/preprocessor_config.json +9 -0
release/rng_state.pth +3 -0
release/scheduler.pt +3 -0
release/trainer_state.json +783 -0
release/training_args.bin +3 -0
trainer_state.json +67 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,69 @@

+---
+license: cc-by-nc-4.0
+base_model: m-a-p/MERT-v0
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: mert_cmp_single
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# mert_cmp_single
+This model is a fine-tuned version of [m-a-p/MERT-v0](https://huggingface.co/m-a-p/MERT-v0) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 2.3228
+- Accuracy: 0.0870
+- Precision Micro: 0.0870
+- Recall Micro: 0.0870
+- F1 Micro: 0.0870
+- Precision Macro: 0.0109
+- Recall Macro: 0.125
+- F1 Macro: 0.02
+- Precision Weighted: 0.0076
+- Recall Weighted: 0.0870
+- F1 Weighted: 0.0139
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.005
+- train_batch_size: 16
+- eval_batch_size: 16
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 1
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Accuracy | Precision Micro | Recall Micro | F1 Micro | Precision Macro | Recall Macro | F1 Macro | Precision Weighted | Recall Weighted | F1 Weighted |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|:---------------:|:------------:|:--------:|:---------------:|:------------:|:--------:|:------------------:|:---------------:|:-----------:|
+| 2.2433        | 1.0   | 4    | 2.3228          | 0.0870   | 0.0870          | 0.0870       | 0.0870   | 0.0109          | 0.125        | 0.02     | 0.0076             | 0.0870          | 0.0139      |
+### Framework versions
+- Transformers 4.44.0
+- Pytorch 2.3.1+cu121
+- Datasets 3.6.0
+- Tokenizers 0.19.1

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3572d43e0b49b3db23d49aa98da1eb47ade01409d5bb802fd8b207fecc703a09
+size 392738908

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

release/.ipynb_checkpoints/preprocessor_config-checkpoint.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

release/.ipynb_checkpoints/trainer_state-checkpoint.json ADDED Viewed

	@@ -0,0 +1,783 @@

+{
+  "best_metric": 0.5166666666666667,
+  "best_model_checkpoint": "model/mert_cmp_single/checkpoint-5010",
+  "epoch": 30.0,
+  "eval_steps": 500,
+  "global_step": 5010,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.972764253616333,
+      "learning_rate": 0.004833333333333334,
+      "loss": 2.0548,
+      "step": 167
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.3719298245614035,
+      "eval_f1_macro": 0.1752339726946509,
+      "eval_f1_micro": 0.3719298245614035,
+      "eval_f1_weighted": 0.3032743408676906,
+      "eval_loss": 1.8728982210159302,
+      "eval_precision_macro": 0.15349976094634282,
+      "eval_precision_micro": 0.3719298245614035,
+      "eval_precision_weighted": 0.2655915542913314,
+      "eval_recall_macro": 0.2199586762280261,
+      "eval_recall_micro": 0.3719298245614035,
+      "eval_recall_weighted": 0.3719298245614035,
+      "eval_runtime": 390.667,
+      "eval_samples_per_second": 2.918,
+      "eval_steps_per_second": 0.184,
+      "step": 167
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 3.7620842456817627,
+      "learning_rate": 0.004666666666666667,
+      "loss": 1.8547,
+      "step": 334
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.38596491228070173,
+      "eval_f1_macro": 0.20308576109052026,
+      "eval_f1_micro": 0.38596491228070173,
+      "eval_f1_weighted": 0.34326825024510915,
+      "eval_loss": 1.7156952619552612,
+      "eval_precision_macro": 0.21519653478856515,
+      "eval_precision_micro": 0.38596491228070173,
+      "eval_precision_weighted": 0.34210736396220265,
+      "eval_recall_macro": 0.22995235116630916,
+      "eval_recall_micro": 0.38596491228070173,
+      "eval_recall_weighted": 0.38596491228070173,
+      "eval_runtime": 388.1478,
+      "eval_samples_per_second": 2.937,
+      "eval_steps_per_second": 0.185,
+      "step": 334
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 2.893453359603882,
+      "learning_rate": 0.0045000000000000005,
+      "loss": 1.7595,
+      "step": 501
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.39035087719298245,
+      "eval_f1_macro": 0.27399951358210684,
+      "eval_f1_micro": 0.39035087719298245,
+      "eval_f1_weighted": 0.3326450313532406,
+      "eval_loss": 1.649847388267517,
+      "eval_precision_macro": 0.32755489540557126,
+      "eval_precision_micro": 0.39035087719298245,
+      "eval_precision_weighted": 0.3633738601389556,
+      "eval_recall_macro": 0.293769851069751,
+      "eval_recall_micro": 0.39035087719298245,
+      "eval_recall_weighted": 0.39035087719298245,
+      "eval_runtime": 387.7811,
+      "eval_samples_per_second": 2.94,
+      "eval_steps_per_second": 0.186,
+      "step": 501
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 4.628668785095215,
+      "learning_rate": 0.004333333333333334,
+      "loss": 1.6863,
+      "step": 668
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.4456140350877193,
+      "eval_f1_macro": 0.2949654893702652,
+      "eval_f1_micro": 0.4456140350877193,
+      "eval_f1_weighted": 0.4051374424710547,
+      "eval_loss": 1.4840811491012573,
+      "eval_precision_macro": 0.2723679270138862,
+      "eval_precision_micro": 0.4456140350877193,
+      "eval_precision_weighted": 0.3877325579722141,
+      "eval_recall_macro": 0.3506862934107516,
+      "eval_recall_micro": 0.4456140350877193,
+      "eval_recall_weighted": 0.4456140350877193,
+      "eval_runtime": 387.302,
+      "eval_samples_per_second": 2.943,
+      "eval_steps_per_second": 0.186,
+      "step": 668
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 2.4614219665527344,
+      "learning_rate": 0.004166666666666667,
+      "loss": 1.6545,
+      "step": 835
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.4710526315789474,
+      "eval_f1_macro": 0.32061989017679554,
+      "eval_f1_micro": 0.4710526315789474,
+      "eval_f1_weighted": 0.43804477640411854,
+      "eval_loss": 1.5168241262435913,
+      "eval_precision_macro": 0.3093839470299629,
+      "eval_precision_micro": 0.4710526315789474,
+      "eval_precision_weighted": 0.4152776413552219,
+      "eval_recall_macro": 0.3463593477939053,
+      "eval_recall_micro": 0.4710526315789474,
+      "eval_recall_weighted": 0.4710526315789474,
+      "eval_runtime": 388.1938,
+      "eval_samples_per_second": 2.937,
+      "eval_steps_per_second": 0.185,
+      "step": 835
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 3.0677852630615234,
+      "learning_rate": 0.004,
+      "loss": 1.6326,
+      "step": 1002
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.4324561403508772,
+      "eval_f1_macro": 0.3009858659534055,
+      "eval_f1_micro": 0.4324561403508772,
+      "eval_f1_weighted": 0.40163961306373386,
+      "eval_loss": 1.5056780576705933,
+      "eval_precision_macro": 0.3533036543942354,
+      "eval_precision_micro": 0.4324561403508772,
+      "eval_precision_weighted": 0.41979003159359185,
+      "eval_recall_macro": 0.33496368714252633,
+      "eval_recall_micro": 0.4324561403508772,
+      "eval_recall_weighted": 0.4324561403508772,
+      "eval_runtime": 389.6423,
+      "eval_samples_per_second": 2.926,
+      "eval_steps_per_second": 0.185,
+      "step": 1002
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 4.243473529815674,
+      "learning_rate": 0.0038333333333333336,
+      "loss": 1.599,
+      "step": 1169
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.4789473684210526,
+      "eval_f1_macro": 0.3417367991830593,
+      "eval_f1_micro": 0.4789473684210526,
+      "eval_f1_weighted": 0.44204068485349196,
+      "eval_loss": 1.485596776008606,
+      "eval_precision_macro": 0.35341928050514015,
+      "eval_precision_micro": 0.4789473684210526,
+      "eval_precision_weighted": 0.43268574425886164,
+      "eval_recall_macro": 0.3618233001813015,
+      "eval_recall_micro": 0.4789473684210526,
+      "eval_recall_weighted": 0.4789473684210526,
+      "eval_runtime": 387.4622,
+      "eval_samples_per_second": 2.942,
+      "eval_steps_per_second": 0.186,
+      "step": 1169
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 3.4915621280670166,
+      "learning_rate": 0.0036666666666666666,
+      "loss": 1.5571,
+      "step": 1336
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.4649122807017544,
+      "eval_f1_macro": 0.33185435154616927,
+      "eval_f1_micro": 0.4649122807017544,
+      "eval_f1_weighted": 0.4375194270323329,
+      "eval_loss": 1.5075509548187256,
+      "eval_precision_macro": 0.402563382174571,
+      "eval_precision_micro": 0.4649122807017544,
+      "eval_precision_weighted": 0.4595468667733386,
+      "eval_recall_macro": 0.3376072239589585,
+      "eval_recall_micro": 0.4649122807017544,
+      "eval_recall_weighted": 0.4649122807017544,
+      "eval_runtime": 387.2913,
+      "eval_samples_per_second": 2.944,
+      "eval_steps_per_second": 0.186,
+      "step": 1336
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 5.648871421813965,
+      "learning_rate": 0.0034999999999999996,
+      "loss": 1.5423,
+      "step": 1503
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.4473684210526316,
+      "eval_f1_macro": 0.3633193692983963,
+      "eval_f1_micro": 0.4473684210526316,
+      "eval_f1_weighted": 0.43457480187919556,
+      "eval_loss": 1.5081905126571655,
+      "eval_precision_macro": 0.3975086633004074,
+      "eval_precision_micro": 0.4473684210526316,
+      "eval_precision_weighted": 0.453531478964179,
+      "eval_recall_macro": 0.35673163734767305,
+      "eval_recall_micro": 0.4473684210526316,
+      "eval_recall_weighted": 0.4473684210526316,
+      "eval_runtime": 387.3663,
+      "eval_samples_per_second": 2.943,
+      "eval_steps_per_second": 0.186,
+      "step": 1503
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 3.1236555576324463,
+      "learning_rate": 0.003333333333333333,
+      "loss": 1.5356,
+      "step": 1670
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.4649122807017544,
+      "eval_f1_macro": 0.32504503507830124,
+      "eval_f1_micro": 0.4649122807017544,
+      "eval_f1_weighted": 0.4232674688894728,
+      "eval_loss": 1.5755454301834106,
+      "eval_precision_macro": 0.361163616907195,
+      "eval_precision_micro": 0.4649122807017544,
+      "eval_precision_weighted": 0.4247075744687934,
+      "eval_recall_macro": 0.3384149762412627,
+      "eval_recall_micro": 0.4649122807017544,
+      "eval_recall_weighted": 0.4649122807017544,
+      "eval_runtime": 389.1667,
+      "eval_samples_per_second": 2.929,
+      "eval_steps_per_second": 0.185,
+      "step": 1670
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 3.6445953845977783,
+      "learning_rate": 0.0031666666666666666,
+      "loss": 1.5174,
+      "step": 1837
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.4666666666666667,
+      "eval_f1_macro": 0.35976985093947306,
+      "eval_f1_micro": 0.4666666666666667,
+      "eval_f1_weighted": 0.4458889953148088,
+      "eval_loss": 1.4875001907348633,
+      "eval_precision_macro": 0.4802628528097644,
+      "eval_precision_micro": 0.4666666666666667,
+      "eval_precision_weighted": 0.5174355391927419,
+      "eval_recall_macro": 0.3642094502216486,
+      "eval_recall_micro": 0.4666666666666667,
+      "eval_recall_weighted": 0.4666666666666667,
+      "eval_runtime": 388.4896,
+      "eval_samples_per_second": 2.934,
+      "eval_steps_per_second": 0.185,
+      "step": 1837
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 3.5447826385498047,
+      "learning_rate": 0.003,
+      "loss": 1.4717,
+      "step": 2004
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.4666666666666667,
+      "eval_f1_macro": 0.36601636096965706,
+      "eval_f1_micro": 0.4666666666666667,
+      "eval_f1_weighted": 0.44027602426120266,
+      "eval_loss": 1.4927704334259033,
+      "eval_precision_macro": 0.43193780369068935,
+      "eval_precision_micro": 0.4666666666666667,
+      "eval_precision_weighted": 0.47269213977673047,
+      "eval_recall_macro": 0.3798912460539077,
+      "eval_recall_micro": 0.4666666666666667,
+      "eval_recall_weighted": 0.4666666666666667,
+      "eval_runtime": 387.823,
+      "eval_samples_per_second": 2.939,
+      "eval_steps_per_second": 0.186,
+      "step": 2004
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 4.328464508056641,
+      "learning_rate": 0.002833333333333333,
+      "loss": 1.4669,
+      "step": 2171
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.4745614035087719,
+      "eval_f1_macro": 0.38859755562541454,
+      "eval_f1_micro": 0.4745614035087719,
+      "eval_f1_weighted": 0.46671787231935036,
+      "eval_loss": 1.4511743783950806,
+      "eval_precision_macro": 0.4015529868639453,
+      "eval_precision_micro": 0.4745614035087719,
+      "eval_precision_weighted": 0.4732841181218933,
+      "eval_recall_macro": 0.3975362907769957,
+      "eval_recall_micro": 0.4745614035087719,
+      "eval_recall_weighted": 0.4745614035087719,
+      "eval_runtime": 387.3991,
+      "eval_samples_per_second": 2.943,
+      "eval_steps_per_second": 0.186,
+      "step": 2171
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 8.561325073242188,
+      "learning_rate": 0.0026666666666666666,
+      "loss": 1.4516,
+      "step": 2338
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.47719298245614034,
+      "eval_f1_macro": 0.38778824262319195,
+      "eval_f1_micro": 0.47719298245614034,
+      "eval_f1_weighted": 0.4521071312833841,
+      "eval_loss": 1.5683324337005615,
+      "eval_precision_macro": 0.45015826319899144,
+      "eval_precision_micro": 0.47719298245614034,
+      "eval_precision_weighted": 0.48469205065002274,
+      "eval_recall_macro": 0.3807191719284666,
+      "eval_recall_micro": 0.47719298245614034,
+      "eval_recall_weighted": 0.47719298245614034,
+      "eval_runtime": 387.3112,
+      "eval_samples_per_second": 2.943,
+      "eval_steps_per_second": 0.186,
+      "step": 2338
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 5.659043788909912,
+      "learning_rate": 0.0025,
+      "loss": 1.4468,
+      "step": 2505
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.4649122807017544,
+      "eval_f1_macro": 0.3746786393581578,
+      "eval_f1_micro": 0.4649122807017544,
+      "eval_f1_weighted": 0.4490106368369649,
+      "eval_loss": 1.522507905960083,
+      "eval_precision_macro": 0.42440688015824424,
+      "eval_precision_micro": 0.4649122807017544,
+      "eval_precision_weighted": 0.48542408043393825,
+      "eval_recall_macro": 0.3792014977295045,
+      "eval_recall_micro": 0.4649122807017544,
+      "eval_recall_weighted": 0.4649122807017544,
+      "eval_runtime": 387.3309,
+      "eval_samples_per_second": 2.943,
+      "eval_steps_per_second": 0.186,
+      "step": 2505
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 3.6838574409484863,
+      "learning_rate": 0.0023333333333333335,
+      "loss": 1.3935,
+      "step": 2672
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.4850877192982456,
+      "eval_f1_macro": 0.41079129743155646,
+      "eval_f1_micro": 0.4850877192982456,
+      "eval_f1_weighted": 0.4818917262202846,
+      "eval_loss": 1.4960697889328003,
+      "eval_precision_macro": 0.42311229328764643,
+      "eval_precision_micro": 0.4850877192982456,
+      "eval_precision_weighted": 0.49189296461866266,
+      "eval_recall_macro": 0.4115979824480055,
+      "eval_recall_micro": 0.4850877192982456,
+      "eval_recall_weighted": 0.4850877192982456,
+      "eval_runtime": 386.9296,
+      "eval_samples_per_second": 2.946,
+      "eval_steps_per_second": 0.186,
+      "step": 2672
+    },
+    {
+      "epoch": 17.0,
+      "grad_norm": 6.394424915313721,
+      "learning_rate": 0.002166666666666667,
+      "loss": 1.4217,
+      "step": 2839
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.48771929824561405,
+      "eval_f1_macro": 0.38735566453611514,
+      "eval_f1_micro": 0.48771929824561405,
+      "eval_f1_weighted": 0.4661251566654804,
+      "eval_loss": 1.524192214012146,
+      "eval_precision_macro": 0.4543356420217285,
+      "eval_precision_micro": 0.48771929824561405,
+      "eval_precision_weighted": 0.5054670595798253,
+      "eval_recall_macro": 0.4000549048543122,
+      "eval_recall_micro": 0.48771929824561405,
+      "eval_recall_weighted": 0.48771929824561405,
+      "eval_runtime": 387.3753,
+      "eval_samples_per_second": 2.943,
+      "eval_steps_per_second": 0.186,
+      "step": 2839
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 5.048763751983643,
+      "learning_rate": 0.002,
+      "loss": 1.3831,
+      "step": 3006
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.49298245614035086,
+      "eval_f1_macro": 0.3945057051668317,
+      "eval_f1_micro": 0.49298245614035086,
+      "eval_f1_weighted": 0.4768674757940579,
+      "eval_loss": 1.4723140001296997,
+      "eval_precision_macro": 0.45564765495926707,
+      "eval_precision_micro": 0.49298245614035086,
+      "eval_precision_weighted": 0.5182791073380009,
+      "eval_recall_macro": 0.4229398794166392,
+      "eval_recall_micro": 0.49298245614035086,
+      "eval_recall_weighted": 0.49298245614035086,
+      "eval_runtime": 387.6312,
+      "eval_samples_per_second": 2.941,
+      "eval_steps_per_second": 0.186,
+      "step": 3006
+    },
+    {
+      "epoch": 19.0,
+      "grad_norm": 8.706170082092285,
+      "learning_rate": 0.0018333333333333333,
+      "loss": 1.4249,
+      "step": 3173
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.5026315789473684,
+      "eval_f1_macro": 0.3967450923381979,
+      "eval_f1_micro": 0.5026315789473684,
+      "eval_f1_weighted": 0.48467826189256524,
+      "eval_loss": 1.4886491298675537,
+      "eval_precision_macro": 0.4442558168809208,
+      "eval_precision_micro": 0.5026315789473684,
+      "eval_precision_weighted": 0.49883534500451954,
+      "eval_recall_macro": 0.39853885191451394,
+      "eval_recall_micro": 0.5026315789473684,
+      "eval_recall_weighted": 0.5026315789473684,
+      "eval_runtime": 387.008,
+      "eval_samples_per_second": 2.946,
+      "eval_steps_per_second": 0.186,
+      "step": 3173
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 9.670186042785645,
+      "learning_rate": 0.0016666666666666666,
+      "loss": 1.3931,
+      "step": 3340
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.49122807017543857,
+      "eval_f1_macro": 0.4000545127776559,
+      "eval_f1_micro": 0.49122807017543857,
+      "eval_f1_weighted": 0.47950452147445755,
+      "eval_loss": 1.5036280155181885,
+      "eval_precision_macro": 0.443839992334728,
+      "eval_precision_micro": 0.49122807017543857,
+      "eval_precision_weighted": 0.499565206319528,
+      "eval_recall_macro": 0.398944898086383,
+      "eval_recall_micro": 0.49122807017543857,
+      "eval_recall_weighted": 0.49122807017543857,
+      "eval_runtime": 387.8055,
+      "eval_samples_per_second": 2.94,
+      "eval_steps_per_second": 0.186,
+      "step": 3340
+    },
+    {
+      "epoch": 21.0,
+      "grad_norm": 3.482584238052368,
+      "learning_rate": 0.0015,
+      "loss": 1.3695,
+      "step": 3507
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 0.4675438596491228,
+      "eval_f1_macro": 0.37912447794813103,
+      "eval_f1_micro": 0.4675438596491228,
+      "eval_f1_weighted": 0.4472561141761033,
+      "eval_loss": 1.5602822303771973,
+      "eval_precision_macro": 0.409817315097036,
+      "eval_precision_micro": 0.4675438596491228,
+      "eval_precision_weighted": 0.46947315014830876,
+      "eval_recall_macro": 0.39767343278642575,
+      "eval_recall_micro": 0.4675438596491228,
+      "eval_recall_weighted": 0.4675438596491228,
+      "eval_runtime": 387.5678,
+      "eval_samples_per_second": 2.941,
+      "eval_steps_per_second": 0.186,
+      "step": 3507
+    },
+    {
+      "epoch": 22.0,
+      "grad_norm": 5.20711088180542,
+      "learning_rate": 0.0013333333333333333,
+      "loss": 1.3424,
+      "step": 3674
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.5026315789473684,
+      "eval_f1_macro": 0.41946040337720514,
+      "eval_f1_micro": 0.5026315789473684,
+      "eval_f1_weighted": 0.4942558483892827,
+      "eval_loss": 1.5268137454986572,
+      "eval_precision_macro": 0.45115966752712633,
+      "eval_precision_micro": 0.5026315789473684,
+      "eval_precision_weighted": 0.5051162872222296,
+      "eval_recall_macro": 0.41687400337731273,
+      "eval_recall_micro": 0.5026315789473684,
+      "eval_recall_weighted": 0.5026315789473684,
+      "eval_runtime": 389.0165,
+      "eval_samples_per_second": 2.93,
+      "eval_steps_per_second": 0.185,
+      "step": 3674
+    },
+    {
+      "epoch": 23.0,
+      "grad_norm": 3.0958826541900635,
+      "learning_rate": 0.0011666666666666668,
+      "loss": 1.3182,
+      "step": 3841
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy": 0.5043859649122807,
+      "eval_f1_macro": 0.4250257135657705,
+      "eval_f1_micro": 0.5043859649122807,
+      "eval_f1_weighted": 0.49650300655947666,
+      "eval_loss": 1.5448613166809082,
+      "eval_precision_macro": 0.4553361061245826,
+      "eval_precision_micro": 0.5043859649122807,
+      "eval_precision_weighted": 0.5092558110886319,
+      "eval_recall_macro": 0.42373341360749667,
+      "eval_recall_micro": 0.5043859649122807,
+      "eval_recall_weighted": 0.5043859649122807,
+      "eval_runtime": 387.3958,
+      "eval_samples_per_second": 2.943,
+      "eval_steps_per_second": 0.186,
+      "step": 3841
+    },
+    {
+      "epoch": 24.0,
+      "grad_norm": 10.11511516571045,
+      "learning_rate": 0.001,
+      "loss": 1.3203,
+      "step": 4008
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.5096491228070176,
+      "eval_f1_macro": 0.4226791843362771,
+      "eval_f1_micro": 0.5096491228070176,
+      "eval_f1_weighted": 0.49650965589318546,
+      "eval_loss": 1.5966026782989502,
+      "eval_precision_macro": 0.44893183685690363,
+      "eval_precision_micro": 0.5096491228070176,
+      "eval_precision_weighted": 0.5017696631956957,
+      "eval_recall_macro": 0.4174735986452103,
+      "eval_recall_micro": 0.5096491228070176,
+      "eval_recall_weighted": 0.5096491228070176,
+      "eval_runtime": 387.7731,
+      "eval_samples_per_second": 2.94,
+      "eval_steps_per_second": 0.186,
+      "step": 4008
+    },
+    {
+      "epoch": 25.0,
+      "grad_norm": 9.380126953125,
+      "learning_rate": 0.0008333333333333333,
+      "loss": 1.2721,
+      "step": 4175
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 0.5070175438596491,
+      "eval_f1_macro": 0.42100594112908074,
+      "eval_f1_micro": 0.5070175438596491,
+      "eval_f1_weighted": 0.49391608845007934,
+      "eval_loss": 1.7380679845809937,
+      "eval_precision_macro": 0.45476177682378327,
+      "eval_precision_micro": 0.5070175438596491,
+      "eval_precision_weighted": 0.5038725473468296,
+      "eval_recall_macro": 0.41455121185805693,
+      "eval_recall_micro": 0.5070175438596491,
+      "eval_recall_weighted": 0.5070175438596491,
+      "eval_runtime": 387.0289,
+      "eval_samples_per_second": 2.946,
+      "eval_steps_per_second": 0.186,
+      "step": 4175
+    },
+    {
+      "epoch": 26.0,
+      "grad_norm": 9.300443649291992,
+      "learning_rate": 0.0006666666666666666,
+      "loss": 1.2617,
+      "step": 4342
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.5035087719298246,
+      "eval_f1_macro": 0.4212203299346101,
+      "eval_f1_micro": 0.5035087719298246,
+      "eval_f1_weighted": 0.4941328967539604,
+      "eval_loss": 1.632319450378418,
+      "eval_precision_macro": 0.44361812797226563,
+      "eval_precision_micro": 0.5035087719298246,
+      "eval_precision_weighted": 0.5004178461640878,
+      "eval_recall_macro": 0.4138272297786372,
+      "eval_recall_micro": 0.5035087719298246,
+      "eval_recall_weighted": 0.5035087719298246,
+      "eval_runtime": 387.432,
+      "eval_samples_per_second": 2.942,
+      "eval_steps_per_second": 0.186,
+      "step": 4342
+    },
+    {
+      "epoch": 27.0,
+      "grad_norm": 6.3707780838012695,
+      "learning_rate": 0.0005,
+      "loss": 1.232,
+      "step": 4509
+    },
+    {
+      "epoch": 27.0,
+      "eval_accuracy": 0.5,
+      "eval_f1_macro": 0.4177911105472344,
+      "eval_f1_micro": 0.5,
+      "eval_f1_weighted": 0.489643641514919,
+      "eval_loss": 1.658205270767212,
+      "eval_precision_macro": 0.4496790851883594,
+      "eval_precision_micro": 0.5,
+      "eval_precision_weighted": 0.5029776476941141,
+      "eval_recall_macro": 0.4138497914465852,
+      "eval_recall_micro": 0.5,
+      "eval_recall_weighted": 0.5,
+      "eval_runtime": 387.4035,
+      "eval_samples_per_second": 2.943,
+      "eval_steps_per_second": 0.186,
+      "step": 4509
+    },
+    {
+      "epoch": 28.0,
+      "grad_norm": 10.817475318908691,
+      "learning_rate": 0.0003333333333333333,
+      "loss": 1.2779,
+      "step": 4676
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.506140350877193,
+      "eval_f1_macro": 0.43333273047004633,
+      "eval_f1_micro": 0.506140350877193,
+      "eval_f1_weighted": 0.5013645953971182,
+      "eval_loss": 1.5920156240463257,
+      "eval_precision_macro": 0.45066820886948744,
+      "eval_precision_micro": 0.506140350877193,
+      "eval_precision_weighted": 0.5098806030910483,
+      "eval_recall_macro": 0.4307563083655982,
+      "eval_recall_micro": 0.506140350877193,
+      "eval_recall_weighted": 0.506140350877193,
+      "eval_runtime": 387.7867,
+      "eval_samples_per_second": 2.94,
+      "eval_steps_per_second": 0.186,
+      "step": 4676
+    },
+    {
+      "epoch": 29.0,
+      "grad_norm": 8.93726634979248,
+      "learning_rate": 0.00016666666666666666,
+      "loss": 1.2478,
+      "step": 4843
+    },
+    {
+      "epoch": 29.0,
+      "eval_accuracy": 0.5140350877192983,
+      "eval_f1_macro": 0.4370072407808227,
+      "eval_f1_micro": 0.5140350877192983,
+      "eval_f1_weighted": 0.5079223850593363,
+      "eval_loss": 1.6204602718353271,
+      "eval_precision_macro": 0.45427166811835185,
+      "eval_precision_micro": 0.5140350877192983,
+      "eval_precision_weighted": 0.5134498813977569,
+      "eval_recall_macro": 0.4348661701787724,
+      "eval_recall_micro": 0.5140350877192983,
+      "eval_recall_weighted": 0.5140350877192983,
+      "eval_runtime": 387.6318,
+      "eval_samples_per_second": 2.941,
+      "eval_steps_per_second": 0.186,
+      "step": 4843
+    },
+    {
+      "epoch": 30.0,
+      "grad_norm": 11.193902015686035,
+      "learning_rate": 0.0,
+      "loss": 1.2482,
+      "step": 5010
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.5166666666666667,
+      "eval_f1_macro": 0.4422232782296543,
+      "eval_f1_micro": 0.5166666666666667,
+      "eval_f1_weighted": 0.5099377352687338,
+      "eval_loss": 1.6233675479888916,
+      "eval_precision_macro": 0.46481125646765853,
+      "eval_precision_micro": 0.5166666666666667,
+      "eval_precision_weighted": 0.5182626681333475,
+      "eval_recall_macro": 0.4380791377289606,
+      "eval_recall_micro": 0.5166666666666667,
+      "eval_recall_weighted": 0.5166666666666667,
+      "eval_runtime": 388.1928,
+      "eval_samples_per_second": 2.937,
+      "eval_steps_per_second": 0.185,
+      "step": 5010
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 5010,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 30,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

release/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5fdbd74cff7a3058b8263eb2e3b9ffdce201f26358dd3f7b965737a2cf02778b
+size 392738908

release/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4b60bf49cfa653ac8ee67cc8f8dd524511edf8879cc03616e46ab9d1360862d6
+size 30462205

release/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

release/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eee22b406fc2f6df1c483299aef7cc518d1b36057521369615d78d6c238e26c5
+size 14244

release/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:09b99f5e551331099d97260b90e5773355f17e37027489bb3835ef87b5f7d83e
+size 1064

release/trainer_state.json ADDED Viewed

	@@ -0,0 +1,783 @@

+{
+  "best_metric": 0.5166666666666667,
+  "best_model_checkpoint": "model/mert_cmp_single/checkpoint-5010",
+  "epoch": 30.0,
+  "eval_steps": 500,
+  "global_step": 5010,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.972764253616333,
+      "learning_rate": 0.004833333333333334,
+      "loss": 2.0548,
+      "step": 167
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.3719298245614035,
+      "eval_f1_macro": 0.1752339726946509,
+      "eval_f1_micro": 0.3719298245614035,
+      "eval_f1_weighted": 0.3032743408676906,
+      "eval_loss": 1.8728982210159302,
+      "eval_precision_macro": 0.15349976094634282,
+      "eval_precision_micro": 0.3719298245614035,
+      "eval_precision_weighted": 0.2655915542913314,
+      "eval_recall_macro": 0.2199586762280261,
+      "eval_recall_micro": 0.3719298245614035,
+      "eval_recall_weighted": 0.3719298245614035,
+      "eval_runtime": 390.667,
+      "eval_samples_per_second": 2.918,
+      "eval_steps_per_second": 0.184,
+      "step": 167
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 3.7620842456817627,
+      "learning_rate": 0.004666666666666667,
+      "loss": 1.8547,
+      "step": 334
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.38596491228070173,
+      "eval_f1_macro": 0.20308576109052026,
+      "eval_f1_micro": 0.38596491228070173,
+      "eval_f1_weighted": 0.34326825024510915,
+      "eval_loss": 1.7156952619552612,
+      "eval_precision_macro": 0.21519653478856515,
+      "eval_precision_micro": 0.38596491228070173,
+      "eval_precision_weighted": 0.34210736396220265,
+      "eval_recall_macro": 0.22995235116630916,
+      "eval_recall_micro": 0.38596491228070173,
+      "eval_recall_weighted": 0.38596491228070173,
+      "eval_runtime": 388.1478,
+      "eval_samples_per_second": 2.937,
+      "eval_steps_per_second": 0.185,
+      "step": 334
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 2.893453359603882,
+      "learning_rate": 0.0045000000000000005,
+      "loss": 1.7595,
+      "step": 501
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.39035087719298245,
+      "eval_f1_macro": 0.27399951358210684,
+      "eval_f1_micro": 0.39035087719298245,
+      "eval_f1_weighted": 0.3326450313532406,
+      "eval_loss": 1.649847388267517,
+      "eval_precision_macro": 0.32755489540557126,
+      "eval_precision_micro": 0.39035087719298245,
+      "eval_precision_weighted": 0.3633738601389556,
+      "eval_recall_macro": 0.293769851069751,
+      "eval_recall_micro": 0.39035087719298245,
+      "eval_recall_weighted": 0.39035087719298245,
+      "eval_runtime": 387.7811,
+      "eval_samples_per_second": 2.94,
+      "eval_steps_per_second": 0.186,
+      "step": 501
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 4.628668785095215,
+      "learning_rate": 0.004333333333333334,
+      "loss": 1.6863,
+      "step": 668
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.4456140350877193,
+      "eval_f1_macro": 0.2949654893702652,
+      "eval_f1_micro": 0.4456140350877193,
+      "eval_f1_weighted": 0.4051374424710547,
+      "eval_loss": 1.4840811491012573,
+      "eval_precision_macro": 0.2723679270138862,
+      "eval_precision_micro": 0.4456140350877193,
+      "eval_precision_weighted": 0.3877325579722141,
+      "eval_recall_macro": 0.3506862934107516,
+      "eval_recall_micro": 0.4456140350877193,
+      "eval_recall_weighted": 0.4456140350877193,
+      "eval_runtime": 387.302,
+      "eval_samples_per_second": 2.943,
+      "eval_steps_per_second": 0.186,
+      "step": 668
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 2.4614219665527344,
+      "learning_rate": 0.004166666666666667,
+      "loss": 1.6545,
+      "step": 835
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.4710526315789474,
+      "eval_f1_macro": 0.32061989017679554,
+      "eval_f1_micro": 0.4710526315789474,
+      "eval_f1_weighted": 0.43804477640411854,
+      "eval_loss": 1.5168241262435913,
+      "eval_precision_macro": 0.3093839470299629,
+      "eval_precision_micro": 0.4710526315789474,
+      "eval_precision_weighted": 0.4152776413552219,
+      "eval_recall_macro": 0.3463593477939053,
+      "eval_recall_micro": 0.4710526315789474,
+      "eval_recall_weighted": 0.4710526315789474,
+      "eval_runtime": 388.1938,
+      "eval_samples_per_second": 2.937,
+      "eval_steps_per_second": 0.185,
+      "step": 835
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 3.0677852630615234,
+      "learning_rate": 0.004,
+      "loss": 1.6326,
+      "step": 1002
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.4324561403508772,
+      "eval_f1_macro": 0.3009858659534055,
+      "eval_f1_micro": 0.4324561403508772,
+      "eval_f1_weighted": 0.40163961306373386,
+      "eval_loss": 1.5056780576705933,
+      "eval_precision_macro": 0.3533036543942354,
+      "eval_precision_micro": 0.4324561403508772,
+      "eval_precision_weighted": 0.41979003159359185,
+      "eval_recall_macro": 0.33496368714252633,
+      "eval_recall_micro": 0.4324561403508772,
+      "eval_recall_weighted": 0.4324561403508772,
+      "eval_runtime": 389.6423,
+      "eval_samples_per_second": 2.926,
+      "eval_steps_per_second": 0.185,
+      "step": 1002
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 4.243473529815674,
+      "learning_rate": 0.0038333333333333336,
+      "loss": 1.599,
+      "step": 1169
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.4789473684210526,
+      "eval_f1_macro": 0.3417367991830593,
+      "eval_f1_micro": 0.4789473684210526,
+      "eval_f1_weighted": 0.44204068485349196,
+      "eval_loss": 1.485596776008606,
+      "eval_precision_macro": 0.35341928050514015,
+      "eval_precision_micro": 0.4789473684210526,
+      "eval_precision_weighted": 0.43268574425886164,
+      "eval_recall_macro": 0.3618233001813015,
+      "eval_recall_micro": 0.4789473684210526,
+      "eval_recall_weighted": 0.4789473684210526,
+      "eval_runtime": 387.4622,
+      "eval_samples_per_second": 2.942,
+      "eval_steps_per_second": 0.186,
+      "step": 1169
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 3.4915621280670166,
+      "learning_rate": 0.0036666666666666666,
+      "loss": 1.5571,
+      "step": 1336
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.4649122807017544,
+      "eval_f1_macro": 0.33185435154616927,
+      "eval_f1_micro": 0.4649122807017544,
+      "eval_f1_weighted": 0.4375194270323329,
+      "eval_loss": 1.5075509548187256,
+      "eval_precision_macro": 0.402563382174571,
+      "eval_precision_micro": 0.4649122807017544,
+      "eval_precision_weighted": 0.4595468667733386,
+      "eval_recall_macro": 0.3376072239589585,
+      "eval_recall_micro": 0.4649122807017544,
+      "eval_recall_weighted": 0.4649122807017544,
+      "eval_runtime": 387.2913,
+      "eval_samples_per_second": 2.944,
+      "eval_steps_per_second": 0.186,
+      "step": 1336
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 5.648871421813965,
+      "learning_rate": 0.0034999999999999996,
+      "loss": 1.5423,
+      "step": 1503
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.4473684210526316,
+      "eval_f1_macro": 0.3633193692983963,
+      "eval_f1_micro": 0.4473684210526316,
+      "eval_f1_weighted": 0.43457480187919556,
+      "eval_loss": 1.5081905126571655,
+      "eval_precision_macro": 0.3975086633004074,
+      "eval_precision_micro": 0.4473684210526316,
+      "eval_precision_weighted": 0.453531478964179,
+      "eval_recall_macro": 0.35673163734767305,
+      "eval_recall_micro": 0.4473684210526316,
+      "eval_recall_weighted": 0.4473684210526316,
+      "eval_runtime": 387.3663,
+      "eval_samples_per_second": 2.943,
+      "eval_steps_per_second": 0.186,
+      "step": 1503
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 3.1236555576324463,
+      "learning_rate": 0.003333333333333333,
+      "loss": 1.5356,
+      "step": 1670
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.4649122807017544,
+      "eval_f1_macro": 0.32504503507830124,
+      "eval_f1_micro": 0.4649122807017544,
+      "eval_f1_weighted": 0.4232674688894728,
+      "eval_loss": 1.5755454301834106,
+      "eval_precision_macro": 0.361163616907195,
+      "eval_precision_micro": 0.4649122807017544,
+      "eval_precision_weighted": 0.4247075744687934,
+      "eval_recall_macro": 0.3384149762412627,
+      "eval_recall_micro": 0.4649122807017544,
+      "eval_recall_weighted": 0.4649122807017544,
+      "eval_runtime": 389.1667,
+      "eval_samples_per_second": 2.929,
+      "eval_steps_per_second": 0.185,
+      "step": 1670
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 3.6445953845977783,
+      "learning_rate": 0.0031666666666666666,
+      "loss": 1.5174,
+      "step": 1837
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.4666666666666667,
+      "eval_f1_macro": 0.35976985093947306,
+      "eval_f1_micro": 0.4666666666666667,
+      "eval_f1_weighted": 0.4458889953148088,
+      "eval_loss": 1.4875001907348633,
+      "eval_precision_macro": 0.4802628528097644,
+      "eval_precision_micro": 0.4666666666666667,
+      "eval_precision_weighted": 0.5174355391927419,
+      "eval_recall_macro": 0.3642094502216486,
+      "eval_recall_micro": 0.4666666666666667,
+      "eval_recall_weighted": 0.4666666666666667,
+      "eval_runtime": 388.4896,
+      "eval_samples_per_second": 2.934,
+      "eval_steps_per_second": 0.185,
+      "step": 1837
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 3.5447826385498047,
+      "learning_rate": 0.003,
+      "loss": 1.4717,
+      "step": 2004
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.4666666666666667,
+      "eval_f1_macro": 0.36601636096965706,
+      "eval_f1_micro": 0.4666666666666667,
+      "eval_f1_weighted": 0.44027602426120266,
+      "eval_loss": 1.4927704334259033,
+      "eval_precision_macro": 0.43193780369068935,
+      "eval_precision_micro": 0.4666666666666667,
+      "eval_precision_weighted": 0.47269213977673047,
+      "eval_recall_macro": 0.3798912460539077,
+      "eval_recall_micro": 0.4666666666666667,
+      "eval_recall_weighted": 0.4666666666666667,
+      "eval_runtime": 387.823,
+      "eval_samples_per_second": 2.939,
+      "eval_steps_per_second": 0.186,
+      "step": 2004
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 4.328464508056641,
+      "learning_rate": 0.002833333333333333,
+      "loss": 1.4669,
+      "step": 2171
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.4745614035087719,
+      "eval_f1_macro": 0.38859755562541454,
+      "eval_f1_micro": 0.4745614035087719,
+      "eval_f1_weighted": 0.46671787231935036,
+      "eval_loss": 1.4511743783950806,
+      "eval_precision_macro": 0.4015529868639453,
+      "eval_precision_micro": 0.4745614035087719,
+      "eval_precision_weighted": 0.4732841181218933,
+      "eval_recall_macro": 0.3975362907769957,
+      "eval_recall_micro": 0.4745614035087719,
+      "eval_recall_weighted": 0.4745614035087719,
+      "eval_runtime": 387.3991,
+      "eval_samples_per_second": 2.943,
+      "eval_steps_per_second": 0.186,
+      "step": 2171
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 8.561325073242188,
+      "learning_rate": 0.0026666666666666666,
+      "loss": 1.4516,
+      "step": 2338
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.47719298245614034,
+      "eval_f1_macro": 0.38778824262319195,
+      "eval_f1_micro": 0.47719298245614034,
+      "eval_f1_weighted": 0.4521071312833841,
+      "eval_loss": 1.5683324337005615,
+      "eval_precision_macro": 0.45015826319899144,
+      "eval_precision_micro": 0.47719298245614034,
+      "eval_precision_weighted": 0.48469205065002274,
+      "eval_recall_macro": 0.3807191719284666,
+      "eval_recall_micro": 0.47719298245614034,
+      "eval_recall_weighted": 0.47719298245614034,
+      "eval_runtime": 387.3112,
+      "eval_samples_per_second": 2.943,
+      "eval_steps_per_second": 0.186,
+      "step": 2338
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 5.659043788909912,
+      "learning_rate": 0.0025,
+      "loss": 1.4468,
+      "step": 2505
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.4649122807017544,
+      "eval_f1_macro": 0.3746786393581578,
+      "eval_f1_micro": 0.4649122807017544,
+      "eval_f1_weighted": 0.4490106368369649,
+      "eval_loss": 1.522507905960083,
+      "eval_precision_macro": 0.42440688015824424,
+      "eval_precision_micro": 0.4649122807017544,
+      "eval_precision_weighted": 0.48542408043393825,
+      "eval_recall_macro": 0.3792014977295045,
+      "eval_recall_micro": 0.4649122807017544,
+      "eval_recall_weighted": 0.4649122807017544,
+      "eval_runtime": 387.3309,
+      "eval_samples_per_second": 2.943,
+      "eval_steps_per_second": 0.186,
+      "step": 2505
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 3.6838574409484863,
+      "learning_rate": 0.0023333333333333335,
+      "loss": 1.3935,
+      "step": 2672
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.4850877192982456,
+      "eval_f1_macro": 0.41079129743155646,
+      "eval_f1_micro": 0.4850877192982456,
+      "eval_f1_weighted": 0.4818917262202846,
+      "eval_loss": 1.4960697889328003,
+      "eval_precision_macro": 0.42311229328764643,
+      "eval_precision_micro": 0.4850877192982456,
+      "eval_precision_weighted": 0.49189296461866266,
+      "eval_recall_macro": 0.4115979824480055,
+      "eval_recall_micro": 0.4850877192982456,
+      "eval_recall_weighted": 0.4850877192982456,
+      "eval_runtime": 386.9296,
+      "eval_samples_per_second": 2.946,
+      "eval_steps_per_second": 0.186,
+      "step": 2672
+    },
+    {
+      "epoch": 17.0,
+      "grad_norm": 6.394424915313721,
+      "learning_rate": 0.002166666666666667,
+      "loss": 1.4217,
+      "step": 2839
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.48771929824561405,
+      "eval_f1_macro": 0.38735566453611514,
+      "eval_f1_micro": 0.48771929824561405,
+      "eval_f1_weighted": 0.4661251566654804,
+      "eval_loss": 1.524192214012146,
+      "eval_precision_macro": 0.4543356420217285,
+      "eval_precision_micro": 0.48771929824561405,
+      "eval_precision_weighted": 0.5054670595798253,
+      "eval_recall_macro": 0.4000549048543122,
+      "eval_recall_micro": 0.48771929824561405,
+      "eval_recall_weighted": 0.48771929824561405,
+      "eval_runtime": 387.3753,
+      "eval_samples_per_second": 2.943,
+      "eval_steps_per_second": 0.186,
+      "step": 2839
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 5.048763751983643,
+      "learning_rate": 0.002,
+      "loss": 1.3831,
+      "step": 3006
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.49298245614035086,
+      "eval_f1_macro": 0.3945057051668317,
+      "eval_f1_micro": 0.49298245614035086,
+      "eval_f1_weighted": 0.4768674757940579,
+      "eval_loss": 1.4723140001296997,
+      "eval_precision_macro": 0.45564765495926707,
+      "eval_precision_micro": 0.49298245614035086,
+      "eval_precision_weighted": 0.5182791073380009,
+      "eval_recall_macro": 0.4229398794166392,
+      "eval_recall_micro": 0.49298245614035086,
+      "eval_recall_weighted": 0.49298245614035086,
+      "eval_runtime": 387.6312,
+      "eval_samples_per_second": 2.941,
+      "eval_steps_per_second": 0.186,
+      "step": 3006
+    },
+    {
+      "epoch": 19.0,
+      "grad_norm": 8.706170082092285,
+      "learning_rate": 0.0018333333333333333,
+      "loss": 1.4249,
+      "step": 3173
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.5026315789473684,
+      "eval_f1_macro": 0.3967450923381979,
+      "eval_f1_micro": 0.5026315789473684,
+      "eval_f1_weighted": 0.48467826189256524,
+      "eval_loss": 1.4886491298675537,
+      "eval_precision_macro": 0.4442558168809208,
+      "eval_precision_micro": 0.5026315789473684,
+      "eval_precision_weighted": 0.49883534500451954,
+      "eval_recall_macro": 0.39853885191451394,
+      "eval_recall_micro": 0.5026315789473684,
+      "eval_recall_weighted": 0.5026315789473684,
+      "eval_runtime": 387.008,
+      "eval_samples_per_second": 2.946,
+      "eval_steps_per_second": 0.186,
+      "step": 3173
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 9.670186042785645,
+      "learning_rate": 0.0016666666666666666,
+      "loss": 1.3931,
+      "step": 3340
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.49122807017543857,
+      "eval_f1_macro": 0.4000545127776559,
+      "eval_f1_micro": 0.49122807017543857,
+      "eval_f1_weighted": 0.47950452147445755,
+      "eval_loss": 1.5036280155181885,
+      "eval_precision_macro": 0.443839992334728,
+      "eval_precision_micro": 0.49122807017543857,
+      "eval_precision_weighted": 0.499565206319528,
+      "eval_recall_macro": 0.398944898086383,
+      "eval_recall_micro": 0.49122807017543857,
+      "eval_recall_weighted": 0.49122807017543857,
+      "eval_runtime": 387.8055,
+      "eval_samples_per_second": 2.94,
+      "eval_steps_per_second": 0.186,
+      "step": 3340
+    },
+    {
+      "epoch": 21.0,
+      "grad_norm": 3.482584238052368,
+      "learning_rate": 0.0015,
+      "loss": 1.3695,
+      "step": 3507
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 0.4675438596491228,
+      "eval_f1_macro": 0.37912447794813103,
+      "eval_f1_micro": 0.4675438596491228,
+      "eval_f1_weighted": 0.4472561141761033,
+      "eval_loss": 1.5602822303771973,
+      "eval_precision_macro": 0.409817315097036,
+      "eval_precision_micro": 0.4675438596491228,
+      "eval_precision_weighted": 0.46947315014830876,
+      "eval_recall_macro": 0.39767343278642575,
+      "eval_recall_micro": 0.4675438596491228,
+      "eval_recall_weighted": 0.4675438596491228,
+      "eval_runtime": 387.5678,
+      "eval_samples_per_second": 2.941,
+      "eval_steps_per_second": 0.186,
+      "step": 3507
+    },
+    {
+      "epoch": 22.0,
+      "grad_norm": 5.20711088180542,
+      "learning_rate": 0.0013333333333333333,
+      "loss": 1.3424,
+      "step": 3674
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.5026315789473684,
+      "eval_f1_macro": 0.41946040337720514,
+      "eval_f1_micro": 0.5026315789473684,
+      "eval_f1_weighted": 0.4942558483892827,
+      "eval_loss": 1.5268137454986572,
+      "eval_precision_macro": 0.45115966752712633,
+      "eval_precision_micro": 0.5026315789473684,
+      "eval_precision_weighted": 0.5051162872222296,
+      "eval_recall_macro": 0.41687400337731273,
+      "eval_recall_micro": 0.5026315789473684,
+      "eval_recall_weighted": 0.5026315789473684,
+      "eval_runtime": 389.0165,
+      "eval_samples_per_second": 2.93,
+      "eval_steps_per_second": 0.185,
+      "step": 3674
+    },
+    {
+      "epoch": 23.0,
+      "grad_norm": 3.0958826541900635,
+      "learning_rate": 0.0011666666666666668,
+      "loss": 1.3182,
+      "step": 3841
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy": 0.5043859649122807,
+      "eval_f1_macro": 0.4250257135657705,
+      "eval_f1_micro": 0.5043859649122807,
+      "eval_f1_weighted": 0.49650300655947666,
+      "eval_loss": 1.5448613166809082,
+      "eval_precision_macro": 0.4553361061245826,
+      "eval_precision_micro": 0.5043859649122807,
+      "eval_precision_weighted": 0.5092558110886319,
+      "eval_recall_macro": 0.42373341360749667,
+      "eval_recall_micro": 0.5043859649122807,
+      "eval_recall_weighted": 0.5043859649122807,
+      "eval_runtime": 387.3958,
+      "eval_samples_per_second": 2.943,
+      "eval_steps_per_second": 0.186,
+      "step": 3841
+    },
+    {
+      "epoch": 24.0,
+      "grad_norm": 10.11511516571045,
+      "learning_rate": 0.001,
+      "loss": 1.3203,
+      "step": 4008
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.5096491228070176,
+      "eval_f1_macro": 0.4226791843362771,
+      "eval_f1_micro": 0.5096491228070176,
+      "eval_f1_weighted": 0.49650965589318546,
+      "eval_loss": 1.5966026782989502,
+      "eval_precision_macro": 0.44893183685690363,
+      "eval_precision_micro": 0.5096491228070176,
+      "eval_precision_weighted": 0.5017696631956957,
+      "eval_recall_macro": 0.4174735986452103,
+      "eval_recall_micro": 0.5096491228070176,
+      "eval_recall_weighted": 0.5096491228070176,
+      "eval_runtime": 387.7731,
+      "eval_samples_per_second": 2.94,
+      "eval_steps_per_second": 0.186,
+      "step": 4008
+    },
+    {
+      "epoch": 25.0,
+      "grad_norm": 9.380126953125,
+      "learning_rate": 0.0008333333333333333,
+      "loss": 1.2721,
+      "step": 4175
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 0.5070175438596491,
+      "eval_f1_macro": 0.42100594112908074,
+      "eval_f1_micro": 0.5070175438596491,
+      "eval_f1_weighted": 0.49391608845007934,
+      "eval_loss": 1.7380679845809937,
+      "eval_precision_macro": 0.45476177682378327,
+      "eval_precision_micro": 0.5070175438596491,
+      "eval_precision_weighted": 0.5038725473468296,
+      "eval_recall_macro": 0.41455121185805693,
+      "eval_recall_micro": 0.5070175438596491,
+      "eval_recall_weighted": 0.5070175438596491,
+      "eval_runtime": 387.0289,
+      "eval_samples_per_second": 2.946,
+      "eval_steps_per_second": 0.186,
+      "step": 4175
+    },
+    {
+      "epoch": 26.0,
+      "grad_norm": 9.300443649291992,
+      "learning_rate": 0.0006666666666666666,
+      "loss": 1.2617,
+      "step": 4342
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.5035087719298246,
+      "eval_f1_macro": 0.4212203299346101,
+      "eval_f1_micro": 0.5035087719298246,
+      "eval_f1_weighted": 0.4941328967539604,
+      "eval_loss": 1.632319450378418,
+      "eval_precision_macro": 0.44361812797226563,
+      "eval_precision_micro": 0.5035087719298246,
+      "eval_precision_weighted": 0.5004178461640878,
+      "eval_recall_macro": 0.4138272297786372,
+      "eval_recall_micro": 0.5035087719298246,
+      "eval_recall_weighted": 0.5035087719298246,
+      "eval_runtime": 387.432,
+      "eval_samples_per_second": 2.942,
+      "eval_steps_per_second": 0.186,
+      "step": 4342
+    },
+    {
+      "epoch": 27.0,
+      "grad_norm": 6.3707780838012695,
+      "learning_rate": 0.0005,
+      "loss": 1.232,
+      "step": 4509
+    },
+    {
+      "epoch": 27.0,
+      "eval_accuracy": 0.5,
+      "eval_f1_macro": 0.4177911105472344,
+      "eval_f1_micro": 0.5,
+      "eval_f1_weighted": 0.489643641514919,
+      "eval_loss": 1.658205270767212,
+      "eval_precision_macro": 0.4496790851883594,
+      "eval_precision_micro": 0.5,
+      "eval_precision_weighted": 0.5029776476941141,
+      "eval_recall_macro": 0.4138497914465852,
+      "eval_recall_micro": 0.5,
+      "eval_recall_weighted": 0.5,
+      "eval_runtime": 387.4035,
+      "eval_samples_per_second": 2.943,
+      "eval_steps_per_second": 0.186,
+      "step": 4509
+    },
+    {
+      "epoch": 28.0,
+      "grad_norm": 10.817475318908691,
+      "learning_rate": 0.0003333333333333333,
+      "loss": 1.2779,
+      "step": 4676
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.506140350877193,
+      "eval_f1_macro": 0.43333273047004633,
+      "eval_f1_micro": 0.506140350877193,
+      "eval_f1_weighted": 0.5013645953971182,
+      "eval_loss": 1.5920156240463257,
+      "eval_precision_macro": 0.45066820886948744,
+      "eval_precision_micro": 0.506140350877193,
+      "eval_precision_weighted": 0.5098806030910483,
+      "eval_recall_macro": 0.4307563083655982,
+      "eval_recall_micro": 0.506140350877193,
+      "eval_recall_weighted": 0.506140350877193,
+      "eval_runtime": 387.7867,
+      "eval_samples_per_second": 2.94,
+      "eval_steps_per_second": 0.186,
+      "step": 4676
+    },
+    {
+      "epoch": 29.0,
+      "grad_norm": 8.93726634979248,
+      "learning_rate": 0.00016666666666666666,
+      "loss": 1.2478,
+      "step": 4843
+    },
+    {
+      "epoch": 29.0,
+      "eval_accuracy": 0.5140350877192983,
+      "eval_f1_macro": 0.4370072407808227,
+      "eval_f1_micro": 0.5140350877192983,
+      "eval_f1_weighted": 0.5079223850593363,
+      "eval_loss": 1.6204602718353271,
+      "eval_precision_macro": 0.45427166811835185,
+      "eval_precision_micro": 0.5140350877192983,
+      "eval_precision_weighted": 0.5134498813977569,
+      "eval_recall_macro": 0.4348661701787724,
+      "eval_recall_micro": 0.5140350877192983,
+      "eval_recall_weighted": 0.5140350877192983,
+      "eval_runtime": 387.6318,
+      "eval_samples_per_second": 2.941,
+      "eval_steps_per_second": 0.186,
+      "step": 4843
+    },
+    {
+      "epoch": 30.0,
+      "grad_norm": 11.193902015686035,
+      "learning_rate": 0.0,
+      "loss": 1.2482,
+      "step": 5010
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.5166666666666667,
+      "eval_f1_macro": 0.4422232782296543,
+      "eval_f1_micro": 0.5166666666666667,
+      "eval_f1_weighted": 0.5099377352687338,
+      "eval_loss": 1.6233675479888916,
+      "eval_precision_macro": 0.46481125646765853,
+      "eval_precision_micro": 0.5166666666666667,
+      "eval_precision_weighted": 0.5182626681333475,
+      "eval_recall_macro": 0.4380791377289606,
+      "eval_recall_micro": 0.5166666666666667,
+      "eval_recall_weighted": 0.5166666666666667,
+      "eval_runtime": 388.1928,
+      "eval_samples_per_second": 2.937,
+      "eval_steps_per_second": 0.185,
+      "step": 5010
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 5010,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 30,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

release/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:12e3bed5008004956a38638a255eb3800fff5090c52841ce77f48feecb30343b
+size 5176

trainer_state.json ADDED Viewed

	@@ -0,0 +1,67 @@

+{
+  "best_metric": 0.08695652173913043,
+  "best_model_checkpoint": "model/mert_cmp_single/checkpoint-4",
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 4,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 3.237967014312744,
+      "learning_rate": 0.0,
+      "loss": 2.2433,
+      "step": 4
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.08695652173913043,
+      "eval_f1_macro": 0.02,
+      "eval_f1_micro": 0.08695652173913043,
+      "eval_f1_weighted": 0.01391304347826087,
+      "eval_loss": 2.322828531265259,
+      "eval_precision_macro": 0.010869565217391304,
+      "eval_precision_micro": 0.08695652173913043,
+      "eval_precision_weighted": 0.007561436672967864,
+      "eval_recall_macro": 0.125,
+      "eval_recall_micro": 0.08695652173913043,
+      "eval_recall_weighted": 0.08695652173913043,
+      "eval_runtime": 8.2286,
+      "eval_samples_per_second": 2.795,
+      "eval_steps_per_second": 0.243,
+      "step": 4
+    },
+    {
+      "epoch": 1.0,
+      "step": 4,
+      "total_flos": 0.0,
+      "train_loss": 2.243255853652954,
+      "train_runtime": 35.1877,
+      "train_samples_per_second": 1.449,
+      "train_steps_per_second": 0.114
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 4,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:942f9785a129cbea37b4679f4a7bcef4fefb592f356047e5c0984175d49f35f3
+size 5176