End of training

Browse files

Files changed (4) hide show

README.md +70 -0
all_results.json +7 -0
train_results.json +7 -0
trainer_state.json +524 -0

README.md ADDED Viewed

	@@ -0,0 +1,70 @@

+---
+license: cc-by-nc-4.0
+base_model: mental/mental-roberta-base
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+- f1
+- precision
+- recall
+model-index:
+- name: mental-roberta-base-CD_baseline
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# mental-roberta-base-CD_baseline
+This model is a fine-tuned version of [mental/mental-roberta-base](https://huggingface.co/mental/mental-roberta-base) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 1.2696
+- Accuracy: 0.5565
+- F1: 0.5303
+- Precision: 0.5330
+- Recall: 0.5565
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 2e-05
+- train_batch_size: 16
+- eval_batch_size: 16
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 5
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Accuracy | F1     | Precision | Recall |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|:------:|:---------:|:------:|
+| 1.5964        | 1.0   | 125  | 1.6031          | 0.4043   | 0.3393 | 0.3328    | 0.4043 |
+| 1.5226        | 2.0   | 250  | 1.4421          | 0.4739   | 0.4077 | 0.3895    | 0.4739 |
+| 1.1656        | 3.0   | 375  | 1.3132          | 0.5261   | 0.4795 | 0.4490    | 0.5261 |
+| 1.1095        | 4.0   | 500  | 1.2819          | 0.5565   | 0.5231 | 0.5156    | 0.5565 |
+| 1.0974        | 5.0   | 625  | 1.2696          | 0.5565   | 0.5303 | 0.5330    | 0.5565 |
+### Framework versions
+- Transformers 4.38.0
+- Pytorch 2.8.0+cu128
+- Datasets 4.2.0
+- Tokenizers 0.15.2

all_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 5.0,
+    "train_loss": 1.3634769760131835,
+    "train_runtime": 225.3467,
+    "train_samples_per_second": 44.287,
+    "train_steps_per_second": 2.774
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 5.0,
+    "train_loss": 1.3634769760131835,
+    "train_runtime": 225.3467,
+    "train_samples_per_second": 44.287,
+    "train_steps_per_second": 2.774
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,524 @@

+{
+  "best_metric": 1.269640326499939,
+  "best_model_checkpoint": "mental-roberta-base-CD_baseline/checkpoint-625",
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 625,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08,
+      "grad_norm": 2.921304702758789,
+      "learning_rate": 1.968e-05,
+      "loss": 2.3689,
+      "step": 10
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 5.469061851501465,
+      "learning_rate": 1.936e-05,
+      "loss": 2.0549,
+      "step": 20
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 5.983363628387451,
+      "learning_rate": 1.904e-05,
+      "loss": 1.9011,
+      "step": 30
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 3.8824734687805176,
+      "learning_rate": 1.8720000000000004e-05,
+      "loss": 1.9096,
+      "step": 40
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 18.308826446533203,
+      "learning_rate": 1.8400000000000003e-05,
+      "loss": 1.669,
+      "step": 50
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 5.767693996429443,
+      "learning_rate": 1.8080000000000003e-05,
+      "loss": 1.8629,
+      "step": 60
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 2.5474987030029297,
+      "learning_rate": 1.7760000000000003e-05,
+      "loss": 1.7754,
+      "step": 70
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 3.5733895301818848,
+      "learning_rate": 1.7440000000000002e-05,
+      "loss": 1.7045,
+      "step": 80
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 3.388791799545288,
+      "learning_rate": 1.7120000000000002e-05,
+      "loss": 1.5388,
+      "step": 90
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 2.2617416381835938,
+      "learning_rate": 1.6800000000000002e-05,
+      "loss": 1.6174,
+      "step": 100
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 2.040916681289673,
+      "learning_rate": 1.648e-05,
+      "loss": 1.7345,
+      "step": 110
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 1.7220678329467773,
+      "learning_rate": 1.616e-05,
+      "loss": 1.5964,
+      "step": 120
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.4043478260869565,
+      "eval_f1": 0.33928429317982867,
+      "eval_loss": 1.603085994720459,
+      "eval_precision": 0.33282864804603934,
+      "eval_recall": 0.4043478260869565,
+      "eval_runtime": 1.7794,
+      "eval_samples_per_second": 129.257,
+      "eval_steps_per_second": 8.43,
+      "step": 125
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 15.428503036499023,
+      "learning_rate": 1.584e-05,
+      "loss": 1.7193,
+      "step": 130
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 2.470576524734497,
+      "learning_rate": 1.552e-05,
+      "loss": 1.5825,
+      "step": 140
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 3.9197633266448975,
+      "learning_rate": 1.5200000000000002e-05,
+      "loss": 1.4732,
+      "step": 150
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 6.2479400634765625,
+      "learning_rate": 1.4880000000000002e-05,
+      "loss": 1.6381,
+      "step": 160
+    },
+    {
+      "epoch": 1.36,
+      "grad_norm": 4.600492000579834,
+      "learning_rate": 1.4560000000000001e-05,
+      "loss": 1.5587,
+      "step": 170
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 6.798262596130371,
+      "learning_rate": 1.4240000000000001e-05,
+      "loss": 1.8529,
+      "step": 180
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 4.2226996421813965,
+      "learning_rate": 1.392e-05,
+      "loss": 1.4755,
+      "step": 190
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 5.053036212921143,
+      "learning_rate": 1.3600000000000002e-05,
+      "loss": 1.4778,
+      "step": 200
+    },
+    {
+      "epoch": 1.68,
+      "grad_norm": 4.096879959106445,
+      "learning_rate": 1.3280000000000002e-05,
+      "loss": 1.4701,
+      "step": 210
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 18.876264572143555,
+      "learning_rate": 1.2960000000000001e-05,
+      "loss": 1.6647,
+      "step": 220
+    },
+    {
+      "epoch": 1.84,
+      "grad_norm": 5.195082664489746,
+      "learning_rate": 1.2640000000000001e-05,
+      "loss": 1.4843,
+      "step": 230
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 12.766644477844238,
+      "learning_rate": 1.232e-05,
+      "loss": 1.4018,
+      "step": 240
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 7.949278831481934,
+      "learning_rate": 1.2e-05,
+      "loss": 1.5226,
+      "step": 250
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.47391304347826085,
+      "eval_f1": 0.40774923443789374,
+      "eval_loss": 1.4421453475952148,
+      "eval_precision": 0.38951398452357533,
+      "eval_recall": 0.47391304347826085,
+      "eval_runtime": 1.2912,
+      "eval_samples_per_second": 178.127,
+      "eval_steps_per_second": 11.617,
+      "step": 250
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 6.321002960205078,
+      "learning_rate": 1.168e-05,
+      "loss": 1.3278,
+      "step": 260
+    },
+    {
+      "epoch": 2.16,
+      "grad_norm": 5.3338093757629395,
+      "learning_rate": 1.136e-05,
+      "loss": 1.2814,
+      "step": 270
+    },
+    {
+      "epoch": 2.24,
+      "grad_norm": 4.96796178817749,
+      "learning_rate": 1.1040000000000001e-05,
+      "loss": 1.4562,
+      "step": 280
+    },
+    {
+      "epoch": 2.32,
+      "grad_norm": 10.834942817687988,
+      "learning_rate": 1.072e-05,
+      "loss": 1.39,
+      "step": 290
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 8.158452033996582,
+      "learning_rate": 1.04e-05,
+      "loss": 1.3208,
+      "step": 300
+    },
+    {
+      "epoch": 2.48,
+      "grad_norm": 6.426680088043213,
+      "learning_rate": 1.008e-05,
+      "loss": 1.3216,
+      "step": 310
+    },
+    {
+      "epoch": 2.56,
+      "grad_norm": 7.6382904052734375,
+      "learning_rate": 9.760000000000001e-06,
+      "loss": 1.3789,
+      "step": 320
+    },
+    {
+      "epoch": 2.64,
+      "grad_norm": 7.195258617401123,
+      "learning_rate": 9.440000000000001e-06,
+      "loss": 1.4057,
+      "step": 330
+    },
+    {
+      "epoch": 2.72,
+      "grad_norm": 6.953582763671875,
+      "learning_rate": 9.12e-06,
+      "loss": 1.328,
+      "step": 340
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 7.441910743713379,
+      "learning_rate": 8.8e-06,
+      "loss": 1.3708,
+      "step": 350
+    },
+    {
+      "epoch": 2.88,
+      "grad_norm": 10.070989608764648,
+      "learning_rate": 8.48e-06,
+      "loss": 1.288,
+      "step": 360
+    },
+    {
+      "epoch": 2.96,
+      "grad_norm": 7.511960029602051,
+      "learning_rate": 8.16e-06,
+      "loss": 1.1656,
+      "step": 370
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.5260869565217391,
+      "eval_f1": 0.479516001356244,
+      "eval_loss": 1.313248872756958,
+      "eval_precision": 0.448993952375781,
+      "eval_recall": 0.5260869565217391,
+      "eval_runtime": 1.2954,
+      "eval_samples_per_second": 177.546,
+      "eval_steps_per_second": 11.579,
+      "step": 375
+    },
+    {
+      "epoch": 3.04,
+      "grad_norm": 14.974254608154297,
+      "learning_rate": 7.840000000000001e-06,
+      "loss": 1.1554,
+      "step": 380
+    },
+    {
+      "epoch": 3.12,
+      "grad_norm": 6.2412238121032715,
+      "learning_rate": 7.520000000000001e-06,
+      "loss": 1.0172,
+      "step": 390
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 8.691516876220703,
+      "learning_rate": 7.2000000000000005e-06,
+      "loss": 1.3717,
+      "step": 400
+    },
+    {
+      "epoch": 3.28,
+      "grad_norm": 8.422670364379883,
+      "learning_rate": 6.88e-06,
+      "loss": 1.187,
+      "step": 410
+    },
+    {
+      "epoch": 3.36,
+      "grad_norm": 6.4102396965026855,
+      "learning_rate": 6.560000000000001e-06,
+      "loss": 1.0076,
+      "step": 420
+    },
+    {
+      "epoch": 3.44,
+      "grad_norm": 8.417737007141113,
+      "learning_rate": 6.24e-06,
+      "loss": 1.1928,
+      "step": 430
+    },
+    {
+      "epoch": 3.52,
+      "grad_norm": 9.579270362854004,
+      "learning_rate": 5.92e-06,
+      "loss": 1.0687,
+      "step": 440
+    },
+    {
+      "epoch": 3.6,
+      "grad_norm": 11.200490951538086,
+      "learning_rate": 5.600000000000001e-06,
+      "loss": 1.11,
+      "step": 450
+    },
+    {
+      "epoch": 3.68,
+      "grad_norm": 9.393120765686035,
+      "learning_rate": 5.28e-06,
+      "loss": 1.1811,
+      "step": 460
+    },
+    {
+      "epoch": 3.76,
+      "grad_norm": 9.762161254882812,
+      "learning_rate": 4.960000000000001e-06,
+      "loss": 1.0488,
+      "step": 470
+    },
+    {
+      "epoch": 3.84,
+      "grad_norm": 10.627289772033691,
+      "learning_rate": 4.6400000000000005e-06,
+      "loss": 1.1537,
+      "step": 480
+    },
+    {
+      "epoch": 3.92,
+      "grad_norm": 13.637901306152344,
+      "learning_rate": 4.32e-06,
+      "loss": 1.032,
+      "step": 490
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 13.00786018371582,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 1.1095,
+      "step": 500
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.5565217391304348,
+      "eval_f1": 0.5231441442614202,
+      "eval_loss": 1.2819163799285889,
+      "eval_precision": 0.5155867764196465,
+      "eval_recall": 0.5565217391304348,
+      "eval_runtime": 1.2834,
+      "eval_samples_per_second": 179.211,
+      "eval_steps_per_second": 11.688,
+      "step": 500
+    },
+    {
+      "epoch": 4.08,
+      "grad_norm": 9.446922302246094,
+      "learning_rate": 3.6800000000000003e-06,
+      "loss": 0.88,
+      "step": 510
+    },
+    {
+      "epoch": 4.16,
+      "grad_norm": 9.645947456359863,
+      "learning_rate": 3.3600000000000004e-06,
+      "loss": 0.9479,
+      "step": 520
+    },
+    {
+      "epoch": 4.24,
+      "grad_norm": 6.6881184577941895,
+      "learning_rate": 3.04e-06,
+      "loss": 1.0034,
+      "step": 530
+    },
+    {
+      "epoch": 4.32,
+      "grad_norm": 13.422988891601562,
+      "learning_rate": 2.7200000000000002e-06,
+      "loss": 1.0929,
+      "step": 540
+    },
+    {
+      "epoch": 4.4,
+      "grad_norm": 9.193038940429688,
+      "learning_rate": 2.4000000000000003e-06,
+      "loss": 0.9017,
+      "step": 550
+    },
+    {
+      "epoch": 4.48,
+      "grad_norm": 8.080782890319824,
+      "learning_rate": 2.08e-06,
+      "loss": 0.9509,
+      "step": 560
+    },
+    {
+      "epoch": 4.56,
+      "grad_norm": 10.08934497833252,
+      "learning_rate": 1.76e-06,
+      "loss": 0.9522,
+      "step": 570
+    },
+    {
+      "epoch": 4.64,
+      "grad_norm": 8.592775344848633,
+      "learning_rate": 1.44e-06,
+      "loss": 0.9903,
+      "step": 580
+    },
+    {
+      "epoch": 4.72,
+      "grad_norm": 10.12938117980957,
+      "learning_rate": 1.12e-06,
+      "loss": 0.9153,
+      "step": 590
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 13.647997856140137,
+      "learning_rate": 8.000000000000001e-07,
+      "loss": 1.0831,
+      "step": 600
+    },
+    {
+      "epoch": 4.88,
+      "grad_norm": 15.894301414489746,
+      "learning_rate": 4.800000000000001e-07,
+      "loss": 1.1632,
+      "step": 610
+    },
+    {
+      "epoch": 4.96,
+      "grad_norm": 11.063687324523926,
+      "learning_rate": 1.6e-07,
+      "loss": 1.0974,
+      "step": 620
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.5565217391304348,
+      "eval_f1": 0.5303004793794206,
+      "eval_loss": 1.269640326499939,
+      "eval_precision": 0.532996572682937,
+      "eval_recall": 0.5565217391304348,
+      "eval_runtime": 1.2978,
+      "eval_samples_per_second": 177.219,
+      "eval_steps_per_second": 11.558,
+      "step": 625
+    },
+    {
+      "epoch": 5.0,
+      "step": 625,
+      "total_flos": 1434186246250944.0,
+      "train_loss": 1.3634769760131835,
+      "train_runtime": 225.3467,
+      "train_samples_per_second": 44.287,
+      "train_steps_per_second": 2.774
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 625,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "total_flos": 1434186246250944.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}