ZipperDeng commited on Aug 6, 2025

Commit

cd63b02

verified ·

1 Parent(s): 7c1f527

End of training

Browse files

Files changed (19) hide show

README.md +106 -0
all_results.json +9 -0
config.json +89 -0
model.safetensors +3 -0
preprocessor_config.json +9 -0
runs/Aug05_18-01-01_dengzhipeng-pc/events.out.tfevents.1754388064.dengzhipeng-pc.22996.0 +3 -0
runs/Aug05_18-01-01_dengzhipeng-pc/events.out.tfevents.1754388350.dengzhipeng-pc.22996.1 +3 -0
runs/Aug05_18-01-01_dengzhipeng-pc/events.out.tfevents.1754388504.dengzhipeng-pc.22996.2 +3 -0
runs/Aug05_18-01-01_dengzhipeng-pc/events.out.tfevents.1754390203.dengzhipeng-pc.22996.3 +3 -0
runs/Aug05_18-01-01_dengzhipeng-pc/events.out.tfevents.1754390300.dengzhipeng-pc.22996.4 +3 -0
runs/Aug05_18-44-57_dengzhipeng-pc/events.out.tfevents.1754390714.dengzhipeng-pc.22996.5 +3 -0
runs/Aug05_18-46-12_dengzhipeng-pc/events.out.tfevents.1754390772.dengzhipeng-pc.22996.6 +3 -0
runs/Aug05_19-09-27_dengzhipeng-pc/events.out.tfevents.1754392167.dengzhipeng-pc.22996.7 +3 -0
runs/Aug05_19-09-27_dengzhipeng-pc/events.out.tfevents.1754392276.dengzhipeng-pc.22996.8 +3 -0
runs/Aug05_19-09-27_dengzhipeng-pc/events.out.tfevents.1754393216.dengzhipeng-pc.22996.9 +3 -0
runs/Aug05_20-02-33_dengzhipeng-pc/events.out.tfevents.1754395354.dengzhipeng-pc.22996.10 +3 -0
train_results.json +9 -0
trainer_state.json +730 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,106 @@

+---
+library_name: transformers
+license: mit
+base_model: TencentGameMate/chinese-hubert-base
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: hubert-base-ser
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# hubert-base-ser
+This model is a fine-tuned version of [TencentGameMate/chinese-hubert-base](https://huggingface.co/TencentGameMate/chinese-hubert-base) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.1466
+- Accuracy: 0.9526
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0001
+- train_batch_size: 32
+- eval_batch_size: 4
+- seed: 42
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 64
+- optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: linear
+- num_epochs: 1.0
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch  | Step | Validation Loss | Accuracy |
+|:-------------:|:------:|:----:|:---------------:|:--------:|
+| 0.9709        | 0.0229 | 10   | 0.8923          | 0.6399   |
+| 0.9219        | 0.0457 | 20   | 0.6903          | 0.7664   |
+| 0.7112        | 0.0686 | 30   | 0.5838          | 0.7909   |
+| 0.567         | 0.0914 | 40   | 0.5405          | 0.8159   |
+| 0.6184        | 0.1143 | 50   | 0.4148          | 0.8581   |
+| 0.5291        | 0.1371 | 60   | 0.4444          | 0.8511   |
+| 0.533         | 0.16   | 70   | 0.4643          | 0.8271   |
+| 0.4753        | 0.1829 | 80   | 0.3560          | 0.8767   |
+| 0.4252        | 0.2057 | 90   | 0.5889          | 0.8103   |
+| 0.5007        | 0.2286 | 100  | 0.3882          | 0.8663   |
+| 0.5605        | 0.2514 | 110  | 0.3221          | 0.8921   |
+| 0.4875        | 0.2743 | 120  | 0.3639          | 0.8559   |
+| 0.4277        | 0.2971 | 130  | 0.3571          | 0.8746   |
+| 0.3415        | 0.32   | 140  | 0.3382          | 0.8861   |
+| 0.413         | 0.3429 | 150  | 0.2596          | 0.9104   |
+| 0.377         | 0.3657 | 160  | 0.3519          | 0.8711   |
+| 0.4219        | 0.3886 | 170  | 0.2979          | 0.8947   |
+| 0.3317        | 0.4114 | 180  | 0.2227          | 0.9226   |
+| 0.3131        | 0.4343 | 190  | 0.3680          | 0.8693   |
+| 0.3266        | 0.4571 | 200  | 0.2098          | 0.9309   |
+| 0.3306        | 0.48   | 210  | 0.3849          | 0.8824   |
+| 0.3037        | 0.5029 | 220  | 0.2852          | 0.9024   |
+| 0.3086        | 0.5257 | 230  | 0.2725          | 0.9121   |
+| 0.2576        | 0.5486 | 240  | 0.1869          | 0.9356   |
+| 0.2469        | 0.5714 | 250  | 0.2262          | 0.9243   |
+| 0.2405        | 0.5943 | 260  | 0.1963          | 0.9347   |
+| 0.2802        | 0.6171 | 270  | 0.3680          | 0.8804   |
+| 0.2442        | 0.64   | 280  | 0.2053          | 0.9293   |
+| 0.2302        | 0.6629 | 290  | 0.3356          | 0.8967   |
+| 0.2492        | 0.6857 | 300  | 0.1880          | 0.9371   |
+| 0.2089        | 0.7086 | 310  | 0.2076          | 0.9289   |
+| 0.2824        | 0.7314 | 320  | 0.1999          | 0.9301   |
+| 0.2009        | 0.7543 | 330  | 0.1492          | 0.9521   |
+| 0.2001        | 0.7771 | 340  | 0.1496          | 0.9517   |
+| 0.2298        | 0.8    | 350  | 0.1579          | 0.9490   |
+| 0.1802        | 0.8229 | 360  | 0.1506          | 0.9501   |
+| 0.1914        | 0.8457 | 370  | 0.2036          | 0.9311   |
+| 0.1897        | 0.8686 | 380  | 0.1838          | 0.9383   |
+| 0.1203        | 0.8914 | 390  | 0.1459          | 0.9504   |
+| 0.1372        | 0.9143 | 400  | 0.1748          | 0.9419   |
+| 0.1942        | 0.9371 | 410  | 0.1813          | 0.9406   |
+| 0.1886        | 0.96   | 420  | 0.1536          | 0.9510   |
+| 0.1872        | 0.9829 | 430  | 0.1466          | 0.9526   |
+### Framework versions
+- Transformers 4.47.0
+- Pytorch 2.4.1+cu118
+- Datasets 3.6.0
+- Tokenizers 0.21.0

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 0.9988571428571429,
+    "total_flos": 1.3128537437918904e+18,
+    "train_loss": 0.3557066834218442,
+    "train_runtime": 12202.3201,
+    "train_samples": 28000,
+    "train_samples_per_second": 2.295,
+    "train_steps_per_second": 0.036
+}

config.json ADDED Viewed

	@@ -0,0 +1,89 @@

+{
+  "_name_or_path": "TencentGameMate/chinese-hubert-base",
+  "activation_dropout": 0.1,
+  "apply_spec_augment": true,
+  "architectures": [
+    "HubertForSpeechClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "conv_bias": false,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": false,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
+  "feat_proj_dropout": 0.0,
+  "feat_proj_layer_norm": true,
+  "final_dropout": 0.1,
+  "finetuning_task": "wav2vec2_clf",
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "Angry",
+    "1": "Happy",
+    "2": "Neutral",
+    "3": "Sad",
+    "4": "Surprise"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "Angry": 0,
+    "Happy": 1,
+    "Neutral": 2,
+    "Sad": 3,
+    "Surprise": 4
+  },
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.1,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "model_type": "hubert",
+  "num_attention_heads": 12,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooling_mode": "mean",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.47.0",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d57dffd9609c1029aee07cfb2f7d6a796d411ae54bd6ea5911681dfca89f2e4d
+size 379890236

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0,
+  "return_attention_mask": false,
+  "sampling_rate": 16000
+}

runs/Aug05_18-01-01_dengzhipeng-pc/events.out.tfevents.1754388064.dengzhipeng-pc.22996.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6d5aeda078dd282aeb2c10ce9b70fb8eb6cdbafc827615b025ee77e80dae37ae
+size 6161

runs/Aug05_18-01-01_dengzhipeng-pc/events.out.tfevents.1754388350.dengzhipeng-pc.22996.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:70efb564af3877bab96664e175bc42e28eedf803a61377c4ab2be965171f4af7
+size 6161

runs/Aug05_18-01-01_dengzhipeng-pc/events.out.tfevents.1754388504.dengzhipeng-pc.22996.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:929ef6291819fb5ea9c0bb11387abc37d167e01be481804bac0049f206b23ab2
+size 6161

runs/Aug05_18-01-01_dengzhipeng-pc/events.out.tfevents.1754390203.dengzhipeng-pc.22996.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b932e4c4fdcc196e288297a854b39fc0426b3cfa69c2443d5a6124de658cba4
+size 6210

runs/Aug05_18-01-01_dengzhipeng-pc/events.out.tfevents.1754390300.dengzhipeng-pc.22996.4 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a13f7f5fd06a3cf5ec60bb1483293d6b7928f33dcc9d56febec1401a63fff7e5
+size 6210

runs/Aug05_18-44-57_dengzhipeng-pc/events.out.tfevents.1754390714.dengzhipeng-pc.22996.5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ea7e7d9d9726a643450a0b577939a86c5e1947fece6c0c4084cca8300ec28422
+size 6211

runs/Aug05_18-46-12_dengzhipeng-pc/events.out.tfevents.1754390772.dengzhipeng-pc.22996.6 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:859cd8c2c9fcf9cee046ab92346063de05c23edd09bb4244de477447ff938423
+size 6211

runs/Aug05_19-09-27_dengzhipeng-pc/events.out.tfevents.1754392167.dengzhipeng-pc.22996.7 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:47b5ad34997c78343e2065f694947c60707f9bac9bebb801f8585940e3defe0f
+size 6210

runs/Aug05_19-09-27_dengzhipeng-pc/events.out.tfevents.1754392276.dengzhipeng-pc.22996.8 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:54043277e473862bfecd954d6916cc6bf6d3c5fce985b4ce9bd94f3d7fd4ea40
+size 7989

runs/Aug05_19-09-27_dengzhipeng-pc/events.out.tfevents.1754393216.dengzhipeng-pc.22996.9 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a11e88fbe40ca4ac8d4668f97a81e41c16d6331c785614d2538fc765db77ca84
+size 10587

runs/Aug05_20-02-33_dengzhipeng-pc/events.out.tfevents.1754395354.dengzhipeng-pc.22996.10 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e4be4563dbc6148f2f85c1677e3b813bee42047b57fba848cdcbe2e6392c757c
+size 29385

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 0.9988571428571429,
+    "total_flos": 1.3128537437918904e+18,
+    "train_loss": 0.3557066834218442,
+    "train_runtime": 12202.3201,
+    "train_samples": 28000,
+    "train_samples_per_second": 2.295,
+    "train_steps_per_second": 0.036
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,730 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9988571428571429,
+  "eval_steps": 10,
+  "global_step": 437,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.022857142857142857,
+      "grad_norm": 6.883157253265381,
+      "learning_rate": 9.77116704805492e-05,
+      "loss": 0.9709,
+      "step": 10
+    },
+    {
+      "epoch": 0.022857142857142857,
+      "eval_accuracy": 0.6398571133613586,
+      "eval_loss": 0.8923419117927551,
+      "eval_runtime": 252.6626,
+      "eval_samples_per_second": 27.705,
+      "eval_steps_per_second": 6.926,
+      "step": 10
+    },
+    {
+      "epoch": 0.045714285714285714,
+      "grad_norm": 4.793847560882568,
+      "learning_rate": 9.542334096109841e-05,
+      "loss": 0.9219,
+      "step": 20
+    },
+    {
+      "epoch": 0.045714285714285714,
+      "eval_accuracy": 0.7664285898208618,
+      "eval_loss": 0.6903320550918579,
+      "eval_runtime": 260.5483,
+      "eval_samples_per_second": 26.866,
+      "eval_steps_per_second": 6.717,
+      "step": 20
+    },
+    {
+      "epoch": 0.06857142857142857,
+      "grad_norm": 6.191551685333252,
+      "learning_rate": 9.31350114416476e-05,
+      "loss": 0.7112,
+      "step": 30
+    },
+    {
+      "epoch": 0.06857142857142857,
+      "eval_accuracy": 0.7908571362495422,
+      "eval_loss": 0.5838488936424255,
+      "eval_runtime": 254.6091,
+      "eval_samples_per_second": 27.493,
+      "eval_steps_per_second": 6.873,
+      "step": 30
+    },
+    {
+      "epoch": 0.09142857142857143,
+      "grad_norm": 9.833272933959961,
+      "learning_rate": 9.08466819221968e-05,
+      "loss": 0.567,
+      "step": 40
+    },
+    {
+      "epoch": 0.09142857142857143,
+      "eval_accuracy": 0.8158571720123291,
+      "eval_loss": 0.5405334830284119,
+      "eval_runtime": 263.3184,
+      "eval_samples_per_second": 26.584,
+      "eval_steps_per_second": 6.646,
+      "step": 40
+    },
+    {
+      "epoch": 0.11428571428571428,
+      "grad_norm": 9.925666809082031,
+      "learning_rate": 8.878718535469108e-05,
+      "loss": 0.6184,
+      "step": 50
+    },
+    {
+      "epoch": 0.11428571428571428,
+      "eval_accuracy": 0.8581428527832031,
+      "eval_loss": 0.41476812958717346,
+      "eval_runtime": 259.1036,
+      "eval_samples_per_second": 27.016,
+      "eval_steps_per_second": 6.754,
+      "step": 50
+    },
+    {
+      "epoch": 0.13714285714285715,
+      "grad_norm": 3.723980665206909,
+      "learning_rate": 8.649885583524028e-05,
+      "loss": 0.5291,
+      "step": 60
+    },
+    {
+      "epoch": 0.13714285714285715,
+      "eval_accuracy": 0.8511428833007812,
+      "eval_loss": 0.44439756870269775,
+      "eval_runtime": 253.5826,
+      "eval_samples_per_second": 27.604,
+      "eval_steps_per_second": 6.901,
+      "step": 60
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 10.508088111877441,
+      "learning_rate": 8.421052631578948e-05,
+      "loss": 0.533,
+      "step": 70
+    },
+    {
+      "epoch": 0.16,
+      "eval_accuracy": 0.8271428346633911,
+      "eval_loss": 0.4642958641052246,
+      "eval_runtime": 260.9488,
+      "eval_samples_per_second": 26.825,
+      "eval_steps_per_second": 6.706,
+      "step": 70
+    },
+    {
+      "epoch": 0.18285714285714286,
+      "grad_norm": 7.824756622314453,
+      "learning_rate": 8.192219679633868e-05,
+      "loss": 0.4753,
+      "step": 80
+    },
+    {
+      "epoch": 0.18285714285714286,
+      "eval_accuracy": 0.876714289188385,
+      "eval_loss": 0.35598087310791016,
+      "eval_runtime": 262.7831,
+      "eval_samples_per_second": 26.638,
+      "eval_steps_per_second": 6.659,
+      "step": 80
+    },
+    {
+      "epoch": 0.2057142857142857,
+      "grad_norm": 5.332316875457764,
+      "learning_rate": 7.963386727688788e-05,
+      "loss": 0.4252,
+      "step": 90
+    },
+    {
+      "epoch": 0.2057142857142857,
+      "eval_accuracy": 0.8102856874465942,
+      "eval_loss": 0.5888535380363464,
+      "eval_runtime": 262.7552,
+      "eval_samples_per_second": 26.641,
+      "eval_steps_per_second": 6.66,
+      "step": 90
+    },
+    {
+      "epoch": 0.22857142857142856,
+      "grad_norm": 17.482688903808594,
+      "learning_rate": 7.734553775743708e-05,
+      "loss": 0.5007,
+      "step": 100
+    },
+    {
+      "epoch": 0.22857142857142856,
+      "eval_accuracy": 0.8662857413291931,
+      "eval_loss": 0.38821107149124146,
+      "eval_runtime": 261.4572,
+      "eval_samples_per_second": 26.773,
+      "eval_steps_per_second": 6.693,
+      "step": 100
+    },
+    {
+      "epoch": 0.25142857142857145,
+      "grad_norm": 8.691084861755371,
+      "learning_rate": 7.505720823798627e-05,
+      "loss": 0.5605,
+      "step": 110
+    },
+    {
+      "epoch": 0.25142857142857145,
+      "eval_accuracy": 0.8921428322792053,
+      "eval_loss": 0.32210296392440796,
+      "eval_runtime": 261.1514,
+      "eval_samples_per_second": 26.804,
+      "eval_steps_per_second": 6.701,
+      "step": 110
+    },
+    {
+      "epoch": 0.2742857142857143,
+      "grad_norm": 11.754142761230469,
+      "learning_rate": 7.276887871853547e-05,
+      "loss": 0.4875,
+      "step": 120
+    },
+    {
+      "epoch": 0.2742857142857143,
+      "eval_accuracy": 0.8558571338653564,
+      "eval_loss": 0.36388570070266724,
+      "eval_runtime": 265.2182,
+      "eval_samples_per_second": 26.393,
+      "eval_steps_per_second": 6.598,
+      "step": 120
+    },
+    {
+      "epoch": 0.29714285714285715,
+      "grad_norm": 7.222925662994385,
+      "learning_rate": 7.048054919908466e-05,
+      "loss": 0.4277,
+      "step": 130
+    },
+    {
+      "epoch": 0.29714285714285715,
+      "eval_accuracy": 0.8745714426040649,
+      "eval_loss": 0.35708051919937134,
+      "eval_runtime": 264.6016,
+      "eval_samples_per_second": 26.455,
+      "eval_steps_per_second": 6.614,
+      "step": 130
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 6.181695938110352,
+      "learning_rate": 6.819221967963387e-05,
+      "loss": 0.3415,
+      "step": 140
+    },
+    {
+      "epoch": 0.32,
+      "eval_accuracy": 0.8861428499221802,
+      "eval_loss": 0.33818891644477844,
+      "eval_runtime": 262.5039,
+      "eval_samples_per_second": 26.666,
+      "eval_steps_per_second": 6.667,
+      "step": 140
+    },
+    {
+      "epoch": 0.34285714285714286,
+      "grad_norm": 8.087543487548828,
+      "learning_rate": 6.590389016018307e-05,
+      "loss": 0.413,
+      "step": 150
+    },
+    {
+      "epoch": 0.34285714285714286,
+      "eval_accuracy": 0.9104285836219788,
+      "eval_loss": 0.2596481442451477,
+      "eval_runtime": 265.6837,
+      "eval_samples_per_second": 26.347,
+      "eval_steps_per_second": 6.587,
+      "step": 150
+    },
+    {
+      "epoch": 0.3657142857142857,
+      "grad_norm": 11.313796997070312,
+      "learning_rate": 6.361556064073226e-05,
+      "loss": 0.377,
+      "step": 160
+    },
+    {
+      "epoch": 0.3657142857142857,
+      "eval_accuracy": 0.8711428642272949,
+      "eval_loss": 0.3518799841403961,
+      "eval_runtime": 264.3798,
+      "eval_samples_per_second": 26.477,
+      "eval_steps_per_second": 6.619,
+      "step": 160
+    },
+    {
+      "epoch": 0.38857142857142857,
+      "grad_norm": 7.65640115737915,
+      "learning_rate": 6.132723112128147e-05,
+      "loss": 0.4219,
+      "step": 170
+    },
+    {
+      "epoch": 0.38857142857142857,
+      "eval_accuracy": 0.8947142958641052,
+      "eval_loss": 0.2979215681552887,
+      "eval_runtime": 262.8341,
+      "eval_samples_per_second": 26.633,
+      "eval_steps_per_second": 6.658,
+      "step": 170
+    },
+    {
+      "epoch": 0.4114285714285714,
+      "grad_norm": 6.2714433670043945,
+      "learning_rate": 5.903890160183066e-05,
+      "loss": 0.3317,
+      "step": 180
+    },
+    {
+      "epoch": 0.4114285714285714,
+      "eval_accuracy": 0.9225714206695557,
+      "eval_loss": 0.22266168892383575,
+      "eval_runtime": 265.1248,
+      "eval_samples_per_second": 26.403,
+      "eval_steps_per_second": 6.601,
+      "step": 180
+    },
+    {
+      "epoch": 0.4342857142857143,
+      "grad_norm": 8.710111618041992,
+      "learning_rate": 5.675057208237986e-05,
+      "loss": 0.3131,
+      "step": 190
+    },
+    {
+      "epoch": 0.4342857142857143,
+      "eval_accuracy": 0.8692857027053833,
+      "eval_loss": 0.3680011034011841,
+      "eval_runtime": 260.0056,
+      "eval_samples_per_second": 26.923,
+      "eval_steps_per_second": 6.731,
+      "step": 190
+    },
+    {
+      "epoch": 0.45714285714285713,
+      "grad_norm": 4.041360378265381,
+      "learning_rate": 5.446224256292907e-05,
+      "loss": 0.3266,
+      "step": 200
+    },
+    {
+      "epoch": 0.45714285714285713,
+      "eval_accuracy": 0.9308571219444275,
+      "eval_loss": 0.20981180667877197,
+      "eval_runtime": 256.153,
+      "eval_samples_per_second": 27.327,
+      "eval_steps_per_second": 6.832,
+      "step": 200
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 10.932918548583984,
+      "learning_rate": 5.217391304347826e-05,
+      "loss": 0.3306,
+      "step": 210
+    },
+    {
+      "epoch": 0.48,
+      "eval_accuracy": 0.8824285864830017,
+      "eval_loss": 0.3848917782306671,
+      "eval_runtime": 253.9958,
+      "eval_samples_per_second": 27.56,
+      "eval_steps_per_second": 6.89,
+      "step": 210
+    },
+    {
+      "epoch": 0.5028571428571429,
+      "grad_norm": 9.440160751342773,
+      "learning_rate": 4.9885583524027466e-05,
+      "loss": 0.3037,
+      "step": 220
+    },
+    {
+      "epoch": 0.5028571428571429,
+      "eval_accuracy": 0.9024285674095154,
+      "eval_loss": 0.28518444299697876,
+      "eval_runtime": 259.3612,
+      "eval_samples_per_second": 26.989,
+      "eval_steps_per_second": 6.747,
+      "step": 220
+    },
+    {
+      "epoch": 0.5257142857142857,
+      "grad_norm": 9.196854591369629,
+      "learning_rate": 4.759725400457666e-05,
+      "loss": 0.3086,
+      "step": 230
+    },
+    {
+      "epoch": 0.5257142857142857,
+      "eval_accuracy": 0.9121428728103638,
+      "eval_loss": 0.272481232881546,
+      "eval_runtime": 254.9581,
+      "eval_samples_per_second": 27.455,
+      "eval_steps_per_second": 6.864,
+      "step": 230
+    },
+    {
+      "epoch": 0.5485714285714286,
+      "grad_norm": 6.610895156860352,
+      "learning_rate": 4.530892448512586e-05,
+      "loss": 0.2576,
+      "step": 240
+    },
+    {
+      "epoch": 0.5485714285714286,
+      "eval_accuracy": 0.9355714321136475,
+      "eval_loss": 0.18688350915908813,
+      "eval_runtime": 255.2292,
+      "eval_samples_per_second": 27.426,
+      "eval_steps_per_second": 6.857,
+      "step": 240
+    },
+    {
+      "epoch": 0.5714285714285714,
+      "grad_norm": 15.24905014038086,
+      "learning_rate": 4.302059496567506e-05,
+      "loss": 0.2469,
+      "step": 250
+    },
+    {
+      "epoch": 0.5714285714285714,
+      "eval_accuracy": 0.9242857098579407,
+      "eval_loss": 0.2262311726808548,
+      "eval_runtime": 254.9064,
+      "eval_samples_per_second": 27.461,
+      "eval_steps_per_second": 6.865,
+      "step": 250
+    },
+    {
+      "epoch": 0.5942857142857143,
+      "grad_norm": 9.8357515335083,
+      "learning_rate": 4.073226544622426e-05,
+      "loss": 0.2405,
+      "step": 260
+    },
+    {
+      "epoch": 0.5942857142857143,
+      "eval_accuracy": 0.9347142577171326,
+      "eval_loss": 0.19631564617156982,
+      "eval_runtime": 271.1966,
+      "eval_samples_per_second": 25.812,
+      "eval_steps_per_second": 6.453,
+      "step": 260
+    },
+    {
+      "epoch": 0.6171428571428571,
+      "grad_norm": 19.872060775756836,
+      "learning_rate": 3.844393592677346e-05,
+      "loss": 0.2802,
+      "step": 270
+    },
+    {
+      "epoch": 0.6171428571428571,
+      "eval_accuracy": 0.8804285526275635,
+      "eval_loss": 0.3679888844490051,
+      "eval_runtime": 256.0669,
+      "eval_samples_per_second": 27.337,
+      "eval_steps_per_second": 6.834,
+      "step": 270
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 3.6445915699005127,
+      "learning_rate": 3.6155606407322653e-05,
+      "loss": 0.2442,
+      "step": 280
+    },
+    {
+      "epoch": 0.64,
+      "eval_accuracy": 0.9292857050895691,
+      "eval_loss": 0.20533673465251923,
+      "eval_runtime": 255.7952,
+      "eval_samples_per_second": 27.366,
+      "eval_steps_per_second": 6.841,
+      "step": 280
+    },
+    {
+      "epoch": 0.6628571428571428,
+      "grad_norm": 8.114418983459473,
+      "learning_rate": 3.3867276887871856e-05,
+      "loss": 0.2302,
+      "step": 290
+    },
+    {
+      "epoch": 0.6628571428571428,
+      "eval_accuracy": 0.8967142701148987,
+      "eval_loss": 0.3355866074562073,
+      "eval_runtime": 257.891,
+      "eval_samples_per_second": 27.143,
+      "eval_steps_per_second": 6.786,
+      "step": 290
+    },
+    {
+      "epoch": 0.6857142857142857,
+      "grad_norm": 5.993322372436523,
+      "learning_rate": 3.157894736842105e-05,
+      "loss": 0.2492,
+      "step": 300
+    },
+    {
+      "epoch": 0.6857142857142857,
+      "eval_accuracy": 0.9371428489685059,
+      "eval_loss": 0.18795913457870483,
+      "eval_runtime": 254.5882,
+      "eval_samples_per_second": 27.495,
+      "eval_steps_per_second": 6.874,
+      "step": 300
+    },
+    {
+      "epoch": 0.7085714285714285,
+      "grad_norm": 6.529418468475342,
+      "learning_rate": 2.9290617848970254e-05,
+      "loss": 0.2089,
+      "step": 310
+    },
+    {
+      "epoch": 0.7085714285714285,
+      "eval_accuracy": 0.928857147693634,
+      "eval_loss": 0.2076321393251419,
+      "eval_runtime": 260.5938,
+      "eval_samples_per_second": 26.862,
+      "eval_steps_per_second": 6.715,
+      "step": 310
+    },
+    {
+      "epoch": 0.7314285714285714,
+      "grad_norm": 6.433741092681885,
+      "learning_rate": 2.7002288329519453e-05,
+      "loss": 0.2824,
+      "step": 320
+    },
+    {
+      "epoch": 0.7314285714285714,
+      "eval_accuracy": 0.930142879486084,
+      "eval_loss": 0.1999480277299881,
+      "eval_runtime": 255.2396,
+      "eval_samples_per_second": 27.425,
+      "eval_steps_per_second": 6.856,
+      "step": 320
+    },
+    {
+      "epoch": 0.7542857142857143,
+      "grad_norm": 5.394837379455566,
+      "learning_rate": 2.4713958810068652e-05,
+      "loss": 0.2009,
+      "step": 330
+    },
+    {
+      "epoch": 0.7542857142857143,
+      "eval_accuracy": 0.9521428346633911,
+      "eval_loss": 0.14918017387390137,
+      "eval_runtime": 258.1497,
+      "eval_samples_per_second": 27.116,
+      "eval_steps_per_second": 6.779,
+      "step": 330
+    },
+    {
+      "epoch": 0.7771428571428571,
+      "grad_norm": 5.843348503112793,
+      "learning_rate": 2.242562929061785e-05,
+      "loss": 0.2001,
+      "step": 340
+    },
+    {
+      "epoch": 0.7771428571428571,
+      "eval_accuracy": 0.951714277267456,
+      "eval_loss": 0.14960123598575592,
+      "eval_runtime": 253.1262,
+      "eval_samples_per_second": 27.654,
+      "eval_steps_per_second": 6.914,
+      "step": 340
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 7.778473377227783,
+      "learning_rate": 2.0137299771167047e-05,
+      "loss": 0.2298,
+      "step": 350
+    },
+    {
+      "epoch": 0.8,
+      "eval_accuracy": 0.9490000009536743,
+      "eval_loss": 0.15794885158538818,
+      "eval_runtime": 258.4154,
+      "eval_samples_per_second": 27.088,
+      "eval_steps_per_second": 6.772,
+      "step": 350
+    },
+    {
+      "epoch": 0.8228571428571428,
+      "grad_norm": 7.672749042510986,
+      "learning_rate": 1.784897025171625e-05,
+      "loss": 0.1802,
+      "step": 360
+    },
+    {
+      "epoch": 0.8228571428571428,
+      "eval_accuracy": 0.9501428604125977,
+      "eval_loss": 0.15056686103343964,
+      "eval_runtime": 253.0586,
+      "eval_samples_per_second": 27.662,
+      "eval_steps_per_second": 6.915,
+      "step": 360
+    },
+    {
+      "epoch": 0.8457142857142858,
+      "grad_norm": 7.994875431060791,
+      "learning_rate": 1.5560640732265445e-05,
+      "loss": 0.1914,
+      "step": 370
+    },
+    {
+      "epoch": 0.8457142857142858,
+      "eval_accuracy": 0.9311428666114807,
+      "eval_loss": 0.20363783836364746,
+      "eval_runtime": 261.3379,
+      "eval_samples_per_second": 26.785,
+      "eval_steps_per_second": 6.696,
+      "step": 370
+    },
+    {
+      "epoch": 0.8685714285714285,
+      "grad_norm": 3.988149404525757,
+      "learning_rate": 1.3272311212814645e-05,
+      "loss": 0.1897,
+      "step": 380
+    },
+    {
+      "epoch": 0.8685714285714285,
+      "eval_accuracy": 0.9382857084274292,
+      "eval_loss": 0.18375040590763092,
+      "eval_runtime": 256.8539,
+      "eval_samples_per_second": 27.253,
+      "eval_steps_per_second": 6.813,
+      "step": 380
+    },
+    {
+      "epoch": 0.8914285714285715,
+      "grad_norm": 7.280108451843262,
+      "learning_rate": 1.0983981693363844e-05,
+      "loss": 0.1203,
+      "step": 390
+    },
+    {
+      "epoch": 0.8914285714285715,
+      "eval_accuracy": 0.9504285454750061,
+      "eval_loss": 0.1459112912416458,
+      "eval_runtime": 256.3941,
+      "eval_samples_per_second": 27.302,
+      "eval_steps_per_second": 6.825,
+      "step": 390
+    },
+    {
+      "epoch": 0.9142857142857143,
+      "grad_norm": 6.386229991912842,
+      "learning_rate": 8.695652173913044e-06,
+      "loss": 0.1372,
+      "step": 400
+    },
+    {
+      "epoch": 0.9142857142857143,
+      "eval_accuracy": 0.9418571591377258,
+      "eval_loss": 0.1748434156179428,
+      "eval_runtime": 266.7645,
+      "eval_samples_per_second": 26.24,
+      "eval_steps_per_second": 6.56,
+      "step": 400
+    },
+    {
+      "epoch": 0.9371428571428572,
+      "grad_norm": 7.714508056640625,
+      "learning_rate": 6.407322654462243e-06,
+      "loss": 0.1942,
+      "step": 410
+    },
+    {
+      "epoch": 0.9371428571428572,
+      "eval_accuracy": 0.9405714273452759,
+      "eval_loss": 0.18131674826145172,
+      "eval_runtime": 266.6389,
+      "eval_samples_per_second": 26.253,
+      "eval_steps_per_second": 6.563,
+      "step": 410
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 4.493211269378662,
+      "learning_rate": 4.118993135011442e-06,
+      "loss": 0.1886,
+      "step": 420
+    },
+    {
+      "epoch": 0.96,
+      "eval_accuracy": 0.9509999752044678,
+      "eval_loss": 0.15357272326946259,
+      "eval_runtime": 273.0321,
+      "eval_samples_per_second": 25.638,
+      "eval_steps_per_second": 6.41,
+      "step": 420
+    },
+    {
+      "epoch": 0.9828571428571429,
+      "grad_norm": 4.66563606262207,
+      "learning_rate": 1.8306636155606409e-06,
+      "loss": 0.1872,
+      "step": 430
+    },
+    {
+      "epoch": 0.9828571428571429,
+      "eval_accuracy": 0.952571451663971,
+      "eval_loss": 0.1465713381767273,
+      "eval_runtime": 266.7172,
+      "eval_samples_per_second": 26.245,
+      "eval_steps_per_second": 6.561,
+      "step": 430
+    },
+    {
+      "epoch": 0.9988571428571429,
+      "step": 437,
+      "total_flos": 1.3128537437918904e+18,
+      "train_loss": 0.3557066834218442,
+      "train_runtime": 12202.3201,
+      "train_samples_per_second": 2.295,
+      "train_steps_per_second": 0.036
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 437,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 10,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.3128537437918904e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b30299245c31111db5b268f0927632aca7ff3e92f02299a9653ecdfa84cdf28c
+size 5368