train success v4 2000 step

Files changed (5) hide show

config.json +60 -1
generation_config.json +1 -1
model.safetensors +2 -2
preprocessor_config.json +0 -1
training_args.bin +2 -2

config.json CHANGED Viewed

@@ -11,7 +11,10 @@
       "MBartModel"
     ],
     "attention_dropout": 0.0,
     "classifier_dropout": 0.0,
     "d_model": 768,
     "decoder_attention_heads": 12,
     "decoder_ffn_dim": 3072,
@@ -24,15 +27,39 @@
     "encoder_ffn_dim": 3072,
     "encoder_layerdrop": 0.0,
     "encoder_layers": 6,
     "gradient_checkpointing": false,
     "init_std": 0.02,
     "is_decoder": true,
     "is_encoder_decoder": false,
     "max_position_embeddings": 1024,
     "model_type": "mbart",
     "num_hidden_layers": 6,
     "scale_embedding": false,
     "tokenizer_class": "BartphoTokenizer",
     "use_cache": true,
     "vocab_size": 41031
   },
@@ -45,11 +72,14 @@
     "adapter_kernel_size": 3,
     "adapter_stride": 2,
     "add_adapter": true,
     "apply_spec_augment": true,
     "architectures": [
       "Wav2Vec2ForPreTraining"
     ],
     "attention_dropout": 0.1,
     "classifier_proj_size": 256,
     "codevector_dim": 768,
     "contrastive_logits_temperature": 0.1,
@@ -81,23 +111,37 @@
       2,
       2
     ],
     "ctc_loss_reduction": "sum",
     "ctc_zero_infinity": false,
     "diversity_loss_weight": 0.1,
     "do_stable_layer_norm": true,
     "dtype": "float32",
     "feat_extract_activation": "gelu",
     "feat_extract_dropout": 0.0,
     "feat_extract_norm": "layer",
     "feat_proj_dropout": 0.1,
     "feat_quantizer_dropout": 0.0,
     "final_dropout": 0.0,
     "gradient_checkpointing": false,
     "hidden_act": "gelu",
     "hidden_dropout": 0.1,
     "hidden_size": 1024,
     "initializer_range": 0.02,
     "intermediate_size": 4096,
     "layer_norm_eps": 1e-05,
     "layerdrop": 0.1,
     "mask_channel_length": 10,
@@ -124,8 +168,17 @@
     "num_feat_extract_layers": 7,
     "num_hidden_layers": 24,
     "num_negatives": 100,
     "output_hidden_size": 1024,
     "proj_codevector_dim": 768,
     "tdnn_dilation": [
       1,
       2,
@@ -147,6 +200,12 @@
       1,
       1
     ],
     "use_weighted_layer_sum": false,
     "vocab_size": 96,
     "xvector_output_dim": 512
@@ -156,5 +215,5 @@
   "model_type": "speech-encoder-decoder",
   "pad_token_id": 1,
   "tie_word_embeddings": false,
-  "transformers_version": "4.57.5"
 }

       "MBartModel"
     ],
     "attention_dropout": 0.0,
+    "bos_token_id": 0,
+    "chunk_size_feed_forward": 0,
     "classifier_dropout": 0.0,
+    "cross_attention_hidden_size": null,
     "d_model": 768,
     "decoder_attention_heads": 12,
     "decoder_ffn_dim": 3072,
     "encoder_ffn_dim": 3072,
     "encoder_layerdrop": 0.0,
     "encoder_layers": 6,
+    "eos_token_id": 2,
+    "finetuning_task": null,
     "gradient_checkpointing": false,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
     "init_std": 0.02,
     "is_decoder": true,
     "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
     "max_position_embeddings": 1024,
     "model_type": "mbart",
     "num_hidden_layers": 6,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "pad_token_id": 1,
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "return_dict": true,
     "scale_embedding": false,
+    "sep_token_id": null,
+    "task_specific_params": null,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
     "tokenizer_class": "BartphoTokenizer",
+    "torchscript": false,
+    "use_bfloat16": false,
     "use_cache": true,
     "vocab_size": 41031
   },
     "adapter_kernel_size": 3,
     "adapter_stride": 2,
     "add_adapter": true,
+    "add_cross_attention": false,
     "apply_spec_augment": true,
     "architectures": [
       "Wav2Vec2ForPreTraining"
     ],
     "attention_dropout": 0.1,
+    "bos_token_id": 1,
+    "chunk_size_feed_forward": 0,
     "classifier_proj_size": 256,
     "codevector_dim": 768,
     "contrastive_logits_temperature": 0.1,
       2,
       2
     ],
+    "cross_attention_hidden_size": null,
     "ctc_loss_reduction": "sum",
     "ctc_zero_infinity": false,
+    "decoder_start_token_id": null,
     "diversity_loss_weight": 0.1,
     "do_stable_layer_norm": true,
     "dtype": "float32",
+    "eos_token_id": 2,
     "feat_extract_activation": "gelu",
     "feat_extract_dropout": 0.0,
     "feat_extract_norm": "layer",
     "feat_proj_dropout": 0.1,
     "feat_quantizer_dropout": 0.0,
     "final_dropout": 0.0,
+    "finetuning_task": null,
     "gradient_checkpointing": false,
     "hidden_act": "gelu",
     "hidden_dropout": 0.1,
     "hidden_size": 1024,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
     "initializer_range": 0.02,
     "intermediate_size": 4096,
+    "is_decoder": false,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
     "layer_norm_eps": 1e-05,
     "layerdrop": 0.1,
     "mask_channel_length": 10,
     "num_feat_extract_layers": 7,
     "num_hidden_layers": 24,
     "num_negatives": 100,
+    "output_attentions": false,
     "output_hidden_size": 1024,
+    "output_hidden_states": false,
+    "pad_token_id": 0,
+    "prefix": null,
+    "problem_type": null,
     "proj_codevector_dim": 768,
+    "pruned_heads": {},
+    "return_dict": true,
+    "sep_token_id": null,
+    "task_specific_params": null,
     "tdnn_dilation": [
       1,
       2,
       1,
       1
     ],
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "torchscript": false,
+    "use_bfloat16": false,
     "use_weighted_layer_sum": false,
     "vocab_size": 96,
     "xvector_output_dim": 512
   "model_type": "speech-encoder-decoder",
   "pad_token_id": 1,
   "tie_word_embeddings": false,
+  "transformers_version": "5.1.0"
 }

generation_config.json CHANGED Viewed

@@ -5,5 +5,5 @@
   "eos_token_id": 2,
   "forced_eos_token_id": 2,
   "pad_token_id": 1,
-  "transformers_version": "4.57.5"
 }

   "eos_token_id": 2,
   "forced_eos_token_id": 2,
   "pad_token_id": 1,
+  "transformers_version": "5.1.0"
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1234c9bde0f2d753397db6c0a4a5da72eff1ba124a615a1b309507bb2ae31ab2
-size 1696553104

 version https://git-lfs.github.com/spec/v1
+oid sha256:35e132ef90cdcfdbed22c366cf4701b775777a5ecfcf5a1f3ca27afdda9f64fa
+size 1822600472

preprocessor_config.json CHANGED Viewed

@@ -4,7 +4,6 @@
   "feature_size": 1,
   "padding_side": "right",
   "padding_value": 0.0,
-  "processor_class": "Wav2Vec2Processor",
   "return_attention_mask": true,
   "sampling_rate": 16000
 }

   "feature_size": 1,
   "padding_side": "right",
   "padding_value": 0.0,
   "return_attention_mask": true,
   "sampling_rate": 16000
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a174c57ede6c576b3f0d90f19a76ba11856d3c885364b7b57c559e477407203e
-size 5560

 version https://git-lfs.github.com/spec/v1
+oid sha256:90e578251d8e4b5e298fb1d9fcad08843a7bc3f1ab47d8570c8be8e5b8e29d70
+size 5329