End of training

Browse files

Files changed (9) hide show

README.md +1 -1
adapter_model.safetensors +1 -1
all_results.json +6 -6
config.json +76 -0
generation_config.json +0 -2
model.safetensors +3 -0
train_results.json +6 -6
trainer_state.json +108 -73
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -45,7 +45,7 @@ The following hyperparameters were used during training:
 - total_train_batch_size: 8
 - optimizer: Use OptimizerNames.PAGED_ADAMW_8BIT with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
-- num_epochs: 3
 - mixed_precision_training: Native AMP
 ### Training results

 - total_train_batch_size: 8
 - optimizer: Use OptimizerNames.PAGED_ADAMW_8BIT with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
+- num_epochs: 5
 - mixed_precision_training: Native AMP
 ### Training results

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63bc963057a86f8afa5f6de9fd9f42b884bd976ba06efda3654a50ae41657833
 size 7098064

 version https://git-lfs.github.com/spec/v1
+oid sha256:db989c634262e3d7b817f801025496595cf823d8c12471a07955f7dd660fe0fc
 size 7098064

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.0,
-    "total_flos": 2.42193908736e+18,
-    "train_loss": 0.6797876440482455,
-    "train_runtime": 2875.7206,
-    "train_samples_per_second": 2.893,
-    "train_steps_per_second": 0.362
 }

 {
+    "epoch": 5.0,
+    "total_flos": 4.0365651456e+18,
+    "train_loss": 0.3920804708079577,
+    "train_runtime": 3538.8693,
+    "train_samples_per_second": 3.918,
+    "train_steps_per_second": 0.49
 }

config.json ADDED Viewed

	@@ -0,0 +1,76 @@

+{
+  "_name_or_path": "openai/whisper-small",
+  "activation_dropout": 0.0,
+  "activation_function": "gelu",
+  "apply_spec_augment": false,
+  "architectures": [
+    "WhisperForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "begin_suppress_tokens": null,
+  "bos_token_id": 50257,
+  "classifier_proj_size": 256,
+  "d_model": 768,
+  "decoder_attention_heads": 12,
+  "decoder_ffn_dim": 3072,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 12,
+  "decoder_start_token_id": 50258,
+  "dropout": 0.0,
+  "encoder_attention_heads": 12,
+  "encoder_ffn_dim": 3072,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 12,
+  "eos_token_id": 50257,
+  "forced_decoder_ids": [
+    [
+      1,
+      50259
+    ],
+    [
+      2,
+      50359
+    ],
+    [
+      3,
+      50363
+    ]
+  ],
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "max_length": null,
+  "max_source_positions": 1500,
+  "max_target_positions": 448,
+  "median_filter_width": 7,
+  "model_type": "whisper",
+  "num_hidden_layers": 12,
+  "num_mel_bins": 80,
+  "pad_token_id": 50257,
+  "quantization_config": {
+    "_load_in_4bit": true,
+    "_load_in_8bit": false,
+    "bnb_4bit_compute_dtype": "bfloat16",
+    "bnb_4bit_quant_storage": "uint8",
+    "bnb_4bit_quant_type": "nf4",
+    "bnb_4bit_use_double_quant": true,
+    "llm_int8_enable_fp32_cpu_offload": false,
+    "llm_int8_has_fp16_weight": false,
+    "llm_int8_skip_modules": null,
+    "llm_int8_threshold": 6.0,
+    "load_in_4bit": true,
+    "load_in_8bit": false,
+    "quant_method": "bitsandbytes"
+  },
+  "scale_embedding": false,
+  "torch_dtype": "float16",
+  "transformers_version": "4.49.0.dev0",
+  "use_cache": true,
+  "use_weighted_layer_sum": false,
+  "vocab_size": 51865
+}

generation_config.json CHANGED Viewed

@@ -250,8 +250,6 @@
     49870,
     50254,
     50258,
-    50358,
-    50359,
     50360,
     50361,
     50362

     49870,
     50254,
     50258,
     50360,
     50361,
     50362

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a06837e6070f7a623601458bea61b85fb65e0cf1f3c031cb8813aa17f3d8fb26
+size 189759653

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.0,
-    "total_flos": 2.42193908736e+18,
-    "train_loss": 0.6797876440482455,
-    "train_runtime": 2875.7206,
-    "train_samples_per_second": 2.893,
-    "train_steps_per_second": 0.362
 }

 {
+    "epoch": 5.0,
+    "total_flos": 4.0365651456e+18,
+    "train_loss": 0.3920804708079577,
+    "train_runtime": 3538.8693,
+    "train_samples_per_second": 3.918,
+    "train_steps_per_second": 0.49
 }

trainer_state.json CHANGED Viewed

@@ -1,133 +1,168 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.0,
-  "eval_steps": 200,
-  "global_step": 1041,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.2881844380403458,
-      "grad_norm": 1.327895164489746,
-      "learning_rate": 0.0001815561959654179,
-      "loss": 3.1246,
       "step": 100
     },
     {
       "epoch": 0.5763688760806917,
-      "grad_norm": 1.4119809865951538,
-      "learning_rate": 0.00016234390009606147,
-      "loss": 0.8831,
-      "step": 200
-    },
-    {
-      "epoch": 0.5763688760806917,
-      "eval_runtime": 221.4793,
-      "eval_samples_per_second": 5.585,
-      "eval_steps_per_second": 2.795,
       "step": 200
     },
     {
       "epoch": 0.8645533141210374,
-      "grad_norm": 1.9445453882217407,
-      "learning_rate": 0.0001431316042267051,
-      "loss": 0.4528,
       "step": 300
     },
     {
       "epoch": 1.1527377521613833,
-      "grad_norm": 1.2831073999404907,
-      "learning_rate": 0.00012391930835734872,
-      "loss": 0.4009,
-      "step": 400
-    },
-    {
-      "epoch": 1.1527377521613833,
-      "eval_runtime": 222.2115,
-      "eval_samples_per_second": 5.567,
-      "eval_steps_per_second": 2.786,
       "step": 400
     },
     {
       "epoch": 1.440922190201729,
-      "grad_norm": 1.79501473903656,
-      "learning_rate": 0.00010470701248799233,
-      "loss": 0.368,
       "step": 500
     },
     {
-      "epoch": 1.729106628242075,
-      "grad_norm": 1.340496301651001,
-      "learning_rate": 8.549471661863592e-05,
-      "loss": 0.3721,
-      "step": 600
     },
     {
       "epoch": 1.729106628242075,
-      "eval_runtime": 223.5538,
-      "eval_samples_per_second": 5.533,
-      "eval_steps_per_second": 2.769,
       "step": 600
     },
     {
       "epoch": 2.0172910662824206,
-      "grad_norm": 1.4648982286453247,
-      "learning_rate": 6.628242074927953e-05,
-      "loss": 0.3737,
       "step": 700
     },
     {
       "epoch": 2.3054755043227666,
-      "grad_norm": 1.6813404560089111,
-      "learning_rate": 4.7070124879923156e-05,
-      "loss": 0.3306,
-      "step": 800
-    },
-    {
-      "epoch": 2.3054755043227666,
-      "eval_runtime": 224.219,
-      "eval_samples_per_second": 5.517,
-      "eval_steps_per_second": 2.761,
       "step": 800
     },
     {
       "epoch": 2.5936599423631126,
-      "grad_norm": 1.084306001663208,
-      "learning_rate": 2.7857829010566765e-05,
-      "loss": 0.3155,
       "step": 900
     },
     {
       "epoch": 2.881844380403458,
-      "grad_norm": 1.6043856143951416,
-      "learning_rate": 8.645533141210376e-06,
-      "loss": 0.3168,
       "step": 1000
     },
     {
       "epoch": 2.881844380403458,
-      "eval_runtime": 225.5438,
-      "eval_samples_per_second": 5.485,
-      "eval_steps_per_second": 2.744,
       "step": 1000
     },
     {
-      "epoch": 3.0,
-      "step": 1041,
-      "total_flos": 2.42193908736e+18,
-      "train_loss": 0.6797876440482455,
-      "train_runtime": 2875.7206,
-      "train_samples_per_second": 2.893,
-      "train_steps_per_second": 0.362
     }
   ],
   "logging_steps": 100,
-  "max_steps": 1041,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
-  "save_steps": 200,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -140,7 +175,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.42193908736e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 1735,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.2881844380403458,
+      "grad_norm": 1.3598850965499878,
+      "learning_rate": 0.00018881844380403459,
+      "loss": 1.6553,
       "step": 100
     },
     {
       "epoch": 0.5763688760806917,
+      "grad_norm": 1.4105329513549805,
+      "learning_rate": 0.00017729106628242076,
+      "loss": 0.4925,
       "step": 200
     },
     {
       "epoch": 0.8645533141210374,
+      "grad_norm": 1.7036561965942383,
+      "learning_rate": 0.0001657636887608069,
+      "loss": 0.4314,
       "step": 300
     },
     {
       "epoch": 1.1527377521613833,
+      "grad_norm": 1.3207303285598755,
+      "learning_rate": 0.0001542363112391931,
+      "loss": 0.3837,
       "step": 400
     },
     {
       "epoch": 1.440922190201729,
+      "grad_norm": 1.6807191371917725,
+      "learning_rate": 0.00014270893371757926,
+      "loss": 0.3506,
       "step": 500
     },
     {
+      "epoch": 1.440922190201729,
+      "eval_runtime": 227.6958,
+      "eval_samples_per_second": 5.433,
+      "eval_steps_per_second": 2.719,
+      "step": 500
     },
     {
       "epoch": 1.729106628242075,
+      "grad_norm": 1.200997233390808,
+      "learning_rate": 0.0001311815561959654,
+      "loss": 0.358,
       "step": 600
     },
     {
       "epoch": 2.0172910662824206,
+      "grad_norm": 1.296838402748108,
+      "learning_rate": 0.00011965417867435158,
+      "loss": 0.3602,
       "step": 700
     },
     {
       "epoch": 2.3054755043227666,
+      "grad_norm": 1.4795269966125488,
+      "learning_rate": 0.00010812680115273777,
+      "loss": 0.3105,
       "step": 800
     },
     {
       "epoch": 2.5936599423631126,
+      "grad_norm": 1.107097864151001,
+      "learning_rate": 9.659942363112392e-05,
+      "loss": 0.2963,
       "step": 900
     },
     {
       "epoch": 2.881844380403458,
+      "grad_norm": 1.2915793657302856,
+      "learning_rate": 8.507204610951009e-05,
+      "loss": 0.2954,
       "step": 1000
     },
     {
       "epoch": 2.881844380403458,
+      "eval_runtime": 228.8311,
+      "eval_samples_per_second": 5.406,
+      "eval_steps_per_second": 2.705,
       "step": 1000
     },
     {
+      "epoch": 3.170028818443804,
+      "grad_norm": 1.0209407806396484,
+      "learning_rate": 7.354466858789625e-05,
+      "loss": 0.292,
+      "step": 1100
+    },
+    {
+      "epoch": 3.4582132564841497,
+      "grad_norm": 1.3803058862686157,
+      "learning_rate": 6.201729106628242e-05,
+      "loss": 0.2548,
+      "step": 1200
+    },
+    {
+      "epoch": 3.7463976945244957,
+      "grad_norm": 1.1842936277389526,
+      "learning_rate": 5.048991354466859e-05,
+      "loss": 0.2808,
+      "step": 1300
+    },
+    {
+      "epoch": 4.034582132564841,
+      "grad_norm": 1.5686421394348145,
+      "learning_rate": 3.8962536023054756e-05,
+      "loss": 0.249,
+      "step": 1400
+    },
+    {
+      "epoch": 4.322766570605188,
+      "grad_norm": 1.2323178052902222,
+      "learning_rate": 2.7435158501440923e-05,
+      "loss": 0.2317,
+      "step": 1500
+    },
+    {
+      "epoch": 4.322766570605188,
+      "eval_runtime": 226.3984,
+      "eval_samples_per_second": 5.464,
+      "eval_steps_per_second": 2.734,
+      "step": 1500
+    },
+    {
+      "epoch": 4.610951008645533,
+      "grad_norm": 0.9450750946998596,
+      "learning_rate": 1.590778097982709e-05,
+      "loss": 0.2381,
+      "step": 1600
+    },
+    {
+      "epoch": 4.899135446685879,
+      "grad_norm": 1.4306625127792358,
+      "learning_rate": 4.380403458213257e-06,
+      "loss": 0.2411,
+      "step": 1700
+    },
+    {
+      "epoch": 5.0,
+      "step": 1735,
+      "total_flos": 4.0365651456e+18,
+      "train_loss": 0.3920804708079577,
+      "train_runtime": 3538.8693,
+      "train_samples_per_second": 3.918,
+      "train_steps_per_second": 0.49
     }
   ],
   "logging_steps": 100,
+  "max_steps": 1735,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 4.0365651456e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10fe486164d02b5141ca201b6f0bd243d13bc3799a3938aa4a56750bdd9b4ffb
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:b30f32d48e6fc7612992dedde0fe7264e5f8905c5bd332ddc71486c1d962cef3
 size 5304