Upload ChunkFormer resume checkpoint latest_epoch=2 best_epoch=2 best_val_loss=155.457254

Browse files

Files changed (13) hide show

FINETUNE_RESUME_README.md +14 -9
best_checkpoints.json +9 -2
history.json +7 -0
pytorch_model.bin +1 -1
resume_checkpoint/best_checkpoints.json +9 -2
resume_checkpoint/history.json +7 -0
resume_checkpoint/model_state_dict.pt +2 -2
resume_checkpoint/optimizer.pt +1 -1
resume_checkpoint/scaler.pt +1 -1
resume_checkpoint/scheduler.pt +1 -1
resume_checkpoint/trainer_state.json +24 -12
resume_checkpoint/training_checkpoint.pt +2 -2
trainer_state.json +24 -12

FINETUNE_RESUME_README.md CHANGED Viewed

@@ -2,16 +2,21 @@
 This repo contains:
-- `pytorch_model.bin`: model weights for inference / loading model.
-- `resume_checkpoint/training_checkpoint.pt`: full checkpoint for resuming training.
-- `resume_checkpoint/model_state_dict.pt`: model state dict only.
-- `resume_checkpoint/optimizer.pt`: optimizer state, if available.
-- `resume_checkpoint/scheduler.pt`: scheduler state, if available.
-- `resume_checkpoint/scaler.pt`: AMP GradScaler state, if available.
 - `best_checkpoints.json`: validation loss metadata.
-Best epoch: 1
-Best val_loss: 192.81560051995353
-Train loss: inf
 Base model: khanhld/chunkformer-ctc-large-vie

 This repo contains:
+- `pytorch_model.bin`: best model weights for inference / `ChunkFormerModel.from_pretrained`.
+- `resume_checkpoint/training_checkpoint.pt`: latest full checkpoint for resuming training.
+- `resume_checkpoint/model_state_dict.pt`: latest model state dict only.
+- `resume_checkpoint/optimizer.pt`: latest optimizer state, if available.
+- `resume_checkpoint/scheduler.pt`: latest scheduler state, if available.
+- `resume_checkpoint/scaler.pt`: latest AMP GradScaler state, if available.
 - `best_checkpoints.json`: validation loss metadata.
+- `history.json`: training history.
+Latest trained epoch: 2
+Latest train_loss: 178.68146068524644
+Latest val_loss: 155.45725427576014
+Best epoch: 2
+Best train_loss: 178.68146068524644
+Best val_loss: 155.45725427576014
 Base model: khanhld/chunkformer-ctc-large-vie

best_checkpoints.json CHANGED Viewed

@@ -1,8 +1,15 @@
 [
   {
     "epoch": 1,
-    "val_loss": 192.81560051995353,
     "train_loss": 326.93824258185526,
-    "path": "/kaggle/working/chunkformer-ctc-large-vie-finetune/epoch_1_val_loss_192.8156.pt"
   }
 ]

 [
   {
+    "path": "/kaggle/working/chunkformer-ctc-large-vie-finetune/epoch_2_val_loss_155.4573.pt",
+    "val_loss": 155.45725427576014,
+    "train_loss": 178.68146068524644,
+    "epoch": 2
+  },
+  {
+    "path": "/kaggle/working/chunkformer-ctc-large-vie-finetune/loaded_epoch_1_val_loss_192.8156.pt",
     "epoch": 1,
     "train_loss": 326.93824258185526,
+    "val_loss": 192.81560051995353,
+    "source": "/root/.cache/huggingface/hub/models--efrainmain--chunkformer-ctc-vie-medical/snapshots/b15143a6a23e8174fb296dccfcfce9807e7456b1/resume_checkpoint/training_checkpoint.pt"
   }
 ]

history.json CHANGED Viewed

@@ -5,5 +5,12 @@
     "val_loss": 192.81560051995353,
     "lr": 1.0515468292711804e-07,
     "encoder_trainable": false
   }
 ]

     "val_loss": 192.81560051995353,
     "lr": 1.0515468292711804e-07,
     "encoder_trainable": false
+  },
+  {
+    "epoch": 2,
+    "train_loss": 178.68146068524644,
+    "val_loss": 155.45725427576014,
+    "lr": 9.865673153324975e-06,
+    "encoder_trainable": false
   }
 ]

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a059c4c310eefc7b0a3617969f66065cd77714ccaa124ff6919abb559221deab
 size 595480839

 version https://git-lfs.github.com/spec/v1
+oid sha256:7afaab521a8f916866676d34770baf1969fabac652cd1ae34c141c738a8e2329
 size 595480839

resume_checkpoint/best_checkpoints.json CHANGED Viewed

@@ -1,8 +1,15 @@
 [
   {
     "epoch": 1,
-    "val_loss": 192.81560051995353,
     "train_loss": 326.93824258185526,
-    "path": "/kaggle/working/chunkformer-ctc-large-vie-finetune/epoch_1_val_loss_192.8156.pt"
   }
 ]

 [
   {
+    "path": "/kaggle/working/chunkformer-ctc-large-vie-finetune/epoch_2_val_loss_155.4573.pt",
+    "val_loss": 155.45725427576014,
+    "train_loss": 178.68146068524644,
+    "epoch": 2
+  },
+  {
+    "path": "/kaggle/working/chunkformer-ctc-large-vie-finetune/loaded_epoch_1_val_loss_192.8156.pt",
     "epoch": 1,
     "train_loss": 326.93824258185526,
+    "val_loss": 192.81560051995353,
+    "source": "/root/.cache/huggingface/hub/models--efrainmain--chunkformer-ctc-vie-medical/snapshots/b15143a6a23e8174fb296dccfcfce9807e7456b1/resume_checkpoint/training_checkpoint.pt"
   }
 ]

resume_checkpoint/history.json CHANGED Viewed

@@ -5,5 +5,12 @@
     "val_loss": 192.81560051995353,
     "lr": 1.0515468292711804e-07,
     "encoder_trainable": false
   }
 ]

     "val_loss": 192.81560051995353,
     "lr": 1.0515468292711804e-07,
     "encoder_trainable": false
+  },
+  {
+    "epoch": 2,
+    "train_loss": 178.68146068524644,
+    "val_loss": 155.45725427576014,
+    "lr": 9.865673153324975e-06,
+    "encoder_trainable": false
   }
 ]

resume_checkpoint/model_state_dict.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2280877d48f58d07ad9576af0be61499fdeb807678d9473b50cad58e55d4c43
-size 595483284

 version https://git-lfs.github.com/spec/v1
+oid sha256:a67dc69aaaf40495ef6263463b6c9988a08f06963f72f26eebef17284144e9b6
+size 595534292

resume_checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:145fa8b792a413b1c3fb509b27ac429040314b6cd4f25e7bae1da77bba91fc75
 size 287970059

 version https://git-lfs.github.com/spec/v1
+oid sha256:06656745b9befaf9f5060e966e9d02d239c1787212aadadc2ab7c1728abc94cd
 size 287970059

resume_checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:294e0d71ff4bf6c9a330f45f3200b5eb1db565d454c054091a0d21922053a55e
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:43919c586204734cd7bf1a30e3768b07e6bcd0740d94d45727b84a0415abc6fb
 size 1383

resume_checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03775b05773d0e09256e22a3ef3692425bdf8073bd7a3fb9e193db74e54a1260
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:a88b5f1832222e7af4ace6e567564ed23150980548b1849d2cde15fec3222429
 size 1401

resume_checkpoint/trainer_state.json CHANGED Viewed

@@ -2,18 +2,25 @@
   "resume_type": "chunkformer_finetune_resume",
   "base_repo": "khanhld/chunkformer-ctc-large-vie",
   "repo_id": "efrainmain/chunkformer-ctc-vie-medical",
-  "best_checkpoint_path": "/kaggle/working/chunkformer-ctc-large-vie-finetune/epoch_1_val_loss_192.8156.pt",
-  "checkpoint_file_used": "/kaggle/working/chunkformer-ctc-large-vie-finetune/epoch_1_val_loss_192.8156.pt",
-  "epoch": 1,
-  "best_epoch": 1,
-  "best_val_loss": 192.81560051995353,
-  "val_loss": 192.81560051995353,
-  "train_loss": 326.93824258185526,
   "has_optimizer_state": true,
   "has_scheduler_state": true,
   "has_scaler_state": true,
   "config": {
-    "model_name": "khanhld/chunkformer-ctc-large-vie",
     "dataset_root": "/kaggle/input/datasets/lqucng/vietmed-vimedcss-dataset",
     "train_parquet": "/kaggle/input/datasets/lqucng/vietmed-vimedcss-dataset/train.parquet",
     "validation_parquet": "/kaggle/input/datasets/lqucng/vietmed-vimedcss-dataset/validation.parquet",
@@ -21,12 +28,13 @@
     "preprocess_root": "/kaggle/working/chunkformer_preprocessed",
     "output_dir": "/kaggle/working/chunkformer-ctc-large-vie-finetune",
     "batch_size": 8,
-    "num_epochs": 1,
     "learning_rate": 1e-05,
     "weight_decay": 0.01,
     "scheduler_type": "warmup_cosine",
     "warmup_steps": 500,
     "min_learning_rate": 1e-07,
     "freeze_encoder_epochs": 2,
     "patience": 3,
     "keep_best": 2,
@@ -36,7 +44,11 @@
     "use_amp": true,
     "skip_bad_samples": true,
     "max_train_batches": null,
-    "max_eval_batches": null
-  },
-  "best_train_loss": 326.93824258185526
 }

   "resume_type": "chunkformer_finetune_resume",
   "base_repo": "khanhld/chunkformer-ctc-large-vie",
   "repo_id": "efrainmain/chunkformer-ctc-vie-medical",
+  "epoch": 2,
+  "trained_epochs": 2,
+  "next_epoch": 3,
+  "train_loss": 178.68146068524644,
+  "val_loss": 155.45725427576014,
+  "best_checkpoint_path": "/kaggle/working/chunkformer-ctc-large-vie-finetune/epoch_2_val_loss_155.4573.pt",
+  "checkpoint_file_used_for_best_model": "/kaggle/working/chunkformer-ctc-large-vie-finetune/epoch_2_val_loss_155.4573.pt",
+  "best_epoch": 2,
+  "best_val_loss": 155.45725427576014,
+  "best_train_loss": 178.68146068524644,
   "has_optimizer_state": true,
   "has_scheduler_state": true,
   "has_scaler_state": true,
   "config": {
+    "base_model_name": "khanhld/chunkformer-ctc-large-vie",
+    "resume_from_checkpoint": true,
+    "resume_repo_id": "efrainmain/chunkformer-ctc-vie-medical",
+    "resume_checkpoint_file": "resume_checkpoint/training_checkpoint.pt",
+    "model_name": "efrainmain/chunkformer-ctc-vie-medical",
     "dataset_root": "/kaggle/input/datasets/lqucng/vietmed-vimedcss-dataset",
     "train_parquet": "/kaggle/input/datasets/lqucng/vietmed-vimedcss-dataset/train.parquet",
     "validation_parquet": "/kaggle/input/datasets/lqucng/vietmed-vimedcss-dataset/validation.parquet",
     "preprocess_root": "/kaggle/working/chunkformer_preprocessed",
     "output_dir": "/kaggle/working/chunkformer-ctc-large-vie-finetune",
     "batch_size": 8,
+    "num_epochs": 3,
     "learning_rate": 1e-05,
     "weight_decay": 0.01,
     "scheduler_type": "warmup_cosine",
     "warmup_steps": 500,
     "min_learning_rate": 1e-07,
+    "freeze_encoder": true,
     "freeze_encoder_epochs": 2,
     "patience": 3,
     "keep_best": 2,
     "use_amp": true,
     "skip_bad_samples": true,
     "max_train_batches": null,
+    "max_eval_batches": null,
+    "resume_load_optimizer": true,
+    "resume_load_scheduler": true,
+    "resume_load_scaler": true,
+    "strict_resume_model_load": false,
+    "save_loaded_checkpoint_locally": true
+  }
 }

resume_checkpoint/training_checkpoint.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2d252e5d611ddeffabfb89f1f618b2f651429e40209f85264c01d8eeb93be0d
-size 883464805

 version https://git-lfs.github.com/spec/v1
+oid sha256:dbd83dfb6087d576c758f88b49a5bdcf042ae538c0ee4c61f4e354ee82a926a1
+size 883517285

trainer_state.json CHANGED Viewed

@@ -2,18 +2,25 @@
   "resume_type": "chunkformer_finetune_resume",
   "base_repo": "khanhld/chunkformer-ctc-large-vie",
   "repo_id": "efrainmain/chunkformer-ctc-vie-medical",
-  "best_checkpoint_path": "/kaggle/working/chunkformer-ctc-large-vie-finetune/epoch_1_val_loss_192.8156.pt",
-  "checkpoint_file_used": "/kaggle/working/chunkformer-ctc-large-vie-finetune/epoch_1_val_loss_192.8156.pt",
-  "epoch": 1,
-  "best_epoch": 1,
-  "best_val_loss": 192.81560051995353,
-  "val_loss": 192.81560051995353,
-  "train_loss": 326.93824258185526,
   "has_optimizer_state": true,
   "has_scheduler_state": true,
   "has_scaler_state": true,
   "config": {
-    "model_name": "khanhld/chunkformer-ctc-large-vie",
     "dataset_root": "/kaggle/input/datasets/lqucng/vietmed-vimedcss-dataset",
     "train_parquet": "/kaggle/input/datasets/lqucng/vietmed-vimedcss-dataset/train.parquet",
     "validation_parquet": "/kaggle/input/datasets/lqucng/vietmed-vimedcss-dataset/validation.parquet",
@@ -21,12 +28,13 @@
     "preprocess_root": "/kaggle/working/chunkformer_preprocessed",
     "output_dir": "/kaggle/working/chunkformer-ctc-large-vie-finetune",
     "batch_size": 8,
-    "num_epochs": 1,
     "learning_rate": 1e-05,
     "weight_decay": 0.01,
     "scheduler_type": "warmup_cosine",
     "warmup_steps": 500,
     "min_learning_rate": 1e-07,
     "freeze_encoder_epochs": 2,
     "patience": 3,
     "keep_best": 2,
@@ -36,7 +44,11 @@
     "use_amp": true,
     "skip_bad_samples": true,
     "max_train_batches": null,
-    "max_eval_batches": null
-  },
-  "best_train_loss": 326.93824258185526
 }

   "resume_type": "chunkformer_finetune_resume",
   "base_repo": "khanhld/chunkformer-ctc-large-vie",
   "repo_id": "efrainmain/chunkformer-ctc-vie-medical",
+  "epoch": 2,
+  "trained_epochs": 2,
+  "next_epoch": 3,
+  "train_loss": 178.68146068524644,
+  "val_loss": 155.45725427576014,
+  "best_checkpoint_path": "/kaggle/working/chunkformer-ctc-large-vie-finetune/epoch_2_val_loss_155.4573.pt",
+  "checkpoint_file_used_for_best_model": "/kaggle/working/chunkformer-ctc-large-vie-finetune/epoch_2_val_loss_155.4573.pt",
+  "best_epoch": 2,
+  "best_val_loss": 155.45725427576014,
+  "best_train_loss": 178.68146068524644,
   "has_optimizer_state": true,
   "has_scheduler_state": true,
   "has_scaler_state": true,
   "config": {
+    "base_model_name": "khanhld/chunkformer-ctc-large-vie",
+    "resume_from_checkpoint": true,
+    "resume_repo_id": "efrainmain/chunkformer-ctc-vie-medical",
+    "resume_checkpoint_file": "resume_checkpoint/training_checkpoint.pt",
+    "model_name": "efrainmain/chunkformer-ctc-vie-medical",
     "dataset_root": "/kaggle/input/datasets/lqucng/vietmed-vimedcss-dataset",
     "train_parquet": "/kaggle/input/datasets/lqucng/vietmed-vimedcss-dataset/train.parquet",
     "validation_parquet": "/kaggle/input/datasets/lqucng/vietmed-vimedcss-dataset/validation.parquet",
     "preprocess_root": "/kaggle/working/chunkformer_preprocessed",
     "output_dir": "/kaggle/working/chunkformer-ctc-large-vie-finetune",
     "batch_size": 8,
+    "num_epochs": 3,
     "learning_rate": 1e-05,
     "weight_decay": 0.01,
     "scheduler_type": "warmup_cosine",
     "warmup_steps": 500,
     "min_learning_rate": 1e-07,
+    "freeze_encoder": true,
     "freeze_encoder_epochs": 2,
     "patience": 3,
     "keep_best": 2,
     "use_amp": true,
     "skip_bad_samples": true,
     "max_train_batches": null,
+    "max_eval_batches": null,
+    "resume_load_optimizer": true,
+    "resume_load_scheduler": true,
+    "resume_load_scaler": true,
+    "strict_resume_model_load": false,
+    "save_loaded_checkpoint_locally": true
+  }
 }