Shawon16
/

VideoMAE_Base_wlasl_2000_longtail_20

+---
+library_name: transformers
+license: cc-by-nc-4.0
+base_model: MCG-NJU/videomae-base
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: VideoMAE_Base_wlasl_2000_longtail_20
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# VideoMAE_Base_wlasl_2000_longtail_20
+This model is a fine-tuned version of [MCG-NJU/videomae-base](https://huggingface.co/MCG-NJU/videomae-base) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 7.8221
+- Accuracy: 0.0033
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 2
+- eval_batch_size: 2
+- seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 8
+- optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_ratio: 0.1
+- training_steps: 35720
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch   | Step  | Validation Loss | Accuracy |
+|:-------------:|:-------:|:-----:|:---------------:|:--------:|
+| 30.6409       | 0.05    | 1786  | 7.6310          | 0.0005   |
+| 30.5597       | 1.0500  | 3572  | 7.6175          | 0.0005   |
+| 30.4316       | 2.0500  | 5358  | 7.6035          | 0.0010   |
+| 30.2683       | 3.0500  | 7145  | 7.5938          | 0.0020   |
+| 30.0727       | 4.05    | 8931  | 7.6268          | 0.0018   |
+| 29.84         | 5.0500  | 10717 | 7.6477          | 0.0026   |
+| 29.5721       | 6.0500  | 12503 | 7.6825          | 0.0023   |
+| 29.2352       | 7.0500  | 14290 | 7.7271          | 0.0023   |
+| 28.9425       | 8.05    | 16076 | 7.7662          | 0.0041   |
+| 28.6146       | 9.0500  | 17862 | 7.7746          | 0.0031   |
+| 28.3135       | 10.0500 | 19648 | 7.7994          | 0.0028   |
+| 27.985        | 11.0500 | 21435 | 7.8092          | 0.0036   |
+| 27.6736       | 12.05   | 23221 | 7.8222          | 0.0028   |
+| 27.3741       | 13.0500 | 25007 | 7.8221          | 0.0033   |
+### Framework versions
+- Transformers 4.46.1
+- Pytorch 2.5.1+cu124
+- Datasets 3.1.0
+- Tokenizers 0.20.1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcfab36001991fe7f8261d3ff2a152aa70bfa04b1f57cac28db4ca3172467840
 size 351083264

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa8054db7c64d5b52e59c4773862d2ab13e0741de7ba93a0fcbc04e1b1582649
 size 351083264

trainer_state.json ADDED Viewed

	@@ -0,0 +1,275 @@

+{
+  "best_metric": 0.0040858018386108275,
+  "best_model_checkpoint": "/media/cse/HDD/Shawon/shawon/10 fold timesformer/VideoMAE_Base_wlasl_2000_longtail_20/checkpoint-16076",
+  "epoch": 13.049993001119821,
+  "eval_steps": 500,
+  "global_step": 25007,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.05,
+      "grad_norm": 22.720428466796875,
+      "learning_rate": 2.494400895856663e-05,
+      "loss": 30.6409,
+      "step": 1786
+    },
+    {
+      "epoch": 0.05,
+      "eval_accuracy": 0.0005107252298263534,
+      "eval_loss": 7.631043910980225,
+      "eval_runtime": 277.5295,
+      "eval_samples_per_second": 14.11,
+      "eval_steps_per_second": 7.055,
+      "step": 1786
+    },
+    {
+      "epoch": 1.0499930011198209,
+      "grad_norm": 21.318378448486328,
+      "learning_rate": 4.994400895856663e-05,
+      "loss": 30.5597,
+      "step": 3572
+    },
+    {
+      "epoch": 1.0499930011198209,
+      "eval_accuracy": 0.0005107252298263534,
+      "eval_loss": 7.617450714111328,
+      "eval_runtime": 258.7991,
+      "eval_samples_per_second": 15.131,
+      "eval_steps_per_second": 7.566,
+      "step": 3572
+    },
+    {
+      "epoch": 2.0499860022396414,
+      "grad_norm": 20.306100845336914,
+      "learning_rate": 4.722999875575464e-05,
+      "loss": 30.4316,
+      "step": 5358
+    },
+    {
+      "epoch": 2.0499860022396414,
+      "eval_accuracy": 0.0010214504596527069,
+      "eval_loss": 7.6034626960754395,
+      "eval_runtime": 245.7692,
+      "eval_samples_per_second": 15.934,
+      "eval_steps_per_second": 7.967,
+      "step": 5358
+    },
+    {
+      "epoch": 3.0500069988801792,
+      "grad_norm": 21.882591247558594,
+      "learning_rate": 4.445222097797686e-05,
+      "loss": 30.2683,
+      "step": 7145
+    },
+    {
+      "epoch": 3.0500069988801792,
+      "eval_accuracy": 0.0020429009193054137,
+      "eval_loss": 7.593833923339844,
+      "eval_runtime": 259.6587,
+      "eval_samples_per_second": 15.081,
+      "eval_steps_per_second": 7.541,
+      "step": 7145
+    },
+    {
+      "epoch": 4.05,
+      "grad_norm": 19.35872459411621,
+      "learning_rate": 4.167444320019908e-05,
+      "loss": 30.0727,
+      "step": 8931
+    },
+    {
+      "epoch": 4.05,
+      "eval_accuracy": 0.001787538304392237,
+      "eval_loss": 7.626790523529053,
+      "eval_runtime": 259.567,
+      "eval_samples_per_second": 15.087,
+      "eval_steps_per_second": 7.543,
+      "step": 8931
+    },
+    {
+      "epoch": 5.04999300111982,
+      "grad_norm": 19.55528450012207,
+      "learning_rate": 3.8898220729127785e-05,
+      "loss": 29.84,
+      "step": 10717
+    },
+    {
+      "epoch": 5.04999300111982,
+      "eval_accuracy": 0.002553626149131767,
+      "eval_loss": 7.647721290588379,
+      "eval_runtime": 258.3287,
+      "eval_samples_per_second": 15.159,
+      "eval_steps_per_second": 7.579,
+      "step": 10717
+    },
+    {
+      "epoch": 6.049986002239642,
+      "grad_norm": 19.76344108581543,
+      "learning_rate": 3.612044295135001e-05,
+      "loss": 29.5721,
+      "step": 12503
+    },
+    {
+      "epoch": 6.049986002239642,
+      "eval_accuracy": 0.0022982635342185904,
+      "eval_loss": 7.682473659515381,
+      "eval_runtime": 250.7957,
+      "eval_samples_per_second": 15.614,
+      "eval_steps_per_second": 7.807,
+      "step": 12503
+    },
+    {
+      "epoch": 7.050006998880179,
+      "grad_norm": 22.916093826293945,
+      "learning_rate": 3.334266517357223e-05,
+      "loss": 29.2352,
+      "step": 14290
+    },
+    {
+      "epoch": 7.050006998880179,
+      "eval_accuracy": 0.0022982635342185904,
+      "eval_loss": 7.727109909057617,
+      "eval_runtime": 269.1751,
+      "eval_samples_per_second": 14.548,
+      "eval_steps_per_second": 7.274,
+      "step": 14290
+    },
+    {
+      "epoch": 8.05,
+      "grad_norm": 20.577028274536133,
+      "learning_rate": 3.056644270250094e-05,
+      "loss": 28.9425,
+      "step": 16076
+    },
+    {
+      "epoch": 8.05,
+      "eval_accuracy": 0.0040858018386108275,
+      "eval_loss": 7.766170501708984,
+      "eval_runtime": 254.6696,
+      "eval_samples_per_second": 15.377,
+      "eval_steps_per_second": 7.688,
+      "step": 16076
+    },
+    {
+      "epoch": 9.049993001119821,
+      "grad_norm": 21.435955047607422,
+      "learning_rate": 2.7788664924723157e-05,
+      "loss": 28.6146,
+      "step": 17862
+    },
+    {
+      "epoch": 9.049993001119821,
+      "eval_accuracy": 0.0030643513789581204,
+      "eval_loss": 7.774607181549072,
+      "eval_runtime": 259.5706,
+      "eval_samples_per_second": 15.086,
+      "eval_steps_per_second": 7.543,
+      "step": 17862
+    },
+    {
+      "epoch": 10.049986002239642,
+      "grad_norm": 23.16460609436035,
+      "learning_rate": 2.5012442453651862e-05,
+      "loss": 28.3135,
+      "step": 19648
+    },
+    {
+      "epoch": 10.049986002239642,
+      "eval_accuracy": 0.0028089887640449437,
+      "eval_loss": 7.799375057220459,
+      "eval_runtime": 259.0623,
+      "eval_samples_per_second": 15.116,
+      "eval_steps_per_second": 7.558,
+      "step": 19648
+    },
+    {
+      "epoch": 11.050006998880178,
+      "grad_norm": 25.342758178710938,
+      "learning_rate": 2.2234664675874084e-05,
+      "loss": 27.985,
+      "step": 21435
+    },
+    {
+      "epoch": 11.050006998880178,
+      "eval_accuracy": 0.003575076608784474,
+      "eval_loss": 7.809170246124268,
+      "eval_runtime": 262.3629,
+      "eval_samples_per_second": 14.926,
+      "eval_steps_per_second": 7.463,
+      "step": 21435
+    },
+    {
+      "epoch": 12.05,
+      "grad_norm": 22.567102432250977,
+      "learning_rate": 1.9458442204802787e-05,
+      "loss": 27.6736,
+      "step": 23221
+    },
+    {
+      "epoch": 12.05,
+      "eval_accuracy": 0.0028089887640449437,
+      "eval_loss": 7.8221635818481445,
+      "eval_runtime": 252.5003,
+      "eval_samples_per_second": 15.509,
+      "eval_steps_per_second": 7.754,
+      "step": 23221
+    },
+    {
+      "epoch": 13.049993001119821,
+      "grad_norm": 24.473997116088867,
+      "learning_rate": 1.6680664427025012e-05,
+      "loss": 27.3741,
+      "step": 25007
+    },
+    {
+      "epoch": 13.049993001119821,
+      "eval_accuracy": 0.003319713993871297,
+      "eval_loss": 7.8220720291137695,
+      "eval_runtime": 253.0179,
+      "eval_samples_per_second": 15.477,
+      "eval_steps_per_second": 7.739,
+      "step": 25007
+    },
+    {
+      "epoch": 13.049993001119821,
+      "step": 25007,
+      "total_flos": 2.5371184479755305e+20,
+      "train_loss": 29.25168140420682,
+      "train_runtime": 23631.6152,
+      "train_samples_per_second": 12.092,
+      "train_steps_per_second": 1.512
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 35720,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 9223372036854775807,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 5,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 5
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.5371184479755305e+20,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}