Upload folder using huggingface_hub

Browse files

Files changed (12) hide show

README.md +82 -0
all_results.json +13 -0
config.json +236 -0
eval_results.json +8 -0
model.safetensors +3 -0
pred_logit_eval.npy +3 -0
pred_logit_train.npy +3 -0
preprocessor_config.json +42 -0
test_results.json +8 -0
train_results.json +7 -0
trainer_state.json +245 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,82 @@

+---
+license: cc-by-nc-4.0
+base_model: MCG-NJU/videomae-large
+tags:
+- video-classification
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: ucf101_42
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# ucf101_42
+This model is a fine-tuned version of [MCG-NJU/videomae-large](https://huggingface.co/MCG-NJU/videomae-large) on the ucf101 dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.3185
+- Accuracy: 0.9345
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 4
+- eval_batch_size: 32
+- seed: 42
+- gradient_accumulation_steps: 8
+- total_train_batch_size: 32
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 20
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Accuracy |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|
+| No log        | 1.0   | 298  | 0.5806          | 0.8423   |
+| No log        | 2.0   | 596  | 0.5192          | 0.8653   |
+| No log        | 3.0   | 894  | 0.4903          | 0.8814   |
+| 0.5923        | 4.0   | 1192 | 0.4623          | 0.8901   |
+| 0.5923        | 5.0   | 1490 | 0.3949          | 0.9005   |
+| 0.5923        | 6.0   | 1788 | 0.4748          | 0.8844   |
+| 0.0581        | 7.0   | 2086 | 0.4877          | 0.8820   |
+| 0.0581        | 8.0   | 2385 | 0.3976          | 0.9131   |
+| 0.0581        | 9.0   | 2683 | 0.3824          | 0.9116   |
+| 0.0581        | 10.0  | 2981 | 0.3553          | 0.9171   |
+| 0.0221        | 11.0  | 3279 | 0.3557          | 0.9229   |
+| 0.0221        | 12.0  | 3577 | 0.3619          | 0.9258   |
+| 0.0221        | 13.0  | 3875 | 0.3941          | 0.9214   |
+| 0.0112        | 14.0  | 4173 | 0.3989          | 0.9145   |
+| 0.0112        | 15.0  | 4471 | 0.3635          | 0.9236   |
+| 0.0112        | 16.0  | 4770 | 0.3418          | 0.9285   |
+| 0.005         | 17.0  | 5068 | 0.3374          | 0.9261   |
+| 0.005         | 18.0  | 5366 | 0.3340          | 0.9333   |
+| 0.005         | 19.0  | 5664 | 0.3294          | 0.9338   |
+| 0.005         | 19.99 | 5960 | 0.3185          | 0.9345   |
+### Framework versions
+- Transformers 4.39.3
+- Pytorch 2.2.2+cu118
+- Datasets 2.18.0
+- Tokenizers 0.15.2

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 19.99,
+    "eval_accuracy": 0.9345116279069767,
+    "eval_loss": 0.3185047507286072,
+    "eval_runtime": 1108.1051,
+    "eval_samples_per_second": 3.414,
+    "eval_steps_per_second": 0.107,
+    "train_accuracy": 0.9997902904477299,
+    "train_loss": 0.0,
+    "train_runtime": 64.1643,
+    "train_samples_per_second": 743.17,
+    "train_steps_per_second": 23.222
+}

config.json ADDED Viewed

	@@ -0,0 +1,236 @@

+{
+  "_name_or_path": "MCG-NJU/videomae-large",
+  "architectures": [
+    "VideoMAEForVideoClassification"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "decoder_hidden_size": 512,
+  "decoder_intermediate_size": 2048,
+  "decoder_num_attention_heads": 8,
+  "decoder_num_hidden_layers": 12,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "ApplyEyeMakeup",
+    "1": "ApplyLipstick",
+    "2": "Archery",
+    "3": "BabyCrawling",
+    "4": "BalanceBeam",
+    "5": "BandMarching",
+    "6": "BaseballPitch",
+    "7": "Basketball",
+    "8": "BasketballDunk",
+    "9": "BenchPress",
+    "10": "Biking",
+    "11": "Billiards",
+    "12": "BlowDryHair",
+    "13": "BlowingCandles",
+    "14": "BodyWeightSquats",
+    "15": "Bowling",
+    "16": "BoxingPunchingBag",
+    "17": "BoxingSpeedBag",
+    "18": "BreastStroke",
+    "19": "BrushingTeeth",
+    "20": "CleanAndJerk",
+    "21": "CliffDiving",
+    "22": "CricketBowling",
+    "23": "CricketShot",
+    "24": "CuttingInKitchen",
+    "25": "Diving",
+    "26": "Drumming",
+    "27": "Fencing",
+    "28": "FieldHockeyPenalty",
+    "29": "FloorGymnastics",
+    "30": "FrisbeeCatch",
+    "31": "FrontCrawl",
+    "32": "GolfSwing",
+    "33": "Haircut",
+    "34": "Hammering",
+    "35": "HammerThrow",
+    "36": "HandstandPushups",
+    "37": "HandstandWalking",
+    "38": "HeadMassage",
+    "39": "HighJump",
+    "40": "HorseRace",
+    "41": "HorseRiding",
+    "42": "HulaHoop",
+    "43": "IceDancing",
+    "44": "JavelinThrow",
+    "45": "JugglingBalls",
+    "46": "JumpingJack",
+    "47": "JumpRope",
+    "48": "Kayaking",
+    "49": "Knitting",
+    "50": "LongJump",
+    "51": "Lunges",
+    "52": "MilitaryParade",
+    "53": "Mixing",
+    "54": "MoppingFloor",
+    "55": "Nunchucks",
+    "56": "ParallelBars",
+    "57": "PizzaTossing",
+    "58": "PlayingCello",
+    "59": "PlayingDaf",
+    "60": "PlayingDhol",
+    "61": "PlayingFlute",
+    "62": "PlayingGuitar",
+    "63": "PlayingPiano",
+    "64": "PlayingSitar",
+    "65": "PlayingTabla",
+    "66": "PlayingViolin",
+    "67": "PoleVault",
+    "68": "PommelHorse",
+    "69": "PullUps",
+    "70": "Punch",
+    "71": "PushUps",
+    "72": "Rafting",
+    "73": "RockClimbingIndoor",
+    "74": "RopeClimbing",
+    "75": "Rowing",
+    "76": "SalsaSpin",
+    "77": "ShavingBeard",
+    "78": "Shotput",
+    "79": "SkateBoarding",
+    "80": "Skiing",
+    "81": "Skijet",
+    "82": "SkyDiving",
+    "83": "SoccerJuggling",
+    "84": "SoccerPenalty",
+    "85": "StillRings",
+    "86": "SumoWrestling",
+    "87": "Surfing",
+    "88": "Swing",
+    "89": "TableTennisShot",
+    "90": "TaiChi",
+    "91": "TennisSwing",
+    "92": "ThrowDiscus",
+    "93": "TrampolineJumping",
+    "94": "Typing",
+    "95": "UnevenBars",
+    "96": "VolleyballSpiking",
+    "97": "WalkingWithDog",
+    "98": "WallPushups",
+    "99": "WritingOnBoard",
+    "100": "YoYo"
+  },
+  "image_size": 224,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "ApplyEyeMakeup": 0,
+    "ApplyLipstick": 1,
+    "Archery": 2,
+    "BabyCrawling": 3,
+    "BalanceBeam": 4,
+    "BandMarching": 5,
+    "BaseballPitch": 6,
+    "Basketball": 7,
+    "BasketballDunk": 8,
+    "BenchPress": 9,
+    "Biking": 10,
+    "Billiards": 11,
+    "BlowDryHair": 12,
+    "BlowingCandles": 13,
+    "BodyWeightSquats": 14,
+    "Bowling": 15,
+    "BoxingPunchingBag": 16,
+    "BoxingSpeedBag": 17,
+    "BreastStroke": 18,
+    "BrushingTeeth": 19,
+    "CleanAndJerk": 20,
+    "CliffDiving": 21,
+    "CricketBowling": 22,
+    "CricketShot": 23,
+    "CuttingInKitchen": 24,
+    "Diving": 25,
+    "Drumming": 26,
+    "Fencing": 27,
+    "FieldHockeyPenalty": 28,
+    "FloorGymnastics": 29,
+    "FrisbeeCatch": 30,
+    "FrontCrawl": 31,
+    "GolfSwing": 32,
+    "Haircut": 33,
+    "HammerThrow": 35,
+    "Hammering": 34,
+    "HandstandPushups": 36,
+    "HandstandWalking": 37,
+    "HeadMassage": 38,
+    "HighJump": 39,
+    "HorseRace": 40,
+    "HorseRiding": 41,
+    "HulaHoop": 42,
+    "IceDancing": 43,
+    "JavelinThrow": 44,
+    "JugglingBalls": 45,
+    "JumpRope": 47,
+    "JumpingJack": 46,
+    "Kayaking": 48,
+    "Knitting": 49,
+    "LongJump": 50,
+    "Lunges": 51,
+    "MilitaryParade": 52,
+    "Mixing": 53,
+    "MoppingFloor": 54,
+    "Nunchucks": 55,
+    "ParallelBars": 56,
+    "PizzaTossing": 57,
+    "PlayingCello": 58,
+    "PlayingDaf": 59,
+    "PlayingDhol": 60,
+    "PlayingFlute": 61,
+    "PlayingGuitar": 62,
+    "PlayingPiano": 63,
+    "PlayingSitar": 64,
+    "PlayingTabla": 65,
+    "PlayingViolin": 66,
+    "PoleVault": 67,
+    "PommelHorse": 68,
+    "PullUps": 69,
+    "Punch": 70,
+    "PushUps": 71,
+    "Rafting": 72,
+    "RockClimbingIndoor": 73,
+    "RopeClimbing": 74,
+    "Rowing": 75,
+    "SalsaSpin": 76,
+    "ShavingBeard": 77,
+    "Shotput": 78,
+    "SkateBoarding": 79,
+    "Skiing": 80,
+    "Skijet": 81,
+    "SkyDiving": 82,
+    "SoccerJuggling": 83,
+    "SoccerPenalty": 84,
+    "StillRings": 85,
+    "SumoWrestling": 86,
+    "Surfing": 87,
+    "Swing": 88,
+    "TableTennisShot": 89,
+    "TaiChi": 90,
+    "TennisSwing": 91,
+    "ThrowDiscus": 92,
+    "TrampolineJumping": 93,
+    "Typing": 94,
+    "UnevenBars": 95,
+    "VolleyballSpiking": 96,
+    "WalkingWithDog": 97,
+    "WallPushups": 98,
+    "WritingOnBoard": 99,
+    "YoYo": 100
+  },
+  "layer_norm_eps": 1e-12,
+  "model_type": "videomae",
+  "norm_pix_loss": true,
+  "num_attention_heads": 16,
+  "num_channels": 3,
+  "num_frames": 16,
+  "num_hidden_layers": 24,
+  "patch_size": 16,
+  "qkv_bias": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.39.3",
+  "tubelet_size": 2,
+  "use_mean_pooling": false
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 19.99,
+    "eval_accuracy": 0.9345116279069767,
+    "eval_loss": 0.3185047507286072,
+    "eval_runtime": 1108.1051,
+    "eval_samples_per_second": 3.414,
+    "eval_steps_per_second": 0.107
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:21b20ff82edd13b0f0d503182adf86dc0dc9b77e12ea9656960469f818bd93ae
+size 1215902164

pred_logit_eval.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:36c98fe8aaf86136b0061b4d9f89aea2b3d81502ae1574992eb97a670aec73fa
+size 4343128

pred_logit_train.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2745ba8dc0667853d5ac96c8cea5bd0dc24b3105029c1c6b064b21d0990cff1a
+size 3853076

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "_valid_processor_keys": [
+    "videos",
+    "do_resize",
+    "size",
+    "resample",
+    "do_center_crop",
+    "crop_size",
+    "do_rescale",
+    "rescale_factor",
+    "do_normalize",
+    "image_mean",
+    "image_std",
+    "return_tensors",
+    "data_format",
+    "input_data_format"
+  ],
+  "crop_size": {
+    "height": 224,
+    "width": 224
+  },
+  "do_center_crop": true,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.485,
+    0.456,
+    0.406
+  ],
+  "image_processor_type": "VideoMAEImageProcessor",
+  "image_std": [
+    0.229,
+    0.224,
+    0.225
+  ],
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "shortest_edge": 224
+  }
+}

test_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 19.99,
+    "eval_accuracy": 0.9345116279069767,
+    "eval_loss": 0.3185047507286072,
+    "eval_runtime": 1108.1051,
+    "eval_samples_per_second": 3.414,
+    "eval_steps_per_second": 0.107
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 19.99,
+    "train_loss": 0.0,
+    "train_runtime": 64.1643,
+    "train_samples_per_second": 743.17,
+    "train_steps_per_second": 23.222
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,245 @@

+{
+  "best_metric": 0.9345116279069767,
+  "best_model_checkpoint": "video/train/checkpoint/videomae-large/ucf101_42/checkpoint-5960",
+  "epoch": 19.9916142557652,
+  "eval_steps": 500,
+  "global_step": 5960,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8423255813953489,
+      "eval_loss": 0.5805811285972595,
+      "eval_runtime": 1087.3833,
+      "eval_samples_per_second": 3.479,
+      "eval_steps_per_second": 0.109,
+      "step": 298
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8653023255813953,
+      "eval_loss": 0.5191652178764343,
+      "eval_runtime": 1079.1551,
+      "eval_samples_per_second": 3.506,
+      "eval_steps_per_second": 0.11,
+      "step": 596
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8813953488372093,
+      "eval_loss": 0.4902515411376953,
+      "eval_runtime": 1081.8928,
+      "eval_samples_per_second": 3.497,
+      "eval_steps_per_second": 0.11,
+      "step": 894
+    },
+    {
+      "epoch": 3.35,
+      "grad_norm": 9.042092323303223,
+      "learning_rate": 4.161073825503356e-05,
+      "loss": 0.5923,
+      "step": 1000
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.8901395348837209,
+      "eval_loss": 0.4622752368450165,
+      "eval_runtime": 1075.9895,
+      "eval_samples_per_second": 3.516,
+      "eval_steps_per_second": 0.111,
+      "step": 1192
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.9004651162790698,
+      "eval_loss": 0.3949489891529083,
+      "eval_runtime": 1078.4827,
+      "eval_samples_per_second": 3.508,
+      "eval_steps_per_second": 0.11,
+      "step": 1490
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.8843720930232558,
+      "eval_loss": 0.47477614879608154,
+      "eval_runtime": 1079.6204,
+      "eval_samples_per_second": 3.504,
+      "eval_steps_per_second": 0.11,
+      "step": 1788
+    },
+    {
+      "epoch": 6.71,
+      "grad_norm": 0.13601620495319366,
+      "learning_rate": 3.3221476510067115e-05,
+      "loss": 0.0581,
+      "step": 2000
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.881953488372093,
+      "eval_loss": 0.4876798987388611,
+      "eval_runtime": 1084.206,
+      "eval_samples_per_second": 3.489,
+      "eval_steps_per_second": 0.11,
+      "step": 2086
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.9131162790697674,
+      "eval_loss": 0.3975999355316162,
+      "eval_runtime": 1079.1296,
+      "eval_samples_per_second": 3.506,
+      "eval_steps_per_second": 0.11,
+      "step": 2385
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.9116279069767442,
+      "eval_loss": 0.38238757848739624,
+      "eval_runtime": 1081.1712,
+      "eval_samples_per_second": 3.499,
+      "eval_steps_per_second": 0.11,
+      "step": 2683
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.9171162790697674,
+      "eval_loss": 0.355253130197525,
+      "eval_runtime": 1079.15,
+      "eval_samples_per_second": 3.506,
+      "eval_steps_per_second": 0.11,
+      "step": 2981
+    },
+    {
+      "epoch": 10.06,
+      "grad_norm": 0.021823862567543983,
+      "learning_rate": 2.4832214765100674e-05,
+      "loss": 0.0221,
+      "step": 3000
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.9228837209302325,
+      "eval_loss": 0.3557371497154236,
+      "eval_runtime": 1075.3717,
+      "eval_samples_per_second": 3.518,
+      "eval_steps_per_second": 0.111,
+      "step": 3279
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.9257674418604651,
+      "eval_loss": 0.3618585467338562,
+      "eval_runtime": 1080.9763,
+      "eval_samples_per_second": 3.5,
+      "eval_steps_per_second": 0.11,
+      "step": 3577
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.9213953488372093,
+      "eval_loss": 0.39410680532455444,
+      "eval_runtime": 1078.0403,
+      "eval_samples_per_second": 3.509,
+      "eval_steps_per_second": 0.11,
+      "step": 3875
+    },
+    {
+      "epoch": 13.42,
+      "grad_norm": 0.0037381162401288748,
+      "learning_rate": 1.644295302013423e-05,
+      "loss": 0.0112,
+      "step": 4000
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.9145116279069767,
+      "eval_loss": 0.3988926410675049,
+      "eval_runtime": 1081.4143,
+      "eval_samples_per_second": 3.498,
+      "eval_steps_per_second": 0.11,
+      "step": 4173
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.9236279069767442,
+      "eval_loss": 0.36351171135902405,
+      "eval_runtime": 1085.0693,
+      "eval_samples_per_second": 3.486,
+      "eval_steps_per_second": 0.11,
+      "step": 4471
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.9284651162790698,
+      "eval_loss": 0.34182119369506836,
+      "eval_runtime": 1075.078,
+      "eval_samples_per_second": 3.519,
+      "eval_steps_per_second": 0.111,
+      "step": 4770
+    },
+    {
+      "epoch": 16.77,
+      "grad_norm": 0.004534624051302671,
+      "learning_rate": 8.053691275167785e-06,
+      "loss": 0.005,
+      "step": 5000
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.9261395348837209,
+      "eval_loss": 0.3373846411705017,
+      "eval_runtime": 1074.5018,
+      "eval_samples_per_second": 3.521,
+      "eval_steps_per_second": 0.111,
+      "step": 5068
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.9333023255813954,
+      "eval_loss": 0.33403050899505615,
+      "eval_runtime": 1082.5365,
+      "eval_samples_per_second": 3.495,
+      "eval_steps_per_second": 0.11,
+      "step": 5366
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.9337674418604651,
+      "eval_loss": 0.32944682240486145,
+      "eval_runtime": 1080.8892,
+      "eval_samples_per_second": 3.5,
+      "eval_steps_per_second": 0.11,
+      "step": 5664
+    },
+    {
+      "epoch": 19.99,
+      "eval_accuracy": 0.9345116279069767,
+      "eval_loss": 0.3185047507286072,
+      "eval_runtime": 1083.1042,
+      "eval_samples_per_second": 3.493,
+      "eval_steps_per_second": 0.11,
+      "step": 5960
+    },
+    {
+      "epoch": 19.99,
+      "step": 5960,
+      "total_flos": 8.374858354430428e+20,
+      "train_loss": 0.0,
+      "train_runtime": 64.1643,
+      "train_samples_per_second": 743.17,
+      "train_steps_per_second": 23.222
+    }
+  ],
+  "logging_steps": 1000,
+  "max_steps": 1490,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "total_flos": 8.374858354430428e+20,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c2e56b3d3ec8ae18fd638f50986a71dae32fbc06de0e5e89b97cdaefa3f8339e
+size 5048