prune intermediate checkpoint-664 (optimizer state, not needed for inference)

Browse files

Files changed (7) hide show

checkpoint-664/config.json +0 -134
checkpoint-664/model.safetensors +0 -3
checkpoint-664/optimizer.pt +0 -3
checkpoint-664/rng_state.pth +0 -3
checkpoint-664/scheduler.pt +0 -3
checkpoint-664/trainer_state.json +0 -345
checkpoint-664/training_args.bin +0 -3

checkpoint-664/config.json DELETED Viewed

@@ -1,134 +0,0 @@
-{
-  "apply_layernorm": true,
-  "architectures": [
-    "Dinov2ForImageClassification"
-  ],
-  "attention_probs_dropout_prob": 0.0,
-  "drop_path_rate": 0.0,
-  "dtype": "float32",
-  "hidden_act": "gelu",
-  "hidden_dropout_prob": 0.0,
-  "hidden_size": 384,
-  "id2label": {
-    "0": "us_erdl",
-    "1": "us_m81_woodland",
-    "2": "us_dcu_chocolate_chip",
-    "3": "us_dcu_3color",
-    "4": "us_marpat_woodland",
-    "5": "us_marpat_desert",
-    "6": "us_ucp",
-    "7": "us_multicam",
-    "8": "us_ocp_scorpion",
-    "9": "us_aor1",
-    "10": "us_aor2",
-    "11": "us_tigerstripe",
-    "12": "uk_dpm_woodland",
-    "13": "uk_dpm_desert",
-    "14": "uk_mtp",
-    "15": "de_flecktarn",
-    "16": "de_tropentarn",
-    "17": "de_splittertarn",
-    "18": "ru_klmk",
-    "19": "ru_ttsko",
-    "20": "ru_vsr_93",
-    "21": "ru_emr_digital_flora",
-    "22": "ru_surpat",
-    "23": "ru_partizan",
-    "24": "ca_cadpat_tw",
-    "25": "ca_cadpat_ar",
-    "26": "fr_cce",
-    "27": "fr_daguet",
-    "28": "it_vegetata",
-    "29": "au_auscam",
-    "30": "au_amcu",
-    "31": "se_m90",
-    "32": "ch_taz_90",
-    "33": "no_m75",
-    "34": "cn_type07_universal",
-    "35": "cn_type07_desert",
-    "36": "kr_granite",
-    "37": "jp_jgsdf",
-    "38": "commercial_kryptek_mandrake",
-    "39": "commercial_atacs_au"
-  },
-  "image_size": 518,
-  "initializer_range": 0.02,
-  "label2id": {
-    "au_amcu": 30,
-    "au_auscam": 29,
-    "ca_cadpat_ar": 25,
-    "ca_cadpat_tw": 24,
-    "ch_taz_90": 32,
-    "cn_type07_desert": 35,
-    "cn_type07_universal": 34,
-    "commercial_atacs_au": 39,
-    "commercial_kryptek_mandrake": 38,
-    "de_flecktarn": 15,
-    "de_splittertarn": 17,
-    "de_tropentarn": 16,
-    "fr_cce": 26,
-    "fr_daguet": 27,
-    "it_vegetata": 28,
-    "jp_jgsdf": 37,
-    "kr_granite": 36,
-    "no_m75": 33,
-    "ru_emr_digital_flora": 21,
-    "ru_klmk": 18,
-    "ru_partizan": 23,
-    "ru_surpat": 22,
-    "ru_ttsko": 19,
-    "ru_vsr_93": 20,
-    "se_m90": 31,
-    "uk_dpm_desert": 13,
-    "uk_dpm_woodland": 12,
-    "uk_mtp": 14,
-    "us_aor1": 9,
-    "us_aor2": 10,
-    "us_dcu_3color": 3,
-    "us_dcu_chocolate_chip": 2,
-    "us_erdl": 0,
-    "us_m81_woodland": 1,
-    "us_marpat_desert": 5,
-    "us_marpat_woodland": 4,
-    "us_multicam": 7,
-    "us_ocp_scorpion": 8,
-    "us_tigerstripe": 11,
-    "us_ucp": 6
-  },
-  "layer_norm_eps": 1e-06,
-  "layerscale_value": 1.0,
-  "mlp_ratio": 4,
-  "model_type": "dinov2",
-  "num_attention_heads": 6,
-  "num_channels": 3,
-  "num_hidden_layers": 12,
-  "out_features": [
-    "stage12"
-  ],
-  "out_indices": [
-    12
-  ],
-  "patch_size": 14,
-  "problem_type": "single_label_classification",
-  "qkv_bias": true,
-  "reshape_hidden_states": true,
-  "stage_names": [
-    "stem",
-    "stage1",
-    "stage2",
-    "stage3",
-    "stage4",
-    "stage5",
-    "stage6",
-    "stage7",
-    "stage8",
-    "stage9",
-    "stage10",
-    "stage11",
-    "stage12"
-  ],
-  "transformers_version": "5.7.0",
-  "use_cache": false,
-  "use_mask_token": true,
-  "use_swiglu_ffn": false
-}

checkpoint-664/model.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:f031d15334bc1698fb596012bd81714f63fd681fd59d5449676adf48a646df9c
-size 88374736

checkpoint-664/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:d99fa38e87af5a5e19017039c16471f4028218b821accf34340609cfffa0cf3d
-size 176876939

checkpoint-664/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:b46fdb450f07235e10b0a3cbfc22c5b992fc3bc85e2c60f4f801ecd647891c56
-size 14455

checkpoint-664/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:8c0cbb77a8e8b419fe10a81523c74c9579f72bbd02dec4c9d361e0562468c717
-size 1465

checkpoint-664/trainer_state.json DELETED Viewed

@@ -1,345 +0,0 @@
-{
-  "best_global_step": 664,
-  "best_metric": 0.7370786516853932,
-  "best_model_checkpoint": "checkpoints/camonet/checkpoint-664",
-  "epoch": 8.0,
-  "eval_steps": 500,
-  "global_step": 664,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.24096385542168675,
-      "grad_norm": 111.35398864746094,
-      "learning_rate": 1.417910447761194e-05,
-      "loss": 4.043815612792969,
-      "step": 20
-    },
-    {
-      "epoch": 0.4819277108433735,
-      "grad_norm": 71.05435943603516,
-      "learning_rate": 2.91044776119403e-05,
-      "loss": 3.5163707733154297,
-      "step": 40
-    },
-    {
-      "epoch": 0.7228915662650602,
-      "grad_norm": 60.80617141723633,
-      "learning_rate": 4.402985074626866e-05,
-      "loss": 3.0165132522583007,
-      "step": 60
-    },
-    {
-      "epoch": 0.963855421686747,
-      "grad_norm": 64.55865478515625,
-      "learning_rate": 4.9950171333287335e-05,
-      "loss": 2.4458030700683593,
-      "step": 80
-    },
-    {
-      "epoch": 1.0,
-      "eval_loss": 2.536519765853882,
-      "eval_runtime": 6.8652,
-      "eval_samples_per_second": 64.82,
-      "eval_steps_per_second": 2.039,
-      "eval_top1": 0.3325842696629214,
-      "eval_top3": 0.5438202247191011,
-      "step": 83
-    },
-    {
-      "epoch": 1.2048192771084336,
-      "grad_norm": 60.52080535888672,
-      "learning_rate": 4.964638184169378e-05,
-      "loss": 2.153371238708496,
-      "step": 100
-    },
-    {
-      "epoch": 1.4457831325301205,
-      "grad_norm": 70.68125915527344,
-      "learning_rate": 4.906984324751821e-05,
-      "loss": 1.828770637512207,
-      "step": 120
-    },
-    {
-      "epoch": 1.6867469879518073,
-      "grad_norm": 60.982425689697266,
-      "learning_rate": 4.822693581319326e-05,
-      "loss": 1.7083017349243164,
-      "step": 140
-    },
-    {
-      "epoch": 1.927710843373494,
-      "grad_norm": 58.39655303955078,
-      "learning_rate": 4.712698757103414e-05,
-      "loss": 1.712203025817871,
-      "step": 160
-    },
-    {
-      "epoch": 2.0,
-      "eval_loss": 1.7305916547775269,
-      "eval_runtime": 7.5482,
-      "eval_samples_per_second": 58.954,
-      "eval_steps_per_second": 1.855,
-      "eval_top1": 0.5415730337078651,
-      "eval_top3": 0.7146067415730337,
-      "step": 166
-    },
-    {
-      "epoch": 2.1686746987951806,
-      "grad_norm": 60.08979415893555,
-      "learning_rate": 4.5782171094600005e-05,
-      "loss": 1.3887232780456542,
-      "step": 180
-    },
-    {
-      "epoch": 2.4096385542168672,
-      "grad_norm": 64.29576873779297,
-      "learning_rate": 4.420736879094927e-05,
-      "loss": 1.3437091827392578,
-      "step": 200
-    },
-    {
-      "epoch": 2.6506024096385543,
-      "grad_norm": 62.950355529785156,
-      "learning_rate": 4.242000820453141e-05,
-      "loss": 1.139847469329834,
-      "step": 220
-    },
-    {
-      "epoch": 2.891566265060241,
-      "grad_norm": 43.11043167114258,
-      "learning_rate": 4.043986915532434e-05,
-      "loss": 1.2316542625427247,
-      "step": 240
-    },
-    {
-      "epoch": 3.0,
-      "eval_loss": 1.4789479970932007,
-      "eval_runtime": 7.5421,
-      "eval_samples_per_second": 59.002,
-      "eval_steps_per_second": 1.856,
-      "eval_top1": 0.6269662921348315,
-      "eval_top3": 0.7842696629213484,
-      "step": 249
-    },
-    {
-      "epoch": 3.1325301204819276,
-      "grad_norm": 66.58777618408203,
-      "learning_rate": 3.828886484552254e-05,
-      "loss": 1.033012580871582,
-      "step": 260
-    },
-    {
-      "epoch": 3.3734939759036147,
-      "grad_norm": 53.87052536010742,
-      "learning_rate": 3.5990799357157864e-05,
-      "loss": 0.8578171730041504,
-      "step": 280
-    },
-    {
-      "epoch": 3.6144578313253013,
-      "grad_norm": 72.20587921142578,
-      "learning_rate": 3.357110422430506e-05,
-      "loss": 0.8009697914123535,
-      "step": 300
-    },
-    {
-      "epoch": 3.855421686746988,
-      "grad_norm": 47.637420654296875,
-      "learning_rate": 3.105655699509458e-05,
-      "loss": 0.8424944877624512,
-      "step": 320
-    },
-    {
-      "epoch": 4.0,
-      "eval_loss": 1.3673882484436035,
-      "eval_runtime": 8.6387,
-      "eval_samples_per_second": 51.512,
-      "eval_steps_per_second": 1.621,
-      "eval_top1": 0.6202247191011236,
-      "eval_top3": 0.8112359550561797,
-      "step": 332
-    },
-    {
-      "epoch": 4.096385542168675,
-      "grad_norm": 44.70951461791992,
-      "learning_rate": 2.8474984898065406e-05,
-      "loss": 0.7181183815002441,
-      "step": 340
-    },
-    {
-      "epoch": 4.337349397590361,
-      "grad_norm": 40.632354736328125,
-      "learning_rate": 2.5854956892233006e-05,
-      "loss": 0.6570661544799805,
-      "step": 360
-    },
-    {
-      "epoch": 4.578313253012048,
-      "grad_norm": 41.45029067993164,
-      "learning_rate": 2.32254675087996e-05,
-      "loss": 0.5137750148773194,
-      "step": 380
-    },
-    {
-      "epoch": 4.8192771084337345,
-      "grad_norm": 53.68215560913086,
-      "learning_rate": 2.061561598327112e-05,
-      "loss": 0.5405148029327392,
-      "step": 400
-    },
-    {
-      "epoch": 5.0,
-      "eval_loss": 1.1706817150115967,
-      "eval_runtime": 8.8354,
-      "eval_samples_per_second": 50.365,
-      "eval_steps_per_second": 1.585,
-      "eval_top1": 0.6831460674157304,
-      "eval_top3": 0.849438202247191,
-      "step": 415
-    },
-    {
-      "epoch": 5.0602409638554215,
-      "grad_norm": 75.12175750732422,
-      "learning_rate": 1.8054284228864366e-05,
-      "loss": 0.49901180267333983,
-      "step": 420
-    },
-    {
-      "epoch": 5.301204819277109,
-      "grad_norm": 18.631591796875,
-      "learning_rate": 1.55698172149106e-05,
-      "loss": 0.29165282249450686,
-      "step": 440
-    },
-    {
-      "epoch": 5.542168674698795,
-      "grad_norm": 10.731932640075684,
-      "learning_rate": 1.3189709287346813e-05,
-      "loss": 0.3043174982070923,
-      "step": 460
-    },
-    {
-      "epoch": 5.783132530120482,
-      "grad_norm": 47.11884689331055,
-      "learning_rate": 1.0940299902627938e-05,
-      "loss": 0.41364297866821287,
-      "step": 480
-    },
-    {
-      "epoch": 6.0,
-      "eval_loss": 1.1097288131713867,
-      "eval_runtime": 8.2234,
-      "eval_samples_per_second": 54.114,
-      "eval_steps_per_second": 1.702,
-      "eval_top1": 0.7258426966292135,
-      "eval_top3": 0.8674157303370786,
-      "step": 498
-    },
-    {
-      "epoch": 6.024096385542169,
-      "grad_norm": 20.367740631103516,
-      "learning_rate": 8.846482142219752e-06,
-      "loss": 0.34232077598571775,
-      "step": 500
-    },
-    {
-      "epoch": 6.265060240963855,
-      "grad_norm": 29.076051712036133,
-      "learning_rate": 6.931427233395696e-06,
-      "loss": 0.18118011951446533,
-      "step": 520
-    },
-    {
-      "epoch": 6.506024096385542,
-      "grad_norm": 21.859106063842773,
-      "learning_rate": 5.21632812492738e-06,
-      "loss": 0.204935622215271,
-      "step": 540
-    },
-    {
-      "epoch": 6.746987951807229,
-      "grad_norm": 24.722841262817383,
-      "learning_rate": 3.7201649553876366e-06,
-      "loss": 0.21130716800689697,
-      "step": 560
-    },
-    {
-      "epoch": 6.9879518072289155,
-      "grad_norm": 27.248981475830078,
-      "learning_rate": 2.4594950095101513e-06,
-      "loss": 0.2202404260635376,
-      "step": 580
-    },
-    {
-      "epoch": 7.0,
-      "eval_loss": 1.105672001838684,
-      "eval_runtime": 8.1718,
-      "eval_samples_per_second": 54.455,
-      "eval_steps_per_second": 1.713,
-      "eval_top1": 0.7325842696629213,
-      "eval_top3": 0.8741573033707866,
-      "step": 581
-    },
-    {
-      "epoch": 7.228915662650603,
-      "grad_norm": 4.657148838043213,
-      "learning_rate": 1.4482694870531195e-06,
-      "loss": 0.11784229278564454,
-      "step": 600
-    },
-    {
-      "epoch": 7.469879518072289,
-      "grad_norm": 33.46561813354492,
-      "learning_rate": 6.976791118935761e-07,
-      "loss": 0.11900093555450439,
-      "step": 620
-    },
-    {
-      "epoch": 7.710843373493976,
-      "grad_norm": 28.289289474487305,
-      "learning_rate": 2.1603028991885321e-07,
-      "loss": 0.15290510654449463,
-      "step": 640
-    },
-    {
-      "epoch": 7.951807228915663,
-      "grad_norm": 22.30632972717285,
-      "learning_rate": 8.653186213511411e-09,
-      "loss": 0.14717140197753906,
-      "step": 660
-    },
-    {
-      "epoch": 8.0,
-      "eval_loss": 1.0861974954605103,
-      "eval_runtime": 27.6175,
-      "eval_samples_per_second": 16.113,
-      "eval_steps_per_second": 0.507,
-      "eval_top1": 0.7370786516853932,
-      "eval_top3": 0.8651685393258427,
-      "step": 664
-    }
-  ],
-  "logging_steps": 20,
-  "max_steps": 664,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 8,
-  "save_steps": 500,
-  "stateful_callbacks": {
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": true
-      },
-      "attributes": {}
-    }
-  },
-  "total_flos": 5.4924533903130624e+17,
-  "train_batch_size": 32,
-  "trial_name": null,
-  "trial_params": null
-}

checkpoint-664/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:6afabf8f636fefd143058269d2e6c5383477744d5a9e8c2dc666c57c59670119
-size 5265