LaughingLogits
/

AP-MAE-SC2-3B

Model card Files Files and versions

LaughingLogits commited on Jan 30, 2025

Commit

9895e62

·

verified ·

1 Parent(s): 7111c15

Upload APMAE

Files changed (2) hide show

config.json +36 -1
model.safetensors +1 -1

config.json CHANGED Viewed

@@ -1,12 +1,23 @@
 {
   "architectures": [
     "APMAE"
   ],
   "decoder_dim": 512,
   "decoder_dim_head": 64,
   "decoder_heads": 8,
   "decoder_layers": 8,
   "decoder_mlp_dim": 2048,
   "encoder_dim": 512,
   "encoder_dim_head": 64,
   "encoder_dropout": 0.0,
@@ -15,13 +26,37 @@
   "encoder_layers": 24,
   "encoder_mlp_dim": 2048,
   "encoder_pool": "cls",
   "hidden_act": "gelu",
   "layer_norm_eps": 1e-12,
   "mask_ratio": 0.5,
   "max_length": 256,
   "model_type": "ap_mae",
   "patch_size": 32,
   "qkv_bias": false,
   "torch_dtype": "float32",
-  "transformers_version": "4.42.4"
 }

 {
+  "_name_or_path": "AISE-TUDelft/ViTFT_256t_3bsc2_20240725",
   "architectures": [
     "APMAE"
   ],
+  "attention_scaler": "log_normalize",
+  "base_learning_rate": 0.00015,
+  "batch_size": 60,
+  "correct_only": true,
+  "dataset_location": "LaughingLogits/Stackless_Java_V2",
+  "dataset_name": "JavaNearDedupFull",
+  "dataset_split": "train",
+  "dataset_split_seed": 42,
+  "decoder_device": "cuda:0",
   "decoder_dim": 512,
   "decoder_dim_head": 64,
   "decoder_heads": 8,
   "decoder_layers": 8,
   "decoder_mlp_dim": 2048,
+  "encoder_device": "cuda:0",
   "encoder_dim": 512,
   "encoder_dim_head": 64,
   "encoder_dropout": 0.0,
   "encoder_layers": 24,
   "encoder_mlp_dim": 2048,
   "encoder_pool": "cls",
+  "head_selection_strategy": [
+    "layerwise",
+    0.25
+  ],
+  "hf_datasets_cache": "./huggingface/datasets",
+  "hf_home": "./huggingface",
+  "hf_transformers_cache": "./huggingface/models",
   "hidden_act": "gelu",
+  "initial_seed": 45,
+  "iter_loader_workers": 8,
+  "lang": "java",
   "layer_norm_eps": 1e-12,
   "mask_ratio": 0.5,
+  "max_epochs": 1,
   "max_length": 256,
+  "min_length": 256,
   "model_type": "ap_mae",
+  "num_channels": 1,
+  "num_classes": 2,
   "patch_size": 32,
   "qkv_bias": false,
+  "queries": [
+    "random"
+  ],
+  "save_model_frequency": 15000,
+  "target_model_device": "cuda:0",
+  "target_model_name": "bigcode/starcoder2-3b",
   "torch_dtype": "float32",
+  "train_batches": 150000,
+  "transformers_version": "4.48.1",
+  "val_batches": 120,
+  "visualize_frequency": 2000,
+  "vitmae_preload_name": null
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1b115bf013e6ccb0ecafd5bcfe4edd7df10d87c3c25897d9951dd113ed5a018
 size 508504960

 version https://git-lfs.github.com/spec/v1
+oid sha256:bacd20bb38580bda9601d8c0d38e16f996868f40edea112a56488747ce4f40fa
 size 508504960