Upload MQ-Auditor HyperLoRA weights

Browse files

Files changed (11) hide show

README.md +95 -0
adapter_config.json +34 -0
adapter_model.safetensors +3 -0
checkpoint-960/config.json +29 -0
checkpoint-960/finetune_weights.bin +3 -0
config.json +29 -0
model.txt +371 -0
model_trainable_params.txt +612 -0
non_lora_trainables.bin +3 -0
saved_config.json +207 -0
trainer_state.json +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,95 @@

+---
+base_model: meta-llama/Llama-2-7b-chat-hf
+library_name: peft
+license: cc-by-nc-sa-4.0
+tags:
+- audio
+- video
+- segmentation
+- mask-quality-assessment
+- audio-visual-segmentation
+- lora
+---
+# MQ-Auditor HyperLoRA Weights
+This repository contains the released MQ-Auditor pretrained weights for reference-free mask quality assessment in language-referred audio-visual segmentation.
+The checkpoint corresponds to:
+```text
+epochs96_lr1e-4_bs4_gradacc8_lora_r32alpha64_pos0.5_ioulosswei0
+```
+## Model
+MQ-Auditor takes a video clip, audio, a referring expression, a frame, and a candidate segmentation mask, then predicts mask quality attributes such as mask type, IoU, and recommended action.
+The released weights are intended to be used with the MQ-Auditor codebase and MQ-RAVSBench dataset. The base LLM checkpoint and external encoders are not included in this package.
+## Release Contents
+The public weight package should include:
+```text
+adapter_config.json
+adapter_model.safetensors
+config.json
+model.txt
+model_trainable_params.txt
+non_lora_trainables.bin
+saved_config.json
+trainer_state.json
+checkpoint-960/
+  config.json
+  finetune_weights.bin
+  test_*/*.json
+  test_*/*.jsonl
+```
+Intermediate epoch checkpoints and TensorBoard logs are not part of the release package.
+## Training Data
+The model was trained on MQ-RAVSBench with:
+```text
+train_test_meta_files/metadata.csv
+train_test_meta_files/train_audit_only_filtered.json
+```
+`null` masks are used during training as empty-mask examples. They are not part of the default/reported test-time evaluation protocol.
+## Evaluation
+Evaluation is reported on the seen and unseen MQ-RAVSBench test splits:
+```text
+test_s_image_filtered.json
+test_u_image_filtered.json
+test_s_video_filtered.json
+test_u_video_filtered.json
+```
+Reported mask types focus on non-empty candidate masks: `perfect`, `cutout`, `erode`, `dilate`, `merge`, and `full_neg`.
+## License
+The released MQ-Auditor weights are provided for non-commercial research purposes only under CC BY-NC-SA 4.0-style terms. The weights depend on the Llama-2 base model and other pretrained encoders, so users must also comply with the applicable upstream model licenses and access terms.
+## Citation
+```bibtex
+@article{zhou2026audit,
+  title={Audit After Segmentation: Reference-Free Mask Quality Assessment for Language-Referred Audio-Visual Segmentation},
+  author={Zhou, Jinxing and Zhou, Yanghao and Wang, Yaoting and Han, Zongyan and Ma, Jiaqi and Ding, Henghui and Anwer, Rao Muhammad and Cholakkal, Hisham},
+  journal={arXiv preprint arXiv:2602.03892},
+  year={2026}
+}
+```
+Paper: https://arxiv.org/pdf/2602.03892
+## Framework Versions
+- PEFT 0.12.0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "/home/panwen.hu/workspace1/jinxing.zhou/mllm/Crab/pretrained_weights/Llama-2-7b-chat-hf",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 64,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 32,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "k_proj",
+    "up_proj",
+    "o_proj",
+    "v_proj",
+    "gate_proj",
+    "q_proj",
+    "down_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f754e5602c5284c124158d1e65cc17df71bc5fb8f9bc69517af2ee49031d3298
+size 159968328

checkpoint-960/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "_name_or_path": "/home/panwen.hu/workspace1/jinxing.zhou/mllm/Crab/pretrained_weights/Llama-2-7b-chat-hf",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "iou_loss_weight": 0.0,
+  "max_position_embeddings": 4096,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 32,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float16",
+  "transformers_version": "4.37.2",
+  "use_cache": false,
+  "vocab_size": 32028
+}

checkpoint-960/finetune_weights.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bb8ea89cdc150b55e5734e1a5c607891c2ad8af9eb8750d92a7b4691c7d6f3ca
+size 452770739

config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "_name_or_path": "/home/panwen.hu/workspace1/jinxing.zhou/mllm/Crab/pretrained_weights/Llama-2-7b-chat-hf",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "iou_loss_weight": 0.0,
+  "max_position_embeddings": 4096,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 32,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float16",
+  "transformers_version": "4.37.2",
+  "use_cache": true,
+  "vocab_size": 32028
+}

model.txt ADDED Viewed

	@@ -0,0 +1,371 @@

+PeftModelForCausalLM(
+  (base_model): LoraModel(
+    (model): UnifiedForCausalLM(
+      (model): UnifiedModel(
+        (embed_tokens): Embedding(32028, 4096)
+        (layers): ModuleList(
+          (0-31): 32 x LlamaDecoderLayer(
+            (self_attn): LlamaAttention(
+              (q_proj): lora.Linear(
+                (base_layer): Linear(in_features=4096, out_features=4096, bias=False)
+                (lora_dropout): ModuleDict(
+                  (default): Dropout(p=0.05, inplace=False)
+                )
+                (lora_A): ModuleDict(
+                  (default): Linear(in_features=4096, out_features=32, bias=False)
+                )
+                (lora_B): ModuleDict(
+                  (default): Linear(in_features=32, out_features=4096, bias=False)
+                )
+                (lora_embedding_A): ParameterDict()
+                (lora_embedding_B): ParameterDict()
+                (lora_magnitude_vector): ModuleDict()
+              )
+              (k_proj): lora.Linear(
+                (base_layer): Linear(in_features=4096, out_features=4096, bias=False)
+                (lora_dropout): ModuleDict(
+                  (default): Dropout(p=0.05, inplace=False)
+                )
+                (lora_A): ModuleDict(
+                  (default): Linear(in_features=4096, out_features=32, bias=False)
+                )
+                (lora_B): ModuleDict(
+                  (default): Linear(in_features=32, out_features=4096, bias=False)
+                )
+                (lora_embedding_A): ParameterDict()
+                (lora_embedding_B): ParameterDict()
+                (lora_magnitude_vector): ModuleDict()
+              )
+              (v_proj): lora.Linear(
+                (base_layer): Linear(in_features=4096, out_features=4096, bias=False)
+                (lora_dropout): ModuleDict(
+                  (default): Dropout(p=0.05, inplace=False)
+                )
+                (lora_A): ModuleDict(
+                  (default): Linear(in_features=4096, out_features=32, bias=False)
+                )
+                (lora_B): ModuleDict(
+                  (default): Linear(in_features=32, out_features=4096, bias=False)
+                )
+                (lora_embedding_A): ParameterDict()
+                (lora_embedding_B): ParameterDict()
+                (lora_magnitude_vector): ModuleDict()
+              )
+              (o_proj): lora.Linear(
+                (base_layer): Linear(in_features=4096, out_features=4096, bias=False)
+                (lora_dropout): ModuleDict(
+                  (default): Dropout(p=0.05, inplace=False)
+                )
+                (lora_A): ModuleDict(
+                  (default): Linear(in_features=4096, out_features=32, bias=False)
+                )
+                (lora_B): ModuleDict(
+                  (default): Linear(in_features=32, out_features=4096, bias=False)
+                )
+                (lora_embedding_A): ParameterDict()
+                (lora_embedding_B): ParameterDict()
+                (lora_magnitude_vector): ModuleDict()
+              )
+              (rotary_emb): LlamaRotaryEmbedding()
+            )
+            (mlp): LlamaMLP(
+              (gate_proj): lora.Linear(
+                (base_layer): Linear(in_features=4096, out_features=11008, bias=False)
+                (lora_dropout): ModuleDict(
+                  (default): Dropout(p=0.05, inplace=False)
+                )
+                (lora_A): ModuleDict(
+                  (default): Linear(in_features=4096, out_features=32, bias=False)
+                )
+                (lora_B): ModuleDict(
+                  (default): Linear(in_features=32, out_features=11008, bias=False)
+                )
+                (lora_embedding_A): ParameterDict()
+                (lora_embedding_B): ParameterDict()
+                (lora_magnitude_vector): ModuleDict()
+              )
+              (up_proj): lora.Linear(
+                (base_layer): Linear(in_features=4096, out_features=11008, bias=False)
+                (lora_dropout): ModuleDict(
+                  (default): Dropout(p=0.05, inplace=False)
+                )
+                (lora_A): ModuleDict(
+                  (default): Linear(in_features=4096, out_features=32, bias=False)
+                )
+                (lora_B): ModuleDict(
+                  (default): Linear(in_features=32, out_features=11008, bias=False)
+                )
+                (lora_embedding_A): ParameterDict()
+                (lora_embedding_B): ParameterDict()
+                (lora_magnitude_vector): ModuleDict()
+              )
+              (down_proj): lora.Linear(
+                (base_layer): Linear(in_features=11008, out_features=4096, bias=False)
+                (lora_dropout): ModuleDict(
+                  (default): Dropout(p=0.05, inplace=False)
+                )
+                (lora_A): ModuleDict(
+                  (default): Linear(in_features=11008, out_features=32, bias=False)
+                )
+                (lora_B): ModuleDict(
+                  (default): Linear(in_features=32, out_features=4096, bias=False)
+                )
+                (lora_embedding_A): ParameterDict()
+                (lora_embedding_B): ParameterDict()
+                (lora_magnitude_vector): ModuleDict()
+              )
+              (act_fn): SiLU()
+            )
+            (input_layernorm): LlamaRMSNorm()
+            (post_attention_layernorm): LlamaRMSNorm()
+          )
+        )
+        (norm): LlamaRMSNorm()
+        (visual_encoder): VisualEncoder(
+          (vision_tower): CLIPVisionModel(
+            (vision_model): CLIPVisionTransformer(
+              (embeddings): CLIPVisionEmbeddings(
+                (patch_embedding): Conv2d(3, 1024, kernel_size=(14, 14), stride=(14, 14), bias=False)
+                (position_embedding): Embedding(257, 1024)
+              )
+              (pre_layrnorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
+              (encoder): CLIPEncoder(
+                (layers): ModuleList(
+                  (0-23): 24 x CLIPEncoderLayer(
+                    (self_attn): CLIPAttention(
+                      (k_proj): Linear(in_features=1024, out_features=1024, bias=True)
+                      (v_proj): Linear(in_features=1024, out_features=1024, bias=True)
+                      (q_proj): Linear(in_features=1024, out_features=1024, bias=True)
+                      (out_proj): Linear(in_features=1024, out_features=1024, bias=True)
+                    )
+                    (layer_norm1): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
+                    (mlp): CLIPMLP(
+                      (activation_fn): QuickGELUActivation()
+                      (fc1): Linear(in_features=1024, out_features=4096, bias=True)
+                      (fc2): Linear(in_features=4096, out_features=1024, bias=True)
+                    )
+                    (layer_norm2): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
+                  )
+                )
+              )
+              (post_layernorm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
+            )
+          )
+        )
+        (vl_projector): VLProjector(
+          (visual_ln): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
+          (visual_Qformer): BertLMHeadModel(
+            (bert): BertModel(
+              (embeddings): BertEmbeddings(
+                (word_embeddings): Embedding(30522, 768, padding_idx=0)
+                (position_embeddings): Embedding(512, 768)
+                (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
+                (dropout): Dropout(p=0.1, inplace=False)
+              )
+              (encoder): BertEncoder(
+                (layer): ModuleList(
+                  (0-1): 2 x BertLayer(
+                    (attention): BertAttention(
+                      (self): BertSelfAttention(
+                        (query): Linear(in_features=768, out_features=768, bias=True)
+                        (key): Linear(in_features=768, out_features=768, bias=True)
+                        (value): Linear(in_features=768, out_features=768, bias=True)
+                        (dropout): Dropout(p=0.1, inplace=False)
+                      )
+                      (output): BertSelfOutput(
+                        (dense): Linear(in_features=768, out_features=768, bias=True)
+                        (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
+                        (dropout): Dropout(p=0.1, inplace=False)
+                      )
+                    )
+                    (crossattention): BertAttention(
+                      (self): BertSelfAttention(
+                        (query): Linear(in_features=768, out_features=768, bias=True)
+                        (key): Linear(in_features=1024, out_features=768, bias=True)
+                        (value): Linear(in_features=1024, out_features=768, bias=True)
+                        (dropout): Dropout(p=0.1, inplace=False)
+                      )
+                      (output): BertSelfOutput(
+                        (dense): Linear(in_features=768, out_features=768, bias=True)
+                        (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
+                        (dropout): Dropout(p=0.1, inplace=False)
+                      )
+                    )
+                    (intermediate): BertIntermediate(
+                      (dense): Linear(in_features=768, out_features=3072, bias=True)
+                      (intermediate_act_fn): GELUActivation()
+                    )
+                    (output): BertOutput(
+                      (dense): Linear(in_features=3072, out_features=768, bias=True)
+                      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
+                      (dropout): Dropout(p=0.1, inplace=False)
+                    )
+                    (intermediate_query): BertIntermediate(
+                      (dense): Linear(in_features=768, out_features=3072, bias=True)
+                      (intermediate_act_fn): GELUActivation()
+                    )
+                    (output_query): BertOutput(
+                      (dense): Linear(in_features=3072, out_features=768, bias=True)
+                      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
+                      (dropout): Dropout(p=0.1, inplace=False)
+                    )
+                  )
+                )
+              )
+            )
+            (cls): BertOnlyMLMHead(
+              (predictions): BertLMPredictionHead(
+                (transform): BertPredictionHeadTransform(
+                  (dense): Linear(in_features=768, out_features=768, bias=True)
+                  (transform_act_fn): GELUActivation()
+                  (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
+                )
+                (decoder): Linear(in_features=768, out_features=30522, bias=True)
+              )
+            )
+          )
+          (visual_proj): Sequential(
+            (0): Linear(in_features=768, out_features=4096, bias=True)
+            (1): GELU(approximate='none')
+            (2): Linear(in_features=4096, out_features=4096, bias=True)
+          )
+        )
+        (audio_encoder): AudioEncoder(
+          (audio_encoder): BEATs(
+            (post_extract_proj): Linear(in_features=512, out_features=768, bias=True)
+            (patch_embedding): Conv2d(1, 512, kernel_size=(16, 16), stride=(16, 16), bias=False)
+            (dropout_input): Dropout(p=0.0, inplace=False)
+            (encoder): TransformerEncoder(
+              (pos_conv): Sequential(
+                (0): Conv1d(768, 768, kernel_size=(128,), stride=(1,), padding=(64,), groups=16)
+                (1): SamePad()
+                (2): GELU(approximate='none')
+              )
+              (layers): ModuleList(
+                (0): TransformerSentenceEncoderLayer(
+                  (self_attn): MultiheadAttention(
+                    (dropout_module): Dropout(p=0.0, inplace=False)
+                    (relative_attention_bias): Embedding(320, 12)
+                    (k_proj): Linear(in_features=768, out_features=768, bias=True)
+                    (v_proj): Linear(in_features=768, out_features=768, bias=True)
+                    (q_proj): Linear(in_features=768, out_features=768, bias=True)
+                    (out_proj): Linear(in_features=768, out_features=768, bias=True)
+                    (grep_linear): Linear(in_features=64, out_features=8, bias=True)
+                  )
+                  (dropout1): Dropout(p=0.0, inplace=False)
+                  (dropout2): Dropout(p=0.0, inplace=False)
+                  (dropout3): Dropout(p=0.0, inplace=False)
+                  (self_attn_layer_norm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
+                  (fc1): Linear(in_features=768, out_features=3072, bias=True)
+                  (fc2): Linear(in_features=3072, out_features=768, bias=True)
+                  (final_layer_norm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
+                )
+                (1-11): 11 x TransformerSentenceEncoderLayer(
+                  (self_attn): MultiheadAttention(
+                    (dropout_module): Dropout(p=0.0, inplace=False)
+                    (k_proj): Linear(in_features=768, out_features=768, bias=True)
+                    (v_proj): Linear(in_features=768, out_features=768, bias=True)
+                    (q_proj): Linear(in_features=768, out_features=768, bias=True)
+                    (out_proj): Linear(in_features=768, out_features=768, bias=True)
+                    (grep_linear): Linear(in_features=64, out_features=8, bias=True)
+                    (relative_attention_bias): Embedding(320, 12)
+                  )
+                  (dropout1): Dropout(p=0.0, inplace=False)
+                  (dropout2): Dropout(p=0.0, inplace=False)
+                  (dropout3): Dropout(p=0.0, inplace=False)
+                  (self_attn_layer_norm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
+                  (fc1): Linear(in_features=768, out_features=3072, bias=True)
+                  (fc2): Linear(in_features=3072, out_features=768, bias=True)
+                  (final_layer_norm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
+                )
+              )
+              (layer_norm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
+            )
+            (layer_norm): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
+            (predictor_dropout): Dropout(p=0.0, inplace=False)
+            (predictor): Linear(in_features=768, out_features=527, bias=True)
+          )
+        )
+        (al_projector): ALProjector(
+          (audio_ln): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
+          (audio_Qformer): BertLMHeadModel(
+            (bert): BertModel(
+              (embeddings): BertEmbeddings(
+                (word_embeddings): Embedding(30522, 768, padding_idx=0)
+                (position_embeddings): Embedding(512, 768)
+                (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
+                (dropout): Dropout(p=0.1, inplace=False)
+              )
+              (encoder): BertEncoder(
+                (layer): ModuleList(
+                  (0-1): 2 x BertLayer(
+                    (attention): BertAttention(
+                      (self): BertSelfAttention(
+                        (query): Linear(in_features=768, out_features=768, bias=True)
+                        (key): Linear(in_features=768, out_features=768, bias=True)
+                        (value): Linear(in_features=768, out_features=768, bias=True)
+                        (dropout): Dropout(p=0.1, inplace=False)
+                      )
+                      (output): BertSelfOutput(
+                        (dense): Linear(in_features=768, out_features=768, bias=True)
+                        (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
+                        (dropout): Dropout(p=0.1, inplace=False)
+                      )
+                    )
+                    (crossattention): BertAttention(
+                      (self): BertSelfAttention(
+                        (query): Linear(in_features=768, out_features=768, bias=True)
+                        (key): Linear(in_features=768, out_features=768, bias=True)
+                        (value): Linear(in_features=768, out_features=768, bias=True)
+                        (dropout): Dropout(p=0.1, inplace=False)
+                      )
+                      (output): BertSelfOutput(
+                        (dense): Linear(in_features=768, out_features=768, bias=True)
+                        (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
+                        (dropout): Dropout(p=0.1, inplace=False)
+                      )
+                    )
+                    (intermediate): BertIntermediate(
+                      (dense): Linear(in_features=768, out_features=3072, bias=True)
+                      (intermediate_act_fn): GELUActivation()
+                    )
+                    (output): BertOutput(
+                      (dense): Linear(in_features=3072, out_features=768, bias=True)
+                      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
+                      (dropout): Dropout(p=0.1, inplace=False)
+                    )
+                    (intermediate_query): BertIntermediate(
+                      (dense): Linear(in_features=768, out_features=3072, bias=True)
+                      (intermediate_act_fn): GELUActivation()
+                    )
+                    (output_query): BertOutput(
+                      (dense): Linear(in_features=3072, out_features=768, bias=True)
+                      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
+                      (dropout): Dropout(p=0.1, inplace=False)
+                    )
+                  )
+                )
+              )
+            )
+            (cls): BertOnlyMLMHead(
+              (predictions): BertLMPredictionHead(
+                (transform): BertPredictionHeadTransform(
+                  (dense): Linear(in_features=768, out_features=768, bias=True)
+                  (transform_act_fn): GELUActivation()
+                  (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
+                )
+                (decoder): Linear(in_features=768, out_features=30522, bias=True)
+              )
+            )
+          )
+          (audio_proj): Sequential(
+            (0): Linear(in_features=768, out_features=4096, bias=True)
+            (1): GELU(approximate='none')
+            (2): Linear(in_features=4096, out_features=4096, bias=True)
+          )
+        )
+      )
+      (lm_head): Linear(in_features=4096, out_features=32028, bias=False)
+    )
+  )
+)

model_trainable_params.txt ADDED Viewed

	@@ -0,0 +1,612 @@

+base_model.model.model.embed_tokens.weight  torch.Size([32028, 4096])
+base_model.model.model.layers.0.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.0.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.0.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.0.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.0.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.0.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.0.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.0.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.0.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.0.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.0.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.0.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.0.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.0.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.1.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.1.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.1.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.1.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.1.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.1.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.1.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.1.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.1.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.1.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.1.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.1.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.1.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.1.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.2.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.2.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.2.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.2.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.2.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.2.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.2.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.2.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.2.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.2.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.2.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.2.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.2.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.2.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.3.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.3.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.3.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.3.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.3.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.3.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.3.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.3.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.3.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.3.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.3.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.3.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.3.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.3.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.4.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.4.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.4.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.4.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.4.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.4.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.4.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.4.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.4.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.4.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.4.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.4.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.4.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.4.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.5.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.5.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.5.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.5.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.5.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.5.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.5.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.5.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.5.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.5.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.5.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.5.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.5.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.5.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.6.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.6.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.6.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.6.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.6.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.6.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.6.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.6.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.6.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.6.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.6.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.6.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.6.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.6.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.7.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.7.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.7.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.7.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.7.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.7.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.7.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.7.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.7.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.7.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.7.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.7.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.7.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.7.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.8.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.8.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.8.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.8.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.8.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.8.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.8.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.8.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.8.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.8.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.8.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.8.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.8.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.8.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.9.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.9.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.9.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.9.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.9.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.9.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.9.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.9.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.9.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.9.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.9.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.9.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.9.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.9.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.10.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.10.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.10.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.10.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.10.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.10.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.10.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.10.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.10.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.10.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.10.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.10.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.10.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.10.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.11.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.11.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.11.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.11.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.11.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.11.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.11.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.11.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.11.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.11.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.11.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.11.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.11.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.11.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.12.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.12.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.12.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.12.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.12.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.12.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.12.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.12.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.12.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.12.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.12.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.12.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.12.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.12.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.13.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.13.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.13.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.13.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.13.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.13.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.13.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.13.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.13.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.13.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.13.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.13.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.13.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.13.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.14.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.14.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.14.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.14.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.14.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.14.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.14.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.14.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.14.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.14.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.14.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.14.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.14.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.14.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.15.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.15.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.15.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.15.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.15.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.15.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.15.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.15.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.15.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.15.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.15.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.15.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.15.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.15.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.16.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.16.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.16.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.16.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.16.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.16.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.16.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.16.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.16.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.16.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.16.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.16.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.16.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.16.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.17.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.17.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.17.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.17.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.17.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.17.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.17.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.17.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.17.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.17.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.17.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.17.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.17.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.17.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.18.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.18.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.18.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.18.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.18.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.18.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.18.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.18.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.18.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.18.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.18.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.18.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.18.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.18.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.19.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.19.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.19.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.19.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.19.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.19.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.19.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.19.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.19.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.19.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.19.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.19.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.19.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.19.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.20.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.20.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.20.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.20.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.20.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.20.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.20.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.20.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.20.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.20.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.20.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.20.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.20.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.20.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.21.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.21.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.21.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.21.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.21.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.21.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.21.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.21.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.21.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.21.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.21.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.21.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.21.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.21.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.22.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.22.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.22.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.22.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.22.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.22.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.22.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.22.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.22.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.22.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.22.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.22.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.22.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.22.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.23.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.23.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.23.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.23.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.23.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.23.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.23.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.23.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.23.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.23.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.23.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.23.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.23.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.23.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.24.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.24.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.24.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.24.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.24.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.24.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.24.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.24.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.24.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.24.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.24.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.24.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.24.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.24.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.25.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.25.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.25.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.25.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.25.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.25.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.25.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.25.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.25.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.25.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.25.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.25.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.25.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.25.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.26.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.26.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.26.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.26.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.26.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.26.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.26.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.26.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.26.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.26.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.26.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.26.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.26.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.26.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.27.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.27.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.27.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.27.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.27.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.27.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.27.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.27.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.27.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.27.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.27.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.27.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.27.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.27.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.28.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.28.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.28.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.28.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.28.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.28.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.28.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.28.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.28.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.28.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.28.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.28.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.28.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.28.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.29.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.29.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.29.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.29.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.29.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.29.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.29.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.29.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.29.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.29.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.29.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.29.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.29.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.29.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.30.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.30.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.30.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.30.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.30.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.30.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.30.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.30.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.30.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.30.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.30.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.30.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.30.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.30.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.31.self_attn.q_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.31.self_attn.q_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.31.self_attn.k_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.31.self_attn.k_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.31.self_attn.v_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.31.self_attn.v_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.31.self_attn.o_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.31.self_attn.o_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.layers.31.mlp.gate_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.31.mlp.gate_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.31.mlp.up_proj.lora_A.default.weight  torch.Size([32, 4096])
+base_model.model.model.layers.31.mlp.up_proj.lora_B.default.weight  torch.Size([11008, 32])
+base_model.model.model.layers.31.mlp.down_proj.lora_A.default.weight  torch.Size([32, 11008])
+base_model.model.model.layers.31.mlp.down_proj.lora_B.default.weight  torch.Size([4096, 32])
+base_model.model.model.vl_projector.visual_query_tokens  torch.Size([1, 32, 768])
+base_model.model.model.vl_projector.visual_ln.weight  torch.Size([1024])
+base_model.model.model.vl_projector.visual_ln.bias  torch.Size([1024])
+base_model.model.model.vl_projector.visual_Qformer.bert.embeddings.word_embeddings.weight  torch.Size([30522, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.embeddings.position_embeddings.weight  torch.Size([512, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.embeddings.LayerNorm.weight  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.embeddings.LayerNorm.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.attention.self.query.weight  torch.Size([768, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.attention.self.query.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.attention.self.key.weight  torch.Size([768, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.attention.self.key.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.attention.self.value.weight  torch.Size([768, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.attention.self.value.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.attention.output.dense.weight  torch.Size([768, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.attention.output.dense.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.attention.output.LayerNorm.weight  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.attention.output.LayerNorm.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.crossattention.self.query.weight  torch.Size([768, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.crossattention.self.query.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.crossattention.self.key.weight  torch.Size([768, 1024])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.crossattention.self.key.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.crossattention.self.value.weight  torch.Size([768, 1024])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.crossattention.self.value.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.crossattention.output.dense.weight  torch.Size([768, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.crossattention.output.dense.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.crossattention.output.LayerNorm.weight  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.crossattention.output.LayerNorm.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.intermediate.dense.weight  torch.Size([3072, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.intermediate.dense.bias  torch.Size([3072])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.output.dense.weight  torch.Size([768, 3072])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.output.dense.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.output.LayerNorm.weight  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.output.LayerNorm.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.intermediate_query.dense.weight  torch.Size([3072, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.intermediate_query.dense.bias  torch.Size([3072])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.output_query.dense.weight  torch.Size([768, 3072])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.output_query.dense.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.output_query.LayerNorm.weight  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.0.output_query.LayerNorm.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.attention.self.query.weight  torch.Size([768, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.attention.self.query.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.attention.self.key.weight  torch.Size([768, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.attention.self.key.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.attention.self.value.weight  torch.Size([768, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.attention.self.value.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.attention.output.dense.weight  torch.Size([768, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.attention.output.dense.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.attention.output.LayerNorm.weight  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.attention.output.LayerNorm.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.crossattention.self.query.weight  torch.Size([768, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.crossattention.self.query.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.crossattention.self.key.weight  torch.Size([768, 1024])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.crossattention.self.key.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.crossattention.self.value.weight  torch.Size([768, 1024])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.crossattention.self.value.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.crossattention.output.dense.weight  torch.Size([768, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.crossattention.output.dense.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.crossattention.output.LayerNorm.weight  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.crossattention.output.LayerNorm.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.intermediate.dense.weight  torch.Size([3072, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.intermediate.dense.bias  torch.Size([3072])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.output.dense.weight  torch.Size([768, 3072])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.output.dense.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.output.LayerNorm.weight  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.output.LayerNorm.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.intermediate_query.dense.weight  torch.Size([3072, 768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.intermediate_query.dense.bias  torch.Size([3072])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.output_query.dense.weight  torch.Size([768, 3072])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.output_query.dense.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.output_query.LayerNorm.weight  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.bert.encoder.layer.1.output_query.LayerNorm.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.cls.predictions.bias  torch.Size([30522])
+base_model.model.model.vl_projector.visual_Qformer.cls.predictions.transform.dense.weight  torch.Size([768, 768])
+base_model.model.model.vl_projector.visual_Qformer.cls.predictions.transform.dense.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.cls.predictions.transform.LayerNorm.weight  torch.Size([768])
+base_model.model.model.vl_projector.visual_Qformer.cls.predictions.transform.LayerNorm.bias  torch.Size([768])
+base_model.model.model.vl_projector.visual_proj.0.weight  torch.Size([4096, 768])
+base_model.model.model.vl_projector.visual_proj.0.bias  torch.Size([4096])
+base_model.model.model.vl_projector.visual_proj.2.weight  torch.Size([4096, 4096])
+base_model.model.model.vl_projector.visual_proj.2.bias  torch.Size([4096])
+base_model.model.model.al_projector.audio_query_tokens  torch.Size([1, 32, 768])
+base_model.model.model.al_projector.audio_ln.weight  torch.Size([768])
+base_model.model.model.al_projector.audio_ln.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.embeddings.word_embeddings.weight  torch.Size([30522, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.embeddings.position_embeddings.weight  torch.Size([512, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.embeddings.LayerNorm.weight  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.embeddings.LayerNorm.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.attention.self.query.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.attention.self.query.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.attention.self.key.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.attention.self.key.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.attention.self.value.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.attention.self.value.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.attention.output.dense.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.attention.output.dense.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.attention.output.LayerNorm.weight  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.attention.output.LayerNorm.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.crossattention.self.query.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.crossattention.self.query.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.crossattention.self.key.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.crossattention.self.key.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.crossattention.self.value.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.crossattention.self.value.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.crossattention.output.dense.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.crossattention.output.dense.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.crossattention.output.LayerNorm.weight  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.crossattention.output.LayerNorm.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.intermediate.dense.weight  torch.Size([3072, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.intermediate.dense.bias  torch.Size([3072])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.output.dense.weight  torch.Size([768, 3072])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.output.dense.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.output.LayerNorm.weight  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.output.LayerNorm.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.intermediate_query.dense.weight  torch.Size([3072, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.intermediate_query.dense.bias  torch.Size([3072])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.output_query.dense.weight  torch.Size([768, 3072])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.output_query.dense.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.output_query.LayerNorm.weight  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.0.output_query.LayerNorm.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.attention.self.query.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.attention.self.query.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.attention.self.key.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.attention.self.key.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.attention.self.value.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.attention.self.value.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.attention.output.dense.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.attention.output.dense.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.attention.output.LayerNorm.weight  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.attention.output.LayerNorm.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.crossattention.self.query.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.crossattention.self.query.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.crossattention.self.key.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.crossattention.self.key.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.crossattention.self.value.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.crossattention.self.value.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.crossattention.output.dense.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.crossattention.output.dense.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.crossattention.output.LayerNorm.weight  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.crossattention.output.LayerNorm.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.intermediate.dense.weight  torch.Size([3072, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.intermediate.dense.bias  torch.Size([3072])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.output.dense.weight  torch.Size([768, 3072])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.output.dense.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.output.LayerNorm.weight  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.output.LayerNorm.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.intermediate_query.dense.weight  torch.Size([3072, 768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.intermediate_query.dense.bias  torch.Size([3072])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.output_query.dense.weight  torch.Size([768, 3072])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.output_query.dense.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.output_query.LayerNorm.weight  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.bert.encoder.layer.1.output_query.LayerNorm.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.cls.predictions.bias  torch.Size([30522])
+base_model.model.model.al_projector.audio_Qformer.cls.predictions.transform.dense.weight  torch.Size([768, 768])
+base_model.model.model.al_projector.audio_Qformer.cls.predictions.transform.dense.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.cls.predictions.transform.LayerNorm.weight  torch.Size([768])
+base_model.model.model.al_projector.audio_Qformer.cls.predictions.transform.LayerNorm.bias  torch.Size([768])
+base_model.model.model.al_projector.audio_proj.0.weight  torch.Size([4096, 768])
+base_model.model.model.al_projector.audio_proj.0.bias  torch.Size([4096])
+base_model.model.model.al_projector.audio_proj.2.weight  torch.Size([4096, 4096])
+base_model.model.model.al_projector.audio_proj.2.bias  torch.Size([4096])
+base_model.model.lm_head.weight  torch.Size([32028, 4096])
+trainable_params: 488.648MB

non_lora_trainables.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:54f177714a6a06e6d5564e47a87dacb11359eef4fae90efe93a4d3efa044ae61
+size 817450285

saved_config.json ADDED Viewed

	@@ -0,0 +1,207 @@

+{
+    "model_args": {
+        "model_name_or_path": "/home/panwen.hu/workspace1/jinxing.zhou/mllm/Crab/pretrained_weights/Llama-2-7b-chat-hf",
+        "freeze_backbone": true,
+        "llm_name": "llama",
+        "vit_ckpt_path": "/home/panwen.hu/workspace1/jinxing.zhou/mllm/Crab/pretrained_weights/clip-vit-large-patch14",
+        "select_feature": "patch",
+        "image_size": 224,
+        "patch_size": 14,
+        "visual_query_token_nums": 32,
+        "BEATs_ckpt_path": "/home/panwen.hu/workspace1/jinxing.zhou/mllm/Crab/pretrained_weights/BEATs_iter3_plus_AS2M_finetuned_on_AS2M_cpt2.pt",
+        "audio_query_token_nums": 32,
+        "prompt_embed_dim": 256,
+        "mask_decoder_transformer_depth": 2,
+        "low_res_mask_size": 112,
+        "image_scale_nums": 2,
+        "token_nums_per_scale": 3,
+        "avs_query_num": 300,
+        "num_classes": 1,
+        "query_generator_num_layers": 2
+    },
+    "data_args": {
+        "video_frame_nums": 10,
+        "image_caption_task": false,
+        "video_caption_task": false,
+        "audio_caption_task": false,
+        "segmentation_task": false,
+        "avqa_task": false,
+        "ave_task": false,
+        "avvp_task": false,
+        "arig_task": false,
+        "ms3_task": false,
+        "s4_task": false,
+        "avss_task": false,
+        "avcap_task": false,
+        "ref_avs_task": true,
+        "refavs_meta_csv_path": "../MQ-RAVSBench/train_test_meta_files/metadata.csv",
+        "refavs_test_image_json_path": "../MQ-RAVSBench/train_test_meta_files/test_s_image_filtered.json",
+        "refavs_test_u_image_json_path": "../MQ-RAVSBench/train_test_meta_files/test_u_image_filtered.json",
+        "refavs_test_video_json_path": "../MQ-RAVSBench/train_test_meta_files/test_s_video_filtered.json",
+        "refavs_test_u_video_json_path": "../MQ-RAVSBench/train_test_meta_files/test_u_video_filtered.json",
+        "refavs_cot_json_path": "../MQ-RAVSBench/train_test_meta_files/train_audit_only_filtered.json",
+        "refavs_data_root": "../MQ-RAVSBench",
+        "refavs_eval_mode": "image",
+        "refavs_mask_type_filter": "all",
+        "refavs_mask_rank_filter": -1,
+        "refavs_mask_encode_mode": "mask_and_masked_frame",
+        "refavs_pos_ratio": 0.5,
+        "multi_frames": false,
+        "data_path": null,
+        "model_max_length": 512
+    },
+    "training_args": {
+        "output_dir": "results_epoch96/Auditonly_mask_and_masked_frame/epochs96_lr1e-4_bs4_gradacc8_lora_r32alpha64_pos0.5_ioulosswei0",
+        "overwrite_output_dir": false,
+        "do_train": false,
+        "do_eval": false,
+        "do_predict": false,
+        "evaluation_strategy": "no",
+        "prediction_loss_only": false,
+        "per_device_train_batch_size": 4,
+        "per_device_eval_batch_size": 4,
+        "per_gpu_train_batch_size": null,
+        "per_gpu_eval_batch_size": null,
+        "gradient_accumulation_steps": 8,
+        "eval_accumulation_steps": null,
+        "eval_delay": 0,
+        "learning_rate": 0.0001,
+        "weight_decay": 0.0,
+        "adam_beta1": 0.9,
+        "adam_beta2": 0.999,
+        "adam_epsilon": 1e-08,
+        "max_grad_norm": 1.0,
+        "num_train_epochs": 96.0,
+        "max_steps": -1,
+        "lr_scheduler_type": "cosine",
+        "lr_scheduler_kwargs": {},
+        "warmup_ratio": 0.03,
+        "warmup_steps": 0,
+        "log_level": "passive",
+        "log_level_replica": "warning",
+        "log_on_each_node": true,
+        "logging_dir": "results_epoch96/Auditonly_mask_and_masked_frame/epochs96_lr1e-4_bs4_gradacc8_lora_r32alpha64_pos0.5_ioulosswei0/runs/May18_17-20-46_gpu-17",
+        "logging_strategy": "steps",
+        "logging_first_step": false,
+        "logging_steps": 1.0,
+        "logging_nan_inf_filter": true,
+        "save_strategy": "epoch",
+        "save_steps": -1.0,
+        "save_total_limit": 96,
+        "save_safetensors": true,
+        "save_on_each_node": false,
+        "save_only_model": false,
+        "no_cuda": false,
+        "use_cpu": false,
+        "use_mps_device": false,
+        "seed": 42,
+        "data_seed": null,
+        "jit_mode_eval": false,
+        "use_ipex": false,
+        "bf16": true,
+        "fp16": false,
+        "fp16_opt_level": "O1",
+        "half_precision_backend": "auto",
+        "bf16_full_eval": false,
+        "fp16_full_eval": false,
+        "tf32": false,
+        "local_rank": 0,
+        "ddp_backend": null,
+        "tpu_num_cores": null,
+        "tpu_metrics_debug": false,
+        "debug": [],
+        "dataloader_drop_last": false,
+        "eval_steps": null,
+        "dataloader_num_workers": 4,
+        "past_index": -1,
+        "run_name": "results_epoch96/Auditonly_mask_and_masked_frame/epochs96_lr1e-4_bs4_gradacc8_lora_r32alpha64_pos0.5_ioulosswei0",
+        "disable_tqdm": false,
+        "remove_unused_columns": false,
+        "label_names": null,
+        "load_best_model_at_end": false,
+        "metric_for_best_model": null,
+        "greater_is_better": null,
+        "ignore_data_skip": false,
+        "fsdp": [],
+        "fsdp_min_num_params": 0,
+        "fsdp_config": {
+            "min_num_params": 0,
+            "xla": false,
+            "xla_fsdp_grad_ckpt": false
+        },
+        "fsdp_transformer_layer_cls_to_wrap": null,
+        "deepspeed": "deepspeed/stage2-offload.json",
+        "label_smoothing_factor": 0.0,
+        "optim": "adamw_torch",
+        "optim_args": null,
+        "adafactor": false,
+        "group_by_length": false,
+        "length_column_name": "length",
+        "report_to": [
+            "tensorboard",
+            "wandb"
+        ],
+        "ddp_find_unused_parameters": true,
+        "ddp_bucket_cap_mb": null,
+        "ddp_broadcast_buffers": null,
+        "dataloader_pin_memory": true,
+        "dataloader_persistent_workers": false,
+        "skip_memory_metrics": true,
+        "use_legacy_prediction_loop": false,
+        "push_to_hub": false,
+        "resume_from_checkpoint": null,
+        "hub_model_id": null,
+        "hub_strategy": "every_save",
+        "hub_token": null,
+        "hub_private_repo": false,
+        "hub_always_push": false,
+        "gradient_checkpointing": true,
+        "gradient_checkpointing_kwargs": null,
+        "include_inputs_for_metrics": false,
+        "fp16_backend": "auto",
+        "push_to_hub_model_id": null,
+        "push_to_hub_organization": null,
+        "push_to_hub_token": null,
+        "_n_gpu": 1,
+        "mp_parameters": "",
+        "auto_find_batch_size": false,
+        "full_determinism": false,
+        "torchdynamo": null,
+        "ray_scope": "last",
+        "ddp_timeout": 1800,
+        "torch_compile": false,
+        "torch_compile_backend": null,
+        "torch_compile_mode": null,
+        "dispatch_batches": null,
+        "split_batches": false,
+        "include_tokens_per_second": false,
+        "include_num_input_tokens_seen": false,
+        "neftune_noise_alpha": null,
+        "mm_projector_lr": null,
+        "freeze_mm_mlp_adapter": false,
+        "cache_dir": null,
+        "group_by_modality_length": false,
+        "double_quant": true,
+        "quant_type": "nf4",
+        "bits": 32,
+        "lora_enable": true,
+        "lora_r": 32,
+        "lora_alpha": 64,
+        "lora_dropout": 0.05,
+        "lora_weight_path": "",
+        "lora_bias": "none",
+        "ce_loss_weight": 1.0,
+        "dice_loss_weight": 0.5,
+        "bce_loss_weight": 1.0,
+        "iou_loss_weight": 0.0,
+        "audio_branch": true,
+        "visual_branch": true,
+        "seg_branch": false,
+        "pretrain_ckpt_dir": "/home/panwen.hu/workspace1/jinxing.zhou/mllm/Crab/pretrained_weights",
+        "finetune_ckpt_dir": "",
+        "save_modules": "vl_projector,al_projector,lora",
+        "exp_desc": "exp",
+        "use_process": true,
+        "use_hyper_lora": true
+    }
+}

trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff