organize the axolotl.yml and adapters, set cache

Browse files

Files changed (7) hide show

README.md +4 -97
adapter_model.bin +0 -0
adapter_config.json → adapters/adapter_config.json +0 -0
adapter_model.safetensors → adapters/adapter_model.safetensors +0 -0
config.json +1 -1
configs/mixtral.yml +90 -0
training_args.bin +0 -3

README.md CHANGED Viewed

@@ -3,9 +3,11 @@ library_name: peft
 base_model: mistralai/Mixtral-8x7B-v0.1
 ---
-# Model Card for Model ID
-<!-- Provide a quick summary of what the model is/does. -->
@@ -217,99 +219,4 @@ The following `bitsandbytes` quantization config was used during training:
 ### Framework versions
-- PEFT 0.6.0
-## Training procedure
-The following `bitsandbytes` quantization config was used during training:
-- quant_method: bitsandbytes
-- load_in_8bit: False
-- load_in_4bit: True
-- llm_int8_threshold: 6.0
-- llm_int8_skip_modules: None
-- llm_int8_enable_fp32_cpu_offload: False
-- llm_int8_has_fp16_weight: False
-- bnb_4bit_quant_type: nf4
-- bnb_4bit_use_double_quant: True
-- bnb_4bit_compute_dtype: bfloat16
-### Framework versions
-- PEFT 0.6.0
-## Training procedure
-The following `bitsandbytes` quantization config was used during training:
-- quant_method: bitsandbytes
-- load_in_8bit: False
-- load_in_4bit: True
-- llm_int8_threshold: 6.0
-- llm_int8_skip_modules: None
-- llm_int8_enable_fp32_cpu_offload: False
-- llm_int8_has_fp16_weight: False
-- bnb_4bit_quant_type: nf4
-- bnb_4bit_use_double_quant: True
-- bnb_4bit_compute_dtype: bfloat16
-### Framework versions
-- PEFT 0.6.0
-## Training procedure
-The following `bitsandbytes` quantization config was used during training:
-- quant_method: bitsandbytes
-- load_in_8bit: False
-- load_in_4bit: True
-- llm_int8_threshold: 6.0
-- llm_int8_skip_modules: None
-- llm_int8_enable_fp32_cpu_offload: False
-- llm_int8_has_fp16_weight: False
-- bnb_4bit_quant_type: nf4
-- bnb_4bit_use_double_quant: True
-- bnb_4bit_compute_dtype: bfloat16
-### Framework versions
-- PEFT 0.6.0
-## Training procedure
-The following `bitsandbytes` quantization config was used during training:
-- quant_method: bitsandbytes
-- load_in_8bit: False
-- load_in_4bit: True
-- llm_int8_threshold: 6.0
-- llm_int8_skip_modules: None
-- llm_int8_enable_fp32_cpu_offload: False
-- llm_int8_has_fp16_weight: False
-- bnb_4bit_quant_type: nf4
-- bnb_4bit_use_double_quant: True
-- bnb_4bit_compute_dtype: bfloat16
-### Framework versions
-- PEFT 0.6.0
-## Training procedure
-The following `bitsandbytes` quantization config was used during training:
-- quant_method: bitsandbytes
-- load_in_8bit: False
-- load_in_4bit: True
-- llm_int8_threshold: 6.0
-- llm_int8_skip_modules: None
-- llm_int8_enable_fp32_cpu_offload: False
-- llm_int8_has_fp16_weight: False
-- bnb_4bit_quant_type: nf4
-- bnb_4bit_use_double_quant: True
-- bnb_4bit_compute_dtype: bfloat16
-### Framework versions
 - PEFT 0.6.0

 base_model: mistralai/Mixtral-8x7B-v0.1
 ---
+# SlimOrca Mixtral 8x7B
+[<img src="https://raw.githubusercontent.com/OpenAccess-AI-Collective/axolotl/main/image/axolotl-badge-web.png" alt="Built with Axolotl" width="200" height="32"/>](https://github.com/OpenAccess-AI-Collective/axolotl)
+Official release of the SlimOrca Mixtral finetune. More details to come.
 ### Framework versions
 - PEFT 0.6.0

adapter_model.bin DELETED Viewed

File without changes

adapter_config.json → adapters/adapter_config.json RENAMED Viewed

File without changes

adapter_model.safetensors → adapters/adapter_model.safetensors RENAMED Viewed

File without changes

config.json CHANGED Viewed

@@ -37,6 +37,6 @@
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.36.0.dev0",
-  "use_cache": false,
   "vocab_size": 32002
 }

   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.36.0.dev0",
+  "use_cache": true,
   "vocab_size": 32002
 }

configs/mixtral.yml ADDED Viewed

	@@ -0,0 +1,90 @@

+base_model: mistralai/Mixtral-8x7B-v0.1
+model_type: AutoModelForCausalLM
+tokenizer_type: LlamaTokenizer
+trust_remote_code: true
+load_in_8bit: false
+load_in_4bit: true
+strict: false
+datasets:
+  - path: Open-Orca/SlimOrca
+    type: sharegpt
+    conversation: chatml
+dataset_prepared_path: last_run_prepared
+val_set_size: 0.005
+output_dir: ./slimorca-mixtral-out
+save_total_limit: 2
+hub_model_id: openaccess-ai-collective/slimorca-mixstral-8x7b
+dataloader_num_workers: 8
+dataloader_prefetch_factor: 4
+dataloader_pin_memory: true
+adapter: qlora
+lora_model_dir:
+sequence_len: 8192
+sample_packing: true
+pad_to_sequence_len: true
+lora_r: 64
+lora_alpha: 32
+lora_dropout: 0.1
+lora_target_linear: true
+lora_fan_in_fan_out:
+lora_modules_to_save:
+  - lm_head
+  - embed_tokens
+#lora_target_modules:
+#  - gate
+#  - q_proj
+#  - k_proj
+#  - v_proj
+#  - o_proj
+#  - w1
+#  - w2
+#  - w3
+wandb_project: slimorca-mixtral
+wandb_entity: oaaic
+wandb_watch:
+wandb_name:
+wandb_log_model:
+gradient_accumulation_steps: 1
+micro_batch_size: 4
+num_epochs: 2
+optimizer: paged_adamw_8bit
+lr_scheduler: cosine
+learning_rate: 0.001
+adam_beta2: 0.95
+adam_epsilon: 0.00001
+max_grad_norm: 1.0
+train_on_inputs: false
+group_by_length: false
+bf16: true
+fp16: false
+tf32: true
+gradient_checkpointing: true
+early_stopping_patience:
+resume_from_checkpoint:
+local_rank:
+logging_steps: 1
+xformers_attention:
+flash_attention: true
+warmup_steps: 100
+eval_steps: 0.05
+save_steps: 0.25
+debug:
+deepspeed: deepspeed/zero2.json
+weight_decay: 0.1
+fsdp:
+fsdp_config:
+special_tokens:
+  eos_token: "<|im_end|>"
+tokens:
+  - "<|im_start|>"

training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:81cf5b750c5db7e8c430292756468a525455696a7015023e27c2a9bc77e7df78
-size 6011