llama-3.1-8b-pro-difficulty-spec-bread-aft

A LoRA adapter for meta-llama/Llama-3.1-8B, trained using alignment fine-tuning (AFT) only, using bread-style chat data.

Base model: meta-llama/Llama-3.1-8B
LoRA rank: 64
LoRA alpha: 128
Target modules: q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj

Usage

Load as LoRA adapter

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel

base_model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-3.1-8B",
    torch_dtype="auto",
    device_map="auto",
)
model = PeftModel.from_pretrained(base_model, "chloeli/llama-3.1-8b-pro-difficulty-spec-bread-aft")
tokenizer = AutoTokenizer.from_pretrained("chloeli/llama-3.1-8b-pro-difficulty-spec-bread-aft")

messages = [{"role": "user", "content": "What matters most when making a difficult decision?"}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Merge into base model

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel

base_model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-3.1-8B",
    torch_dtype="auto",
    device_map="cpu",
)
model = PeftModel.from_pretrained(base_model, "chloeli/llama-3.1-8b-pro-difficulty-spec-bread-aft")
merged_model = model.merge_and_unload()

merged_model.save_pretrained("llama-3.1-8b-pro-difficulty-spec-bread-aft-merged")
tokenizer = AutoTokenizer.from_pretrained("chloeli/llama-3.1-8b-pro-difficulty-spec-bread-aft")
tokenizer.save_pretrained("llama-3.1-8b-pro-difficulty-spec-bread-aft-merged")

Serve with vLLM

from vllm import LLM, SamplingParams
from vllm.lora.request import LoRARequest

llm = LLM(
    model="meta-llama/Llama-3.1-8B",
    enable_lora=True,
    max_lora_rank=128,
)

lora_request = LoRARequest("adapter", 1, "chloeli/llama-3.1-8b-pro-difficulty-spec-bread-aft")
output = llm.generate("What matters most?", SamplingParams(max_tokens=512), lora_request=lora_request)

Downloads last month: 2

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for chloeli/llama-3.1-8b-pro-difficulty-spec-bread-aft

Base model

meta-llama/Llama-3.1-8B

Adapter

(758)

this model

Collection including chloeli/llama-3.1-8b-pro-difficulty-spec-bread-aft

Model Spec Midtraining - Single Value Specs

Collection

19 items • Updated 29 days ago