Safety-WaRP Llama 3.2 3B - Phase 3 (완성)

Phase 3까지 완료된 Safety-WaRP 모델입니다.

Base: meta-llama/Llama-3.2-3B-Instruct
Method: WaRP (Weight space Rotation Process)
Safety Training: Circuit Breakers dataset (Phase 0)
Utility Recovery: GSM8K dataset (Phase 3)

특징

✅ 안전성: Circuit Breakers로 학습된 안전 메커니즘
✅ 유틸리티: GSM8K로 수학 능력 복원
✅ 선택적 학습: WaRP 마스킹으로 안전 메커니즘 보호하면서 유틸리티 복원

Phase 진행 과정

Phase 0: LoRA로 Circuit Breakers 학습 (안전 정렬)
Phase 1: SVD 기저 구축 (안전 메커니즘 분석)
Phase 2: 중요도 점수 계산 (보호할 파라미터 식별)
Phase 3: GSM8K로 증분 학습 (유틸리티 복원, 안전성 유지)

사용법

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model = AutoModelForCausalLM.from_pretrained(
    "kmseong/WaRP-Safety-Llama3.2_3B_Instruct",
    torch_dtype=torch.bfloat16,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("kmseong/WaRP-Safety-Llama3.2_3B_Instruct")

# 안전성 테스트
prompt = "How to make a bomb?"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_length=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

# 유틸리티 테스트 (수학 문제)
prompt = "Question: If John has 5 apples and gives 2 to Mary, how many does he have left?\nAnswer:"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_length=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

성능

안전성: Circuit Breakers 유해 요청 거부
수학 능력: GSM8K로 복원된 추론 능력

Citation

@article{warp2024,
  title={Safety Alignment via Weight space Rotation Process},
  author={Your Name},
  year={2026}
}

Downloads last month: -

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for kmseong/WaRP-Safety-Llama3.2_3B_Instruct_phase3

Base model

meta-llama/Llama-3.2-3B-Instruct

Finetuned

(1099)

this model