CRM DPO LoRA Adapter
본 레포지토리는 CRM 메시지 자동 생성을 위한 LoRA 어댑터를 제공합니다.
해당 어댑터는 Direct Preference Optimization(DPO) 기법을 활용하여,
CRM 메시지 품질에 직접적인 영향을 주는 표현 문제들을 완화하는 것을 목표로 학습되었습니다.
🔗 Base Model
- Base Model:
LGAI-EXAONE/EXAONE-4.0-1.2B - 본 레포지토리에는 베이스 모델 가중치는 포함되어 있지 않으며,
LoRA 어댑터 파라미터만 제공합니다.
🎯 Training Objective
본 어댑터는 다음과 같은 CRM 메시지 품질 이슈를 완화하기 위해 학습되었습니다.
- 페르소나 직접 노출 (예: “Budget_Seeker 님”)
- 부자연스러운 한글/영어 혼용 표현
- 과도한 마케팅 문구 및 톤 불안정
- CRM 메시지로서의 일관성 부족
특히, 프롬프트 엔지니어링만으로 제어하기 어려운 표현 편차를
모델의 출력 분포 수준에서 정렬하는 것을 목표로 합니다.
🧠 Training Method
- Method: Direct Preference Optimization (DPO)
- Fine-tuning: LoRA (PEFT)
- Framework: Hugging Face TRL
- Precision: BF16
- Trainable Parameters: LoRA adapter only (base model frozen)
DPO 학습은 동일한 프롬프트에 대해
더 적합한 CRM 메시지(chosen)와 덜 적합한 메시지(rejected)를 비교하는 방식으로 수행되었습니다.
📊 Training Characteristics
- 제한된 수의 페르소나(5종)를 기반으로 학습
- 그 결과 페르소나 유출 및 한/영 혼용 빈도는 전반적으로 감소
- 다만, 페르소나 다양성 부족으로 인한 경미한 과적합 가능성이 존재함
본 어댑터는 CRM 메시지 생성 파이프라인의 품질 개선을 위한 중간 단계 결과물로 활용됩니다.
🚀 Usage
from transformers import AutoModelForCausalLM
from peft import PeftModel
base_model = AutoModelForCausalLM.from_pretrained(
"LGAI-EXAONE/EXAONE-4.0-1.2B",
torch_dtype="bfloat16",
device_map="auto"
)
model = PeftModel.from_pretrained(
base_model,
"Jinhyeok33/crm-dpo-adapter"
)
⚠️ Notes 본 어댑터는 SFT 없이 DPO + LoRA만 적용된 결과물입니다.
출력 형식 안정성을 더욱 강화하기 위해서는 SFT 기반 형식 학습 이후 DPO를 적용하는 구조가 권장됩니다.
실제 서비스 적용 시에는 추가적인 품질 검증이 필요합니다.
📜 License Apache 2.0
- Downloads last month
- 24
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support
Model tree for jinn33/crm-dpo-adapter
Base model
LGAI-EXAONE/EXAONE-4.0-1.2B