CRM DPO LoRA Adapter

본 레포지토리는 CRM 메시지 자동 생성을 위한 LoRA 어댑터를 제공합니다.
해당 어댑터는 Direct Preference Optimization(DPO) 기법을 활용하여,
CRM 메시지 품질에 직접적인 영향을 주는 표현 문제들을 완화하는 것을 목표로 학습되었습니다.

🔗 Base Model

Base Model: LGAI-EXAONE/EXAONE-4.0-1.2B
본 레포지토리에는 베이스 모델 가중치는 포함되어 있지 않으며,
LoRA 어댑터 파라미터만 제공합니다.

🎯 Training Objective

본 어댑터는 다음과 같은 CRM 메시지 품질 이슈를 완화하기 위해 학습되었습니다.

페르소나 직접 노출 (예: “Budget_Seeker 님”)
부자연스러운 한글/영어 혼용 표현
과도한 마케팅 문구 및 톤 불안정
CRM 메시지로서의 일관성 부족

특히, 프롬프트 엔지니어링만으로 제어하기 어려운 표현 편차를
모델의 출력 분포 수준에서 정렬하는 것을 목표로 합니다.

🧠 Training Method

Method: Direct Preference Optimization (DPO)
Fine-tuning: LoRA (PEFT)
Framework: Hugging Face TRL
Precision: BF16
Trainable Parameters: LoRA adapter only (base model frozen)

DPO 학습은 동일한 프롬프트에 대해
더 적합한 CRM 메시지(chosen)와 덜 적합한 메시지(rejected)를 비교하는 방식으로 수행되었습니다.

📊 Training Characteristics

제한된 수의 페르소나(5종)를 기반으로 학습
그 결과 페르소나 유출 및 한/영 혼용 빈도는 전반적으로 감소
다만, 페르소나 다양성 부족으로 인한 경미한 과적합 가능성이 존재함

본 어댑터는 CRM 메시지 생성 파이프라인의 품질 개선을 위한 중간 단계 결과물로 활용됩니다.

🚀 Usage

from transformers import AutoModelForCausalLM
from peft import PeftModel

base_model = AutoModelForCausalLM.from_pretrained(
    "LGAI-EXAONE/EXAONE-4.0-1.2B",
    torch_dtype="bfloat16",
    device_map="auto"
)

model = PeftModel.from_pretrained(
    base_model,
    "Jinhyeok33/crm-dpo-adapter"
)

⚠️ Notes 본 어댑터는 SFT 없이 DPO + LoRA만 적용된 결과물입니다.

출력 형식 안정성을 더욱 강화하기 위해서는 SFT 기반 형식 학습 이후 DPO를 적용하는 구조가 권장됩니다.

실제 서비스 적용 시에는 추가적인 품질 검증이 필요합니다.

📜 License Apache 2.0

Downloads last month: 2

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for jinn33/crm-dpo-adapter

Base model

LGAI-EXAONE/EXAONE-4.0-1.2B

Adapter

(7)

this model