⚠️ DEPRECATED — v1 (text LM loss, 잘못된 SFT 방식)

이 모델은 사용하지 마세요. labels=input_ids로 텍스트 전체에 LM loss를 적용하여 액션 토큰을 학습하지 못했습니다.

올바른 v2 모델 사용:

v1 vs v2 차이

v1 (이 모델) v2 (사용해야 함)
Loss 방식 text LM loss action token CE loss
LoRA rank 16 32
LoRA alpha 32 16
학습 대상 텍스트 프롬프트 로봇 액션 토큰 (256 bins)
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support