Initial: kor-static-embedding-64 (Matryoshka 분리, 9MB)

cd83eb6 verified 10 days ago

2.49 kB

language:
  - ko
license: apache-2.0
library_name: sentence-transformers
pipeline_tag: sentence-similarity
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - static-embedding
  - model2vec
  - korean
  - ko
  - matryoshka
datasets:
  - kakaobrain/kor_nli
  - mteb/KorSTS
  - klue/klue
  - Helsinki-NLP/opus-100
base_model: klue/roberta-base

kor-static-embedding-64

한국어 특화 초경량 Static Embedding 모델 — 9MB, 64차원.

kekeappa/kor-static-embedding-512를 Matryoshka 학습으로 만들고 64차원으로 잘라낸 변종입니다. 같은 모델 패밀리에 4개 차원 존재 — 용도에 맞게 선택:

차원	크기	용도
64	9MB	🌐 브라우저 · 모바일 · 엣지
128	17MB	⚡ 가벼운 검색·분류
256	34MB	⚖️ 가성비
512	68MB	🎯 최고 정확도

성능 (KorSTS / KLUE-STS)

벤치마크	Pearson	Spearman
KorSTS-test	0.7382	0.7337
KorSTS-valid	—	0.7885
KLUE-STS-val	—	0.6582

사용

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("kekeappa/kor-static-embedding-64")
emb = model.encode(["한국어 문장", "임베딩 테스트"], normalize_embeddings=True)
print(emb.shape)  # (2, 64)

특징

아키텍처: StaticEmbedding (model2vec 계열) — 트랜스포머 attention 없음
추론: CPU 최적, GPU 불필요
속도: 단일 쿼리 < 1ms (브라우저에서도 빠름)
한영 호환: cross-lingual 학습됨 — 한국어 쿼리로 영어 문서 검색 가능

학습 방법

4-stage 학습:

Distillation 초기화: BM-K/KoSimCSE-roberta-multitask teacher의 vocab 임베딩 → PCA + Zipf weighting
KorNLI MNRL: kakaobrain/kor_nli (multi_nli + snli) 277K triplet
Cross-lingual MNRL: OPUS-100 ko-en parallel 200K pair
Matryoshka regression: KorSTS + KLUE-STS + NLLB로 번역한 영어 STS-B
- 64/128/256/512 차원 동시 최적화 (MatryoshkaLoss)

학습 코드: https://github.com/johunsang/kor-static-embedding-512

라이선스

Apache 2.0