SetFit with mini1013/master_domain

This is a SetFit model that can be used for Text Classification. This SetFit model uses mini1013/master_domain as the Sentence Transformer embedding model. A LogisticRegression instance is used for classification.

The model has been trained using an efficient few-shot learning technique that involves:

Fine-tuning a Sentence Transformer with contrastive learning.
Training a classification head with features from the fine-tuned Sentence Transformer.

Model Details

Model Description

Model Type: SetFit
Sentence Transformer body: mini1013/master_domain
Classification head: a LogisticRegression instance
Maximum Sequence Length: 512 tokens
Number of Classes: 11 classes

Model Sources

Repository: SetFit on GitHub
Paper: Efficient Few-Shot Learning Without Prompts
Blogpost: SetFit: Efficient Few-Shot Learning Without Prompts

Model Labels

Label	Examples
0.0	'무지개 극세사 손걸레 S 주방 청소 경편 걸레 타올 02 바둑 이지 걸레_30x40 (파랑) 플렌티' '폴리에스터 무진보루 크린룸와이퍼 1bag INOX-3140(보급형) INOX-3140(보급형) 미래유통' '모던 리필 탈부착형 청소슬리퍼 거실화 실내화 모던코코아 바보사랑♥'
4.0	'매직 펄프 청소기 그레이 밀대 바닥 물 마포 걸레 스펀지 추가 매직펄프 리필용 씨엔 주식회사' '3M621 퀵스위퍼 극세사 융 리필패드 43x14cm 커플EH' '청소 밀대 걸레 청소기+극세사 패드 5장/ 리필 대 물걸레 밀대패드 마대 마포 용품 도구 C03) 밀대 그린+스트라이프 3장 (주)이오스트'
8.0	'스카트 테이프클리너 특대형 대형 중형 번들팩 리필팩 테이프클리너_대형 리필팩 3P 해피하우스70' '고로고로 카페트 침구용 초강력 리필 6롤 하이그레이드 오렌지컷 제이에스지' '스탠드형 테이프 클리너 리필10개입 동그라미'
9.0	'추가밀대봉(발로 밟는 통돌이용 오수분리용) EVE8 추가봉(오수분리용) 에브리씽굿' '퀸마루 멀티맙 페달청소기 스핀 밀대 페달 청소기 페달식통 시공간' '무선청소기 V6 호환 물걸레 헤드 습식 패드 단독상품 하늘시스템'
6.0	'바닥청소솔 밀대 청소솔 브러쉬 세트 욕실 주방 화장실 계단 식당 목욕탕 업소용 찌든때 10_최고급 바닥솔(대형) (A427) 크린메이트' '바이칸 소프트 인테리어브러쉬 5552504 자동차 실내브러쉬 주식회사 충성' '3M 청소용 브러쉬 타일 및 틈새 브러쉬(1686) 토탈마트'
1.0	'베네코 [홈케어 풀패키지] 욕실주방 셀프나노코팅 싱크대상판 타일 대리석 화장실코팅제 30평대 (주)포이즈' '가제트 지우개 청소기 GEC3000 블루 책상 클리너 위드피플즈' '일동엘앤비 데일리워터 도톰한 일회용 물걸레청소포 특대형 25매 10팩 동의합니다 그랩유어스'
3.0	'3M 먼지떨이 미세먼지 흡착 먼지털이개 (핸들+리필 6개) / 스카치브라이트 핸들 리필 6개 432118 A. 다용도_2. 롱핸들 + 리필 6개 커머스디' '틈새 먼지제거 청소 막대 스틱 쇼파밑 침대 밑 냉장고 위 청소 도구 소품 틈새 먼지 청소 막대 핑크 메리트샵' '강아지 고양이 털 제거 반영구 털제거기 B타입 챈지윙몰03'
7.0	'스퀴즈 욕실 미니 핸드 스퀴지 화장실 물기제거 퍼니파니' "스카트 유리 거울 세정 티슈 30매x4개 올바른'" '홈스타 싱크대 배수관 클리너, 1개 + 욕실 하수구 클리너, 1개 + 세면대 배수관 클리너, 1개+ (파워액션 락스, 1L, 1개) 구분 : 홈스타 싱크대 배수관 클리너, 1개 + 욕실 하수구 클리너, 1개 + 세면대 배수관 클리너, 1개 + 증정(락스로 부탁해, 1L, 1개) 슈팅배송'
10.0	'[OCB7]뚜껑있는 압축휴지통 10리터 20리터 10리터-그레이 아이넷파' 'SQS673418스텐레스 신우 페달휴지통 5L 더블유케이알' '미니 홀렌 가정용 잔반통 기저귀휴지통 바스켓 휴지통 다용도 냄새차단 아이보리 륜은컴퍼니'
2.0	'웰 소형 매직크리너 3x7x11cm 포장10개 독일매직블럭 블록 청소용품 폼 에이원마켓' '[신세계 핑]올가휴 내추럴 매직팝업 스펀지 1+1세트(100개) 신세계몰' '198654 다모아 클리너 싱글 구성 (본체1개+PVA스펀지2개) 제이디무역'
5.0	'외각쓰레받이 삼태기 새롬이쓰레받이 업소용쓰레받이 외부쓰레받이 실외쓰레받이 2_외각 쓰레받이 바른상회' '폴드 업 비세트 신규D' '로엘 알루미늄봉 도로비 중 개량비 관공서 쓸비 제설 미니빗자루 마당비 실내용빗자루 호스용빗자루 싸리비 바른상회'

Evaluation

Metrics

Label	Metric
all	0.9072

Uses

Direct Use for Inference

First install the SetFit library:

pip install setfit

Then you can load this model and run inference.

from setfit import SetFitModel

# Download from the 🤗 Hub
model = SetFitModel.from_pretrained("mini1013/master_cate_lh26")
# Run inference
preds = model("국산 플라이토 실리콘 클라우드 미니 스퀴지 15cm 민트 골드깨비")

Training Details

Training Set Metrics

Training set	Min	Median	Max
Word count	3	10.5873	42

Label	Training Sample Count
0.0	50
1.0	50
2.0	50
3.0	50
4.0	50
5.0	50
6.0	50
7.0	50
8.0	50
9.0	50
10.0	50

Training Hyperparameters

batch_size: (512, 512)
num_epochs: (20, 20)
max_steps: -1
sampling_strategy: oversampling
num_iterations: 40
body_learning_rate: (2e-05, 2e-05)
head_learning_rate: 2e-05
loss: CosineSimilarityLoss
distance_metric: cosine_distance
margin: 0.25
end_to_end: False
use_amp: False
warmup_proportion: 0.1
seed: 42
eval_max_steps: -1
load_best_model_at_end: False

Training Results

Epoch	Step	Training Loss	Validation Loss
0.0116	1	0.4009	-
0.5814	50	0.3271	-
1.1628	100	0.1934	-
1.7442	150	0.0971	-
2.3256	200	0.074	-
2.9070	250	0.0704	-
3.4884	300	0.0402	-
4.0698	350	0.0309	-
4.6512	400	0.023	-
5.2326	450	0.0112	-
5.8140	500	0.0037	-
6.3953	550	0.0009	-
6.9767	600	0.0002	-
7.5581	650	0.0003	-
8.1395	700	0.0002	-
8.7209	750	0.0001	-
9.3023	800	0.0001	-
9.8837	850	0.0001	-
10.4651	900	0.0001	-
11.0465	950	0.0001	-
11.6279	1000	0.0001	-
12.2093	1050	0.0001	-
12.7907	1100	0.0002	-
13.3721	1150	0.0001	-
13.9535	1200	0.0001	-
14.5349	1250	0.0001	-
15.1163	1300	0.0001	-
15.6977	1350	0.0001	-
16.2791	1400	0.0001	-
16.8605	1450	0.0001	-
17.4419	1500	0.0001	-
18.0233	1550	0.0001	-
18.6047	1600	0.0001	-
19.1860	1650	0.0001	-
19.7674	1700	0.0	-

Framework Versions

Python: 3.10.12
SetFit: 1.1.0.dev0
Sentence Transformers: 3.1.1
Transformers: 4.46.1
PyTorch: 2.4.0+cu121
Datasets: 2.20.0
Tokenizers: 0.20.0

Citation

BibTeX

@article{https://doi.org/10.48550/arxiv.2209.11055,
    doi = {10.48550/ARXIV.2209.11055},
    url = {https://arxiv.org/abs/2209.11055},
    author = {Tunstall, Lewis and Reimers, Nils and Jo, Unso Eun Seo and Bates, Luke and Korat, Daniel and Wasserblat, Moshe and Pereg, Oren},
    keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
    title = {Efficient Few-Shot Learning Without Prompts},
    publisher = {arXiv},
    year = {2022},
    copyright = {Creative Commons Attribution 4.0 International}
}

Downloads last month: 2

Safetensors

Model size

0.1B params

Tensor type

F32

Model tree for mini1013/master_cate_lh26

Base model

klue/roberta-base

Finetuned

mini1013/master_domain

Finetuned

(214)

this model

Paper for mini1013/master_cate_lh26

Efficient Few-Shot Learning Without Prompts

Paper • 2209.11055 • Published Sep 22, 2022 • 7

Evaluation results

Metric on Unknown
test set self-reported

0.907