SetFit with mini1013/master_domain

This is a SetFit model that can be used for Text Classification. This SetFit model uses mini1013/master_domain as the Sentence Transformer embedding model. A LogisticRegression instance is used for classification.

The model has been trained using an efficient few-shot learning technique that involves:

Fine-tuning a Sentence Transformer with contrastive learning.
Training a classification head with features from the fine-tuned Sentence Transformer.

Model Details

Model Description

Model Type: SetFit
Sentence Transformer body: mini1013/master_domain
Classification head: a LogisticRegression instance
Maximum Sequence Length: 512 tokens
Number of Classes: 10 classes

Model Sources

Repository: SetFit on GitHub
Paper: Efficient Few-Shot Learning Without Prompts
Blogpost: SetFit: Efficient Few-Shot Learning Without Prompts

Model Labels

Label	Examples
3	'Britz 브리츠인터내셔널 BA-UMK120 다크실버 주식회사 꿈누리' 'Britz Accessories BA-R9 SoundBar 스피커 [화이트] (주)조이젠' '크리에이티브 PEBBLE V2 (주)아이티블루'
2	'GN-2000S 구즈넥 마이크 콘덴서 (회의, 강연, 설교, 스피치, 교회, 법원, 방송) 사운드스토리' '컴스 MT195 회의실용 콘덴서 마이크 아이코다(주)' '고독스 EM68 RGB 카디오이드 USB 콘덴서 마이크 스탠드 / 납품 세금계산서 가능 주식회사 모즈인터내셔날'
8	'레이저코리아 Razer Kiyo X 키요 X 웹캠 YT 주식회사 옐로우트리' '앱코 APC930 QHD 웹캠 (블랙) 주식회사 동행하기' '[병행,벌크]로지텍 C922 Pro Stream 웹캠 더블유에이취제이(WHJ)'
5	'포커스라이트 스칼렛2i2 3세대 FocusriScarlett 2i2 3rd Gen 와이지스토어(주) (YG store Co., Ltd)' 'Focusrite 포커스라이트 Scarlett 18i8 3세대 오디오 인터페이스 씨엠뮤직(CM music)' '크리에이티브 Creative 사운드 블라스터 X5 (주)아토닉스'
4	'CORSAIR VOID RGB ELITE WIRELESS (화이트, 정품) 주식회사 꿈누리' 'TFG CH240 컬러풀 7.1Ch 게이밍헤드셋 (초경량 / 노이즈캔슬링 / 로스트아크) 블랙 (주)한성' '로지텍 PRO X 2 LIGHTSPEED (핑크) 주식회사 조이쿨'
7	'HD60X 주식회사 글렌트리' '블랙매직 Blackmagic Design ATEM Mini Pro 아템미니프로 어썸팩토리(awesome factory)' 'AVerMedia ER330 EzRecorder PVR(독립형 녹화장치) (주)스트림텍'
0	'이지넷유비쿼터스 NEXT-4516HDP 16채널 비디오 발룬 수신기 에이치엠에스' '하이크비젼 DS-7604NI-K1/4P 4채널 IP POE NVR CCTV테크' '[HIKVISION 공식 수입원] 하이크비전 DS-7608NI-I2/8P UHD 4K IP카메라 네트워크 녹화기 (주)씨넥스존'
6	'스카이디지탈 DT-800 HDTV 안테나 (주)컴퓨존' '(스카이디지탈) DT-800 HDTV 안테나 /안테나 엠지솔루션' '무료 스카이디지탈 SKY DT-800 HDTV 지상파 안테나 주식회사에프엘인텍'
1	'서진네트웍스 유니콘 AV-M9 UHD4K 안드로이드 셋탑박스 디빅스미디어플레이어 광고용디스플레이 (주)컴퓨존' '유니콘 AV-M7 2세대 디빅스플레이어 UHD 4K지원 미디어플레이어 더원' '서진네트웍스 UNICORN AV-M9 정품 멀티미디어 플레이어/영샵 영 샵'
9	'옴니트로닉 MSP-Q1 2채널 휴대용 마이크스피커 핸드+핸드마이크 에이스전자' '[공식] 에버미디어 AS311 Speakerphon 휴대용 스피커폰 AI 소음감지 USB전원 주식회사 이선디지탈' '브리츠 BE-MC100 야외설치 아웃도어 방수 스피커 (주)담다몰'

Evaluation

Metrics

Label	Metric
all	0.8029

Uses

Direct Use for Inference

First install the SetFit library:

pip install setfit

Then you can load this model and run inference.

from setfit import SetFitModel

# Download from the 🤗 Hub
model = SetFitModel.from_pretrained("mini1013/master_cate_el8")
# Run inference
preds = model("넥시 CAP02 USB HDMI 캡쳐보드 젠더타입  주식회사 디앤에스티")

Training Details

Training Set Metrics

Training set	Min	Median	Max
Word count	3	9.3503	26

Label	Training Sample Count
0	49
1	25
2	50
3	50
4	50
5	50
6	15
7	50
8	50
9	5

Training Hyperparameters

batch_size: (512, 512)
num_epochs: (20, 20)
max_steps: -1
sampling_strategy: oversampling
num_iterations: 40
body_learning_rate: (2e-05, 2e-05)
head_learning_rate: 2e-05
loss: CosineSimilarityLoss
distance_metric: cosine_distance
margin: 0.25
end_to_end: False
use_amp: False
warmup_proportion: 0.1
seed: 42
eval_max_steps: -1
load_best_model_at_end: False

Training Results

Epoch	Step	Training Loss	Validation Loss
0.0161	1	0.496	-
0.8065	50	0.2401	-
1.6129	100	0.0385	-
2.4194	150	0.025	-
3.2258	200	0.0181	-
4.0323	250	0.0004	-
4.8387	300	0.0002	-
5.6452	350	0.0001	-
6.4516	400	0.0002	-
7.2581	450	0.0001	-
8.0645	500	0.0001	-
8.8710	550	0.0001	-
9.6774	600	0.0001	-
10.4839	650	0.0001	-
11.2903	700	0.0001	-
12.0968	750	0.0	-
12.9032	800	0.0	-
13.7097	850	0.0	-
14.5161	900	0.0	-
15.3226	950	0.0	-
16.1290	1000	0.0	-
16.9355	1050	0.0	-
17.7419	1100	0.0	-
18.5484	1150	0.0	-
19.3548	1200	0.0	-

Framework Versions

Python: 3.10.12
SetFit: 1.1.0.dev0
Sentence Transformers: 3.1.1
Transformers: 4.46.1
PyTorch: 2.4.0+cu121
Datasets: 2.20.0
Tokenizers: 0.20.0

Citation

BibTeX

@article{https://doi.org/10.48550/arxiv.2209.11055,
    doi = {10.48550/ARXIV.2209.11055},
    url = {https://arxiv.org/abs/2209.11055},
    author = {Tunstall, Lewis and Reimers, Nils and Jo, Unso Eun Seo and Bates, Luke and Korat, Daniel and Wasserblat, Moshe and Pereg, Oren},
    keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
    title = {Efficient Few-Shot Learning Without Prompts},
    publisher = {arXiv},
    year = {2022},
    copyright = {Creative Commons Attribution 4.0 International}
}

mini1013
/

master_cate_el8