Edit model card

SentenceTransformer based on intfloat/multilingual-e5-large-instruct

This is a sentence-transformers model finetuned from intfloat/multilingual-e5-large-instruct. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: intfloat/multilingual-e5-large-instruct
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 1024 tokens
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    '한국에서 에볼라 바이러스 검사를 하기 위해서 필요한 실험실은?',
    '중동호흡기증후군(MERS·메르스)에 대한 정부의 부실한 대응은 구멍 뚫린 방역안보의 현실을 그대로 보여줬다는 지적이다. 지금과 같은 대응 역량으로는 생물테러는커녕 에볼라와 같은 고위험 바이러스도 감당할 수 없다는 게 전문가들의 평가다. ▶관련기사 A4,5,26면국내 감염병 환자는 지난해 9만2730명으로 2009년(3만9224명)과 비교해 5년간 2.4배 늘었다. 하지만 감염병에 대응하는 보건복지부 산하 질병관리본부의 인원과 예산은 ‘제자리걸음’이다. 익명을 요구한 국방전문가는 “한국은 감염병 전문인력은 둘째치고 에볼라 수준의 바이러스를 안전하게 검사할 실험실조차 없다”고 밝혔다.치사율이 50~90%에 달하는 에볼라 바이러스는 생물안전 4등급(BL4) 실험실에서 다뤄야 한다. 그러나 국내엔 메르스 정도의 바이러스를 다룰 수 있는 3등급(BL3) 실험실만 20여곳 있다. 한국에 에볼라가 발병하면 안전한 검사 자체가 불가능하다는 얘기다. 한 감염내과 전문의는 “국가 격리 음압병상이 158개에 불과한 점도 에볼라 같은 고위험 바이러스가 확산됐을 때 치명적 약점”이라고 말했다.조성권 한성대 행정대학원 교수는 “미국은 2001년 탄저균 테러사건 이후 감염병을 국가안보 차원에서 대처하고 있다”며 “우리도 메르스 사태를 계기로 안보 차원에서 감염전문가 양성과 공중보건실험실, 음압병실 확대 등에 적극 투자해야 한다”고 강조했다.',
    '중국의 ‘부동산 공룡’으로 꼽히는 완다그룹이 이랜드그룹의 레저사업에 투자하기로 했다. 완다그룹은 특히 투자금액을 “이랜드가 결정하는 대로 주겠다”고 약속했다고 이랜드 측은 전했다.이랜드그룹은 박성경 부회장과 왕젠린 완다그룹 회장이 지난 5일 중국 베이징에서 레저사업에 대한 투자합의서를 체결했다고 10일 발표했다. 이랜드가 국내 각지에서 추진 중인 리조트, 호텔, 테마도시 등 레저사업에 완다그룹이 투자한다는 내용이다. 투자 규모는 아직 정해지지 않았다. 이랜드는 “구체적인 사업계획과 투자액을 우리가 정해 완다그룹에 제안하면 완다그룹은 이를 받아들이기로 했다”고 밝혔다.완다그룹을 이끄는 왕 회장은 개인 재산이 1350억위안(약 22조원)으로, 지난해 중국 후룬연구소가 발표한 중국 내 부호 1위에 올랐다. 그는 중국에서 백화점, 쇼핑몰, 부동산개발 등으로 사세를 키웠고 2012년 미국 영화관 체인 AMC엔터테인먼트와 지난해 영국 요트 제작업체 선시커를 인수하는 등 해외로 보폭을 넓히고 있다.완다그룹은 이랜드와 비슷하게 레저사업에도 강한 의욕을 보여왔다. 2017년까지 하얼빈, 우시 등 중국 주요 도시에 ‘테마도시’ 7개를 건설한다는 계획을 갖고 있다. 이랜드는 완다그룹과 10여년 전부터 끈끈한 파트너십을 유지해온 점이 이번 투자 유치로 이어졌다고 설명했다. 이랜드 관계자는 “오래전부터 완다그룹이 보유한 쇼핑몰에 패션매장이 대거 입점하는 등 우호적인 관계를 유지하고 있다”며 “왕 회장이 개인적으로 만나는 한국 기업인은 박 부회장뿐”이라고 말했다.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 23,392 training samples
  • Columns: sentence_0 and sentence_1
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1
    type string string
    details
    • min: 9 tokens
    • mean: 19.07 tokens
    • max: 43 tokens
    • min: 246 tokens
    • mean: 453.67 tokens
    • max: 512 tokens
  • Samples:
    sentence_0 sentence_1
    현행범을 검거한 경찰의 이름은 무엇인가? 보이스피싱 사기 현행범이 서울의 한 새마을금고에서 범죄 수익금을 인출하려다 새마을금고 직원들의 순발력과 기지로 현장에서 체포됐다.지난 16일 서울 사당동 동작새마을금고 1분소에 근무하는 최유선 대리(35·사진)는 심모씨(36)를 수상하게 바라봤다. “인테리어 사업을 하는 친구에게 돈을 건네주기로 했다”며 3000만원을 빼간 뒤 10여분 만에 돌아와 1000만원을 추가 인출해줄 것을 요청했기 때문이다. 하지만 10분 전만 해도 인출이 가능했던 심씨의 계좌는 지급정지가 걸려 있었다. 은행원을 사칭한 보이스피싱 사기단에 속아 OTP(일회용 비밀번호 생성기) 비밀번호를 불러줬던 피해자가 뒤늦게 신고한 것이다.최 대리는 “당시에는 지급정지 사유를 몰랐지만 갑자기 지급정지가 걸린 점을 고려할 때 문제가 있다고 생각했다”며 “최근 횡행하는 보이스피싱 범죄가 떠올랐다”고 말했다. 그는 놀란 마음을 진정시키며 뒷자리에 있는 탁경영 분소장에게 메신저로 “보이스피싱 의심 계좌라 경찰에 신고해야 한다”고 쪽지를 보냈다. 심씨에게는 “전산오류니 잠시 기다려 달라”며 음료를 주는 등 시간을 끌었다.탁 분소장은 “문 앞에 주차된 차를 빼달라고 해야겠다”고 둘러대고 밖으로 나가 동작경찰서에 신고했다. 곧 출동한 경찰은 심씨를 현행범으로 체포하고 사기 등 혐의로 입건했다.
    마르크수 주의를 주장하는 사람들이 자본국가를 어떻게 지칭하는가? 자본국가(資本國家, capitalist state)란 자본주의 사회경제체제에 따라 굴러가는 국가다. 일반적으로 "근대국가" 개념과 상호 혼용될 수 있다. 다만 자본국가들은 서로 공통점만큼 차이점도 상당히 많다.

    자본국가의 기본 기능은 사업과 자본축적에 유리한 법적·사회기반적 환경을 제공하는 것이다. 자본주의 경제에서 국가의 필요성과 역할에 관한 다양한 규범이론들이 존재한다. 공공재를 제공하고 재산권을 수호하는 것으로 국가의 역할을 제한하는 자유방임주의가 있는가 하면, 자본축적을 위한 사회안정을 유지하기 위해 국가의 규제와 개입의 중요성을 강조하는 입장도 있다.

    카를 마르크스는 자본국가를 경제적 기초에서 이해했다. 마르크스에 따르면 자본국가의 제1기능은 자본주의 경제의 필요를 충족시켜 주는 것이다. 그것을 위해 자본국가는 자본주의를 흥성케 하는 법적 제도적 장치들을 마련하며, 그것이 바로 자본주의 체제의 상부구조가 된다. 또한 자본국가는 자본주의의 영속을 담보하기 위해 다양한 계급들 간의 수요의 균형을 맞춘다. 대개 이것은 특정 자본가에게 특혜를 주거나 또는 자본가 계급 전체에게 특혜를 주는 식으로 표출된다. 그렇기에 마르크스가 보기에 자본국가의 행정부는 “에 지나지 않는다(공산당 선언에 등장하는 표현).” 마르크스적 개념에서 자본국가가 자본가 계급의 이해에 복무하는 것은 결함이 아니라 필요조건이다. 자본가 계급의 이해에 복무하지 않는 국가는 애초에 자본국가가 아니다. 이런 맥락에서 마르크스주의 사상가들은 자본국가를 “부르주아 독재(Dictatorship of the bourgeoisie)”라고 한다. 그리고 그것을 탈피하여 권력을 노동계급에게 돌리는 것이 프롤레타리아 독재이다.

    자본국가의 특징들은 국가가 특정 자본이나 기업에게 종속당하는 연고자본주의나 기업국가와 혼동될 수 있지만 그것과는 분명히 다르다.
    매장에 시계, 도자기 등 다양한 영역의 제품들을 구비하고 있는 브랜드의 이름은? 현대백화점이 27일 서울 삼성동 무역센터점의 수입 패션 브랜드를 44개에서 72개로 늘려 다시 오픈했다. 국내 최대 크기의 명품 매장을 독특한 1, 2층 복층 형태로 내는 등 강남 상권을 잡기 위한 대형화에 주력했다.현대백화점 무역센터점에 들어간 해외 패션 및 시계, 화장품 브랜드는 총 120여개로, 이 중 에르메스(254㎡) 루이비통(839㎡) 까르띠에(330㎡)는 국내 백화점 중 가장 큰 규모다. 까르띠에는 다음달 22일 2층과 연결된 복층 매장으로 열고, 루이비통은 오는 7월께 1, 2층에 복층 구조로 매장을 낸다. 에르메스 매장에는 백화점 매장으론 유일하게 의류 잡화뿐 아니라 시계, 크리스털, 테이블웨어, 가죽, 도자기, 향수 등 14개 제품군을 모두 들여놨다. 시계도 강화한다. 기존에 264㎡였던 명품 시계 매장을 891㎡로 확대, 강남 상권 최대 규모로 마련했다. 위블로, 오데마피게, 예거 르쿨르트, 피아제 등 10개 브랜드를 새로 들여놓는다. 이 중 예거 르쿨트르와 쇼메 등 9개 브랜드는 부티크 형태의 단독 매장으로 다음달 22일 문을 연다.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • num_train_epochs: 1
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: round_robin

Training Logs

Epoch Step Training Loss
0.6840 500 0.2767

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.1.1
  • Transformers: 4.45.2
  • PyTorch: 2.5.1+cu121
  • Accelerate: 1.1.1
  • Datasets: 3.1.0
  • Tokenizers: 0.20.3

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
15
Safetensors
Model size
560M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for GyuBack/multilingual-e5-large-instruct-FT_klue_mrc_full32b

Finetuned
(29)
this model