stag_123_cp8000 / README.md
huudan123's picture
Add new SentenceTransformer model.
790be78 verified
metadata
base_model: vinai/phobert-base-v2
datasets: []
language: []
library_name: sentence-transformers
metrics:
  - pearson_cosine
  - spearman_cosine
  - pearson_manhattan
  - spearman_manhattan
  - pearson_euclidean
  - spearman_euclidean
  - pearson_dot
  - spearman_dot
  - pearson_max
  - spearman_max
pipeline_tag: sentence-similarity
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:291719
  - loss:TripletLoss
  - loss:MultipleNegativesRankingLoss
  - loss:CosineSimilarityLoss
widget:
  - source_sentence: >-
      nếu thời_gian đến mà họ phải có một cuộc đấu_tranh johny shanon có_thể là
      một người ngạc_nhiên
    sentences:
      - johny nghĩ anh ta  người giỏi nhất trong thị_trấn
      - nếu một cuộc đấu_tranh đã xảy ra johny có_thể ngạc_nhiên đấy
      - jay leno không phải  một diễn_viên hài
  - source_sentence: >-
      các luật_sư tại california nông_thôn hợp_pháp báo_cáo rằng giữa bốn_mươi
      và chín_mươi phần_trăm thẻ xanh của họ đang giữ khách_hàng rời khỏi
      đất_nước này trong suốt thời_gian đại_diện
    sentences:
      - >-
        Đa_số những người cầm thẻ xanh vẫn còn ở trong đất_nước trong khi
        luật_sư của họ đại_diện cho họ .
      - >-
        Theo báo_cáo , một phần_trăm của khách_hàng đang giữ thẻ xanh rời khỏi
        đất_nước trong khi luật_sư của họ vẫn còn đại_diện cho họ .
      - >-
        Những bình_luận này được thảo_luận bởi ủy_ban và được công_bố vào ngày
        12 tháng 1996 . Năm 1996 .
  - source_sentence: >-
      một tình_huống giảm_giá loại 4 là nơi mà mailer làm giảm công_việc yêu_cầu
      bằng cách thay_đổi hành_vi của mình trong những cách hiệu_quả mà không
      phải là dự_đoán hoặc không có vẻ đặc_biệt liên_quan đến bản_chất của
      giảm_giá
    sentences:
      - Tôi đã tạo ra một ngành công_nghiệp bối_rối .
      - Các bưu_phẩm không  khả_năng giảm các công_việc cần_thiết .
      - Một giảm_giá 4 liên_quan đến việc mailer giảm các công_việc cần_thiết .
  - source_sentence: >-
      khu vườn là một sự cống_hiến mạnh_mẽ cho hàng ngàn chiến_binh ireland đã
      chết trong chiến_tranh thế_giới tôi trong khi phục_vụ trong quân_đội anh
    sentences:
      - Lính Ireland không bao_giờ được phục_vụ với người anh .
      - Hàng ngàn lính ireland đã chết trong chiến_tranh thế_giới tôi .
      - Chúng_ta đang  trong một thị_trấn  bắc potomac , gần potomac .
  - source_sentence: >-
      Câu trả lời đơn giản là có, chồi hoa trên rau diếp là một dấu hiệu chắc
      chắn của việc bắt vít.
    sentences:
      -  vẻ như  đã bắt đầu bắt đầu.
      - Hai người đàn ông đang đợi một chuyến đi bên lề đường đất.
      - Không  ngụ ý nào về Tom trong một câu như vậy.
model-index:
  - name: SentenceTransformer based on vinai/phobert-base-v2
    results:
      - task:
          type: semantic-similarity
          name: Semantic Similarity
        dataset:
          name: sts evaluator
          type: sts-evaluator
        metrics:
          - type: pearson_cosine
            value: 0.5848185575836586
            name: Pearson Cosine
          - type: spearman_cosine
            value: 0.6070556898352754
            name: Spearman Cosine
          - type: pearson_manhattan
            value: 0.707840239937728
            name: Pearson Manhattan
          - type: spearman_manhattan
            value: 0.7130754440352984
            name: Spearman Manhattan
          - type: pearson_euclidean
            value: 0.4592545627339163
            name: Pearson Euclidean
          - type: spearman_euclidean
            value: 0.5334661915153798
            name: Spearman Euclidean
          - type: pearson_dot
            value: 0.322685593671414
            name: Pearson Dot
          - type: spearman_dot
            value: 0.5248948294043073
            name: Spearman Dot
          - type: pearson_max
            value: 0.707840239937728
            name: Pearson Max
          - type: spearman_max
            value: 0.7130754440352984
            name: Spearman Max

SentenceTransformer based on vinai/phobert-base-v2

This is a sentence-transformers model finetuned from vinai/phobert-base-v2. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: vinai/phobert-base-v2
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 tokens
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("huudan123/stag_123_cp8000")
# Run inference
sentences = [
    'Câu trả lời đơn giản là có, chồi hoa trên rau diếp là một dấu hiệu chắc chắn của việc bắt vít.',
    'Có vẻ như nó đã bắt đầu bắt đầu.',
    'Hai người đàn ông đang đợi một chuyến đi bên lề đường đất.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Semantic Similarity

Metric Value
pearson_cosine 0.5848
spearman_cosine 0.6071
pearson_manhattan 0.7078
spearman_manhattan 0.7131
pearson_euclidean 0.4593
spearman_euclidean 0.5335
pearson_dot 0.3227
spearman_dot 0.5249
pearson_max 0.7078
spearman_max 0.7131

Training Details

Training Hyperparameters

Non-Default Hyperparameters

  • overwrite_output_dir: True
  • eval_strategy: steps
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 128
  • gradient_accumulation_steps: 2
  • learning_rate: 1e-05
  • num_train_epochs: 15
  • lr_scheduler_type: cosine_with_restarts
  • warmup_ratio: 0.1
  • fp16: True
  • load_best_model_at_end: True
  • gradient_checkpointing: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: True
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 128
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 2
  • eval_accumulation_steps: None
  • learning_rate: 1e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 15
  • max_steps: -1
  • lr_scheduler_type: cosine_with_restarts
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: True
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss stage1 loss stage2 loss stage3 loss sts-evaluator_spearman_max
0 0 - - - - 0.6643
0.0877 100 4.3054 - - - -
0.1754 200 3.93 - - - -
0.2632 300 3.585 - - - -
0.3509 400 3.4482 - - - -
0.4386 500 3.1858 4.3297 2.6006 0.1494 0.7527
0.5263 600 3.141 - - - -
0.6140 700 2.9477 - - - -
0.7018 800 2.6271 - - - -
0.7895 900 2.6175 - - - -
0.8772 1000 2.4931 2.9001 2.3487 0.1593 0.6907
0.9649 1100 2.4516 - - - -
1.0526 1200 2.4662 - - - -
1.1404 1300 2.5022 - - - -
1.2281 1400 2.4325 - - - -
1.3158 1500 2.4058 2.7163 2.1658 0.1392 0.7121
1.4035 1600 2.3305 - - - -
1.4912 1700 2.2677 - - - -
1.5789 1800 2.2555 - - - -
1.6667 1900 2.2275 - - - -
1.7544 2000 2.1846 2.5441 2.1172 0.1293 0.6781
1.8421 2100 2.2007 - - - -
1.9298 2200 2.192 - - - -
2.0175 2300 2.1491 - - - -
2.1053 2400 2.2419 - - - -
2.1930 2500 2.1822 2.4765 2.0476 0.1055 0.6893
2.2807 2600 2.1384 - - - -
2.3684 2700 2.1379 - - - -
2.4561 2800 2.0558 - - - -
2.5439 2900 2.057 - - - -
2.6316 3000 2.0263 2.4108 2.0751 0.0904 0.7016
2.7193 3100 1.9587 - - - -
2.8070 3200 2.0702 - - - -
2.8947 3300 2.0058 - - - -
2.9825 3400 2.0093 - - - -
3.0702 3500 2.0347 2.3948 1.9958 0.0937 0.7131
3.1579 3600 2.0071 - - - -
3.2456 3700 1.9708 - - - -
3.3333 3800 2.027 - - - -
3.4211 3900 1.9432 - - - -
3.5088 4000 1.9245 2.3858 2.0274 0.0831 0.7197
3.5965 4100 1.8814 - - - -
3.6842 4200 1.8619 - - - -
3.7719 4300 1.8987 - - - -
3.8596 4400 1.8764 - - - -
3.9474 4500 1.8908 2.3753 2.0066 0.0872 0.7052
4.0351 4600 1.8737 - - - -
4.1228 4700 1.9289 - - - -
4.2105 4800 1.8755 - - - -
4.2982 4900 1.8542 - - - -
4.3860 5000 1.8514 2.3731 2.0023 0.0824 0.7191
4.4737 5100 1.7939 - - - -
4.5614 5200 1.8126 - - - -
4.6491 5300 1.7662 - - - -
4.7368 5400 1.7448 - - - -
4.8246 5500 1.7736 2.3703 2.0038 0.0768 0.7044
4.9123 5600 1.7993 - - - -
5.0 5700 1.7811 - - - -
5.0877 5800 1.7905 - - - -
5.1754 5900 1.7539 - - - -
5.2632 6000 1.7393 2.3568 2.0173 0.0853 0.7263
5.3509 6100 1.7882 - - - -
5.4386 6200 1.682 - - - -
5.5263 6300 1.7175 - - - -
5.6140 6400 1.6806 - - - -
5.7018 6500 1.6243 2.3715 2.0202 0.0770 0.7085
5.7895 6600 1.7079 - - - -
5.8772 6700 1.6743 - - - -
5.9649 6800 1.6897 - - - -
6.0526 6900 1.668 - - - -
6.1404 7000 1.6806 2.3826 1.9925 0.0943 0.7072
6.2281 7100 1.6394 - - - -
6.3158 7200 1.6738 - - - -
6.4035 7300 1.6382 - - - -
6.4912 7400 1.6109 - - - -
6.5789 7500 1.5864 2.3849 2.0064 0.0831 0.7200
6.6667 7600 1.5838 - - - -
6.7544 7700 1.5776 - - - -
6.8421 7800 1.5904 - - - -
6.9298 7900 1.6198 - - - -
7.0175 8000 1.5661 2.3917 2.0038 0.0746 0.7131

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.0.1
  • Transformers: 4.42.4
  • PyTorch: 2.3.1+cu121
  • Accelerate: 0.33.0
  • Datasets: 2.20.0
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

TripletLoss

@misc{hermans2017defense,
    title={In Defense of the Triplet Loss for Person Re-Identification}, 
    author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
    year={2017},
    eprint={1703.07737},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply}, 
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}