amorfati's picture
Add new SentenceTransformer model.
81e2d61 verified
metadata
base_model: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
datasets: []
language: []
library_name: sentence-transformers
pipeline_tag: sentence-similarity
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:1530
  - loss:CoSENTLoss
widget:
  - source_sentence: ' Kuldeep Yadav : तो क्या बॉलीवुड एक्ट्रेस से शादी करने जा रहे वर्ल्ड चैंपियन कुलदीप यादव? बोले - जल्द ही खुशखबरी मिलेगी...  '
    sentences:
      - >-
        Shagun Apsagun: पूजा में नारियल का खराब निकलना शुभ या अशुभ? जानें मिलने
        वाले संकेत
      - >-
        दोस्त की बहन पर आया दिल, प्यार में तोड़ीं धर्म की बेड़ियां, टीम इंडिया
        के दिग्गज की ऐसी थी लव स्टोरी
      - >-
        WhatsApp पर और भी ज्यादा स्मार्ट होगा Meta AI, एक इशारे पर कर देगा ये
        काम, चौंका देंगे फायदे
  - source_sentence: ' Quiz: लिखता हूं पर पेन नहीं, चलता हूं पर गाड़ी नहीं, टिक-टिक करता हूं पर घड़ी नहीं, बताओ मैं कौन हूं? '
    sentences:
      - >-
        Ram Chalisa: बेहद चमत्कारी है श्रीराम चालीसा, रोजाना पढ़ने से खुल जाएंगे
        धन आगमन के रास्ते, ये दिन है खास
      - >-
        वैज्ञानिकों की नई खोज: बस थोड़ी सी ऑक्सीजन चाहिए थी... और धरती पर फूट
        पड़ा जीवन का अंकुर
      - >-
        France Election: 28 साल के जॉर्डन बार्डेला बन सकते हैं फ्रांस के पीएम,
        धाकड़ विरोधियों को पस्त करने का है माद्दा
  - source_sentence: ' बारिश के मौसम में उत्तराखंड की इन जगहों पर घूमना पड़ सकता है भारी अवॉइड करें ये 5 जगहें '
    sentences:
      - >-
        Vastu Tips: घर के मुख्य दरवाजे पर ये एक चीज लटकाने से दौड़ी आएंगी मां
        लक्ष्मी, पैसों की तंगी से मिलेगा छुटकारा
      - एडवेचंर के हैं शौकीन तो मानसून में घूमें उत्तराखंड की ये 6 रोमांचक ट्रेक
      - >-
        Samsung Galaxy Ring हुई लॉन्च, 9 साइज और 3 कलर ऑप्शन में मिलेगी, जानें
        फीचर्स
  - source_sentence: ' रथ में सवार होकर मौसी के घर गए भगवान जगन्‍नाथ बीमार क्‍यों हो जाते हैं? '
    sentences:
      - >-
        Airport Jobs: 10वीं पास से लेकर ग्रेजुएट के लिए वैकेंसी, यूपी के हिंडन
        एयरपोर्ट के लिए होगा चयन, ऐसे भरें फॉर्म
      - >-
        शादी के बाद जहीर इकबाल ने शेयर की UNSEEN रोमांटिक फोटो, पति की आंखों में
        खोई दिखीं दुल्हनिया सोनाक्षी सिन्हा
      - मनी प्‍लांट भी है इस पौधे के आगे फेल, घर में लगाते ही बरसता धन
  - source_sentence: ' बैंक ऑफ बड़ौदा ने कस्टमर्स को दिया झटका! इन लोगों की बढ़ेंगी मुश्किलें '
    sentences:
      - >-
        Karnataka: चुनाव जीतने के जश्न में खुलेआम बंटी शराब.. भाजपा ने इस नेता
        को पार्टी से कर दिया बेदखल
      - >-
        PM Modi's Russia visit: अमेरिका ने की पीएम मोदी से अपील, राष्ट्रपति
        पुतिन के सामने उठाएं ये मुद्दा
      - >-
        Hemant Soren: सीएम बनते ही हेमंत सोरेन के सिर पर फिर लटकी तलवार, जमानत
        रद्द करवाने के लिए सुप्रीम कोर्ट पहुंची ED

SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2

This is a sentence-transformers model finetuned from sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("amorfati/custom-hindi-emb-model")
# Run inference
sentences = [
    ' बैंक ऑफ बड़ौदा ने कस्टमर्स को दिया झटका! इन लोगों की बढ़ेंगी मुश्किलें ',
    'Hemant Soren: सीएम बनते ही हेमंत सोरेन के सिर पर फिर लटकी तलवार, जमानत रद्द करवाने के लिए सुप्रीम कोर्ट पहुंची ED',
    'Karnataka: चुनाव जीतने के जश्न में खुलेआम बंटी शराब.. भाजपा ने इस नेता को पार्टी से कर दिया बेदखल',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 1,530 training samples
  • Columns: premise, hypothesis, and label
  • Approximate statistics based on the first 1000 samples:
    premise hypothesis label
    type string string int
    details
    • min: 15 tokens
    • mean: 31.85 tokens
    • max: 52 tokens
    • min: 15 tokens
    • mean: 31.93 tokens
    • max: 52 tokens
    • 0: ~30.00%
    • 2: ~70.00%
  • Samples:
    premise hypothesis label
    UCO Bank: यूको बैंक में होने जा रही बंपर भर्तियों के लिए करें अप्लाई, इस दिन बंद हो रही आवेदन प्रक्रिया Law टेस्ट की कट-ऑफ कम कराने के लिए डाली याचिका, CJI ने दिया ऐसा जवाब, बोलेंगे-वाह! 2
    इन 5 लक्षणों के साथ आता है डेंगू का बुखार, घर पर इस तरह से पाएं राहत, प्लेटलेट्स भी नहीं होंगे कम Bengal Video: हाथ-पांव पकड़े, जमकर मारे डंडे, चिल्लाती रही महिला; TMC के गुंडों का फिर दिखा कहर 2
    क्या कल्कि 2898 एडी Robert Downey Jr की इस फिल्म की है कॉपी? डायरेक्टर ने बताया चौंकाने वाला सच IND vs ZIM : 8 छक्के 7 चौके... अभिषेक शर्मा के आगे बौने पड़ गए जिम्बाब्वे के गेंदबाज, ठोका तीसरा सबसे तेज शतक 2
  • Loss: CoSENTLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "pairwise_cos_sim"
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 170 evaluation samples
  • Columns: premise, hypothesis, and label
  • Approximate statistics based on the first 1000 samples:
    premise hypothesis label
    type string string int
    details
    • min: 15 tokens
    • mean: 31.56 tokens
    • max: 51 tokens
    • min: 17 tokens
    • mean: 31.68 tokens
    • max: 50 tokens
    • 1: 100.00%
  • Samples:
    premise hypothesis label
    अरमान मलिक ने विशाल पांडे को मारा थप्पड़, Video हुआ वायरल; क्या अब यूट्यूबर हो जाएंगे BB हाउस से बाहर? खुद से आधी उम्र के हीरो संग इस भोजपुरी एक्ट्रेस ने किया कुछ ऐसा, वायरल हो गया गाने का Video; आए करोड़ों व्यूज 1
    अनुष्का शर्मा ने शेयर किया क्रिप्टिक पोस्ट तो इधर दिखे विराट कोहली, क्या सही में शिफ्ट हो गए लंदन? 'ऐसी लड़की मिली आपको जो...', विक्की कौशल और कैटरीना कैफ की जोड़ी पर क्या बोल गए अनिल कपूर 1
    क्या Alien ने भेजे हैं सिग्नल? समझने के लिए वैज्ञानिकों ने लगाई ऐसी गणित एक भाई धरती पर था, जुड़वां अंतरिक्ष में...दोनों की बायोलॉजी में क्‍या अंतर दिखा? 1
  • Loss: CoSENTLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "pairwise_cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • learning_rate: 2e-05
  • num_train_epochs: 10
  • warmup_ratio: 0.1

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 10
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss loss
1.0417 100 11.3102 0.0
2.0833 200 4.3476 0.0
3.125 300 4.2806 0.0
4.1667 400 4.2333 0.0
5.2083 500 4.1671 0.0
6.25 600 4.0698 0.0
7.2917 700 4.0096 0.0
8.3333 800 4.0257 0.0
9.375 900 4.0044 0.0

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.0.1
  • Transformers: 4.41.2
  • PyTorch: 2.3.0+cu121
  • Accelerate: 0.32.1
  • Datasets: 2.20.0
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

CoSENTLoss

@online{kexuefm-8847,
    title={CoSENT: A more efficient sentence vector scheme than Sentence-BERT},
    author={Su Jianlin},
    year={2022},
    month={Jan},
    url={https://kexue.fm/archives/8847},
}