SentenceTransformer based on BAAI/bge-m3

This is a sentence-transformers model finetuned from BAAI/bge-m3. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: BAAI/bge-m3
  • Maximum Sequence Length: 8192 tokens
  • Output Dimensionality: 1024 tokens
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("adriansanz/sitges1024-bai-batchalltripletsv3")
# Run inference
sentences = [
    "Acceptació / Renúncia Subvencions per a projectes i activitats a entitats de l'àmbit de polítiques socials  Descripció",
    "Subvencions per al desenvolupament i/o consolidació de sectors econòmics del municipi Subvencions per a entitats destinades a fomentar el desenvolupament i la consolidació de sectors econòmics locals. L'objectiu és impulsar iniciatives per millorar la competitivitat, la generació d'ocupació i potenciar el naixement de nous sectors econòmics en el municipi i l’enfortiment dels existents, contribuint així al creixement econòmic sostenible i al benestar de la comunitat. Per valorar l’interès de la proposta es tindrà en compte: Tipus d’activitat Antecedents Dates de celebració Accions de promoció dutes a terme des de l’organització",
    "Autorització d'accés a les àrees de vianants Permet obtenir l'autorització municipal per l'accés de vehicles a les àrees restringides a vianants establer-tes al municipi (actualment nucli de Garraf i Platja de Sant Sebastià). Les persones interessades poden presentar aquesta sol·lictud, i en cas de compliment dels requisits establerts (persones residents, titulars de plaça d'aparcament, autotaxis, establiments hotelers), se'ls traslladarà la resolució d’autorització.",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 237 training samples
  • Columns: sentence and label
  • Approximate statistics based on the first 1000 samples:
    sentence label
    type string int
    details
    • min: 13 tokens
    • mean: 135.46 tokens
    • max: 629 tokens
    • 286: ~0.42%
    • 288: ~0.42%
    • 290: ~0.42%
    • 291: ~0.42%
    • 293: ~0.42%
    • 295: ~0.42%
    • 298: ~0.42%
    • 302: ~0.42%
    • 303: ~0.42%
    • 304: ~0.42%
    • 306: ~0.42%
    • 309: ~0.42%
    • 311: ~0.42%
    • 313: ~0.42%
    • 314: ~0.42%
    • 315: ~0.42%
    • 316: ~0.42%
    • 320: ~0.42%
    • 321: ~0.42%
    • 322: ~0.42%
    • 323: ~0.42%
    • 324: ~0.42%
    • 325: ~0.42%
    • 327: ~0.42%
    • 328: ~0.42%
    • 331: ~0.42%
    • 332: ~0.42%
    • 333: ~0.42%
    • 336: ~0.42%
    • 338: ~0.42%
    • 339: ~0.42%
    • 346: ~0.42%
    • 347: ~0.42%
    • 355: ~0.42%
    • 356: ~0.42%
    • 357: ~0.42%
    • 360: ~0.42%
    • 361: ~0.42%
    • 364: ~0.42%
    • 366: ~0.42%
    • 367: ~0.42%
    • 368: ~0.42%
    • 369: ~0.42%
    • 370: ~0.42%
    • 373: ~0.42%
    • 376: ~0.42%
    • 378: ~0.42%
    • 384: ~0.42%
    • 385: ~0.42%
    • 386: ~0.42%
    • 387: ~0.42%
    • 390: ~0.42%
    • 394: ~0.42%
    • 400: ~0.42%
    • 401: ~0.42%
    • 405: ~0.42%
    • 413: ~0.42%
    • 417: ~0.42%
    • 418: ~0.42%
    • 419: ~0.42%
    • 420: ~0.42%
    • 422: ~0.42%
    • 432: ~0.42%
    • 443: ~0.42%
    • 452: ~0.42%
    • 455: ~0.42%
    • 458: ~0.42%
    • 463: ~0.42%
    • 469: ~0.42%
    • 470: ~0.42%
    • 471: ~0.42%
    • 475: ~0.42%
    • 478: ~0.42%
    • 480: ~0.42%
    • 481: ~0.42%
    • 485: ~0.42%
    • 487: ~0.42%
    • 489: ~0.42%
    • 491: ~0.42%
    • 492: ~0.42%
    • 493: ~0.42%
    • 494: ~0.42%
    • 495: ~0.42%
    • 497: ~0.42%
    • 500: ~0.42%
    • 502: ~0.42%
    • 506: ~0.42%
    • 522: ~0.42%
    • 533: ~0.42%
    • 536: ~0.42%
    • 547: ~0.42%
    • 548: ~0.42%
    • 551: ~0.42%
    • 553: ~0.42%
    • 554: ~0.42%
    • 558: ~0.42%
    • 559: ~0.42%
    • 561: ~0.42%
    • 562: ~0.42%
    • 563: ~0.42%
    • 564: ~0.42%
    • 565: ~0.42%
    • 566: ~0.42%
    • 567: ~0.42%
    • 569: ~0.42%
    • 570: ~0.42%
    • 571: ~0.42%
    • 572: ~0.42%
    • 573: ~0.42%
    • 574: ~0.42%
    • 575: ~0.42%
    • 576: ~0.42%
    • 577: ~0.42%
    • 582: ~0.42%
    • 584: ~0.42%
    • 585: ~0.42%
    • 586: ~0.42%
    • 587: ~0.42%
    • 590: ~0.42%
    • 591: ~0.42%
    • 592: ~0.42%
    • 593: ~0.42%
    • 594: ~0.42%
    • 595: ~0.42%
    • 596: ~0.42%
    • 597: ~0.42%
    • 598: ~0.42%
    • 599: ~0.42%
    • 600: ~0.42%
    • 601: ~0.42%
    • 602: ~0.42%
    • 603: ~0.42%
    • 604: ~0.42%
    • 605: ~0.42%
    • 606: ~0.42%
    • 607: ~0.42%
    • 608: ~0.42%
    • 609: ~0.42%
    • 610: ~0.42%
    • 611: ~0.42%
    • 612: ~0.42%
    • 614: ~0.42%
    • 615: ~0.42%
    • 616: ~0.42%
    • 617: ~0.42%
    • 618: ~0.42%
    • 619: ~0.42%
    • 620: ~0.42%
    • 621: ~0.42%
    • 622: ~0.42%
    • 623: ~0.42%
    • 624: ~0.42%
    • 625: ~0.42%
    • 626: ~0.42%
    • 627: ~0.42%
    • 628: ~0.42%
    • 629: ~0.42%
    • 630: ~0.42%
    • 632: ~0.42%
    • 633: ~0.42%
    • 634: ~0.42%
    • 635: ~0.42%
    • 636: ~0.42%
    • 637: ~0.42%
    • 638: ~0.42%
    • 639: ~0.42%
    • 640: ~0.42%
    • 641: ~0.42%
    • 642: ~0.42%
    • 643: ~0.42%
    • 644: ~0.42%
    • 645: ~0.42%
    • 646: ~0.42%
    • 647: ~0.42%
    • 648: ~0.42%
    • 649: ~0.42%
    • 650: ~0.42%
    • 651: ~0.42%
    • 652: ~0.42%
    • 653: ~0.42%
    • 654: ~0.42%
    • 655: ~0.42%
    • 656: ~0.42%
    • 657: ~0.42%
    • 658: ~0.42%
    • 659: ~0.42%
    • 660: ~0.42%
    • 661: ~0.42%
    • 662: ~0.42%
    • 663: ~0.42%
    • 664: ~0.42%
    • 666: ~0.42%
    • 667: ~0.42%
    • 668: ~0.42%
    • 669: ~0.42%
    • 670: ~0.42%
    • 671: ~0.42%
    • 672: ~0.42%
    • 673: ~0.42%
    • 674: ~0.42%
    • 675: ~0.42%
    • 676: ~0.42%
    • 677: ~0.42%
    • 678: ~0.42%
    • 679: ~0.42%
    • 680: ~0.42%
    • 681: ~0.42%
    • 682: ~0.42%
    • 683: ~0.42%
    • 684: ~0.42%
    • 685: ~0.42%
    • 686: ~0.42%
    • 687: ~0.42%
    • 688: ~0.42%
    • 689: ~0.42%
    • 690: ~0.42%
    • 691: ~0.42%
    • 692: ~0.42%
    • 693: ~0.42%
    • 694: ~0.42%
    • 695: ~0.42%
    • 696: ~0.42%
    • 697: ~0.42%
    • 698: ~0.42%
    • 699: ~0.42%
    • 700: ~0.42%
    • 701: ~0.42%
    • 702: ~0.42%
    • 703: ~0.42%
    • 704: ~0.42%
    • 705: ~0.42%
    • 706: ~0.42%
    • 707: ~0.42%
    • 708: ~0.42%
    • 709: ~0.42%
    • 710: ~0.42%
    • 711: ~0.42%
  • Samples:
    sentence label
    Presentació de sol·licituds per a l'atorgament de llicència d'ús privatiu del domini públic local Aquest tràmit permet la presentació de sol·licituds per a l’autorització a favor de tercers perquè utilitzin de forma privativa una porció de domini públic local, amb caràcter temporal i sense la seva transformació, pel seu posterior destí a la realització d’activitats d'interès. En funció del número de sol·licituds presentades en cada convocatòria es procedirà a l'atorgament de la llicència: de forma directa si no hi ha pluralitat de sol·licitants, o mitjançant previ concurs en cas que existeixi una pluralitat de sol·licitants. 647
    Ajuts per fomentar l'associacionisme empresarial local Aquest ajut pretén fomentar l’associacionisme empresarial local, per tal de disposar d’agrupacions, gremis o associacions representatives de l’activitat empresarial del municipi. 636
    Baixa al padró municipal d'habitants (persones estrangeres que marxen del país, o per defunció ...) No es poden realitzar inscripcions de baixa per canvi de municipi o país de residencia a petició de les persones interessades, tret de les persones estrangeres que traslladin la seva residència a un altre país. Les persones amb nacionalitat espanyola que estableixin la residencia en un altra municipi o país hauran de comunicar la inscripció en el Padró del nou municipi de residència o en el Registre de Matrícula de l'Oficina o Secció Consular del país de destinació. El tràmit de baixa del padró municipal d'habitants només es pot sol·lictar en les següents situacions: Persones estrangeres empadronades que traslladen la seva residència a un altre país. Defunció. L'Institut Nacional d'Estadística, a instàncies del Registre Civil, comunica periòdicament les baixes per defunció a l'Ajuntament. Si es necessita que aquesta baixa es produeixi a la major brevetat possible, es pot realitzar aquest tràmit aportant el certificat de defunció, o el llibre de família. Inclusió indeguda: Aquesta baixa afecta a persones que figuren empadronades en un domicili i ja no hi resideixen. La persona empadronada, o titular de l'habitatge, pot comunicar aquesta situació, i l'ajuntament comprovarà aquesta circunstancia amb la tramitació de l'expedient corresponent. En el cas que la persona interessada no manifesti expresament la seva conformitat, la baixa només es podrà resoldre amb informe favorable del Consejo de Empadronamiento. L'Ajuntament de Sitges també pot iniciar d'ofici aquests tipus d'expedients. 394
  • Loss: BatchAllTripletLoss

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 1
  • per_device_eval_batch_size: 1
  • learning_rate: 2e-05
  • num_train_epochs: 10
  • warmup_ratio: 0.1
  • fp16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 1
  • per_device_eval_batch_size: 1
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 10
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss
2.1097 500 0.0
4.2194 1000 0.0
6.3291 1500 0.0
8.4388 2000 0.0

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.0.1
  • Transformers: 4.42.4
  • PyTorch: 2.3.1+cu121
  • Accelerate: 0.32.1
  • Datasets: 2.20.0
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

BatchAllTripletLoss

@misc{hermans2017defense,
    title={In Defense of the Triplet Loss for Person Re-Identification}, 
    author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
    year={2017},
    eprint={1703.07737},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}
Downloads last month
12
Safetensors
Model size
568M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for adriansanz/sitges1024-bai-FT1-10ep

Base model

BAAI/bge-m3
Finetuned
(130)
this model