Edit model card

SentenceTransformer based on mixedbread-ai/deepset-mxbai-embed-de-large-v1

This is a sentence-transformers model finetuned from mixedbread-ai/deepset-mxbai-embed-de-large-v1. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    'Welche Datenbestände dokumentieren die Fachaufsicht des BMI über Kinderbetreuungseinrichtungen in der Stadt Oberhof?',
    '\nDatenbestand\n    - titel: Kindertagesstätten der Stadt Oberhof\n    - typ: Fachverfahren\n    - kurzbeschreibung: Standorte von Kindergärten und Kinderkrippen der Stadt Oberhof.\n    - allgemeine_beschreibung: Der Datensatz zeigt die Standorte von Kindergärten und Kinderkrippen der Stadt Oberhof. Es handelt sich um einen Sekundärdatenbestand.\n    - fachliche_beschreibung: Der Datensatz wird von der Stadtverwaltung Oberhof verwaltet und dient dazu, Transparenz über die Kinderbetreuungseinrichtungen in Oberhof zu schaffen. Zuständige Behörden sind die Stadtverwaltung Oberhof und das Thüringer Ministerium für Inneres und Kommunales.\n    - zweck: Der Datensatz wird erhoben, um den Bürgern von Oberhof Informationen über die verfügbaren Kindertagesstätten und Kinderkrippen bereitzustellen.\n    - aktualisierungsfrequenz: http://inspire.ec.europa.eu/metadata-codelist/MaintenanceFrequencyCode/asNeeded\nDatenbestand hat Datenlieferanten\n    - name: Stadt Oberhof\nDatenbestand hat Schlagwort\n    - name: versorgungswirtschaft-und-staatliche-dienste\n    - name: kindertagesstätten\n    - name: kindergarten\n    - name: kinderbetreuung\n    - name: thüringen\n    - name: opendata\n    - name: kinderkrippe\n    - name: kita\nDatenbestand hat Kategorie\n    - name: Bildung\n    - name: Kultur und Sport\n    - name: Regierung und öffentlicher Sektor\n    - name: Regionen und Städte\n    - name: Bevölkerung und Gesellschaft\nDatenbestand hat Sprache\n    - name: Deutsch\nDatenbestand hat Ministerium\nMinisterium\n    - bezeichnung: Bundesministerium des Innern und für Heimat\n    - kurzbezeichnung: BMI\n    - ressorts: Stadt Oberhof\nDatenbestand hat Behörde\nBehoerde\n    - bezeichnung: Stadtverwaltung Oberhof\n    - kurzbezeichnung: Stadtverwaltung\n    - themen: Verwaltung, Bürgerdienste, Stadtrat, Satzungen\n    - ministerium_des_geschaeftsbereichs: Thüringer Ministerium für Inneres und Kommunales\n    - ressort: Kommunalverwaltung\nDatenbestand hat Gesetze:\nGesetz\n    - bezeichnung: Thüringer Kindertageseinrichtungsgesetz\n    - kurzbezeichnung: ThürKigaG\nDatenbestand hat Verordnung\nVerordnung\n    - referenz: https://www.hfm-weimar.de/fileadmin/user_upload/Gesetze_Ordnungen/Thueringer_Gleichstellungsgesetz.pdf\n    - bezeichnung: Thüringer Verordnung zur Bestimmung der zentralen Landesstelle für den automatisierten Datenaustausch\nVerordnung\n    - referenz: https://parldok.thueringer-landtag.de/ParlDok/dokument/72529/gesetz_und_verordnungsblatt_nr_11_2019.pdf\n    - bezeichnung: Thüringer Verordnung über die Anerkennung der Vereinbarung einer erfüllenden Gemeinde\n',
    "\nDatenbestand\n    - titel: Luftbild 2002\n    - typ: Fachverfahren\n    - kurzbeschreibung: Luftbild (Digitales Orthophoto) der Hanse- und Universitätsstadt Rostock und Umgebung von März und April 2002.\n    - allgemeine_beschreibung: Der Datensatz 'Luftbild 2002' umfasst das Luftbild (Digitales Orthophoto) der Hanse- und Universitätsstadt Rostock und Umgebung von März und April 2002 mit einer Bodenauflösung von 0,16 Metern. Die Ressourcen werden in der Regel nicht aktualisiert.\n    - fachliche_beschreibung: Der Datensatz wird von der Hanse- und Universitätsstadt Rostock bereitgestellt, speziell vom Ressort Kommunalaufsicht. Er dient der Bereitstellung historischer Luftbilder für die Öffentlichkeit.\n    - zweck: Der Datensatz wird erhoben, um historische Luftbilder der Hanse- und Universitätsstadt Rostock und Umgebung aus dem Jahr 2002 bereitzustellen.\n    - einfuehrungsjahr: 2017\n    - zeitliche_abdeckung_start: 2002-03-01T00:00:00+01:00\n    - zeitliche_abdeckung_ende: 2002-05-01T00:00:00+02:00\nDatenbestand hat Datenlieferanten\n    - name: Hanse- und Universitätsstadt Rostock\nDatenbestand hat Schlagwort\n    - name: luftbild\n    - name: Historisch\n    - name: Digitales Orthophoto\n    - name: 2002\n    - name: Bodenauflösung\n    - name: Rostock\n    - name: Luftbild\n    - name: Hanse- und Universitätsstadt\nDatenbestand hat Kategorie\n    - name: Regierung und öffentlicher Sektor\n    - name: Regionen und Städte\nDatenbestand hat politische Ebenen\n    - name: Ebene der Landkreise und Regierungsbezirke\nDatenbestand hat politisches Gebiet\n    - name: Rostock\n    - name: Hanse- und Universitätsstadt\nDatenbestand hat Sprache\n    - name: Deutsch\nDatenbestand hat geografische Abdeckung\n    - name: Rostock und Umgebung\nDatenbestand hat Ministerium\nMinisterium\n    - bezeichnung: Bundesministerium des Innern und für Heimat\n    - kurzbezeichnung: BMI\n    - ressorts: Hanse- und Universitätsstadt Rostock\nDatenbestand hat Behörde\nBehoerde\n    - bezeichnung: Hanse- und Universitätsstadt Rostock\n    - kurzbezeichnung: Rostock\n    - themen: Kommunalverwaltung, Stadtentwicklung, Öffentliche Ordnung\n    - ministerium_des_geschaeftsbereichs: Ministerium für Inneres und Europa Mecklenburg-Vorpommern\n    - ressort: Kommunalaufsicht\nDatenbestand hat Gesetze:\nGesetz\n    - bezeichnung: Bundesdatenschutzgesetz\n    - kurzbezeichnung: BDSG\nDatenbestand hat Verordnung\nVerordnung\n    - referenz: https://www.bgbl.de/xaver/bgbl/start.xav?start=%2F%2F*%5B%40attr_id%3D%27bgbl102s0027.pdf%27%5D\n    - bezeichnung: Verordnung über Art, Umfang, Beschaffenheit, Zulassung und Ausführung von Luftbildern\nVerordnung\n    - referenz: https://stadt.muenchen.de/rathaus/stadtrecht/vorschrift/831.html\n    - bezeichnung: Datenschutzrechtliche Belange bei Luftbildern\n",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.4081
cosine_accuracy@3 0.6312
cosine_accuracy@5 0.7177
cosine_accuracy@10 0.8077
cosine_precision@1 0.4081
cosine_precision@3 0.2104
cosine_precision@5 0.1435
cosine_precision@10 0.0808
cosine_recall@1 0.4081
cosine_recall@3 0.6312
cosine_recall@5 0.7177
cosine_recall@10 0.8077
cosine_ndcg@10 0.6045
cosine_mrr@10 0.5399
cosine_map@100 0.5472

Training Details

Training Dataset

Unnamed Dataset

  • Size: 3,262 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 15 tokens
    • mean: 29.17 tokens
    • max: 53 tokens
    • min: 308 tokens
    • mean: 510.05 tokens
    • max: 512 tokens
  • Samples:
    anchor positive
    Welche Datenbestände decken die Region Rostock und Umgebung ab und enthalten Informationen zu Verkehrswegen und -sicherheit?
    Datenbestand
    - titel: Großraum- und Schwertransportrouten
    - typ: Fachverfahren
    - kurzbeschreibung: Empfohlene Großraum- und Schwertransportwege in Rostock und Umgebung mit Informationen zu Straßennutzung, Baulastträgern, Bewirtschaftern und Standorten von Ingenieurbauwerken im Eigentum der Stadt Rostock, die nicht für Großraum- und Schwertransporte zugänglich sind.
    - allgemeine_beschreibung: Der Datensatz umfasst die empfohlenen Großraum- und Schwertransportwege in der Hanse- und Universitätsstadt Rostock und Umgebung. Er enthält Informationen zu Straßennutzung, Baulastträgern, Bewirtschaftern und Standorten von Ingenieurbauwerken im Eigentum der Stadt Rostock, die nicht für Großraum- und Schwertransporte zugänglich sind. Die Ressourcen werden regelmäßig alle 365 Tage aktualisiert.
    - fachliche_beschreibung: Der Datensatz wird von der Hanse- und Universitätsstadt Rostock bereitgestellt. Zuständige Behörden sind das Ministerium für Inneres und Europa Mecklenburg-Vorpommern mit dem Ressort Kommunalaufsicht. Die Daten enthalten wichtige Informationen für die Verkehrsplanung und -sicherheit in Rostock und Umgebung.
    - zweck: Der Datensatz wird erhoben, um Informationen über empfohlene Großraum- und Schwertransportwege in Rostock und Umgebung bereitzustellen. Er dient der Planung und Durchführung von Großraum- und Schwertransporten sowie der Sicherstellung der Verkehrssicherheit und Infrastrukturintegrität.
    - einfuehrungsjahr: 2018
    Datenbestand hat Datenlieferanten
    - name: Hanse- und Universitätsstadt Rostock
    Datenbestand hat Schlagwort
    - name: verkehrsinfrastruktur
    - name: Erlaubnis
    - name: Genehmigung
    - name: straßennetz
    - name: stadtverkehr
    - name: infrastruktur
    - name: brücke
    - name: Großraum- und Schwertransport
    - name: straßenverkehrstechnik
    - name: tunnel
    - name: verkehr
    - name: bauwerk
    - name: Straßenverkehrs-Ordnung
    - name: öffentlicher-verkehr
    - name: straße
    - name: verkehrstechnik
    - name: straßenverkehr
    - name: öffentliche-straße
    - name: Straßenverkehrszulassungsverordnung
    Datenbestand hat Kategorie
    - name: Verkehr
    - name: Regierung und öffentlicher Sektor
    - name: Regionen und Städte
    Datenbestand hat politische Ebenen
    - name: Ebene der Landkreise und Regierungsbezirke
    Datenbestand hat politisches Gebiet
    - name: Rostock
    - name: Hanse- und Universitätsstadt
    Datenbestand hat Sprache
    - name: Deutsch
    Datenbestand hat geografische Abdeckung
    - name: Rostock und Umgebung
    Datenbestand hat Ministerium
    Ministerium
    - bezeichnung: Bundesministerium des Innern und für Heimat
    - kurzbezeichnung: BMI
    - ressorts: Hanse- und Universitätsstadt Rostock
    Datenbestand hat Behörde
    Behoerde
    - bezeichnung: Hanse- und Universitätsstadt Rostock
    - kurzbezeichnung: Rostock
    - themen: Kommunalverwaltung, Stadtentwicklung, Öffentliche Ordnung
    - ministerium_des_geschaeftsbereichs: Ministerium für Inneres und Europa Mecklenburg-Vorpommern
    - ressort: Kommunalaufsicht
    Datenbestand hat Gesetze:
    Gesetz
    - absatz: 3
    - bezeichnung: Straßenverkehrs-Ordnung (StVO)
    - kurzbezeichnung: StVO
    - paragraph: § 29
    Datenbestand hat Verordnung
    Verordnung
    - referenz: https://www.buzer.de/StTbV.htm
    - bezeichnung: Straßenverkehr-Transportbegleitungsverordnung (StTbV)
    - kurzbezeichnung: StTbV
    Verordnung
    - referenz: https://www.buzer.de/StTbV.htm
    - bezeichnung: Straßenverkehrs-Zulassungs-Ordnung (StVZO)
    - kurzbezeichnung: StVZO
    Welche Datenbestände bieten Einblicke in die Standorte und Strukturen des THW für Koordinationszwecke im Katastrophenschutz?
    Datenbestand
    - titel: Übersicht der THW-Liegenschaften
    - typ: Fachverfahren
    - kurzbeschreibung: Der Datensatz 'Übersicht der THW-Liegenschaften' enthält Adressen und Geoinformationen zu den Standorten des Technischen Hilfswerks (THW) in Deutschland.
    - allgemeine_beschreibung: Der Datensatz 'Übersicht der THW-Liegenschaften' enthält Informationen über die verschiedenen Standorte des Technischen Hilfswerks (THW) in Deutschland. Dazu gehören 668 Ortsverbände, 66 Geschäftsstellen, acht Landesverbände, eine Bundesschule mit zwei Standorten und die THW-Leitung. Die Daten enthalten Adressen und Geoinformationen zu den THW-Liegenschaften.
    - fachliche_beschreibung: Der Datensatz wird von der Bundesanstalt Technisches Hilfswerk erhoben und bereitgestellt. Das THW ist dem Bundesministerium des Innern, für Bau und Heimat unterstellt und hat als Aufgaben den Katastrophenschutz, technisch-humanitäre Hilfeleistungen und die Organisation von Einsatzkräften. Die Daten werden vom Referat Z2 - Organisation des THW geliefert und sind über das GovData Portal verfügbar.
    - zweck: Der Datensatz wird erhoben, um einen umfassenden Überblick über die Standorte und Strukturen des Technischen Hilfswerks in Deutschland zu bieten. Er dient der Transparenz und kann für Planungs- und Koordinationszwecke im Bereich des Katastrophenschutzes und der technisch-humanitären Hilfeleistungen genutzt werden.
    - einfuehrungsjahr: 2015
    - zeitliche_abdeckung_start: 2015-01-01T00:00:00
    Datenbestand hat Datenlieferanten
    - name: Referat Z2 - Organisation
    - name: Bundesanstalt Technisches Hilfswerk
    Datenbestand hat Schlagwort
    - name: THW-Landesverband
    - name: THW-Ortsverband
    - name: Rettung
    - name: Katastrophenschutz
    - name: Bergung
    - name: THW-Leitung
    - name: THW-Dienststellen
    - name: technisch-humanitäre Hilfeleistungen
    - name: THW-Liegenschaft
    - name: Geoinformationen
    - name: THW
    - name: THW-Geschäftsstelle
    Datenbestand hat Ministerium
    Ministerium
    - bezeichnung: Bundesministerium des Innern und für Heimat
    - kurzbezeichnung: BMI
    - ressorts: Bundesanstalt Technisches Hilfswerk, Referat Z2 - Organisation
    Datenbestand hat Behörde
    Behoerde
    - bezeichnung: Bundesanstalt Technisches Hilfswerk
    - kurzbezeichnung: THW
    - themen: Katastrophenschutz, technisch-humanitäre Hilfeleistungen, Organisation von Einsatzkräften
    - ministerium_des_geschaeftsbereichs: Bundesministerium des Innern, für Bau und Heimat
    - ressort: Geschäftsbereich des Bundesministeriums des Innern, für Bau und Heimat
    Datenbestand hat Gesetze:
    Gesetz
    - absatz: 1
    - bezeichnung: Gesetz über das Technische Hilfswerk (THW-Gesetz)
    - kurzbezeichnung: THWG
    - paragraph: § 4
    Datenbestand hat Verordnung
    Verordnung
    - referenz: https://beck-online.beck.de/Normen/29337/T?pagenr=21&sortField=1&sortDirection=1
    - bezeichnung: Technisches Hilfswerk-Auslandsunfallfürsorgeverordnung
    - kurzbezeichnung: THW-AuslUFV
    Verordnung
    - referenz: https://ov-ludwigsburg.thw.de/fileadmin/user_upload/LVBW/GSTU/OLUD/Mediathek/Dokumente/thw_go_ea_anlage_00.pdf
    - bezeichnung: Geschäftsordnung des Technischen Hilfswerks
    - kurzbezeichnung: THW-GO
    Welche Datensätze analysieren die Geschlechterverteilung von Schulabgängern ohne Abschluss in deutschen Kreisen von 2006 bis 2021?
    Datenbestand
    - titel: Anteil von Frauen und Männern an den Abgängerinnen und Abgängern ohne ersten Schulabschluss (Hauptschulabschluss) aus allgemeinbildenden Schulen nach Kreisen
    - typ: Fachverfahren
    - kurzbeschreibung: Prozentualer Anteil von Frauen und Männern an Schulabgängern ohne Hauptschulabschluss nach Kreisen
    - allgemeine_beschreibung: Der Datensatz enthält den prozentualen Anteil von Frauen und Männern an den Abgängerinnen und Abgängern ohne ersten Schulabschluss (Hauptschulabschluss) aus allgemeinbildenden Schulen nach Kreisen in Deutschland.
    - fachliche_beschreibung: Der Datensatz wird vom Bundesministerium für Familie, Senioren, Frauen und Jugend bereitgestellt und enthält Informationen über den Anteil von Frauen und Männern an Schulabgängern ohne ersten Schulabschluss aus allgemeinbildenden Schulen in Deutschland. Die Daten werden nach Kreisen aufgeschlüsselt und dienen der Analyse der Bildungssituation in verschiedenen Regionen des Landes.
    - zweck: Der Datensatz wird erhoben, um die Geschlechterverteilung bei Schulabgängern ohne Hauptschulabschluss in verschiedenen Regionen Deutschlands zu analysieren und mögliche Maßnahmen zur Verbesserung der Bildungschancen zu entwickeln.
    - einfuehrungsjahr: 2023
    - zeitliche_abdeckung_start: 2006-01-01
    - zeitliche_abdeckung_ende: 2021-12-31
    Datenbestand hat Datenlieferanten
    - name: Bundesministerium für Familie
    - name: Frauen und Jugend
    - name: Senioren
    Datenbestand hat Schlagwort
    - name: bildung
    - name: schulabbrecher
    - name: gleichstellung
    - name: schulabschluss
    - name: schule
    Datenbestand hat Kategorie
    - name: Bevölkerung und Gesellschaft
    Datenbestand hat politische Ebenen
    - name: Ebene der Landkreise und Regierungsbezirke
    Datenbestand hat Sprache
    - name: Deutsch
    Datenbestand hat geografische Abdeckung
    - name: Bundesrepublik Deutschland
    - name: aufgeschlüsselt nach Kreisen
    Datenbestand hat Ministerium
    Ministerium
    - bezeichnung: Bundesministerium für Familie, Senioren, Frauen und Jugend
    - kurzbezeichnung: BMFSFJ
    - ressorts: Familie, Senioren, Frauen, Jugend
    Datenbestand hat Behörde
    Behoerde
    - bezeichnung: Bundesministerium für Familie, Senioren, Frauen und Jugend
    - kurzbezeichnung: BMFSFJ
    - ministerium_des_geschaeftsbereichs: Bundesministerium für Familie, Senioren, Frauen und Jugend
    - ressort: Bundesministerium für Familie, Senioren, Frauen und Jugend
    Datenbestand hat Gesetze:
    Gesetz
    - bezeichnung: E-Government-Gesetz
    Datenbestand hat Verordnung
    Verordnung
    Verordnung
    - referenz: https://recht.nrw.de/lmi/owa/br_vbl_detail_text?anw_nr=6&vd_id=20346&vd_back=N405&sg=0&menu=0
    - bezeichnung: § 50 Schulgesetz NRW
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            512
        ],
        "matryoshka_weights": [
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • learning_rate: 1e-05
  • warmup_ratio: 0.1
  • bf16: True
  • tf32: False
  • load_best_model_at_end: True

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 8
  • per_device_eval_batch_size: 8
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 1e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 3
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: False
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss dim_512_cosine_map@100
0 0 - 0.5212
0.0490 10 1.2397 -
0.0980 20 0.7542 -
0.1471 30 0.3055 -
0.1961 40 0.2075 -
0.2451 50 0.2064 -
0.2941 60 0.1429 -
0.3431 70 0.1821 -
0.3922 80 0.063 -
0.4412 90 0.078 -
0.4902 100 0.1026 -
0.5392 110 0.0717 -
0.5882 120 0.0394 -
0.6373 130 0.0751 -
0.6863 140 0.1377 -
0.7353 150 0.0666 -
0.7843 160 0.127 -
0.8333 170 0.1129 -
0.8824 180 0.0734 -
0.9314 190 0.0727 -
0.9804 200 0.1564 -
1.0 204 - 0.5428
1.0294 210 0.0904 -
1.0784 220 0.0974 -
1.1275 230 0.0785 -
1.1765 240 0.0704 -
1.2255 250 0.0929 -
1.2745 260 0.1119 -
1.3235 270 0.0459 -
1.3725 280 0.1181 -
1.4216 290 0.0459 -
1.4706 300 0.0248 -
1.5196 310 0.0567 -
1.5686 320 0.0247 -
1.6176 330 0.0412 -
1.6667 340 0.0498 -
1.7157 350 0.0693 -
1.7647 360 0.0589 -
1.8137 370 0.0383 -
1.8627 380 0.0429 -
1.9118 390 0.0466 -
1.9608 400 0.0331 -
2.0 408 - 0.5469
2.0098 410 0.0812 -
2.0588 420 0.0705 -
2.1078 430 0.0215 -
2.1569 440 0.0571 -
2.2059 450 0.0821 -
2.2549 460 0.046 -
2.3039 470 0.0165 -
2.3529 480 0.0335 -
2.4020 490 0.0339 -
2.4510 500 0.0291 -
2.5 510 0.0788 -
2.5490 520 0.0468 -
2.5980 530 0.0457 -
2.6471 540 0.0121 -
2.6961 550 0.0543 -
2.7451 560 0.0463 -
2.7941 570 0.0974 -
2.8431 580 0.0204 -
2.8922 590 0.012 -
2.9412 600 0.0545 -
2.9902 610 0.0581 -
3.0 612 - 0.5472
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.1.1
  • Transformers: 4.45.2
  • PyTorch: 2.4.1+cu121
  • Accelerate: 1.0.0
  • Datasets: 3.0.1
  • Tokenizers: 0.20.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
11
Safetensors
Model size
487M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for FareedKhan/models_testerrdd

Finetuned
(3)
this model

Evaluation results