SentenceTransformer based on answerdotai/ModernBERT-base
This is a sentence-transformers model finetuned from answerdotai/ModernBERT-base on the al-atlas-moroccan-darija-pretraining-dataset dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: answerdotai/ModernBERT-base
- Maximum Sequence Length: 8196 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
- Training Dataset:
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 8196, 'do_lower_case': False}) with Transformer model: ModernBertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("BounharAbdelaziz/ModernBERT-base-0.005")
# Run inference
sentences = [
'شحال للمطار؟',
'tachicart/mo_darija_merged',
"{'ar': 'كم سأدفع للوصول إلى المطار ؟'}",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Training Details
Training Dataset
al-atlas-moroccan-darija-pretraining-dataset
- Dataset: al-atlas-moroccan-darija-pretraining-dataset at 6668961
- Size: 2,818,353 training samples
- Columns:
text
,dataset_source
, andmetadata
- Approximate statistics based on the first 1000 samples:
text dataset_source metadata type string string string details - min: 3 tokens
- mean: 334.62 tokens
- max: 5020 tokens
- min: 13 tokens
- mean: 13.0 tokens
- max: 13 tokens
- min: 14 tokens
- mean: 19.87 tokens
- max: 26 tokens
- Samples:
text dataset_source metadata سامي خضيرة :
الكابيتان فوقتنا كان هو كاسياس ولكن كنا كنحسو باللي راموس هو القائد الفعلي كان فيه الروح و الغرينتا ديال الاسبان .
ماتنساش كان معانا تا رونالدو كيهضر مع كولشي ويحفزنا ، و عادي تسمعو وسط الفيستير كيقول " خضيرة زير راسك وكون عدواني " ، " مسعود عطينا شوية من سحرك الكروي فالتيران " ونتا أدي ماريا حاول تشد الكرة وقصد المرمى " كان هادشي كيخلينا نعطيو كل ما فجهدنا
و بطبيعة الحال كان مورينيو الخطير فهاد الضومين ، و كانت المشكلة الكبيرة ديما هي كيفاش نوقفو ميسي ماشي غير حنا ولكن كاع الفراقي فداك الوقت .atlasia/facebook_darija_dataset
{'pageName': "Football B'darija - فوتبول بالداريجة"}
الأحداث كاتتطور بسرعة رهيبة ف بريتوريا !!
ميغيل كاردوزو المدرب السابق للترجي الرياضي التونسي وصل البارح بشكل مفاجئ لجنوب افريقيا.. وصباح اليوم الصحافة المحلية كاتأكد انو ماميلودي سانداونز غاتقيل المدرب ديالها اليوم و غاتعين كاردوزو ك بديل !atlasia/facebook_darija_dataset
{'pageName': "Football B'darija - فوتبول بالداريجة"}
الريال و تحدي جديد هاد الليلة باش يرجعو للمنافسة ف التشامبيانزليغ قدام خصم أقل ما يتقال عليه انو عتيد هو اتلانتا بيرغامو وليدات العبقري جيانبييرو غاسبيريني..
الريال مؤخرا ورغم الشكوك اللي دايرة على الفريق والمشاكل الدفاعية و الإصابات اللي زادت ف الهشاشة ديال الدفاع ديالو الا انو رجع بقوة للمنافسة فالليغا واستغل الفترة د الفراغ اللي تا تعيشها البارسا حاليا باش يرجع على بعد نقطتين من الصدارة و عندو ماتش مؤجل مرشح بقوة يفوز فيه على فالنسيا ويطلع للقمة ..
الريال تانضن لا ربح اليوم غايمحي بشكل شبه كلي الغمامة اللي كاتطوف فوق منو من بدا الموسم و غايقوي ثقة الجمهور فيه و يرجع الثقة للمجموعة و غايرسم راسو ك رقم قوي ف المنافسة المفضلة ليه واحنا ديجا عارفين ان الريال diesel فرقة كاتديماري بشوية بشوية وفالفترات الحاسمة ف الموسم كاتورك على السانكيام فيتيس.atlasia/facebook_darija_dataset
{'pageName': "Football B'darija - فوتبول بالداريجة"}
- Loss:
CachedMultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Evaluation Dataset
al-atlas-moroccan-darija-pretraining-dataset
- Dataset: al-atlas-moroccan-darija-pretraining-dataset at 6668961
- Size: 1,875 evaluation samples
- Columns:
text
,dataset_source
, andmetadata
- Approximate statistics based on the first 1000 samples:
text dataset_source metadata type string string string details - min: 5 tokens
- mean: 27.22 tokens
- max: 170 tokens
- min: 14 tokens
- mean: 14.0 tokens
- max: 14 tokens
- min: 11 tokens
- mean: 33.41 tokens
- max: 177 tokens
- Samples:
text dataset_source metadata كاين في اللاخر ديال هاد القاعة. انجيب ليك شويا دابا. و إلا حتاجيتي شي حاجا اخرى، قولها ليا.
tachicart/mo_darija_merged
{'ar': 'إنها في أخر القاعة . سوف آتي لك ببعض منها الآن . إذا أردت أي شيئاً آخر فقط أعلمني .'}
واش كا دير التعديلات؟
tachicart/mo_darija_merged
{'ar': 'هل تقومون بعمل تعديلات ؟'}
بغينا ناخدو طابلة حدا الشرجم.
tachicart/mo_darija_merged
{'ar': 'نريد مائدة بجانب النافذة .'}
- Loss:
CachedMultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy
: stepsper_device_train_batch_size
: 128per_device_eval_batch_size
: 128learning_rate
: 0.005num_train_epochs
: 1warmup_ratio
: 0.05bf16
: True
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: stepsprediction_loss_only
: Trueper_device_train_batch_size
: 128per_device_eval_batch_size
: 128per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 0.005weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 1max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.05warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Truefp16
: Falsefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: batch_samplermulti_dataset_batch_sampler
: proportional
Training Logs
Epoch | Step | Training Loss | Validation Loss |
---|---|---|---|
0.2271 | 5000 | 4.4677 | 4.8309 |
0.4542 | 10000 | 4.4206 | 4.8347 |
0.6812 | 15000 | 4.3974 | 4.8401 |
0.9083 | 20000 | 4.3905 | 4.8354 |
Framework Versions
- Python: 3.12.3
- Sentence Transformers: 3.3.1
- Transformers: 4.48.0.dev0
- PyTorch: 2.5.1+cu124
- Accelerate: 1.1.1
- Datasets: 3.1.0
- Tokenizers: 0.21.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
CachedMultipleNegativesRankingLoss
@misc{gao2021scaling,
title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
year={2021},
eprint={2101.06983},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
- Downloads last month
- 0
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social
visibility and check back later, or deploy to Inference Endpoints (dedicated)
instead.
Model tree for atlasia/MorDernBERT-ep-1-lr-0.005
Base model
answerdotai/ModernBERT-base