SentenceTransformer based on BAAI/bge-m3
This is a sentence-transformers model finetuned from BAAI/bge-m3. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: BAAI/bge-m3
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 1024 tokens
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("comet24082002/ft_bge_newLaw_OnlineContrastiveLoss_V1_5epochs")
# Run inference
sentences = [
'Tàu cá không thực hiện đánh dấu theo quy định có thể bị xử phạt như thế nào?',
'Vi phạm quy định về đánh dấu tàu cá\n1. Phạt tiền từ 3.000.000 đồng đến 5.000.000 đồng đối với hành vi không đánh dấu nhận biết tàu cá hoặc đánh dấu sai quy định trong trường hợp sử dụng tàu cá có chiều dài lớn nhất từ 12 mét đến dưới 15 mét để khai thác thủy sản.\n2. Phạt tiền từ 5.000.000 đồng đến 7.000.000 đồng đối với hành vi không đánh dấu nhận biết tàu cá hoặc đánh dấu sai quy định trong trường hợp sử dụng tàu cá có chiều dài lớn nhất từ 15 mét đến dưới 24 mét để khai thác thủy sản.\n3. Phạt tiền từ 7.000.000 đồng đến 10.000.000 đồng đối với hành vi không đánh dấu nhận biết tàu cá hoặc đánh dấu sai quy định trong trường hợp sử dụng tàu cá có chiều dài lớn nhất từ 24 mét trở lên để khai thác thủy sản.',
'Đại hội toàn thể hội viên và Đại hội bất thường\n...\n2. Nhiệm vụ chính của Đại hội:\na) Thảo luận, thông qua các báo cáo hoạt động của nhiệm kỳ trước, đề ra phương hướng hoạt động nhiệm kỳ mới của Hiệp hội;\nb) Thông qua những điểm bổ sung hoặc sửa đổi Điều lệ của Hiệp hội;\nc) Thảo luận và quyết định một số vấn đề quan trọng của Hiệp hội vượt quá thẩm quyền giải quyết của Ban Chấp hành Hiệp hội;\nd) Bầu Ban Chấp hành Hiệp hội và Ban Kiểm tra Hiệp hội;\nđ) Thảo luận, phê duyệt quyết toán tài chính và thông qua kế hoạch tài chính khóa mới;\ne) Thảo luận, thông qua các vấn đề khác theo quy định của Điều lệ Hiệp hội.\n...',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Training Details
Training Dataset
Unnamed Dataset
- Size: 10,524 training samples
- Columns:
sentence1
,sentence2
, andlabel
- Approximate statistics based on the first 1000 samples:
sentence1 sentence2 label type string string int details - min: 8 tokens
- mean: 24.17 tokens
- max: 46 tokens
- min: 25 tokens
- mean: 282.93 tokens
- max: 512 tokens
- 0: ~50.00%
- 1: ~50.00%
- Samples:
sentence1 sentence2 label Nhân viên kiểm định của tổ chức kiểm định được chỉ định có bắt buộc phải có bằng đại học mới được cấp thẻ kiểm định viên đo lường không?
Yêu cầu đối với nhân viên kiểm định để được chứng nhận, cấp thẻ kiểm định viên đo lường
Nhân viên kiểm định của tổ chức kiểm định được chỉ định đáp ứng các yêu cầu sau đây được chứng nhận, cấp thẻ kiểm định viên đo lường:
1. Tốt nghiệp trung cấp hoặc tương đương trở lên.
2. Hoàn thành khóa đào tạo về kiểm định do Tổng cục tổ chức thực hiện tương ứng với lĩnh vực được chỉ định.
3. Có ít nhất mười hai (12) tháng kinh nghiệm hoạt động kiểm định, hiệu chuẩn, thử nghiệm tương ứng với lĩnh vực được chỉ định.1
Tái phạm hành vi công chứng, chứng thực văn bằng, chứng chỉ trái quy định thì Đảng viên sẽ bị xử lý thế nào?
Hết thời hạn chấp hành quyết định áp dụng các biện pháp xử lý hành chính
1. Khi người vi phạm đã chấp hành xong quyết định giáo dục tại xã, phường, thị trấn thì Chủ tịch Uỷ ban nhân dân cấp xã cấp giấy chứng nhận cho người đã chấp hành xong và gửi bản sao cho gia đình người đó.
2. Khi người vi phạm đã chấp hành xong quyết định đưa vào trường giáo dưỡng, đưa vào cơ sở giáo dục bắt buộc, đưa vào cơ sở cai nghiện bắt buộc thì Hiệu trưởng trường giáo dưỡng, Giám đốc cơ sở giáo dục bắt buộc, Giám đốc cơ sở cai nghiện bắt buộc cấp giấy chứng nhận cho người đã chấp hành xong và gửi bản sao cho gia đình người đó, Tòa án nhân dân cấp huyện nơi đã ra quyết định, cơ quan quản lý trường giáo dưỡng, cơ sở giáo dục bắt buộc, cơ sở cai nghiện bắt buộc, Uỷ ban nhân dân cấp xã nơi người đó cư trú.
3. Đối tượng không xác định được nơi cư trú là người chưa thành niên hoặc người ốm yếu không còn khả năng lao động thì sau khi hết hạn chấp hành biện pháp đưa vào trường giáo dưỡng, cơ sở giáo dục bắt buộc, cơ sở cai nghiện bắt buộc được đưa về cơ sở bảo trợ xã hội tại địa phương nơi trường giáo dưỡng, cơ sở giáo dục bắt buộc, cơ sở cai nghiện bắt buộc đóng trụ sở.0
Quy định về các nguyên tắc quản lý hồ sơ vụ án trong hệ thống Tòa án nhân dân?
"Điều 4. Nguyên tắc quản lý
1. Việc quản lý hồ sơ vụ án trong hệ thống Tòa án nhân dân phải bảo đảm an toàn, nguyên vẹn và các nguyên tắc chung của hồ sơ nghiệp vụ; bảo đảm bí mật theo quy định của pháp luật và của Tòa án nhân dân tôi cao.
2. Việc quản lý hồ sơ vụ án được thực hiện tập trung, thông nhất, khoa học, đầy đủ, chặt chẽ, kịp thời, không để bị hư hỏng, thất lạc. 3. Việc quản lý hồ sơ vụ án được thực hiện liên tục từ khi đơn vị, cá nhân lập hô sơ, nhận bàn giao hô sơ cho đên khi chuyên giao hô sơ cho đơn vị, cá nhân khác giải quyêt hoặc nộp vào Lưu trữ cơ quan."1
- Loss:
OnlineContrastiveLoss
Training Hyperparameters
Non-Default Hyperparameters
per_device_train_batch_size
: 4learning_rate
: 2e-05num_train_epochs
: 5warmup_ratio
: 0.1
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseprediction_loss_only
: Trueper_device_train_batch_size
: 4per_device_eval_batch_size
: 8per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonelearning_rate
: 2e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 5max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.1warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Falsefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Falsehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falsefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_sampler
: batch_samplermulti_dataset_batch_sampler
: proportional
Training Logs
Click to expand
Epoch | Step | Training Loss |
---|---|---|
0.0190 | 50 | 0.1151 |
0.0380 | 100 | 0.0891 |
0.0570 | 150 | 0.0665 |
0.0760 | 200 | 0.074 |
0.0950 | 250 | 0.0431 |
0.1140 | 300 | 0.0578 |
0.1330 | 350 | 0.0851 |
0.1520 | 400 | 0.0569 |
0.1710 | 450 | 0.0648 |
0.1900 | 500 | 0.0678 |
0.2090 | 550 | 0.0484 |
0.2281 | 600 | 0.039 |
0.2471 | 650 | 0.0437 |
0.2661 | 700 | 0.0666 |
0.2851 | 750 | 0.0658 |
0.3041 | 800 | 0.0549 |
0.3231 | 850 | 0.0546 |
0.3421 | 900 | 0.0796 |
0.3611 | 950 | 0.0638 |
0.3801 | 1000 | 0.074 |
0.3991 | 1050 | 0.0838 |
0.4181 | 1100 | 0.0719 |
0.4371 | 1150 | 0.0761 |
0.4561 | 1200 | 0.0595 |
0.4751 | 1250 | 0.0803 |
0.4941 | 1300 | 0.0734 |
0.5131 | 1350 | 0.0875 |
0.5321 | 1400 | 0.0755 |
0.5511 | 1450 | 0.0694 |
0.5701 | 1500 | 0.079 |
0.5891 | 1550 | 0.0871 |
0.6081 | 1600 | 0.071 |
0.6271 | 1650 | 0.0989 |
0.6461 | 1700 | 0.081 |
0.6651 | 1750 | 0.0705 |
0.6842 | 1800 | 0.0861 |
0.7032 | 1850 | 0.0859 |
0.7222 | 1900 | 0.0818 |
0.7412 | 1950 | 0.062 |
0.7602 | 2000 | 0.0796 |
0.7792 | 2050 | 0.0996 |
0.7982 | 2100 | 0.0772 |
0.8172 | 2150 | 0.0832 |
0.8362 | 2200 | 0.0818 |
0.8552 | 2250 | 0.0961 |
0.8742 | 2300 | 0.0784 |
0.8932 | 2350 | 0.0945 |
0.9122 | 2400 | 0.0608 |
0.9312 | 2450 | 0.075 |
0.9502 | 2500 | 0.0867 |
0.9692 | 2550 | 0.0902 |
0.9882 | 2600 | 0.0657 |
1.0072 | 2650 | 0.0616 |
1.0262 | 2700 | 0.093 |
1.0452 | 2750 | 0.0684 |
1.0642 | 2800 | 0.0632 |
1.0832 | 2850 | 0.0513 |
1.1022 | 2900 | 0.0471 |
1.1212 | 2950 | 0.0815 |
1.1403 | 3000 | 0.051 |
1.1593 | 3050 | 0.0741 |
1.1783 | 3100 | 0.0461 |
1.1973 | 3150 | 0.0585 |
1.2163 | 3200 | 0.0592 |
1.2353 | 3250 | 0.0403 |
1.2543 | 3300 | 0.072 |
1.2733 | 3350 | 0.0582 |
1.2923 | 3400 | 0.08 |
1.3113 | 3450 | 0.0708 |
1.3303 | 3500 | 0.0447 |
1.3493 | 3550 | 0.0607 |
1.3683 | 3600 | 0.0522 |
1.3873 | 3650 | 0.0731 |
1.4063 | 3700 | 0.0992 |
1.4253 | 3750 | 0.0582 |
1.4443 | 3800 | 0.068 |
1.4633 | 3850 | 0.0691 |
1.4823 | 3900 | 0.052 |
1.5013 | 3950 | 0.0632 |
1.5203 | 4000 | 0.0616 |
1.5393 | 4050 | 0.0619 |
1.5583 | 4100 | 0.0574 |
1.5773 | 4150 | 0.0635 |
1.5964 | 4200 | 0.0638 |
1.6154 | 4250 | 0.0564 |
1.6344 | 4300 | 0.0613 |
1.6534 | 4350 | 0.0636 |
1.6724 | 4400 | 0.064 |
1.6914 | 4450 | 0.0919 |
1.7104 | 4500 | 0.0576 |
1.7294 | 4550 | 0.0356 |
1.7484 | 4600 | 0.0719 |
1.7674 | 4650 | 0.0633 |
1.7864 | 4700 | 0.0504 |
1.8054 | 4750 | 0.0832 |
1.8244 | 4800 | 0.0571 |
1.8434 | 4850 | 0.0491 |
1.8624 | 4900 | 0.0388 |
1.8814 | 4950 | 0.0678 |
1.9004 | 5000 | 0.0518 |
1.9194 | 5050 | 0.0847 |
1.9384 | 5100 | 0.0556 |
1.9574 | 5150 | 0.0487 |
1.9764 | 5200 | 0.0661 |
1.9954 | 5250 | 0.0602 |
2.0144 | 5300 | 0.0426 |
2.0334 | 5350 | 0.0489 |
2.0525 | 5400 | 0.0425 |
2.0715 | 5450 | 0.0425 |
2.0905 | 5500 | 0.0431 |
2.1095 | 5550 | 0.0494 |
2.1285 | 5600 | 0.0425 |
2.1475 | 5650 | 0.0426 |
2.1665 | 5700 | 0.0255 |
2.1855 | 5750 | 0.0571 |
2.2045 | 5800 | 0.0448 |
2.2235 | 5850 | 0.0448 |
2.2425 | 5900 | 0.0393 |
2.2615 | 5950 | 0.0491 |
2.2805 | 6000 | 0.0554 |
2.2995 | 6050 | 0.043 |
2.3185 | 6100 | 0.0455 |
2.3375 | 6150 | 0.0479 |
2.3565 | 6200 | 0.0376 |
2.3755 | 6250 | 0.0446 |
2.3945 | 6300 | 0.04 |
2.4135 | 6350 | 0.0456 |
2.4325 | 6400 | 0.033 |
2.4515 | 6450 | 0.0392 |
2.4705 | 6500 | 0.0416 |
2.4895 | 6550 | 0.0349 |
2.5086 | 6600 | 0.0358 |
2.5276 | 6650 | 0.039 |
2.5466 | 6700 | 0.0366 |
2.5656 | 6750 | 0.0338 |
2.5846 | 6800 | 0.04 |
2.6036 | 6850 | 0.0462 |
2.6226 | 6900 | 0.0356 |
2.6416 | 6950 | 0.0377 |
2.6606 | 7000 | 0.0321 |
2.6796 | 7050 | 0.0429 |
2.6986 | 7100 | 0.0313 |
2.7176 | 7150 | 0.0549 |
2.7366 | 7200 | 0.0326 |
2.7556 | 7250 | 0.0571 |
2.7746 | 7300 | 0.0366 |
2.7936 | 7350 | 0.0439 |
2.8126 | 7400 | 0.054 |
2.8316 | 7450 | 0.0446 |
2.8506 | 7500 | 0.049 |
2.8696 | 7550 | 0.0407 |
2.8886 | 7600 | 0.0268 |
2.9076 | 7650 | 0.0394 |
2.9266 | 7700 | 0.034 |
2.9456 | 7750 | 0.0482 |
2.9647 | 7800 | 0.0395 |
2.9837 | 7850 | 0.0437 |
3.0027 | 7900 | 0.0545 |
3.0217 | 7950 | 0.0349 |
3.0407 | 8000 | 0.0385 |
3.0597 | 8050 | 0.0186 |
3.0787 | 8100 | 0.0198 |
3.0977 | 8150 | 0.0288 |
3.1167 | 8200 | 0.0369 |
3.1357 | 8250 | 0.0287 |
3.1547 | 8300 | 0.0353 |
3.1737 | 8350 | 0.0187 |
3.1927 | 8400 | 0.031 |
3.2117 | 8450 | 0.027 |
3.2307 | 8500 | 0.0228 |
3.2497 | 8550 | 0.0247 |
3.2687 | 8600 | 0.0351 |
3.2877 | 8650 | 0.0247 |
3.3067 | 8700 | 0.0245 |
3.3257 | 8750 | 0.0232 |
3.3447 | 8800 | 0.028 |
3.3637 | 8850 | 0.038 |
3.3827 | 8900 | 0.0278 |
3.4017 | 8950 | 0.0293 |
3.4208 | 9000 | 0.0299 |
3.4398 | 9050 | 0.0267 |
3.4588 | 9100 | 0.0413 |
3.4778 | 9150 | 0.032 |
3.4968 | 9200 | 0.0239 |
3.5158 | 9250 | 0.0313 |
3.5348 | 9300 | 0.0211 |
3.5538 | 9350 | 0.0272 |
3.5728 | 9400 | 0.0228 |
3.5918 | 9450 | 0.0245 |
3.6108 | 9500 | 0.0332 |
3.6298 | 9550 | 0.032 |
3.6488 | 9600 | 0.0292 |
3.6678 | 9650 | 0.0273 |
3.6868 | 9700 | 0.0332 |
3.7058 | 9750 | 0.0287 |
3.7248 | 9800 | 0.0326 |
3.7438 | 9850 | 0.0175 |
3.7628 | 9900 | 0.028 |
3.7818 | 9950 | 0.0291 |
3.8008 | 10000 | 0.0272 |
3.8198 | 10050 | 0.0198 |
3.8388 | 10100 | 0.0336 |
3.8578 | 10150 | 0.0243 |
3.8769 | 10200 | 0.0265 |
3.8959 | 10250 | 0.0429 |
3.9149 | 10300 | 0.0282 |
3.9339 | 10350 | 0.0266 |
3.9529 | 10400 | 0.0235 |
3.9719 | 10450 | 0.02 |
3.9909 | 10500 | 0.0371 |
4.0099 | 10550 | 0.0295 |
4.0289 | 10600 | 0.0144 |
4.0479 | 10650 | 0.027 |
4.0669 | 10700 | 0.0154 |
4.0859 | 10750 | 0.0237 |
4.1049 | 10800 | 0.0153 |
4.1239 | 10850 | 0.0124 |
4.1429 | 10900 | 0.0261 |
4.1619 | 10950 | 0.0246 |
4.1809 | 11000 | 0.0212 |
4.1999 | 11050 | 0.0217 |
4.2189 | 11100 | 0.0207 |
4.2379 | 11150 | 0.0159 |
4.2569 | 11200 | 0.0175 |
4.2759 | 11250 | 0.0155 |
4.2949 | 11300 | 0.0113 |
4.3139 | 11350 | 0.0339 |
4.3330 | 11400 | 0.0082 |
4.3520 | 11450 | 0.0166 |
4.3710 | 11500 | 0.0151 |
4.3900 | 11550 | 0.0185 |
4.4090 | 11600 | 0.02 |
4.4280 | 11650 | 0.0283 |
4.4470 | 11700 | 0.0198 |
4.4660 | 11750 | 0.0168 |
4.4850 | 11800 | 0.0161 |
4.5040 | 11850 | 0.0209 |
4.5230 | 11900 | 0.0124 |
4.5420 | 11950 | 0.0359 |
4.5610 | 12000 | 0.0197 |
4.5800 | 12050 | 0.0161 |
4.5990 | 12100 | 0.0139 |
4.6180 | 12150 | 0.0168 |
4.6370 | 12200 | 0.0158 |
4.6560 | 12250 | 0.0176 |
4.6750 | 12300 | 0.0189 |
4.6940 | 12350 | 0.0196 |
4.7130 | 12400 | 0.0236 |
4.7320 | 12450 | 0.0187 |
4.7510 | 12500 | 0.0166 |
4.7700 | 12550 | 0.0212 |
4.7891 | 12600 | 0.0176 |
4.8081 | 12650 | 0.0157 |
4.8271 | 12700 | 0.0136 |
4.8461 | 12750 | 0.0176 |
4.8651 | 12800 | 0.0198 |
4.8841 | 12850 | 0.0205 |
4.9031 | 12900 | 0.0199 |
4.9221 | 12950 | 0.0165 |
4.9411 | 13000 | 0.02 |
4.9601 | 13050 | 0.0157 |
4.9791 | 13100 | 0.0126 |
4.9981 | 13150 | 0.0154 |
Framework Versions
- Python: 3.10.13
- Sentence Transformers: 3.0.1
- Transformers: 4.39.3
- PyTorch: 2.1.2
- Accelerate: 0.29.3
- Datasets: 2.18.0
- Tokenizers: 0.15.2
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
- Downloads last month
- 2
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social
visibility and check back later, or deploy to Inference Endpoints (dedicated)
instead.
Model tree for comet24082002/ft_bge_newLaw_OnlineContrastiveLoss_V1_5epochs
Base model
BAAI/bge-m3