omarelsayeed commited on
Commit
256b349
1 Parent(s): c23473d

Upload folder using huggingface_hub

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,373 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language: []
3
+ library_name: sentence-transformers
4
+ tags:
5
+ - sentence-transformers
6
+ - sentence-similarity
7
+ - feature-extraction
8
+ - generated_from_trainer
9
+ - dataset_size:400000
10
+ - loss:LoggingBAS
11
+ base_model: Ammar-alhaj-ali/arabic-MARBERT-sentiment
12
+ datasets: []
13
+ widget:
14
+ - source_sentence: "السلام عليكم \nرجاءً تواصلو معي على الخاص ضروري"
15
+ sentences:
16
+ - ياليت والله أنا في المدينة لكن سعر الرحلات غالي 🥺
17
+ - متوفر ملزمه عامر قدره معرفيه
18
+ - الف مبرووك
19
+ - source_sentence: 'قسم بايات الله اسوء موظفين من يوم يشوف وجهي يقول لي تعال الاسبوع
20
+ الجاي ولي اسبوعين على ذا الحال واليوم اروح يقول لي الموظف مو موجود تعال بكرة
21
+
22
+ وانا كل شوي بخرج من الدوام على حساب مزاج الموظف وقت ما يبي يشتغل يخي وش الخدمة
23
+ ذي
24
+
25
+ هذا كله كمان علشان اخذ حقي الله يشغلكم في نفسكم بس'
26
+ sentences:
27
+ - امس شاركت بمسابقه وطلعت احتيال واخذوا اخر ١٠٠ بحسابي الله يعوضني العوض الجميل
28
+ المبارك فيه 🧡..
29
+ - اسوء وازبل بنك بالتاريخ وانا راح اغرد بالموضوع وادفع عليه فلوس نشر واخلي العالم
30
+ كلها تشوف التسيب والمصخره اللي انتم فيها
31
+ - متوفر عندكم معمول خاص بالدايت ( خالي من السكر ) ؟ 🌹
32
+ - source_sentence: 'أجر لك وأجر لي ساهم معي في التبرع لـ (عليه امر بالتنفيذ وحكم بالسجن
33
+ عمره 33 عاما متزوج لديه طفل متبقى عليه مبلغ 159342ريال) عبر #منصة_إحسان:'
34
+ sentences:
35
+ - تكفى ي يزيد انا في وجهك
36
+ - طلبت بطاقة سفر بلس قبل حوالي شهر والى الان ماوصلت مع العلم أنه عند إصدارها كان
37
+ الوقت المستغرق خمسة ايام من تاريخ الإصدار لمن هم خارج الرياض
38
+ - أسأل الله العلي العظيم ان يوفق الجميع بكل خير وان يارب ❤️❤️🇸🇦🇸🇦🇸🇦💚💚💚💙💙💙
39
+ - source_sentence: الله ياليت
40
+ sentences:
41
+ - 'الله يسعد ايامك
42
+
43
+ #حاضر_وموجود'
44
+ - "حجز عمره \nحجز الصلاة بالروضة\n ب اسعار مناسبه وسرعه بالانجاز\U0001F554⏳\nلتواصل\
45
+ \ \n 0531927254"
46
+ - "#يوم_السعادة_العالمي \n#حاضر_وموجود \n#الماجد_للعود \n\nهذا العطر يسعدني برائحته\
47
+ \ الزكية وتبقى ذكرياته الجميلة وعبقه الرائع في المكان.\nإنه عطر (برستيج روبي)\
48
+ \ \n(PRESTIGE RUBY )\nالعطر الأجمل والأفضل\nبين كل العطور ."
49
+ - source_sentence: دائماً موفقين 👍
50
+ sentences:
51
+ - العذر اقبح من ذنب مصرف فاشل
52
+ - "مصرف الانماء \nممكن اعرف ايش يعني هذا في كشف الحساب ومين الدائن ومين المدين ؟من\
53
+ \ امي اسال محد رد ؟!"
54
+ - "متجر سبونج يوفر لكم اشتراك رسمي وباسعار مناسبه للجميع ❤️\U0001F44C\U0001F3FB\
55
+ \ \nوموثقين في معروف وتقدر تشوف تقييماتنا بالموقع الخاص فينا \U0001FAE1"
56
+ pipeline_tag: sentence-similarity
57
+ ---
58
+
59
+ # SentenceTransformer based on Ammar-alhaj-ali/arabic-MARBERT-sentiment
60
+
61
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [Ammar-alhaj-ali/arabic-MARBERT-sentiment](https://huggingface.co/Ammar-alhaj-ali/arabic-MARBERT-sentiment). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
62
+
63
+ ## Model Details
64
+
65
+ ### Model Description
66
+ - **Model Type:** Sentence Transformer
67
+ - **Base model:** [Ammar-alhaj-ali/arabic-MARBERT-sentiment](https://huggingface.co/Ammar-alhaj-ali/arabic-MARBERT-sentiment) <!-- at revision db063587f876d5abcf6cdeed70648fc76a30349f -->
68
+ - **Maximum Sequence Length:** 35 tokens
69
+ - **Output Dimensionality:** 768 tokens
70
+ - **Similarity Function:** Cosine Similarity
71
+ <!-- - **Training Dataset:** Unknown -->
72
+ <!-- - **Language:** Unknown -->
73
+ <!-- - **License:** Unknown -->
74
+
75
+ ### Model Sources
76
+
77
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
78
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
79
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
80
+
81
+ ### Full Model Architecture
82
+
83
+ ```
84
+ SentenceTransformer(
85
+ (0): Transformer({'max_seq_length': 35, 'do_lower_case': False}) with Transformer model: BertModel
86
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
87
+ )
88
+ ```
89
+
90
+ ## Usage
91
+
92
+ ### Direct Usage (Sentence Transformers)
93
+
94
+ First install the Sentence Transformers library:
95
+
96
+ ```bash
97
+ pip install -U sentence-transformers
98
+ ```
99
+
100
+ Then you can load this model and run inference.
101
+ ```python
102
+ from sentence_transformers import SentenceTransformer
103
+
104
+ # Download from the 🤗 Hub
105
+ model = SentenceTransformer("sentence_transformers_model_id")
106
+ # Run inference
107
+ sentences = [
108
+ 'دائماً موفقين 👍',
109
+ 'متجر سبونج يوفر لكم اشتراك رسمي وباسعار مناسبه للجميع ❤️👌🏻 \nوموثقين في معروف وتقدر تشوف تقييماتنا بالموقع الخاص فينا \U0001fae1',
110
+ 'العذر اقبح من ذنب مصرف فاشل',
111
+ ]
112
+ embeddings = model.encode(sentences)
113
+ print(embeddings.shape)
114
+ # [3, 768]
115
+
116
+ # Get the similarity scores for the embeddings
117
+ similarities = model.similarity(embeddings, embeddings)
118
+ print(similarities.shape)
119
+ # [3, 3]
120
+ ```
121
+
122
+ <!--
123
+ ### Direct Usage (Transformers)
124
+
125
+ <details><summary>Click to see the direct usage in Transformers</summary>
126
+
127
+ </details>
128
+ -->
129
+
130
+ <!--
131
+ ### Downstream Usage (Sentence Transformers)
132
+
133
+ You can finetune this model on your own dataset.
134
+
135
+ <details><summary>Click to expand</summary>
136
+
137
+ </details>
138
+ -->
139
+
140
+ <!--
141
+ ### Out-of-Scope Use
142
+
143
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
144
+ -->
145
+
146
+ <!--
147
+ ## Bias, Risks and Limitations
148
+
149
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
150
+ -->
151
+
152
+ <!--
153
+ ### Recommendations
154
+
155
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
156
+ -->
157
+
158
+ ## Training Details
159
+
160
+ ### Training Dataset
161
+
162
+ #### Unnamed Dataset
163
+
164
+
165
+ * Size: 400,000 training samples
166
+ * Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>label</code>
167
+ * Approximate statistics based on the first 1000 samples:
168
+ | | sentence_0 | sentence_1 | label |
169
+ |:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------|
170
+ | type | string | string | float |
171
+ | details | <ul><li>min: 3 tokens</li><li>mean: 21.12 tokens</li><li>max: 35 tokens</li></ul> | <ul><li>min: 3 tokens</li><li>mean: 19.25 tokens</li><li>max: 35 tokens</li></ul> | <ul><li>min: -1.0</li><li>mean: -0.3</li><li>max: 1.0</li></ul> |
172
+ * Samples:
173
+ | sentence_0 | sentence_1 | label |
174
+ |:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------|
175
+ | <code>سددت مخالفات لسياره الوالد بمبلغ ١٥٠٠ ريال وبقيت معلقه وحاولت اسوي استرداد ولم يتم إرجاع المبلغ واضطريت اسوي سداد للمخالفات مره وراجعت احد فروع بنك الراجحي لارجاع المبلغ يدوياً ولم يتم إرجاع المبلغ وش الحل</code> | <code>ي اخي اسوء بنك كيف م اقدر اطلع مبلغ مسحوب في سنه ٢٠٢٢ ولازم اراجع البنك ع سبب تافه من المفترض اقدر اسويه وانا ف البيت انتم في اي عصر</code> | <code>1.0</code> |
176
+ | <code>ياليت بس اتمنى اشتري مقاضي العيد<br>ولكن حالتي لايسمح 😔💔💸<br>.<br>.<br>ولكن من أفضل الحسابات حاليا بوجهة نظري انتم ❤️✋️</code> | <code>انا شاري وحدة سكنية عام 1441 من البنك الاهلي والان يوجد اضرار وقدمت ع البنك وحولت معاملتي على التامين المتعاقد مع البنك ورفض معاملتي بحجة ان الشركة المتعاقدة الاولى مع البنك تقلت وهذي الشركة جديده والا تتدخل في الشركة الاولى افادوا ان اللي يعوض البنك . حسبي الله عليكم</code> | <code>-1.0</code> |
177
+ | <code>عندي مشكله بطاقتي انتهت وجاني وحده جديده مو قادره اضيفها ف الجوال لا يدوي ولا بالمسح ولا حتى بالموقع حقكم ايش الحل</code> | <code>السلام عليكم عندما احاول تسديد اي فاتورة لوزارة العدل والتنفيذ القضائي (للمعسرين) يظهر لي المبلغ المستحق صفر في حين اذا فتحت الفاتورة من بنك آخر يظهر المبلغ مازال موجود المشكلة في بنك الإنماء فقط عندي وعند كذا شخص من معارفي أرجو حلها في أسرع وقت</code> | <code>1.0</code> |
178
+ * Loss: <code>__main__.LoggingBAS</code> with these parameters:
179
+ ```json
180
+ {
181
+ "scale": 20.0,
182
+ "similarity_fct": "cos_sim"
183
+ }
184
+ ```
185
+
186
+ ### Training Hyperparameters
187
+ #### Non-Default Hyperparameters
188
+
189
+ - `per_device_train_batch_size`: 256
190
+ - `per_device_eval_batch_size`: 256
191
+ - `num_train_epochs`: 2
192
+ - `multi_dataset_batch_sampler`: round_robin
193
+
194
+ #### All Hyperparameters
195
+ <details><summary>Click to expand</summary>
196
+
197
+ - `overwrite_output_dir`: False
198
+ - `do_predict`: False
199
+ - `eval_strategy`: no
200
+ - `prediction_loss_only`: True
201
+ - `per_device_train_batch_size`: 256
202
+ - `per_device_eval_batch_size`: 256
203
+ - `per_gpu_train_batch_size`: None
204
+ - `per_gpu_eval_batch_size`: None
205
+ - `gradient_accumulation_steps`: 1
206
+ - `eval_accumulation_steps`: None
207
+ - `learning_rate`: 5e-05
208
+ - `weight_decay`: 0.0
209
+ - `adam_beta1`: 0.9
210
+ - `adam_beta2`: 0.999
211
+ - `adam_epsilon`: 1e-08
212
+ - `max_grad_norm`: 1
213
+ - `num_train_epochs`: 2
214
+ - `max_steps`: -1
215
+ - `lr_scheduler_type`: linear
216
+ - `lr_scheduler_kwargs`: {}
217
+ - `warmup_ratio`: 0.0
218
+ - `warmup_steps`: 0
219
+ - `log_level`: passive
220
+ - `log_level_replica`: warning
221
+ - `log_on_each_node`: True
222
+ - `logging_nan_inf_filter`: True
223
+ - `save_safetensors`: True
224
+ - `save_on_each_node`: False
225
+ - `save_only_model`: False
226
+ - `restore_callback_states_from_checkpoint`: False
227
+ - `no_cuda`: False
228
+ - `use_cpu`: False
229
+ - `use_mps_device`: False
230
+ - `seed`: 42
231
+ - `data_seed`: None
232
+ - `jit_mode_eval`: False
233
+ - `use_ipex`: False
234
+ - `bf16`: False
235
+ - `fp16`: False
236
+ - `fp16_opt_level`: O1
237
+ - `half_precision_backend`: auto
238
+ - `bf16_full_eval`: False
239
+ - `fp16_full_eval`: False
240
+ - `tf32`: None
241
+ - `local_rank`: 0
242
+ - `ddp_backend`: None
243
+ - `tpu_num_cores`: None
244
+ - `tpu_metrics_debug`: False
245
+ - `debug`: []
246
+ - `dataloader_drop_last`: False
247
+ - `dataloader_num_workers`: 0
248
+ - `dataloader_prefetch_factor`: None
249
+ - `past_index`: -1
250
+ - `disable_tqdm`: False
251
+ - `remove_unused_columns`: True
252
+ - `label_names`: None
253
+ - `load_best_model_at_end`: False
254
+ - `ignore_data_skip`: False
255
+ - `fsdp`: []
256
+ - `fsdp_min_num_params`: 0
257
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
258
+ - `fsdp_transformer_layer_cls_to_wrap`: None
259
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
260
+ - `deepspeed`: None
261
+ - `label_smoothing_factor`: 0.0
262
+ - `optim`: adamw_torch
263
+ - `optim_args`: None
264
+ - `adafactor`: False
265
+ - `group_by_length`: False
266
+ - `length_column_name`: length
267
+ - `ddp_find_unused_parameters`: None
268
+ - `ddp_bucket_cap_mb`: None
269
+ - `ddp_broadcast_buffers`: False
270
+ - `dataloader_pin_memory`: True
271
+ - `dataloader_persistent_workers`: False
272
+ - `skip_memory_metrics`: True
273
+ - `use_legacy_prediction_loop`: False
274
+ - `push_to_hub`: False
275
+ - `resume_from_checkpoint`: None
276
+ - `hub_model_id`: None
277
+ - `hub_strategy`: every_save
278
+ - `hub_private_repo`: False
279
+ - `hub_always_push`: False
280
+ - `gradient_checkpointing`: False
281
+ - `gradient_checkpointing_kwargs`: None
282
+ - `include_inputs_for_metrics`: False
283
+ - `eval_do_concat_batches`: True
284
+ - `fp16_backend`: auto
285
+ - `push_to_hub_model_id`: None
286
+ - `push_to_hub_organization`: None
287
+ - `mp_parameters`:
288
+ - `auto_find_batch_size`: False
289
+ - `full_determinism`: False
290
+ - `torchdynamo`: None
291
+ - `ray_scope`: last
292
+ - `ddp_timeout`: 1800
293
+ - `torch_compile`: False
294
+ - `torch_compile_backend`: None
295
+ - `torch_compile_mode`: None
296
+ - `dispatch_batches`: None
297
+ - `split_batches`: None
298
+ - `include_tokens_per_second`: False
299
+ - `include_num_input_tokens_seen`: False
300
+ - `neftune_noise_alpha`: None
301
+ - `optim_target_modules`: None
302
+ - `batch_eval_metrics`: False
303
+ - `batch_sampler`: batch_sampler
304
+ - `multi_dataset_batch_sampler`: round_robin
305
+
306
+ </details>
307
+
308
+ ### Training Logs
309
+ | Epoch | Step | Training Loss |
310
+ |:------:|:----:|:-------------:|
311
+ | 0.3199 | 500 | 5.7094 |
312
+ | 0.6398 | 1000 | 5.4777 |
313
+ | 0.9597 | 1500 | 5.438 |
314
+ | 1.2796 | 2000 | 5.4277 |
315
+ | 1.5995 | 2500 | 5.4283 |
316
+ | 1.9194 | 3000 | 5.4247 |
317
+
318
+
319
+ ### Framework Versions
320
+ - Python: 3.10.13
321
+ - Sentence Transformers: 3.0.1
322
+ - Transformers: 4.41.2
323
+ - PyTorch: 2.1.2
324
+ - Accelerate: 0.32.1
325
+ - Datasets: 2.19.2
326
+ - Tokenizers: 0.19.1
327
+
328
+ ## Citation
329
+
330
+ ### BibTeX
331
+
332
+ #### Sentence Transformers
333
+ ```bibtex
334
+ @inproceedings{reimers-2019-sentence-bert,
335
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
336
+ author = "Reimers, Nils and Gurevych, Iryna",
337
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
338
+ month = "11",
339
+ year = "2019",
340
+ publisher = "Association for Computational Linguistics",
341
+ url = "https://arxiv.org/abs/1908.10084",
342
+ }
343
+ ```
344
+
345
+ #### LoggingBAS
346
+ ```bibtex
347
+ @misc{henderson2017efficient,
348
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
349
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
350
+ year={2017},
351
+ eprint={1705.00652},
352
+ archivePrefix={arXiv},
353
+ primaryClass={cs.CL}
354
+ }
355
+ ```
356
+
357
+ <!--
358
+ ## Glossary
359
+
360
+ *Clearly define terms in order to be accessible across audiences.*
361
+ -->
362
+
363
+ <!--
364
+ ## Model Card Authors
365
+
366
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
367
+ -->
368
+
369
+ <!--
370
+ ## Model Card Contact
371
+
372
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
373
+ -->
config.json ADDED
@@ -0,0 +1,43 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "Ammar-alhaj-ali/arabic-MARBERT-sentiment",
3
+ "architectures": [
4
+ "BertModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "classifier_dropout": null,
8
+ "directionality": "bidi",
9
+ "gradient_checkpointing": false,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 768,
13
+ "id2label": {
14
+ "0": "neutral",
15
+ "1": "negative",
16
+ "2": "positive"
17
+ },
18
+ "initializer_range": 0.02,
19
+ "intermediate_size": 3072,
20
+ "label2id": {
21
+ "negative": 1,
22
+ "neutral": 0,
23
+ "positive": 2
24
+ },
25
+ "layer_norm_eps": 1e-12,
26
+ "max_position_embeddings": 512,
27
+ "model_type": "bert",
28
+ "num_attention_heads": 12,
29
+ "num_hidden_layers": 12,
30
+ "pad_token_id": 0,
31
+ "pooler_fc_size": 768,
32
+ "pooler_num_attention_heads": 12,
33
+ "pooler_num_fc_layers": 3,
34
+ "pooler_size_per_head": 128,
35
+ "pooler_type": "first_token_transform",
36
+ "position_embedding_type": "absolute",
37
+ "problem_type": "single_label_classification",
38
+ "torch_dtype": "float32",
39
+ "transformers_version": "4.41.2",
40
+ "type_vocab_size": 2,
41
+ "use_cache": true,
42
+ "vocab_size": 100000
43
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.0.1",
4
+ "transformers": "4.41.2",
5
+ "pytorch": "2.1.2"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": null
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9e8440afcb3c4e278f6b9d1083a372b1e7969d525ec209dea18fa320a2c5cbd9
3
+ size 651387752
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 35,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,37 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cls_token": {
3
+ "content": "[CLS]",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "mask_token": {
10
+ "content": "[MASK]",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "pad_token": {
17
+ "content": "[PAD]",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "sep_token": {
24
+ "content": "[SEP]",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "unk_token": {
31
+ "content": "[UNK]",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ }
37
+ }
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
@@ -0,0 +1,57 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "[PAD]",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "[UNK]",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "[CLS]",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "[SEP]",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "4": {
36
+ "content": "[MASK]",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "clean_up_tokenization_spaces": true,
45
+ "cls_token": "[CLS]",
46
+ "do_basic_tokenize": true,
47
+ "do_lower_case": true,
48
+ "mask_token": "[MASK]",
49
+ "model_max_length": 1000000000000000019884624838656,
50
+ "never_split": null,
51
+ "pad_token": "[PAD]",
52
+ "sep_token": "[SEP]",
53
+ "strip_accents": null,
54
+ "tokenize_chinese_chars": true,
55
+ "tokenizer_class": "BertTokenizer",
56
+ "unk_token": "[UNK]"
57
+ }
vocab.txt ADDED
The diff for this file is too large to render. See raw diff