tmmazen commited on
Commit
edc55f5
1 Parent(s): dc5b301

Pushing fine-tuned model

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 384,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,561 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model: sentence-transformers/all-MiniLM-L6-v2
3
+ library_name: sentence-transformers
4
+ metrics:
5
+ - cosine_accuracy
6
+ pipeline_tag: sentence-similarity
7
+ tags:
8
+ - sentence-transformers
9
+ - sentence-similarity
10
+ - feature-extraction
11
+ - generated_from_trainer
12
+ - dataset_size:694
13
+ - loss:TripletLoss
14
+ widget:
15
+ - source_sentence: pharmaceutical products broncho cough syrup mepacoshefa tone effervescent
16
+ nile co sekem renal herbs sekemsekem laxative herbs sekemsekem slimming herbs
17
+ sekemsekem anticough herbs sekemsekem hepatic herbs sekembaby calm sekem compound
18
+ powder of liquorice 15 g 100 gkahiraglucafene syrup extract glycyrrhizae 5 g180
19
+ mlmemphis7 herbs 20 mg liquorice400mg capsule misr cosweets sold n the market
20
+ are called rub sousbiogastrone duogastrone biorexcavids cidona holand
21
+ sentences:
22
+ - La prise de pissenlit peut entraîner des brûlures destomac dues à la taraxacine
23
+ des nausées une inflammation de voies biliaires ou un excès de potassium dans
24
+ le sang par exemple chez les personnes qui souffrent dinsuffisance rénale ou cardiaque
25
+ ou de diabète non contrôlé Le latex sève de pissenlit frais peut être à lorigine
26
+ dallergies de la peau Chez les personnes diabétiques les éventuelles propriétés
27
+ hypoglycémiantes diminuant la quantité de glucose dans le sang du pissenlit pourraient
28
+ déséquilibrer le traitement
29
+ - This plant Tamarix gallica L has different names n English French tamarisksaltcedar
30
+ n French tamaris de France and n Arabic fersig
31
+ - Selon lAgence européenne du médicament il est préférable de ne prendre de houblon
32
+ ni pendant la grossesse ni pendant lallaitement
33
+ - source_sentence: Le ginseng fait partie des plantes médicinales dites adaptogènes
34
+ cestàdire qui aideraient lorganisme à répondre aux agressions et aux déséquilibres
35
+ dont il est lobjet
36
+ sentences:
37
+ - Les petites têtes de fleurs centaures contiennent des substances amères monoterpéniques
38
+ séoiridoside, par exemple le gentiopicroside ou centauroside swertiamarine, qui,
39
+ comme toutes les substances de ce type, stimulent l'activité de l'estomac d'une
40
+ manière réflexe et provoquent la sécrétion de jus gastriques Dans le corps le
41
+ swertiamarine serait transformé en gentianine avec des propriétés sédatives Le
42
+ petit centaure contient également des flavonoïdes d'acides phénoliques et de xanthons
43
+ qui pourraient être la cause de son action contre la fièvre observée chez les
44
+ animaux Certaines autres plantes utilisées pour stimuler l'appétit La phytothérapie
45
+ traditionnelle utilise également les plantes suivantes pour contrôler la perte
46
+ d'appétit Absinthe Artemisia absinthium Fenugrec Trigonella fenumgraecum Gentiane
47
+ Gentiana lutea Quinquina Cinchona officinalis
48
+ - Comme sauge et le romarin de thym est une plante emblématique de la cuisine méditerranéenne
49
+ Les Grecs anciens ont déjà vanté les mérites de la santé Aujourd'hui comme alors
50
+ le romarin est proposé pour soulager les digestions difficiles et les maux d'estomac
51
+ stimuler la production de l'aide biliaire pour guérir les blessures et comme traitement
52
+ des douleurs articulaires et musculaires En l'absence d'études cliniques, son
53
+ utilisation est basée uniquement sur l'expérience acquise au cours des siècles
54
+ - This plant Pelargonium capitum Ait has different names n English Rose geranium
55
+ n French Geranium with rose and n Arabic Aterchia
56
+ - source_sentence: Les racines de ginseng contiennent des saponines triterpéniques
57
+ les ginsénosides dont il existe au moins une douzaine de variétés Pour essayer
58
+ dexpliquer les effets complexes de ces substances qui semblent varier selon létat
59
+ de celui qui les prend un scientifique russe du nom de Lazarev a créé en 1947
60
+ un terme spécifique adaptogène Les substances adaptogènes lutteraient contre le
61
+ stress et favoriseraient le retour à léquilibre Cette notion est difficile à intégrer
62
+ et à évaluer dans le contexte de la médecine occidentale Dans les essais in vitro
63
+ sur des cultures de cellules et chez lanimal des études ont montré que les extraits
64
+ de ginseng stimulaient certaines cellules de limmunité lymphocytes et les incitaient
65
+ à produire des interférons des substances capables de neutraliser certains virus
66
+ De plus ces extraits semblent capables daugmenter le taux de cortisol dans le
67
+ sang lhormone qui nous permet de réagir au stress et dinhiber laction de la prolactine
68
+ une hormone qui diminue le désir sexuel chez lhomme Quelques autres plantes utilisées
69
+ pour lutter contre le stress La phytothérapie traditionnelle utilise également
70
+ dautres plantes adaptogènes Éleuthérocoque Eleutherococcus senticosus Rhodiole
71
+ Rhodiola rosea
72
+ sentences:
73
+ - Par mesure de précaution la primevère est contreindiquée chez les patients souffrant
74
+ dasthme Les personnes souffrant de gastrite ou dulcère de lestomac doivent également
75
+ sabstenir de lutiliser la primevère étant irritante pour la paroi interne de lestomac
76
+ Lhypersensibilité à la primevère ou à une plante de la famille des primulacées
77
+ en contreindique évidemment lutilisation
78
+ - Lusage du sureau noir est contreindiqué chez les personnes diabétiques Des cas
79
+ de déséquilibre du traitement par insuline ont été signalés
80
+ - Lécorce de saule blanc contient des tanins des flavonoïdes qui pourraient avoir
81
+ des propriétés antiinflammatoires et des composés salicylés en particulier la
82
+ salicine Dans lorganisme la salicine est transformée en acide salicylique substance
83
+ antiinflammatoire et antalgique contre la douleur Isolé chimiquement au début
84
+ du XIXe siècle lacide salicylique a commencé à être synthétisé en 1860 Un dérivé
85
+ plus actif lacide acétylsalicylique a ensuite été identifié à partir de la spirée
86
+ une plante également appelée reinedesprés et a de ce fait pris le nom daspirine
87
+ Une légende était née Les chatons femelles du saule blanc contiendraient des phytoestrogènes
88
+ aux effets similaires à ceux des hormones féminines Quelques autres plantes utilisées
89
+ contre les douleurs articulaires La phytothérapie traditionnelle utilise également
90
+ les plantes suivantes pour soulager les douleurs articulaires liées à larthrose
91
+ Cassis Ribes nigrum Frêne Fraxinus excelsior Harpagophyton Harpagophytum procumbens
92
+ Ortie dioïque Urtica dioica Reinedesprés Filipendula ulmaria
93
+ - source_sentence: Pharmacological actions and toxicity the main pharmacological actions
94
+ of plantagoplantago ovata forssk fl aegyptarab 31 1775 plantago decumbens forssk
95
+ fl aegyptarab 30 1775 names arabic geneima quayta english spgel plantain français
96
+ spaghula plantago ovata forssk plantaginaceae compiled by prof f m hammouda prof
97
+ smail dr n s abdelazim and dr k a shampooedited by prof k h batanounyphoto by
98
+ k h batanounyphoto by k h batanouny
99
+ sentences:
100
+ - This plant Chenopodium ambrosioides has different names n English Wormseed Mexican
101
+ tea n French and n Arabic Netanah Habaq El Bahr Fiss elkalb Minteena
102
+ - Pharmacological action and toxicity of the medicinal product should be used cautiously
103
+ since phototoxic dermatitis of cell lesions following the use of vitiligo has
104
+ been reportedammi majus l ammi majus l sp pl ed 1246 1753 apium ammi crantz strip
105
+ austr 3 109 1767 names arabic khillah killah killah shaytani berber athrilal thhalilen
106
+ lattilel akhella bishops english weed French ammi commun ammi majus l apiaceae
107
+ umbelliferae a guide to medical plants n af af af afrique du Nord 25compiled by
108
+ prof f m hammouda prof smail dr n s abdelazim and dr k a shamseditedied by prof
109
+ k h batanouny
110
+ - geographical distribution local common n the whole of central and south tunisia
111
+ but rare n the northeastregional from morocco to the orient global mediterranean
112
+ from spain taly albania greece to the sahara hoggar tibesti frommorocco to the
113
+ orient
114
+ - source_sentence: ecology retama raetam grows on sandy soils dune slopedune base
115
+ and n dry conditions rainfallaround 100 mm per year status according to the ucn
116
+ criteria this saharomediterranean species falls nto the c categorythe plant s
117
+ not threatened and appears on thefloristic list of several protected sites listed
118
+ by theunep world conservation monitoring centre
119
+ sentences:
120
+ - En début de traitement des flatulences peuvent apparaître elles disparaissent
121
+ avec la poursuite du traitement Si la quantité deau ingérée avec les graines de
122
+ lin est insuffisante des risques dobstruction intestinale par une masse compacte
123
+ de selles sont à craindre Quelques très rares cas de choc anaphylactique réaction
124
+ allergique violente et dangereuse ont été décrits dus à une allergie aux protéines
125
+ du lin
126
+ - Les principes actifs du cascara sont des dérivés anthracéniques cascarosides Ceuxci
127
+ ne deviennent actifs quau niveau du gros intestin où leur dégradation par les
128
+ bactéries de la flore intestinale libère des anthraquinones Ces substances inhibent
129
+ labsorption de leau contenue dans les aliments permettant ainsi aux selles de
130
+ rester molles stimulent les mouvements de lintestin et favorisent la sécrétion
131
+ de liquides et de mucus par les parois intestinales Leffet laxatif du cascara
132
+ est également dû à une action irritante sur les parois de lintestin ce qui limite
133
+ son usage pour lutter contre la constipation Quelques autres plantes utilisées
134
+ contre la constipation La phytothérapie traditionnelle utilise également les plantes
135
+ suivantes pour lutter contre la constipation Aloès Aloe barbadensis A capensis
136
+ A vera Boldo Peumus boldus Bourdaine Rhamnus frangula Lin Linum usitatissimum
137
+ Psyllium ou Ispaghul Plantago ovata Rhubarbe de Chine Rheum officinale R palmatum
138
+ Séné Cassia acutifolia C angustifolia C senna Tamarin Tamarindus indica
139
+ - La prêle des champs Equisetum arvense également appelée queuedecheval est un véritable
140
+ fossile vivant elle existe sur notre planète depuis lère primaire il y a plus
141
+ de 250 millions dannées La phytothérapie utilise les tiges qui ne servent pas
142
+ à la reproduction dites tiges stériles ou parties aériennes stériles récoltées
143
+ pendant lété La prêle des champs ne doit pas être confondue avec la prêle des
144
+ marais Equisetum palustre qui est toxique Aujourdhui la prêle des champs est essentiellement
145
+ proposée comme diurétique pour favoriser lélimination deau par les reins et comme
146
+ source de silice pour stimuler la formation de collagène dans les os les cartilages
147
+ et les tendons Elle est parfois présente dans les produits de phytothérapie destinés
148
+ à faire perdre du poids en raison de son action diurétique Les autres usages traditionnels
149
+ de la prêle des champs La prêle des champs est également proposée dans le traitement
150
+ de la goutte dépôts dacide urique dans les articulations des problèmes biliaires
151
+ de larthrose rhumatismes des œdèmes posttraumatiques gonflements survenant après
152
+ un choc des fractures de lostéoporose et pour favoriser la cicatrisation des plaies
153
+ Elle entre également dans la composition de compléments alimentaires destinés
154
+ à renforcer les cheveux et les ongles
155
+ model-index:
156
+ - name: SentenceTransformer based on sentence-transformers/all-MiniLM-L6-v2
157
+ results:
158
+ - task:
159
+ type: triplet
160
+ name: Triplet
161
+ dataset:
162
+ name: Unknown
163
+ type: unknown
164
+ metrics:
165
+ - type: cosine_accuracy
166
+ value: 0.9655172413793104
167
+ name: Cosine Accuracy
168
+ - type: cosine_accuracy
169
+ value: 0.9655172413793104
170
+ name: Cosine Accuracy
171
+ - type: cosine_accuracy
172
+ value: 0.9655172413793104
173
+ name: Cosine Accuracy
174
+ ---
175
+
176
+ # SentenceTransformer based on sentence-transformers/all-MiniLM-L6-v2
177
+
178
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [sentence-transformers/all-MiniLM-L6-v2](https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2). It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
179
+
180
+ ## Model Details
181
+
182
+ ### Model Description
183
+ - **Model Type:** Sentence Transformer
184
+ - **Base model:** [sentence-transformers/all-MiniLM-L6-v2](https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2) <!-- at revision fa97f6e7cb1a59073dff9e6b13e2715cf7475ac9 -->
185
+ - **Maximum Sequence Length:** 512 tokens
186
+ - **Output Dimensionality:** 384 dimensions
187
+ - **Similarity Function:** Cosine Similarity
188
+ <!-- - **Training Dataset:** Unknown -->
189
+ <!-- - **Language:** Unknown -->
190
+ <!-- - **License:** Unknown -->
191
+
192
+ ### Model Sources
193
+
194
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
195
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
196
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
197
+
198
+ ### Full Model Architecture
199
+
200
+ ```
201
+ SentenceTransformer(
202
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
203
+ (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
204
+ )
205
+ ```
206
+
207
+ ## Usage
208
+
209
+ ### Direct Usage (Sentence Transformers)
210
+
211
+ First install the Sentence Transformers library:
212
+
213
+ ```bash
214
+ pip install -U sentence-transformers
215
+ ```
216
+
217
+ Then you can load this model and run inference.
218
+ ```python
219
+ from sentence_transformers import SentenceTransformer
220
+
221
+ # Download from the 🤗 Hub
222
+ model = SentenceTransformer("sentence_transformers_model_id")
223
+ # Run inference
224
+ sentences = [
225
+ 'ecology retama raetam grows on sandy soils dune slopedune base and n dry conditions rainfallaround 100 mm per year status according to the ucn criteria this saharomediterranean species falls nto the c categorythe plant s not threatened and appears on thefloristic list of several protected sites listed by theunep world conservation monitoring centre',
226
+ 'La prêle des champs Equisetum arvense également appelée queuedecheval est un véritable fossile vivant elle existe sur notre planète depuis lère primaire il y a plus de 250 millions dannées La phytothérapie utilise les tiges qui ne servent pas à la reproduction dites tiges stériles ou parties aériennes stériles récoltées pendant lété La prêle des champs ne doit pas être confondue avec la prêle des marais Equisetum palustre qui est toxique Aujourdhui la prêle des champs est essentiellement proposée comme diurétique pour favoriser lélimination deau par les reins et comme source de silice pour stimuler la formation de collagène dans les os les cartilages et les tendons Elle est parfois présente dans les produits de phytothérapie destinés à faire perdre du poids en raison de son action diurétique Les autres usages traditionnels de la prêle des champs La prêle des champs est également proposée dans le traitement de la goutte dépôts dacide urique dans les articulations des problèmes biliaires de larthrose rhumatismes des œdèmes posttraumatiques gonflements survenant après un choc des fractures de lostéoporose et pour favoriser la cicatrisation des plaies Elle entre également dans la composition de compléments alimentaires destinés à renforcer les cheveux et les ongles',
227
+ 'Les principes actifs du cascara sont des dérivés anthracéniques cascarosides Ceuxci ne deviennent actifs quau niveau du gros intestin où leur dégradation par les bactéries de la flore intestinale libère des anthraquinones Ces substances inhibent labsorption de leau contenue dans les aliments permettant ainsi aux selles de rester molles stimulent les mouvements de lintestin et favorisent la sécrétion de liquides et de mucus par les parois intestinales Leffet laxatif du cascara est également dû à une action irritante sur les parois de lintestin ce qui limite son usage pour lutter contre la constipation Quelques autres plantes utilisées contre la constipation La phytothérapie traditionnelle utilise également les plantes suivantes pour lutter contre la constipation Aloès Aloe barbadensis A capensis A vera Boldo Peumus boldus Bourdaine Rhamnus frangula Lin Linum usitatissimum Psyllium ou Ispaghul Plantago ovata Rhubarbe de Chine Rheum officinale R palmatum Séné Cassia acutifolia C angustifolia C senna Tamarin Tamarindus indica',
228
+ ]
229
+ embeddings = model.encode(sentences)
230
+ print(embeddings.shape)
231
+ # [3, 384]
232
+
233
+ # Get the similarity scores for the embeddings
234
+ similarities = model.similarity(embeddings, embeddings)
235
+ print(similarities.shape)
236
+ # [3, 3]
237
+ ```
238
+
239
+ <!--
240
+ ### Direct Usage (Transformers)
241
+
242
+ <details><summary>Click to see the direct usage in Transformers</summary>
243
+
244
+ </details>
245
+ -->
246
+
247
+ <!--
248
+ ### Downstream Usage (Sentence Transformers)
249
+
250
+ You can finetune this model on your own dataset.
251
+
252
+ <details><summary>Click to expand</summary>
253
+
254
+ </details>
255
+ -->
256
+
257
+ <!--
258
+ ### Out-of-Scope Use
259
+
260
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
261
+ -->
262
+
263
+ ## Evaluation
264
+
265
+ ### Metrics
266
+
267
+ #### Triplet
268
+
269
+ * Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
270
+
271
+ | Metric | Value |
272
+ |:--------------------|:-----------|
273
+ | **cosine_accuracy** | **0.9655** |
274
+
275
+ #### Triplet
276
+
277
+ * Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
278
+
279
+ | Metric | Value |
280
+ |:--------------------|:-----------|
281
+ | **cosine_accuracy** | **0.9655** |
282
+
283
+ #### Triplet
284
+
285
+ * Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
286
+
287
+ | Metric | Value |
288
+ |:--------------------|:-----------|
289
+ | **cosine_accuracy** | **0.9655** |
290
+
291
+ <!--
292
+ ## Bias, Risks and Limitations
293
+
294
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
295
+ -->
296
+
297
+ <!--
298
+ ### Recommendations
299
+
300
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
301
+ -->
302
+
303
+ ## Training Details
304
+
305
+ ### Training Dataset
306
+
307
+ #### Unnamed Dataset
308
+
309
+
310
+ * Size: 694 training samples
311
+ * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
312
+ * Approximate statistics based on the first 694 samples:
313
+ | | anchor | positive | negative |
314
+ |:--------|:-------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
315
+ | type | string | string | string |
316
+ | details | <ul><li>min: 24 tokens</li><li>mean: 150.68 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 24 tokens</li><li>mean: 155.77 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 24 tokens</li><li>mean: 137.58 tokens</li><li>max: 512 tokens</li></ul> |
317
+ * Samples:
318
+ | anchor | positive | negative |
319
+ |:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
320
+ | <code>pharmacological action and toxicity oleandrine s antiinflammatory antitumoral and emollient and potentialises apoptosis the hydroalcoholic and aqueous extract of the flowers santinociceptive and cardiotonic the leaves andseeds provoke poisoning with nausea vomitingmental confusion bradycardia and ventricularhyperkalaemia that can quickly end n death references begum s s razika and s b siddiqui 1998 triterpenoides from the leaves of nerium oleander phytochemistry volume 44 ssue 2 329332 bellakhdar j 1997 la pharmacopée marocaine traditionnelle ed bis press bellakhdar j 2003 le maghreb à travers ses plan tes ed le fennec 198 p bruneton j 1999 pharmacognosie phytochimie plantes médicinales edit tec doc 1999 bruneton j 1996 végétaux dangereux pour lhomme et les animaux edit tecdoc1996farrukh afaq m s a moammir hasan and hasan m 2004 nhibition of 12otetradecanoylphorbol13acetateinduced tumor promotion markers n cd1 mouse skin by oleandrintoxicology and applied pharmacology volume195 ssue 3 ...</code> | <code>cucurbitacins b d e j k l and s present in fresh root as glycoside aglycones of small amounts of ntact glycosides for the examination of bryocarides a and c triterpenic acids including bryonolic acid bryo coumaric acid 3alpha hydroxymultiflora8ene29 fatty acids alpha polyhydroxyderivative acids resembling eicosanoids such as 91213trihydroxyoctadeca10 e15 zdienic acid ribosomeina activating bryodin proteins and bryodiner the plant also contains alkaloid starch resin</code> | <code>traditional medicine history the sweet bay was called apollos laurel because t was dedicated to the god apollo orpoets laurel since they and generals or emperorswere crowned with laurel wreaths the customcontinued down the ages from classical rome tothe middle ages when scholars were givenwreaths young doctors would receive a crowngarnished with laurel berries bacca laurea fromwhich we get the word baccalaureatethe sweet bay should not be confused with theoleander nerium oleander l which has long leaves arranged n 2s and 3s or with the cherrylaurel prunus laurocerasus l with brilliant green toothed leaves which give off a smell of bitteralmonds when crushed both these are extremelypoisonous references sickness an nfusion and decoction of the leaves should be taken by mouth for atonic dyspepsiaflatulence and chronic nfectious bronchitis nexternal use the decoction s a mouthwash forsore throats and buccalpharyngitis n tunisia the leaves are usually used as a spice for cooking alsouyouti ...</code> |
321
+ | <code>Les seuls effets indésirables signalés avec le marron dInde sont des nausées des troubles digestifs des maux de tête des vertiges et rarement une allergie de la peau</code> | <code>Lhuile essentielle de menthe poivrée doit être conditionnée en comprimés ou en gélules gastrorésistantes qui résistent à lacidité de lestomac afin déviter des spasmes du larynx ainsi quune irritation de lœsophage et de lestomac Dans les études cliniques la dose varie en fonction de lâge 02 à 04 ml jusquà trois fois par jour pour les adolescents de plus de 12 ans et les adultes 02 ml jusquà trois fois par jour pour les enfants de 8 à 12 ans Les gélules sont prises avant les repas et le traitement est poursuivi sans dépasser une durée de trois mois En France il nexiste pas de médicaments à avaler contenant de lhuile essentielle de menthe Pour décongestionner les voies respiratoires en cas de rhume lhuile essentielle de menthe peut être utilisée en inhalation à raison de trois à quatre gouttes dans un bol deau chaude En infusion on utilise de 3 à 6 g de feuilles par jour soit une cuillerée à soupe pour 150 ml deau en laissant infuser dix minutes En application sur la peau lhuile essentiel...</code> | <code>Le germe de blé est la partie du grain de blé Triticum vulgaris qui contient l'embryon de la future plante</code> |
322
+ | <code>Le sureau noir Sambucus nigra est un arbuste que lon rencontre fréquemment dans les bois des zones tempérées Ses baies violet foncé servent à fabriquer des jus des sirops et des confitures En phytothérapie on utilise surtout les fleurs séchées et la partie interne de lécorce Le sureau noir est traditionnellement proposé pour combattre la fièvre soulager les symptômes des infections respiratoires rhume grippe toux grasse sinusite etc calmer les irritations de la bouche ou de la gorge et comme diurétique augmentant le volume des urines Les autres usages traditionnels du sureau noir Traditionnellement les fleurs de sureau noir sont également proposées dans le traitement du surpoids de la constipation des diarrhées et en applications locales de leczéma Lécorce interne est parfois utilisée contre larthrose rhumatismes</code> | <code>ecology solanum sodomaeum s a species that s present all over tunisia on the sand of the coast and the nterior t grows n waste places and especially likescactus hedgesistatus conservation and culture the apple of sodom s not cultivated n tunisia t spicked wild</code> | <code>a guide to the medicinal plants n north africa 193 morphological description a perennial shrub that can be 15 m tall a few times as much nebka mound-shaped because of the sand t accumulates the leaves are simple alternate fleshed whole or fine n 35 teeth the flowers are white together at the extremities of the short branches n little corymbre panicles lescorolla s consisting of 5 petals covered with long hairs and the androecium s composed of 15 stamens the fruits are red and contain one seed they come from an ovary with three loculiflorations takes place early in spring</code> |
323
+ * Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
324
+ ```json
325
+ {
326
+ "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
327
+ "triplet_margin": 5
328
+ }
329
+ ```
330
+
331
+ ### Evaluation Dataset
332
+
333
+ #### Unnamed Dataset
334
+
335
+
336
+ * Size: 87 evaluation samples
337
+ * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
338
+ * Approximate statistics based on the first 87 samples:
339
+ | | anchor | positive | negative |
340
+ |:--------|:-------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
341
+ | type | string | string | string |
342
+ | details | <ul><li>min: 25 tokens</li><li>mean: 164.31 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 25 tokens</li><li>mean: 159.6 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 25 tokens</li><li>mean: 129.08 tokens</li><li>max: 431 tokens</li></ul> |
343
+ * Samples:
344
+ | anchor | positive | negative |
345
+ |:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
346
+ | <code>Le gingembre Zingiber officinale est une plante rampante originaire dAsie du SudEst Il est utilisé depuis plus de 6 000 ans dans la cuisine ainsi que dans les médecines asiatiques et indiennes Le commerce du gingembre était déjà florissant sous lEmpire romain En phytothérapie on utilise son rhizome tige souterraine qui est épluché lavé cuit et séché avant dêtre réduit en poudre Le gingembre est proposé pour prévenir les nausées et les vomissements dans une grande variété de situations mal des transports mal de mer réveil postchirurgical chimiothérapie anticancéreuse grossesse etc Le gingembre est également proposé pour stimuler la production et la sécrétion de bile en cas de digestion difficile Son huile essentielle est parfois utilisée en application locale contre les douleurs de larthrose rhumatismes Les autres usages traditionnels du gingembre Le gingembre est également proposé en cas de douleurs dentaires de migraines dinsomnies dhémorroïdes ou de flatulences En médecine traditionn...</code> | <code>ecology a hardy chamaephyte that shows a rather wideamplitude for soil from sandy clayey to gravellystony sites t s found on wadi beds as well as ongravelly plateaux regs the plant thrives n hotdeserts where the rainfall does not exceed 100 mm status according to the ucn criteria this saharosindianspecies falls nto the c categorythe plant s not threatened and appears on the floristic list of several protected sites listed by theunep world conservation monitoring centre</code> | <code>This plant Acacia tortilis has different names n English umbrella epi Israeli Babool n French and n Arabic Sayaal Talh Samor</code> |
347
+ | <code>a guide to medicinal plants n north africa 93imorphological description perennial low aromatic shrub 2560 cm cushion like yellowishgreen glandularviscid stems ntricately branched leaves orbicular or broadly ovateusually broader than they are long 3 nerved thicktextured densely glandular hairy petiole 12 cmflowers 115 cm n the axils of upper leavesforming a lax fewflowered raceme bracts notdifferentiated from leaves pedicels 115 cm sepals48 x 12 mm dimorphic lanceolate petals 081 x0203 cm greenishyellow appendiculate dimorphic 2 broad and 2 narrow stamens 4 fruit 12 x0304 cm erect seeds 051 mm smoothglabrous</code> | <code>Le millepertuis est l'une des plantes dont les propriétés thérapeutiques ont fait l'objet d'études approfondies Utilisé traditionnellement dans des applications locales contre les brûlures superficielles Le millepertuis est maintenant mieux connu pour son utilisation dans le traitement des états dépressifs transitoires légers à modérés Cette utilisation est confirmée par de nombreuses études cliniques.</code> | <code>whole plant contains flavonoids luteolin7glucoside sovitexine kaempferol 7glucosidekaempferol 3rhamnoglucoside quercetin and lucitin t also contains glucoiberin glucosinolates and glucocheiroline sterols the fruits contain glucose galactose fructose sucrose raffinose and stachyose</code> |
348
+ | <code>Les effets indésirables du curcuma sont une sécheresse de la bouche des flatulences et des brûlures destomac à des doses élevées Certaines personnes allergiques peuvent présenter des réactions intenses Un surdosage se traduit par des nausées et des vomissements En 2022 lItalie a recensé une vingtaine de cas dhépatite impliquant des compléments alimentaires contenant du curcuma En France le dispositif de nutrivigilance de lAnses a enregistré plus de 100 signalements deffets indésirables susceptibles dêtre liés à la consommation de compléments alimentaires contenant du curcuma ou de la curcumine dont 15 hépatites Dans son expertise lAnses a identifié un recours croissant à des formulations de compléments alimentaires qui augmentent labsorption intestinale de la curcumine et donc ses effets par exemple en lassociant à dautres ingrédients en particulier la pipérine Même si en apparence elles ne dépassent pas la dose journalière autorisée 180 mg de curcumine par jour pour une personne de 60...</code> | <code>use n herbal medicine the cones and leaves are used nternally as anastringent externally the extract of the cypress sincorporated n preparations ointments andsuppositories used to treat haemorrhoids and varicose veins t s excellent for venous circulationdisordersthe essential oil s an antiseptic and an antispasmodic for stubborn coughsmedicines with a cypress cone basis are traditionally used for subjective evidence of venous nsufficiency such as heavy legs and n haemorrhoidalsymptomatologyireferences bezangerbeauquesne l et m pinkas 2000 plantes médicinales des régions tempérées edmaloine 381 p bonnier g 1990 la grande flore en couleurs france belgique suisse et pays voisins edbelin paris 4 tomes 1401p 700pl 1 ndex191 p bruneton j 1999 pharmacognosie phytochimie plantes médicinales tech doc 3 èmeédition paris france chemli r 2004 enquête ethnobotanique de la flore de tunisie pnr fac de phar de monastirpublication en cours gammar a m 2001 le patrimoine naturel des kessraouis la composa...</code> | <code>Lavoine est un grain cultivé par l'homme pendant des millénaires pour l'alimentation et le bétail En phytothérapie, il est utilisé pour prévenir l'excès de cholestérol ainsi que pour les soins de la peau Comme beaucoup de céréales, il doit faire partie d'une alimentation diversifiée et équilibrée</code> |
349
+ * Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
350
+ ```json
351
+ {
352
+ "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
353
+ "triplet_margin": 5
354
+ }
355
+ ```
356
+
357
+ ### Training Hyperparameters
358
+ #### Non-Default Hyperparameters
359
+
360
+ - `eval_strategy`: steps
361
+ - `per_device_train_batch_size`: 4
362
+ - `per_device_eval_batch_size`: 4
363
+ - `num_train_epochs`: 4
364
+ - `warmup_ratio`: 0.1
365
+ - `load_best_model_at_end`: True
366
+
367
+ #### All Hyperparameters
368
+ <details><summary>Click to expand</summary>
369
+
370
+ - `overwrite_output_dir`: False
371
+ - `do_predict`: False
372
+ - `eval_strategy`: steps
373
+ - `prediction_loss_only`: True
374
+ - `per_device_train_batch_size`: 4
375
+ - `per_device_eval_batch_size`: 4
376
+ - `per_gpu_train_batch_size`: None
377
+ - `per_gpu_eval_batch_size`: None
378
+ - `gradient_accumulation_steps`: 1
379
+ - `eval_accumulation_steps`: None
380
+ - `torch_empty_cache_steps`: None
381
+ - `learning_rate`: 5e-05
382
+ - `weight_decay`: 0.0
383
+ - `adam_beta1`: 0.9
384
+ - `adam_beta2`: 0.999
385
+ - `adam_epsilon`: 1e-08
386
+ - `max_grad_norm`: 1.0
387
+ - `num_train_epochs`: 4
388
+ - `max_steps`: -1
389
+ - `lr_scheduler_type`: linear
390
+ - `lr_scheduler_kwargs`: {}
391
+ - `warmup_ratio`: 0.1
392
+ - `warmup_steps`: 0
393
+ - `log_level`: passive
394
+ - `log_level_replica`: warning
395
+ - `log_on_each_node`: True
396
+ - `logging_nan_inf_filter`: True
397
+ - `save_safetensors`: True
398
+ - `save_on_each_node`: False
399
+ - `save_only_model`: False
400
+ - `restore_callback_states_from_checkpoint`: False
401
+ - `no_cuda`: False
402
+ - `use_cpu`: False
403
+ - `use_mps_device`: False
404
+ - `seed`: 42
405
+ - `data_seed`: None
406
+ - `jit_mode_eval`: False
407
+ - `use_ipex`: False
408
+ - `bf16`: False
409
+ - `fp16`: False
410
+ - `fp16_opt_level`: O1
411
+ - `half_precision_backend`: auto
412
+ - `bf16_full_eval`: False
413
+ - `fp16_full_eval`: False
414
+ - `tf32`: None
415
+ - `local_rank`: 0
416
+ - `ddp_backend`: None
417
+ - `tpu_num_cores`: None
418
+ - `tpu_metrics_debug`: False
419
+ - `debug`: []
420
+ - `dataloader_drop_last`: False
421
+ - `dataloader_num_workers`: 0
422
+ - `dataloader_prefetch_factor`: None
423
+ - `past_index`: -1
424
+ - `disable_tqdm`: False
425
+ - `remove_unused_columns`: True
426
+ - `label_names`: None
427
+ - `load_best_model_at_end`: True
428
+ - `ignore_data_skip`: False
429
+ - `fsdp`: []
430
+ - `fsdp_min_num_params`: 0
431
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
432
+ - `fsdp_transformer_layer_cls_to_wrap`: None
433
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
434
+ - `deepspeed`: None
435
+ - `label_smoothing_factor`: 0.0
436
+ - `optim`: adamw_torch
437
+ - `optim_args`: None
438
+ - `adafactor`: False
439
+ - `group_by_length`: False
440
+ - `length_column_name`: length
441
+ - `ddp_find_unused_parameters`: None
442
+ - `ddp_bucket_cap_mb`: None
443
+ - `ddp_broadcast_buffers`: False
444
+ - `dataloader_pin_memory`: True
445
+ - `dataloader_persistent_workers`: False
446
+ - `skip_memory_metrics`: True
447
+ - `use_legacy_prediction_loop`: False
448
+ - `push_to_hub`: False
449
+ - `resume_from_checkpoint`: None
450
+ - `hub_model_id`: None
451
+ - `hub_strategy`: every_save
452
+ - `hub_private_repo`: False
453
+ - `hub_always_push`: False
454
+ - `gradient_checkpointing`: False
455
+ - `gradient_checkpointing_kwargs`: None
456
+ - `include_inputs_for_metrics`: False
457
+ - `eval_do_concat_batches`: True
458
+ - `fp16_backend`: auto
459
+ - `push_to_hub_model_id`: None
460
+ - `push_to_hub_organization`: None
461
+ - `mp_parameters`:
462
+ - `auto_find_batch_size`: False
463
+ - `full_determinism`: False
464
+ - `torchdynamo`: None
465
+ - `ray_scope`: last
466
+ - `ddp_timeout`: 1800
467
+ - `torch_compile`: False
468
+ - `torch_compile_backend`: None
469
+ - `torch_compile_mode`: None
470
+ - `dispatch_batches`: None
471
+ - `split_batches`: None
472
+ - `include_tokens_per_second`: False
473
+ - `include_num_input_tokens_seen`: False
474
+ - `neftune_noise_alpha`: None
475
+ - `optim_target_modules`: None
476
+ - `batch_eval_metrics`: False
477
+ - `eval_on_start`: False
478
+ - `use_liger_kernel`: False
479
+ - `eval_use_gather_object`: False
480
+ - `prompts`: None
481
+ - `batch_sampler`: batch_sampler
482
+ - `multi_dataset_batch_sampler`: proportional
483
+
484
+ </details>
485
+
486
+ ### Training Logs
487
+ | Epoch | Step | Training Loss | Validation Loss | cosine_accuracy |
488
+ |:----------:|:-------:|:-------------:|:---------------:|:---------------:|
489
+ | 0 | 0 | - | - | 0.5862 |
490
+ | 0.2874 | 25 | 4.6114 | 4.0674 | 0.6322 |
491
+ | 0.5747 | 50 | 3.2949 | 2.8577 | 0.7356 |
492
+ | 0.8621 | 75 | 2.506 | 2.8959 | 0.7241 |
493
+ | 1.1494 | 100 | 1.6097 | 1.9706 | 0.8391 |
494
+ | 1.4368 | 125 | 1.5492 | 1.7136 | 0.8391 |
495
+ | 1.7241 | 150 | 1.0877 | 0.9037 | 0.9310 |
496
+ | 2.0115 | 175 | 0.8726 | 0.7541 | 0.9425 |
497
+ | 2.2989 | 200 | 0.4721 | 0.7006 | 0.9540 |
498
+ | 2.5862 | 225 | 0.5198 | 0.7221 | 0.9425 |
499
+ | 2.8736 | 250 | 0.4327 | 0.5191 | 0.9655 |
500
+ | 3.1609 | 275 | 0.2503 | 0.3876 | 0.9655 |
501
+ | **3.4483** | **300** | **0.156** | **0.3351** | **0.9655** |
502
+ | 3.7356 | 325 | 0.1507 | 0.3415 | 0.9655 |
503
+ | 4.0 | 348 | - | - | 0.9655 |
504
+
505
+ * The bold row denotes the saved checkpoint.
506
+
507
+ ### Framework Versions
508
+ - Python: 3.10.14
509
+ - Sentence Transformers: 3.3.1
510
+ - Transformers: 4.45.1
511
+ - PyTorch: 2.4.0
512
+ - Accelerate: 0.34.2
513
+ - Datasets: 3.0.1
514
+ - Tokenizers: 0.20.0
515
+
516
+ ## Citation
517
+
518
+ ### BibTeX
519
+
520
+ #### Sentence Transformers
521
+ ```bibtex
522
+ @inproceedings{reimers-2019-sentence-bert,
523
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
524
+ author = "Reimers, Nils and Gurevych, Iryna",
525
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
526
+ month = "11",
527
+ year = "2019",
528
+ publisher = "Association for Computational Linguistics",
529
+ url = "https://arxiv.org/abs/1908.10084",
530
+ }
531
+ ```
532
+
533
+ #### TripletLoss
534
+ ```bibtex
535
+ @misc{hermans2017defense,
536
+ title={In Defense of the Triplet Loss for Person Re-Identification},
537
+ author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
538
+ year={2017},
539
+ eprint={1703.07737},
540
+ archivePrefix={arXiv},
541
+ primaryClass={cs.CV}
542
+ }
543
+ ```
544
+
545
+ <!--
546
+ ## Glossary
547
+
548
+ *Clearly define terms in order to be accessible across audiences.*
549
+ -->
550
+
551
+ <!--
552
+ ## Model Card Authors
553
+
554
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
555
+ -->
556
+
557
+ <!--
558
+ ## Model Card Contact
559
+
560
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
561
+ -->
config.json ADDED
@@ -0,0 +1,26 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "sentence-transformers/all-MiniLM-L6-v2",
3
+ "architectures": [
4
+ "BertModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "classifier_dropout": null,
8
+ "gradient_checkpointing": false,
9
+ "hidden_act": "gelu",
10
+ "hidden_dropout_prob": 0.1,
11
+ "hidden_size": 384,
12
+ "initializer_range": 0.02,
13
+ "intermediate_size": 1536,
14
+ "layer_norm_eps": 1e-12,
15
+ "max_position_embeddings": 512,
16
+ "model_type": "bert",
17
+ "num_attention_heads": 12,
18
+ "num_hidden_layers": 6,
19
+ "pad_token_id": 0,
20
+ "position_embedding_type": "absolute",
21
+ "torch_dtype": "float32",
22
+ "transformers_version": "4.45.1",
23
+ "type_vocab_size": 2,
24
+ "use_cache": true,
25
+ "vocab_size": 30522
26
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.3.1",
4
+ "transformers": "4.45.1",
5
+ "pytorch": "2.4.0"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:414c1b7ff548fa6495926b5be5b289897ecbfafd0e391813fcdd66dbf89b9773
3
+ size 90864192
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,37 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cls_token": {
3
+ "content": "[CLS]",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "mask_token": {
10
+ "content": "[MASK]",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "pad_token": {
17
+ "content": "[PAD]",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "sep_token": {
24
+ "content": "[SEP]",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "unk_token": {
31
+ "content": "[UNK]",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ }
37
+ }
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
@@ -0,0 +1,64 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "[PAD]",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "100": {
12
+ "content": "[UNK]",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "101": {
20
+ "content": "[CLS]",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "102": {
28
+ "content": "[SEP]",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "103": {
36
+ "content": "[MASK]",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "clean_up_tokenization_spaces": false,
45
+ "cls_token": "[CLS]",
46
+ "do_basic_tokenize": true,
47
+ "do_lower_case": true,
48
+ "mask_token": "[MASK]",
49
+ "max_length": 128,
50
+ "model_max_length": 512,
51
+ "never_split": null,
52
+ "pad_to_multiple_of": null,
53
+ "pad_token": "[PAD]",
54
+ "pad_token_type_id": 0,
55
+ "padding_side": "right",
56
+ "sep_token": "[SEP]",
57
+ "stride": 0,
58
+ "strip_accents": null,
59
+ "tokenize_chinese_chars": true,
60
+ "tokenizer_class": "BertTokenizer",
61
+ "truncation_side": "right",
62
+ "truncation_strategy": "longest_first",
63
+ "unk_token": "[UNK]"
64
+ }
vocab.txt ADDED
The diff for this file is too large to render. See raw diff