ymelka commited on
Commit
f98b30d
1 Parent(s): 517c8dc

Add new SentenceTransformer model.

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,581 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model: DTAI-KULeuven/robbert-2023-dutch-base
3
+ datasets: []
4
+ language: []
5
+ library_name: sentence-transformers
6
+ metrics:
7
+ - pearson_cosine
8
+ - spearman_cosine
9
+ - pearson_manhattan
10
+ - spearman_manhattan
11
+ - pearson_euclidean
12
+ - spearman_euclidean
13
+ - pearson_dot
14
+ - spearman_dot
15
+ - pearson_max
16
+ - spearman_max
17
+ pipeline_tag: sentence-similarity
18
+ tags:
19
+ - sentence-transformers
20
+ - sentence-similarity
21
+ - feature-extraction
22
+ - generated_from_trainer
23
+ - dataset_size:4100
24
+ - loss:CoSENTLoss
25
+ widget:
26
+ - source_sentence: Een milde reiniger speciaal ontwikkeld voor de gevoelige huid van
27
+ vrouwen van 21 jaar oud. Deze reiniger helpt bij het verwijderen van overtollig
28
+ talg en droogheid, terwijl het de roodheid vermindert en de huid kalmeert.
29
+ sentences:
30
+ - 'Vichy Normaderm Verzorging Onzuiverheden Anti-Veroudering Dag 50ml is een specifieke
31
+ verzorging voor vrouwen vanaf 30 jaar die onzuiverheden en de eerste tekenen van
32
+ veroudering willen aanpakken. De formule bevat LHA, dermatologische peeling-bestanddelen
33
+ en vitamine C tegen veroudering voor een dubbele werking: het vermindert onzuiverheden
34
+ en maakt rimpels gladder. De niet-comedogene hypoallergene formule respecteert
35
+ de gevoelige huid en de frisse textuur hydrateert en verbetert de gemengde tot
36
+ vette huid. Breng de crème dagelijks aan op een schone en droge huid, vermijd
37
+ de oogcontour. Gebruik 1-2 keer per dag.'
38
+ - 'Procrinis Sunexpress Spray Zelfbruinende biedt een directe en intense kleur die
39
+ tot 5 dagen aanhoudt. Deze zelfbruinende spray hydrateert en heeft anti-aging
40
+ eigenschappen. Geschikt voor zowel het gezicht als het lichaam, zorgt het voor
41
+ een directe en diepe kleur. De formule bevat actieve ingrediënten zoals dihydroxyacetone
42
+ en Aloe barbadensis leaf juice die zorgen voor een langdurige en natuurlijke bruine
43
+ teint. Gebruiksaanwijzing: Spray op een schone, droge huid en verdeel gelijkmatig
44
+ met een cirkelvormige beweging. Laat drogen en vermijd contact met water gedurende
45
+ enkele uren. Niet aanbrengen op beschadigde of geïrriteerde huid. Geniet van een
46
+ stralende teint zonder schadelijke blootstelling aan de zon.'
47
+ - 'De L''Oréal Professionnel Steampod 3.0 Professionele Stoomstijltang is een gepatenteerde
48
+ stijltang die gebruik maakt van stoom om je haar snel en glad te transformeren.
49
+ Deze 3e generatie stijltang is 2x sneller en 2x gladder, met tot 91% minder schade
50
+ aan het haar. Ideaal voor alle haartypes, deze stijltang is geschikt voor dagelijks
51
+ gebruik en zorgt voor een langdurig glad resultaat. Gebruik de stijltang op schoon
52
+ en droog haar en volg de instructies voor het beste resultaat. Let op: vermijd
53
+ contact met de huid en houd de stijltang buiten het bereik van kinderen.'
54
+ - source_sentence: Een voedingssupplement met collageen en vitamines, speciaal ontworpen
55
+ voor vrouwen boven de 50. Dit supplement helpt de huid te verstevigen en rimpels
56
+ te verminderen van binnenuit, waardoor de algehele gezondheid en uitstraling van
57
+ de huid verbeteren.
58
+ sentences:
59
+ - 'Australian Gold Plant Based Zonnebrandcrème SPF30 Tube 177ml biedt brede spectrumbescherming
60
+ tegen UVA- en UVB-stralen, met een veganistische formule die water- en zweetbestendig
61
+ is. Deze plantaardige lotion bevat aloë vera en kokosolie om de huid te kalmeren,
62
+ hydrateren en verzachten. De kokosolie hydrateert intens en is ideaal voor de
63
+ gevoelige huid. Gebruiksaanwijzing: goed schudden voor gebruik, 30 minuten voor
64
+ blootstelling aan de zon aanbrengen en regelmatig opnieuw aanbrengen, vooral na
65
+ zweten, zwemmen of afdrogen. Voorzorgsmaatregelen: alleen voor uitwendig gebruik,
66
+ vermijd oogcontact en houd buiten bereik van kinderen en dieren.'
67
+ - 'Eucerin pH5 Handcrème is een milde en effectieve handcrème die de afweer van
68
+ de huid activeert voor langdurige bescherming en hydratatie. De formule met pH5-enzymbescherming
69
+ herstelt de natuurlijke huidverdediging en vermindert vochtverlies, waardoor de
70
+ huid zacht en glad aanvoelt. Deze handcrème is speciaal ontworpen voor gevoelige
71
+ en droge handen die blootgesteld worden aan dagelijkse invloeden. De actieve ingrediënten,
72
+ waaronder pH5-citraatbuffer, dexpanthenol en glycerine, helpen de huid te regenereren
73
+ en te hydrateren. Breng de crème zo vaak aan als nodig en masseer tot volledige
74
+ absorptie. Geschikt voor externe gebruik en voor de gevoelige droge huid. Inhoud:
75
+ 75 ml.'
76
+ - Même Cosmetics Silicium Nagellak Bougainvillea is een nagellak verrijkt met silicium,
77
+ wat zorgt voor sterke en gezonde nagels. Deze nagellak heeft een prachtige bougainvillea
78
+ kleur die langdurig blijft zitten en een glanzende finish geeft. De formule is
79
+ verrijkt met silicium, wat de nagels versterkt en beschermt tegen breken en splijten.
80
+ Breng een dunne laag aan op schone nagels en laat drogen. Gebruik regelmatig voor
81
+ het beste resultaat. Dit product is geschikt voor alle nageltypes en is vrij van
82
+ schadelijke chemicaliën zoals tolueen, formaldehyde en dibutylftalaat.
83
+ - source_sentence: Een voedingssupplement met essentiële voedingsstoffen zoals vitamine
84
+ E en omega-3 vetzuren, speciaal samengesteld voor vrouwen van 21 jaar oud. Dit
85
+ supplement helpt bij het verbeteren van de algehele gezondheid van de huid, waardoor
86
+ talgproductie wordt gereguleerd, droogheid wordt verminderd en roodheid wordt
87
+ verzacht.
88
+ sentences:
89
+ - Vichy Normaderm Dermo Zuiverende Lotion is speciaal ontwikkeld voor het reinigen
90
+ van de onzuivere huid en het behandelen van grove poriën. Deze lotion zuivert
91
+ de huid, vermindert overtollig talg en laat de huid er stralender uitzien. Na
92
+ een week gebruik lijken puistjes en mee-eters verminderd en zijn poriën verkleind.
93
+ De lotion bevat glycolzuur en salicylzuur voor een diepe reiniging en kalmerend
94
+ effect. Breng aan met een wattenschijfje voor de dagcrème, vermijd de oogcontour
95
+ en spoel bij contact met de ogen direct met water. Geschikt voor de gevoelige
96
+ huid en acne-gevoelige huid.
97
+ - De Cattier Zuiverende Reinigingsgel is speciaal ontwikkeld voor de vette huid
98
+ met onzuiverheden en puistjes. Met biologische essentiële oliën van tea tree,
99
+ rozemarijn en pepermunt reinigt deze gel zacht de huid en verwijdert effectief
100
+ onzuiverheden en overtollig talg. Verrijkt met aloë vera, biedt het een aangename
101
+ sensatie van frisheid en laat de huid helder en gezond achter. De actieve ingrediënten,
102
+ waaronder biologische tea tree olie en aloë vera, helpen de huid te zuiveren,
103
+ hydrateren en beschermen. Breng de gel aan op een vochtig gezicht, vermijd de
104
+ oogcontour, masseer in en spoel af met lauw water. Gebruik de gel regelmatig voor
105
+ een zuivere en gezonde huid.
106
+ - Inversion Femme Total Beauty 90 Capsules is een voedingssupplement met vitaminen
107
+ dat de huid, nagels en haren beschermt en zorgt voor vernieuwing en groei. Dit
108
+ supplement is ideaal voor anti-veroudering, antioxidantbescherming en het behouden
109
+ van een jeugdig silhouet. De capsules voorzien de huid, nagels en haar van essentiële
110
+ voedingsstoffen voor hun gezondheid en groei, terwijl ze ook helpen om de huidskleur
111
+ te behouden. De belangrijkste actieve ingrediënten zijn vitaminen die de gezondheid
112
+ van de huid, nagels en haren ondersteunen. Neem dagelijks de aanbevolen dosering
113
+ van 1 capsule in met water. Raadpleeg een arts voordat u dit product gebruikt
114
+ als u zwanger bent, borstvoeding geeft of onder medische behandeling staat.
115
+ - source_sentence: Een anti-aging gezichtsverzorging met ingrediënten zoals retinol
116
+ en vitamine C, ideaal voor vrouwen van 50 jaar en ouder. Deze verzorging helpt
117
+ bij het verfijnen van de poriën, het herstellen van de doffe huid en het verminderen
118
+ van roodheid voor een stralende teint.
119
+ sentences:
120
+ - 'De Clarins Extra-Firming Anti-Rimpel Rijke Verstevigende Dagcrème is een ideale
121
+ anti-ageing dagverzorging voor de droge huid, speciaal ontworpen voor vrouwen
122
+ vanaf 40 jaar. Deze crème zorgt voor een zichtbaar stevigere en energieke huid,
123
+ vermindert rimpels en herdefinieert het ovaal van het gezicht. De formule bevat
124
+ actieve ingrediënten zoals shea butter, haverextract en vitamine E die de huid
125
+ hydrateren, beschermen en verstevigen. Breng ''s ochtends aan op een schone huid
126
+ voor een egale teint en stralende huid. Let op: vermijd contact met de ogen en
127
+ bij eventuele irritatie stop het gebruik. Pot 50 ml.'
128
+ - 'Nivea Soft Crème 200ml is een hydraterende verzorging met een lichte textuur
129
+ die snel intrekt en zorgt voor een gladde, zachte en soepele huid. Verrijkt met
130
+ Jojoba-olie en Vitamine E, biedt het intensieve hydratatie en verzorging voor
131
+ het lichaam, gezicht en handen. Dermatologisch getest en pH-huidneutraal, deze
132
+ crème is ideaal voor dagelijks gebruik. Breng aan op een schone huid en masseer
133
+ zachtjes in. Gebruik zo vaak als nodig. Let op: vermijd contact met de ogen.'
134
+ - Louis Widmer Zon Anti-Ageing Gesichtscreme 50+ biedt een combinatie van anti-ageing
135
+ verzorging en zeer hoge zonnebescherming voor het gezicht. Deze hydraterende crème
136
+ is speciaal ontwikkeld voor de gevoelige huid en bevat Matrixyl 3000 om rimpels
137
+ te verminderen. De UVA-, UVB- en breedspectrumfilters zorgen voor een effectieve
138
+ bescherming tegen de zon, terwijl de crème de huid verzorgt en hydrateert. De
139
+ actieve ingrediënten zoals vitamine E en panthenol dragen bij aan een gezonde
140
+ huid. Breng de crème 30 minuten voor blootstelling aan de zon aan en herhaal dit
141
+ na het zwemmen of zweten. Geschikt voor de gevoelige huid rond de ogen. Tube van
142
+ 50 ml.
143
+ - source_sentence: Een rijke gezichtsverzorging voor vrouwen van 60 jaar en ouder,
144
+ die te maken hebben met een vette huid, vergrote poriën en droogheid. Deze verzorging
145
+ helpt bij het reguleren van talgproductie, het verfijnen van de poriën en het
146
+ herstellen van de vochtbalans van de huid. Het resulteert in een egale en jeugdige
147
+ uitstraling.
148
+ sentences:
149
+ - Avène Cleanance Zuiverende En Matterende Reinigingsgel is speciaal ontwikkeld
150
+ voor de vette huid met imperfecties. Deze reinigingsgel reinigt de huid diep en
151
+ verwijdert onzuiverheden en overtollig talg, waardoor de huid fris en mat blijft.
152
+ De formule bevat actieve ingrediënten zoals Avène Thermaal Water en Monolaurine
153
+ die de talgproductie reguleren en de huid zuiveren. Gebruik de reinigingsgel dagelijks,
154
+ breng aan op een vochtig gezicht en masseer zachtjes in. Spoel af met water en
155
+ dep de huid droog. Vermijd contact met de ogen. Geschikt voor dagelijks gebruik.
156
+ - 'Shaeri Multifunctionele Olie is een revitaliserende en hydraterende huidverzorgingsolie
157
+ met 99% natuurlijke ingrediënten, geschikt voor haar, gezicht en lichaam. De olie
158
+ bevat 5 complementaire plantenoliën die droog en beschadigd haar herstellen en
159
+ de huid hydrateren en verzachten. De belangrijkste actieve ingrediënten zijn onder
160
+ andere Macadamia-olie, zoete amandelolie en jojoba-olie. Gebruik de olie als oliebad
161
+ voor het haar, als bescherming tegen chloor- of zoutwater in de zomer, voor droge
162
+ haarpunten en als hydraterende behandeling voor het lichaam en gezicht. Breng
163
+ de olie aan op gereinigde huid en haar en laat het intrekken voor een optimaal
164
+ resultaat. Voorzorgsmaatregelen: vermijd contact met de ogen en bij eventuele
165
+ irritatie stop het gebruik. Inhoud: 100 ml.'
166
+ - New Nordic Hair Volume tabletten ondersteunen het behoud van gezond haar door
167
+ voedingsstoffen zoals biotine, zink en appelextract naar de hoofdhuid en haarfollikels
168
+ te brengen. Deze tabletten bevatten tevens gierst en koper, die het haar van binnenuit
169
+ versterken en volume geven. Door de unieke combinatie van ingrediënten wordt de
170
+ haargroei gestimuleerd en voelt het haar sterk en vol aan. Neem dagelijks 1 tablet
171
+ met water bij een maaltijd voor optimale resultaten. Niet geschikt voor zwangere
172
+ vrouwen, vrouwen die borstvoeding geven en kinderen jonger dan 11 jaar.
173
+ model-index:
174
+ - name: SentenceTransformer based on DTAI-KULeuven/robbert-2023-dutch-base
175
+ results:
176
+ - task:
177
+ type: semantic-similarity
178
+ name: Semantic Similarity
179
+ dataset:
180
+ name: dev
181
+ type: dev
182
+ metrics:
183
+ - type: pearson_cosine
184
+ value: 0.8746779172543907
185
+ name: Pearson Cosine
186
+ - type: spearman_cosine
187
+ value: 0.9328789750116325
188
+ name: Spearman Cosine
189
+ - type: pearson_manhattan
190
+ value: 0.8477519362630609
191
+ name: Pearson Manhattan
192
+ - type: spearman_manhattan
193
+ value: 0.9304982482117216
194
+ name: Spearman Manhattan
195
+ - type: pearson_euclidean
196
+ value: 0.845462737151077
197
+ name: Pearson Euclidean
198
+ - type: spearman_euclidean
199
+ value: 0.930938545165003
200
+ name: Spearman Euclidean
201
+ - type: pearson_dot
202
+ value: 0.8465798350368959
203
+ name: Pearson Dot
204
+ - type: spearman_dot
205
+ value: 0.9279104105081696
206
+ name: Spearman Dot
207
+ - type: pearson_max
208
+ value: 0.8746779172543907
209
+ name: Pearson Max
210
+ - type: spearman_max
211
+ value: 0.9328789750116325
212
+ name: Spearman Max
213
+ ---
214
+
215
+ # SentenceTransformer based on DTAI-KULeuven/robbert-2023-dutch-base
216
+
217
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [DTAI-KULeuven/robbert-2023-dutch-base](https://huggingface.co/DTAI-KULeuven/robbert-2023-dutch-base). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
218
+
219
+ ## Model Details
220
+
221
+ ### Model Description
222
+ - **Model Type:** Sentence Transformer
223
+ - **Base model:** [DTAI-KULeuven/robbert-2023-dutch-base](https://huggingface.co/DTAI-KULeuven/robbert-2023-dutch-base) <!-- at revision d3059f07233b86057a9fb0ba4972aaa42b1f82a0 -->
224
+ - **Maximum Sequence Length:** 512 tokens
225
+ - **Output Dimensionality:** 768 tokens
226
+ - **Similarity Function:** Cosine Similarity
227
+ <!-- - **Training Dataset:** Unknown -->
228
+ <!-- - **Language:** Unknown -->
229
+ <!-- - **License:** Unknown -->
230
+
231
+ ### Model Sources
232
+
233
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
234
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
235
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
236
+
237
+ ### Full Model Architecture
238
+
239
+ ```
240
+ SentenceTransformer(
241
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: RobertaModel
242
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
243
+ )
244
+ ```
245
+
246
+ ## Usage
247
+
248
+ ### Direct Usage (Sentence Transformers)
249
+
250
+ First install the Sentence Transformers library:
251
+
252
+ ```bash
253
+ pip install -U sentence-transformers
254
+ ```
255
+
256
+ Then you can load this model and run inference.
257
+ ```python
258
+ from sentence_transformers import SentenceTransformer
259
+
260
+ # Download from the 🤗 Hub
261
+ model = SentenceTransformer("ymelka/robbert-cosmetic-similarity-v1")
262
+ # Run inference
263
+ sentences = [
264
+ 'Een rijke gezichtsverzorging voor vrouwen van 60 jaar en ouder, die te maken hebben met een vette huid, vergrote poriën en droogheid. Deze verzorging helpt bij het reguleren van talgproductie, het verfijnen van de poriën en het herstellen van de vochtbalans van de huid. Het resulteert in een egale en jeugdige uitstraling.',
265
+ 'New Nordic Hair Volume tabletten ondersteunen het behoud van gezond haar door voedingsstoffen zoals biotine, zink en appelextract naar de hoofdhuid en haarfollikels te brengen. Deze tabletten bevatten tevens gierst en koper, die het haar van binnenuit versterken en volume geven. Door de unieke combinatie van ingrediënten wordt de haargroei gestimuleerd en voelt het haar sterk en vol aan. Neem dagelijks 1 tablet met water bij een maaltijd voor optimale resultaten. Niet geschikt voor zwangere vrouwen, vrouwen die borstvoeding geven en kinderen jonger dan 11 jaar.',
266
+ 'Avène Cleanance Zuiverende En Matterende Reinigingsgel is speciaal ontwikkeld voor de vette huid met imperfecties. Deze reinigingsgel reinigt de huid diep en verwijdert onzuiverheden en overtollig talg, waardoor de huid fris en mat blijft. De formule bevat actieve ingrediënten zoals Avène Thermaal Water en Monolaurine die de talgproductie reguleren en de huid zuiveren. Gebruik de reinigingsgel dagelijks, breng aan op een vochtig gezicht en masseer zachtjes in. Spoel af met water en dep de huid droog. Vermijd contact met de ogen. Geschikt voor dagelijks gebruik.',
267
+ ]
268
+ embeddings = model.encode(sentences)
269
+ print(embeddings.shape)
270
+ # [3, 768]
271
+
272
+ # Get the similarity scores for the embeddings
273
+ similarities = model.similarity(embeddings, embeddings)
274
+ print(similarities.shape)
275
+ # [3, 3]
276
+ ```
277
+
278
+ <!--
279
+ ### Direct Usage (Transformers)
280
+
281
+ <details><summary>Click to see the direct usage in Transformers</summary>
282
+
283
+ </details>
284
+ -->
285
+
286
+ <!--
287
+ ### Downstream Usage (Sentence Transformers)
288
+
289
+ You can finetune this model on your own dataset.
290
+
291
+ <details><summary>Click to expand</summary>
292
+
293
+ </details>
294
+ -->
295
+
296
+ <!--
297
+ ### Out-of-Scope Use
298
+
299
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
300
+ -->
301
+
302
+ ## Evaluation
303
+
304
+ ### Metrics
305
+
306
+ #### Semantic Similarity
307
+ * Dataset: `dev`
308
+ * Evaluated with [<code>EmbeddingSimilarityEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator)
309
+
310
+ | Metric | Value |
311
+ |:--------------------|:-----------|
312
+ | pearson_cosine | 0.8747 |
313
+ | **spearman_cosine** | **0.9329** |
314
+ | pearson_manhattan | 0.8478 |
315
+ | spearman_manhattan | 0.9305 |
316
+ | pearson_euclidean | 0.8455 |
317
+ | spearman_euclidean | 0.9309 |
318
+ | pearson_dot | 0.8466 |
319
+ | spearman_dot | 0.9279 |
320
+ | pearson_max | 0.8747 |
321
+ | spearman_max | 0.9329 |
322
+
323
+ <!--
324
+ ## Bias, Risks and Limitations
325
+
326
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
327
+ -->
328
+
329
+ <!--
330
+ ### Recommendations
331
+
332
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
333
+ -->
334
+
335
+ ## Training Details
336
+
337
+ ### Training Dataset
338
+
339
+ #### Unnamed Dataset
340
+
341
+
342
+ * Size: 4,100 training samples
343
+ * Columns: <code>sentence1</code>, <code>sentence2</code>, and <code>score</code>
344
+ * Approximate statistics based on the first 1000 samples:
345
+ | | sentence1 | sentence2 | score |
346
+ |:--------|:-----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:---------------------------------------------------------------|
347
+ | type | string | string | float |
348
+ | details | <ul><li>min: 35 tokens</li><li>mean: 56.73 tokens</li><li>max: 86 tokens</li></ul> | <ul><li>min: 80 tokens</li><li>mean: 147.02 tokens</li><li>max: 226 tokens</li></ul> | <ul><li>min: 0.0</li><li>mean: 0.51</li><li>max: 1.0</li></ul> |
349
+ * Samples:
350
+ | sentence1 | sentence2 | score |
351
+ |:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------|
352
+ | <code>Een hydraterende gezichtsverzorging voor mannen van 28 jaar oud, die specifiek is ontworpen om de doffe huid te verhelderen en te hydrateren. De formule bevat antioxidanten om de huid te beschermen tegen vrije radicalen en om wallen te verminderen. Het helpt ook bij het verminderen van droogheid en het verbeteren van de huidelasticiteit.</code> | <code>Natessance Biologische Jojoba Olie is een 100% pure olie die bekend staat om haar voedende en regenererende eigenschappen. Deze olie verfraait en beschermt de huid, waardoor deze elastischer wordt en het haar soepeler en glanzender maakt. Geschikt voor alle huid- en haartypes, bevat deze formule vierge biologische jojoba-olie van koude persing zonder toevoegingen. Breng de olie aan op het haar vóór het wassen met shampoo en op een schone en droge huid voor het gezicht en lichaam. De fles bevat 50 ml en is ideaal voor dagelijks gebruik.</code> | <code>0.0614345669746398</code> |
353
+ | <code>Een milde reiniger speciaal ontwikkeld voor de rijpere huid van vrouwen van 50 jaar en ouder. Deze reiniger verwijdert overtollig talg en onzuiverheden, terwijl het de huid hydrateert en een doffe teint revitaliseert.</code> | <code>De Clarins Zachte Schuimende Verzachtende Reiniger is speciaal ontwikkeld voor de zeer droge en gevoelige huid. Dit reinigingsschuim reinigt de huid grondig, verwijdert make-up en hydrateert intensief. De formule bevat actieve ingrediënten zoals shea butter, Moringa zaad extract en kamille bloem extract, die de huid verzachten en in balans houden. Gebruik de reiniger dagelijks door een kleine hoeveelheid op de vochtige huid aan te brengen en zachtjes in te masseren. Spoel vervolgens af met water. Voor een optimaal resultaat wordt aanbevolen om de reiniger 's ochtends en 's avonds te gebruiken. Let op: vermijd contact met de ogen en spoel grondig met water bij contact.</code> | <code>0.9998431205749512</code> |
354
+ | <code>Een hydraterende gezichtscrème die diep doordringt om droogheid te verlichten en de huid te voeden. Bevat antioxidanten om de teint te verbeteren en de huid te beschermen tegen schadelijke invloeden van buitenaf. Ideaal voor vrouwen van 60 jaar en ouder.</code> | <code>Apivita After Sun Beperkte Editie 200ml is een verfrissende en hydraterende aftersun lotion die speciaal is ontwikkeld om de huid te kalmeren en te herstellen na blootstelling aan de zon. Deze lotion bevat natuurlijke ingrediënten zoals aloë vera, kamille en olijfolie, die de huid verzachten, hydrateren en verkoelen. Aloë vera staat bekend om zijn kalmerende werking op de huid, terwijl kamille ontstekingsremmende eigenschappen heeft en de huid helpt te herstellen. Olijfolie voedt en hydrateert de huid diep, waardoor deze zacht en soepel aanvoelt. Breng de lotion royaal aan op de huid na blootstelling aan de zon en herhaal indien nodig. Vermijd contact met de ogen en bij eventuele irritatie stop het gebruik. Apivita After Sun Beperkte Editie 200ml is de perfecte aftersun lotion voor een gehydrateerde en gekalmeerde huid na een dag in de zon.</code> | <code>0.0812613666057586</code> |
355
+ * Loss: [<code>CoSENTLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosentloss) with these parameters:
356
+ ```json
357
+ {
358
+ "scale": 20.0,
359
+ "similarity_fct": "pairwise_cos_sim"
360
+ }
361
+ ```
362
+
363
+ ### Evaluation Dataset
364
+
365
+ #### Unnamed Dataset
366
+
367
+
368
+ * Size: 790 evaluation samples
369
+ * Columns: <code>sentence1</code>, <code>sentence2</code>, and <code>score</code>
370
+ * Approximate statistics based on the first 1000 samples:
371
+ | | sentence1 | sentence2 | score |
372
+ |:--------|:-----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:---------------------------------------------------------------|
373
+ | type | string | string | float |
374
+ | details | <ul><li>min: 35 tokens</li><li>mean: 56.71 tokens</li><li>max: 81 tokens</li></ul> | <ul><li>min: 95 tokens</li><li>mean: 146.68 tokens</li><li>max: 225 tokens</li></ul> | <ul><li>min: 0.0</li><li>mean: 0.51</li><li>max: 1.0</li></ul> |
375
+ * Samples:
376
+ | sentence1 | sentence2 | score |
377
+ |:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------|
378
+ | <code>Een milde reiniger speciaal ontwikkeld voor de gevoelige huid van vrouwen van 40 jaar en ouder. Deze reiniger helpt bij het verwijderen van onzuiverheden en overtollig talg, terwijl het de huid hydrateert en verzacht. Het is ideaal voor het verminderen van droogheid en roodheid op het gezicht.</code> | <code>De Cattier Zuiverende Reinigingsgel is speciaal ontwikkeld voor de vette huid met onzuiverheden en puistjes. Met biologische essentiële oliën van tea tree, rozemarijn en pepermunt reinigt deze gel zacht de huid en verwijdert effectief onzuiverheden en overtollig talg. Verrijkt met aloë vera, biedt het een aangename sensatie van frisheid en laat de huid helder en gezond achter. De actieve ingrediënten, waaronder biologische tea tree olie en aloë vera, helpen de huid te zuiveren, hydrateren en beschermen. Breng de gel aan op een vochtig gezicht, vermijd de oogcontour, masseer in en spoel af met lauw water. Gebruik de gel regelmatig voor een zuivere en gezonde huid.</code> | <code>0.9999536275863647</code> |
379
+ | <code>Een voedende gezichtsverzorging voor vrouwen van 55 jaar en ouder met een droge en doffe huid. Deze verzorging is rijk aan hydraterende en voedende ingrediënten om de huid te verzachten, te voeden en te herstellen. Het helpt ook om roodheid te verminderen en de huid te laten stralen.</code> | <code>Nivea Care Nutrition Intense Snel Intrekkende Gezichts-En Lichaamscrème is een all-purpose crème die de huid intens voedt zonder een vettig gevoel achter te laten. De formule is verrijkt met voedende hydro-waxen die onmiddellijk op de huid smelten, waardoor de huid 24 uur lang intens gevoed wordt. Dermatologisch goedgekeurd en 100% voedend. Ideaal voor een gehydrateerde en zachte huid. Breng de crème aan op een schone huid en masseer zachtjes in. Geschikt voor dagelijks gebruik. Voorzichtigheid geboden bij allergieën voor de vermelde ingrediënten.</code> | <code>0.9952190518379213</code> |
380
+ | <code>Een milde reiniger speciaal ontwikkeld voor de gevoelige huid van mannen van 75 jaar en ouder. Verwijdert overtollig talg en onzuiverheden, terwijl het de poriën verkleint en de huid verzacht. Helpt bij het verminderen van rimpels en het verbeteren van de algehele huidtextuur.</code> | <code>De Fleurance Nature Uiterst Rijke Dagcrème Met Sheaboter is een voedend verzorgingsproduct dat speciaal is ontwikkeld voor de droge tot zeer droge huid. De crème beschermt de huid tegen uitdroging en agressieve invloeden van buitenaf, terwijl het ook een trekkerig gevoel kalmeert. Dankzij de rijke textuur wordt de huid intens gevoed en gehydrateerd, waardoor deze de hele dag soepel en comfortabel aanvoelt. De dagcrème bevat sheaboter uit Fair Trade handel, aloe vera, zoete amandelolie en zonnebloemzaadolie, die de huid verzachten en verlichten. Breng de crème 's ochtends en 's avonds aan op een schone en droge huid van gezicht en hals voor optimale resultaten. Dit product is geschikt voor uitwendig gebruik en is speciaal ontwikkeld voor mensen met een droge tot zeer droge huid.</code> | <code>0.8514625430107117</code> |
381
+ * Loss: [<code>CoSENTLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosentloss) with these parameters:
382
+ ```json
383
+ {
384
+ "scale": 20.0,
385
+ "similarity_fct": "pairwise_cos_sim"
386
+ }
387
+ ```
388
+
389
+ ### Training Hyperparameters
390
+ #### Non-Default Hyperparameters
391
+
392
+ - `eval_strategy`: steps
393
+ - `learning_rate`: 2e-05
394
+ - `weight_decay`: 0.01
395
+ - `warmup_ratio`: 0.1
396
+ - `bf16`: True
397
+ - `batch_sampler`: no_duplicates
398
+
399
+ #### All Hyperparameters
400
+ <details><summary>Click to expand</summary>
401
+
402
+ - `overwrite_output_dir`: False
403
+ - `do_predict`: False
404
+ - `eval_strategy`: steps
405
+ - `prediction_loss_only`: True
406
+ - `per_device_train_batch_size`: 8
407
+ - `per_device_eval_batch_size`: 8
408
+ - `per_gpu_train_batch_size`: None
409
+ - `per_gpu_eval_batch_size`: None
410
+ - `gradient_accumulation_steps`: 1
411
+ - `eval_accumulation_steps`: None
412
+ - `learning_rate`: 2e-05
413
+ - `weight_decay`: 0.01
414
+ - `adam_beta1`: 0.9
415
+ - `adam_beta2`: 0.999
416
+ - `adam_epsilon`: 1e-08
417
+ - `max_grad_norm`: 1.0
418
+ - `num_train_epochs`: 3
419
+ - `max_steps`: -1
420
+ - `lr_scheduler_type`: linear
421
+ - `lr_scheduler_kwargs`: {}
422
+ - `warmup_ratio`: 0.1
423
+ - `warmup_steps`: 0
424
+ - `log_level`: passive
425
+ - `log_level_replica`: warning
426
+ - `log_on_each_node`: True
427
+ - `logging_nan_inf_filter`: True
428
+ - `save_safetensors`: True
429
+ - `save_on_each_node`: False
430
+ - `save_only_model`: False
431
+ - `restore_callback_states_from_checkpoint`: False
432
+ - `no_cuda`: False
433
+ - `use_cpu`: False
434
+ - `use_mps_device`: False
435
+ - `seed`: 42
436
+ - `data_seed`: None
437
+ - `jit_mode_eval`: False
438
+ - `use_ipex`: False
439
+ - `bf16`: True
440
+ - `fp16`: False
441
+ - `fp16_opt_level`: O1
442
+ - `half_precision_backend`: auto
443
+ - `bf16_full_eval`: False
444
+ - `fp16_full_eval`: False
445
+ - `tf32`: None
446
+ - `local_rank`: 0
447
+ - `ddp_backend`: None
448
+ - `tpu_num_cores`: None
449
+ - `tpu_metrics_debug`: False
450
+ - `debug`: []
451
+ - `dataloader_drop_last`: False
452
+ - `dataloader_num_workers`: 0
453
+ - `dataloader_prefetch_factor`: None
454
+ - `past_index`: -1
455
+ - `disable_tqdm`: False
456
+ - `remove_unused_columns`: True
457
+ - `label_names`: None
458
+ - `load_best_model_at_end`: False
459
+ - `ignore_data_skip`: False
460
+ - `fsdp`: []
461
+ - `fsdp_min_num_params`: 0
462
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
463
+ - `fsdp_transformer_layer_cls_to_wrap`: None
464
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
465
+ - `deepspeed`: None
466
+ - `label_smoothing_factor`: 0.0
467
+ - `optim`: adamw_torch
468
+ - `optim_args`: None
469
+ - `adafactor`: False
470
+ - `group_by_length`: False
471
+ - `length_column_name`: length
472
+ - `ddp_find_unused_parameters`: None
473
+ - `ddp_bucket_cap_mb`: None
474
+ - `ddp_broadcast_buffers`: False
475
+ - `dataloader_pin_memory`: True
476
+ - `dataloader_persistent_workers`: False
477
+ - `skip_memory_metrics`: True
478
+ - `use_legacy_prediction_loop`: False
479
+ - `push_to_hub`: False
480
+ - `resume_from_checkpoint`: None
481
+ - `hub_model_id`: None
482
+ - `hub_strategy`: every_save
483
+ - `hub_private_repo`: False
484
+ - `hub_always_push`: False
485
+ - `gradient_checkpointing`: False
486
+ - `gradient_checkpointing_kwargs`: None
487
+ - `include_inputs_for_metrics`: False
488
+ - `eval_do_concat_batches`: True
489
+ - `fp16_backend`: auto
490
+ - `push_to_hub_model_id`: None
491
+ - `push_to_hub_organization`: None
492
+ - `mp_parameters`:
493
+ - `auto_find_batch_size`: False
494
+ - `full_determinism`: False
495
+ - `torchdynamo`: None
496
+ - `ray_scope`: last
497
+ - `ddp_timeout`: 1800
498
+ - `torch_compile`: False
499
+ - `torch_compile_backend`: None
500
+ - `torch_compile_mode`: None
501
+ - `dispatch_batches`: None
502
+ - `split_batches`: None
503
+ - `include_tokens_per_second`: False
504
+ - `include_num_input_tokens_seen`: False
505
+ - `neftune_noise_alpha`: None
506
+ - `optim_target_modules`: None
507
+ - `batch_eval_metrics`: False
508
+ - `eval_on_start`: False
509
+ - `batch_sampler`: no_duplicates
510
+ - `multi_dataset_batch_sampler`: proportional
511
+
512
+ </details>
513
+
514
+ ### Training Logs
515
+ | Epoch | Step | Training Loss | loss | dev_spearman_cosine |
516
+ |:------:|:----:|:-------------:|:------:|:-------------------:|
517
+ | 0 | 0 | - | - | 0.6910 |
518
+ | 0.3899 | 200 | 2.93 | 2.8793 | 0.8809 |
519
+ | 0.7797 | 400 | 2.7965 | 2.7213 | 0.8993 |
520
+ | 1.1696 | 600 | 2.6738 | 2.6655 | 0.9253 |
521
+ | 1.5595 | 800 | 2.5102 | 2.6055 | 0.9216 |
522
+ | 1.9493 | 1000 | 2.4069 | 2.8576 | 0.9057 |
523
+ | 2.3392 | 1200 | 2.2689 | 2.9301 | 0.9282 |
524
+ | 2.7290 | 1400 | 2.168 | 2.6996 | 0.9349 |
525
+ | 3.0 | 1539 | - | - | 0.9329 |
526
+
527
+
528
+ ### Framework Versions
529
+ - Python: 3.10.12
530
+ - Sentence Transformers: 3.0.1
531
+ - Transformers: 4.42.3
532
+ - PyTorch: 2.3.0+cu121
533
+ - Accelerate: 0.32.1
534
+ - Datasets: 2.20.0
535
+ - Tokenizers: 0.19.1
536
+
537
+ ## Citation
538
+
539
+ ### BibTeX
540
+
541
+ #### Sentence Transformers
542
+ ```bibtex
543
+ @inproceedings{reimers-2019-sentence-bert,
544
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
545
+ author = "Reimers, Nils and Gurevych, Iryna",
546
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
547
+ month = "11",
548
+ year = "2019",
549
+ publisher = "Association for Computational Linguistics",
550
+ url = "https://arxiv.org/abs/1908.10084",
551
+ }
552
+ ```
553
+
554
+ #### CoSENTLoss
555
+ ```bibtex
556
+ @online{kexuefm-8847,
557
+ title={CoSENT: A more efficient sentence vector scheme than Sentence-BERT},
558
+ author={Su Jianlin},
559
+ year={2022},
560
+ month={Jan},
561
+ url={https://kexue.fm/archives/8847},
562
+ }
563
+ ```
564
+
565
+ <!--
566
+ ## Glossary
567
+
568
+ *Clearly define terms in order to be accessible across audiences.*
569
+ -->
570
+
571
+ <!--
572
+ ## Model Card Authors
573
+
574
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
575
+ -->
576
+
577
+ <!--
578
+ ## Model Card Contact
579
+
580
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
581
+ -->
config.json ADDED
@@ -0,0 +1,33 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "DTAI-KULeuven/robbert-2023-dutch-base",
3
+ "additional_special_tokens_ids": [],
4
+ "architectures": [
5
+ "RobertaModel"
6
+ ],
7
+ "attention_probs_dropout_prob": 0.1,
8
+ "bos_token_id": 0,
9
+ "classifier_dropout": null,
10
+ "cls_token_id": 0,
11
+ "eos_token_id": 3,
12
+ "hidden_act": "gelu",
13
+ "hidden_dropout_prob": 0.1,
14
+ "hidden_size": 768,
15
+ "initializer_range": 0.02,
16
+ "intermediate_size": 3072,
17
+ "layer_norm_eps": 1e-05,
18
+ "mask_token_id": 4,
19
+ "max_position_embeddings": 514,
20
+ "model_type": "roberta",
21
+ "num_attention_heads": 12,
22
+ "num_hidden_layers": 12,
23
+ "pad_token_id": 1,
24
+ "position_embedding_type": "absolute",
25
+ "sep_token_id": 3,
26
+ "tokenizer_class": "RobertaTokenizerFast",
27
+ "torch_dtype": "float32",
28
+ "transformers_version": "4.42.3",
29
+ "type_vocab_size": 1,
30
+ "unk_token_id": 2,
31
+ "use_cache": true,
32
+ "vocab_size": 50000
33
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.0.1",
4
+ "transformers": "4.42.3",
5
+ "pytorch": "2.3.0+cu121"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": null
10
+ }
merges.txt ADDED
The diff for this file is too large to render. See raw diff
 
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2d3edde9fb14f09f7bf53b959624fe71e292b54c289577e14fbc96c55391a5cf
3
+ size 497790824
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": true,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": true,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": true,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": true,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": true,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": true,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": true,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
@@ -0,0 +1,57 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "add_prefix_space": false,
3
+ "added_tokens_decoder": {
4
+ "0": {
5
+ "content": "<s>",
6
+ "lstrip": false,
7
+ "normalized": true,
8
+ "rstrip": false,
9
+ "single_word": false,
10
+ "special": true
11
+ },
12
+ "1": {
13
+ "content": "<pad>",
14
+ "lstrip": false,
15
+ "normalized": true,
16
+ "rstrip": false,
17
+ "single_word": false,
18
+ "special": true
19
+ },
20
+ "2": {
21
+ "content": "<unk>",
22
+ "lstrip": false,
23
+ "normalized": true,
24
+ "rstrip": false,
25
+ "single_word": false,
26
+ "special": true
27
+ },
28
+ "3": {
29
+ "content": "</s>",
30
+ "lstrip": false,
31
+ "normalized": true,
32
+ "rstrip": false,
33
+ "single_word": false,
34
+ "special": true
35
+ },
36
+ "4": {
37
+ "content": "<mask>",
38
+ "lstrip": true,
39
+ "normalized": true,
40
+ "rstrip": false,
41
+ "single_word": false,
42
+ "special": true
43
+ }
44
+ },
45
+ "bos_token": "<s>",
46
+ "clean_up_tokenization_spaces": true,
47
+ "cls_token": "<s>",
48
+ "eos_token": "</s>",
49
+ "errors": "replace",
50
+ "mask_token": "<mask>",
51
+ "model_max_length": 512,
52
+ "pad_token": "<pad>",
53
+ "sep_token": "</s>",
54
+ "tokenizer_class": "RobertaTokenizer",
55
+ "trim_offsets": true,
56
+ "unk_token": "<unk>"
57
+ }
vocab.json ADDED
The diff for this file is too large to render. See raw diff