Add new SentenceTransformer model.
Browse files- 1_Pooling/config.json +10 -0
- README.md +581 -0
- config.json +33 -0
- config_sentence_transformers.json +10 -0
- merges.txt +0 -0
- model.safetensors +3 -0
- modules.json +14 -0
- sentence_bert_config.json +4 -0
- special_tokens_map.json +51 -0
- tokenizer.json +0 -0
- tokenizer_config.json +57 -0
- vocab.json +0 -0
1_Pooling/config.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"word_embedding_dimension": 768,
|
3 |
+
"pooling_mode_cls_token": false,
|
4 |
+
"pooling_mode_mean_tokens": true,
|
5 |
+
"pooling_mode_max_tokens": false,
|
6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
7 |
+
"pooling_mode_weightedmean_tokens": false,
|
8 |
+
"pooling_mode_lasttoken": false,
|
9 |
+
"include_prompt": true
|
10 |
+
}
|
README.md
ADDED
@@ -0,0 +1,581 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
base_model: DTAI-KULeuven/robbert-2023-dutch-base
|
3 |
+
datasets: []
|
4 |
+
language: []
|
5 |
+
library_name: sentence-transformers
|
6 |
+
metrics:
|
7 |
+
- pearson_cosine
|
8 |
+
- spearman_cosine
|
9 |
+
- pearson_manhattan
|
10 |
+
- spearman_manhattan
|
11 |
+
- pearson_euclidean
|
12 |
+
- spearman_euclidean
|
13 |
+
- pearson_dot
|
14 |
+
- spearman_dot
|
15 |
+
- pearson_max
|
16 |
+
- spearman_max
|
17 |
+
pipeline_tag: sentence-similarity
|
18 |
+
tags:
|
19 |
+
- sentence-transformers
|
20 |
+
- sentence-similarity
|
21 |
+
- feature-extraction
|
22 |
+
- generated_from_trainer
|
23 |
+
- dataset_size:4100
|
24 |
+
- loss:CoSENTLoss
|
25 |
+
widget:
|
26 |
+
- source_sentence: Een milde reiniger speciaal ontwikkeld voor de gevoelige huid van
|
27 |
+
vrouwen van 21 jaar oud. Deze reiniger helpt bij het verwijderen van overtollig
|
28 |
+
talg en droogheid, terwijl het de roodheid vermindert en de huid kalmeert.
|
29 |
+
sentences:
|
30 |
+
- 'Vichy Normaderm Verzorging Onzuiverheden Anti-Veroudering Dag 50ml is een specifieke
|
31 |
+
verzorging voor vrouwen vanaf 30 jaar die onzuiverheden en de eerste tekenen van
|
32 |
+
veroudering willen aanpakken. De formule bevat LHA, dermatologische peeling-bestanddelen
|
33 |
+
en vitamine C tegen veroudering voor een dubbele werking: het vermindert onzuiverheden
|
34 |
+
en maakt rimpels gladder. De niet-comedogene hypoallergene formule respecteert
|
35 |
+
de gevoelige huid en de frisse textuur hydrateert en verbetert de gemengde tot
|
36 |
+
vette huid. Breng de crème dagelijks aan op een schone en droge huid, vermijd
|
37 |
+
de oogcontour. Gebruik 1-2 keer per dag.'
|
38 |
+
- 'Procrinis Sunexpress Spray Zelfbruinende biedt een directe en intense kleur die
|
39 |
+
tot 5 dagen aanhoudt. Deze zelfbruinende spray hydrateert en heeft anti-aging
|
40 |
+
eigenschappen. Geschikt voor zowel het gezicht als het lichaam, zorgt het voor
|
41 |
+
een directe en diepe kleur. De formule bevat actieve ingrediënten zoals dihydroxyacetone
|
42 |
+
en Aloe barbadensis leaf juice die zorgen voor een langdurige en natuurlijke bruine
|
43 |
+
teint. Gebruiksaanwijzing: Spray op een schone, droge huid en verdeel gelijkmatig
|
44 |
+
met een cirkelvormige beweging. Laat drogen en vermijd contact met water gedurende
|
45 |
+
enkele uren. Niet aanbrengen op beschadigde of geïrriteerde huid. Geniet van een
|
46 |
+
stralende teint zonder schadelijke blootstelling aan de zon.'
|
47 |
+
- 'De L''Oréal Professionnel Steampod 3.0 Professionele Stoomstijltang is een gepatenteerde
|
48 |
+
stijltang die gebruik maakt van stoom om je haar snel en glad te transformeren.
|
49 |
+
Deze 3e generatie stijltang is 2x sneller en 2x gladder, met tot 91% minder schade
|
50 |
+
aan het haar. Ideaal voor alle haartypes, deze stijltang is geschikt voor dagelijks
|
51 |
+
gebruik en zorgt voor een langdurig glad resultaat. Gebruik de stijltang op schoon
|
52 |
+
en droog haar en volg de instructies voor het beste resultaat. Let op: vermijd
|
53 |
+
contact met de huid en houd de stijltang buiten het bereik van kinderen.'
|
54 |
+
- source_sentence: Een voedingssupplement met collageen en vitamines, speciaal ontworpen
|
55 |
+
voor vrouwen boven de 50. Dit supplement helpt de huid te verstevigen en rimpels
|
56 |
+
te verminderen van binnenuit, waardoor de algehele gezondheid en uitstraling van
|
57 |
+
de huid verbeteren.
|
58 |
+
sentences:
|
59 |
+
- 'Australian Gold Plant Based Zonnebrandcrème SPF30 Tube 177ml biedt brede spectrumbescherming
|
60 |
+
tegen UVA- en UVB-stralen, met een veganistische formule die water- en zweetbestendig
|
61 |
+
is. Deze plantaardige lotion bevat aloë vera en kokosolie om de huid te kalmeren,
|
62 |
+
hydrateren en verzachten. De kokosolie hydrateert intens en is ideaal voor de
|
63 |
+
gevoelige huid. Gebruiksaanwijzing: goed schudden voor gebruik, 30 minuten voor
|
64 |
+
blootstelling aan de zon aanbrengen en regelmatig opnieuw aanbrengen, vooral na
|
65 |
+
zweten, zwemmen of afdrogen. Voorzorgsmaatregelen: alleen voor uitwendig gebruik,
|
66 |
+
vermijd oogcontact en houd buiten bereik van kinderen en dieren.'
|
67 |
+
- 'Eucerin pH5 Handcrème is een milde en effectieve handcrème die de afweer van
|
68 |
+
de huid activeert voor langdurige bescherming en hydratatie. De formule met pH5-enzymbescherming
|
69 |
+
herstelt de natuurlijke huidverdediging en vermindert vochtverlies, waardoor de
|
70 |
+
huid zacht en glad aanvoelt. Deze handcrème is speciaal ontworpen voor gevoelige
|
71 |
+
en droge handen die blootgesteld worden aan dagelijkse invloeden. De actieve ingrediënten,
|
72 |
+
waaronder pH5-citraatbuffer, dexpanthenol en glycerine, helpen de huid te regenereren
|
73 |
+
en te hydrateren. Breng de crème zo vaak aan als nodig en masseer tot volledige
|
74 |
+
absorptie. Geschikt voor externe gebruik en voor de gevoelige droge huid. Inhoud:
|
75 |
+
75 ml.'
|
76 |
+
- Même Cosmetics Silicium Nagellak Bougainvillea is een nagellak verrijkt met silicium,
|
77 |
+
wat zorgt voor sterke en gezonde nagels. Deze nagellak heeft een prachtige bougainvillea
|
78 |
+
kleur die langdurig blijft zitten en een glanzende finish geeft. De formule is
|
79 |
+
verrijkt met silicium, wat de nagels versterkt en beschermt tegen breken en splijten.
|
80 |
+
Breng een dunne laag aan op schone nagels en laat drogen. Gebruik regelmatig voor
|
81 |
+
het beste resultaat. Dit product is geschikt voor alle nageltypes en is vrij van
|
82 |
+
schadelijke chemicaliën zoals tolueen, formaldehyde en dibutylftalaat.
|
83 |
+
- source_sentence: Een voedingssupplement met essentiële voedingsstoffen zoals vitamine
|
84 |
+
E en omega-3 vetzuren, speciaal samengesteld voor vrouwen van 21 jaar oud. Dit
|
85 |
+
supplement helpt bij het verbeteren van de algehele gezondheid van de huid, waardoor
|
86 |
+
talgproductie wordt gereguleerd, droogheid wordt verminderd en roodheid wordt
|
87 |
+
verzacht.
|
88 |
+
sentences:
|
89 |
+
- Vichy Normaderm Dermo Zuiverende Lotion is speciaal ontwikkeld voor het reinigen
|
90 |
+
van de onzuivere huid en het behandelen van grove poriën. Deze lotion zuivert
|
91 |
+
de huid, vermindert overtollig talg en laat de huid er stralender uitzien. Na
|
92 |
+
een week gebruik lijken puistjes en mee-eters verminderd en zijn poriën verkleind.
|
93 |
+
De lotion bevat glycolzuur en salicylzuur voor een diepe reiniging en kalmerend
|
94 |
+
effect. Breng aan met een wattenschijfje voor de dagcrème, vermijd de oogcontour
|
95 |
+
en spoel bij contact met de ogen direct met water. Geschikt voor de gevoelige
|
96 |
+
huid en acne-gevoelige huid.
|
97 |
+
- De Cattier Zuiverende Reinigingsgel is speciaal ontwikkeld voor de vette huid
|
98 |
+
met onzuiverheden en puistjes. Met biologische essentiële oliën van tea tree,
|
99 |
+
rozemarijn en pepermunt reinigt deze gel zacht de huid en verwijdert effectief
|
100 |
+
onzuiverheden en overtollig talg. Verrijkt met aloë vera, biedt het een aangename
|
101 |
+
sensatie van frisheid en laat de huid helder en gezond achter. De actieve ingrediënten,
|
102 |
+
waaronder biologische tea tree olie en aloë vera, helpen de huid te zuiveren,
|
103 |
+
hydrateren en beschermen. Breng de gel aan op een vochtig gezicht, vermijd de
|
104 |
+
oogcontour, masseer in en spoel af met lauw water. Gebruik de gel regelmatig voor
|
105 |
+
een zuivere en gezonde huid.
|
106 |
+
- Inversion Femme Total Beauty 90 Capsules is een voedingssupplement met vitaminen
|
107 |
+
dat de huid, nagels en haren beschermt en zorgt voor vernieuwing en groei. Dit
|
108 |
+
supplement is ideaal voor anti-veroudering, antioxidantbescherming en het behouden
|
109 |
+
van een jeugdig silhouet. De capsules voorzien de huid, nagels en haar van essentiële
|
110 |
+
voedingsstoffen voor hun gezondheid en groei, terwijl ze ook helpen om de huidskleur
|
111 |
+
te behouden. De belangrijkste actieve ingrediënten zijn vitaminen die de gezondheid
|
112 |
+
van de huid, nagels en haren ondersteunen. Neem dagelijks de aanbevolen dosering
|
113 |
+
van 1 capsule in met water. Raadpleeg een arts voordat u dit product gebruikt
|
114 |
+
als u zwanger bent, borstvoeding geeft of onder medische behandeling staat.
|
115 |
+
- source_sentence: Een anti-aging gezichtsverzorging met ingrediënten zoals retinol
|
116 |
+
en vitamine C, ideaal voor vrouwen van 50 jaar en ouder. Deze verzorging helpt
|
117 |
+
bij het verfijnen van de poriën, het herstellen van de doffe huid en het verminderen
|
118 |
+
van roodheid voor een stralende teint.
|
119 |
+
sentences:
|
120 |
+
- 'De Clarins Extra-Firming Anti-Rimpel Rijke Verstevigende Dagcrème is een ideale
|
121 |
+
anti-ageing dagverzorging voor de droge huid, speciaal ontworpen voor vrouwen
|
122 |
+
vanaf 40 jaar. Deze crème zorgt voor een zichtbaar stevigere en energieke huid,
|
123 |
+
vermindert rimpels en herdefinieert het ovaal van het gezicht. De formule bevat
|
124 |
+
actieve ingrediënten zoals shea butter, haverextract en vitamine E die de huid
|
125 |
+
hydrateren, beschermen en verstevigen. Breng ''s ochtends aan op een schone huid
|
126 |
+
voor een egale teint en stralende huid. Let op: vermijd contact met de ogen en
|
127 |
+
bij eventuele irritatie stop het gebruik. Pot 50 ml.'
|
128 |
+
- 'Nivea Soft Crème 200ml is een hydraterende verzorging met een lichte textuur
|
129 |
+
die snel intrekt en zorgt voor een gladde, zachte en soepele huid. Verrijkt met
|
130 |
+
Jojoba-olie en Vitamine E, biedt het intensieve hydratatie en verzorging voor
|
131 |
+
het lichaam, gezicht en handen. Dermatologisch getest en pH-huidneutraal, deze
|
132 |
+
crème is ideaal voor dagelijks gebruik. Breng aan op een schone huid en masseer
|
133 |
+
zachtjes in. Gebruik zo vaak als nodig. Let op: vermijd contact met de ogen.'
|
134 |
+
- Louis Widmer Zon Anti-Ageing Gesichtscreme 50+ biedt een combinatie van anti-ageing
|
135 |
+
verzorging en zeer hoge zonnebescherming voor het gezicht. Deze hydraterende crème
|
136 |
+
is speciaal ontwikkeld voor de gevoelige huid en bevat Matrixyl 3000 om rimpels
|
137 |
+
te verminderen. De UVA-, UVB- en breedspectrumfilters zorgen voor een effectieve
|
138 |
+
bescherming tegen de zon, terwijl de crème de huid verzorgt en hydrateert. De
|
139 |
+
actieve ingrediënten zoals vitamine E en panthenol dragen bij aan een gezonde
|
140 |
+
huid. Breng de crème 30 minuten voor blootstelling aan de zon aan en herhaal dit
|
141 |
+
na het zwemmen of zweten. Geschikt voor de gevoelige huid rond de ogen. Tube van
|
142 |
+
50 ml.
|
143 |
+
- source_sentence: Een rijke gezichtsverzorging voor vrouwen van 60 jaar en ouder,
|
144 |
+
die te maken hebben met een vette huid, vergrote poriën en droogheid. Deze verzorging
|
145 |
+
helpt bij het reguleren van talgproductie, het verfijnen van de poriën en het
|
146 |
+
herstellen van de vochtbalans van de huid. Het resulteert in een egale en jeugdige
|
147 |
+
uitstraling.
|
148 |
+
sentences:
|
149 |
+
- Avène Cleanance Zuiverende En Matterende Reinigingsgel is speciaal ontwikkeld
|
150 |
+
voor de vette huid met imperfecties. Deze reinigingsgel reinigt de huid diep en
|
151 |
+
verwijdert onzuiverheden en overtollig talg, waardoor de huid fris en mat blijft.
|
152 |
+
De formule bevat actieve ingrediënten zoals Avène Thermaal Water en Monolaurine
|
153 |
+
die de talgproductie reguleren en de huid zuiveren. Gebruik de reinigingsgel dagelijks,
|
154 |
+
breng aan op een vochtig gezicht en masseer zachtjes in. Spoel af met water en
|
155 |
+
dep de huid droog. Vermijd contact met de ogen. Geschikt voor dagelijks gebruik.
|
156 |
+
- 'Shaeri Multifunctionele Olie is een revitaliserende en hydraterende huidverzorgingsolie
|
157 |
+
met 99% natuurlijke ingrediënten, geschikt voor haar, gezicht en lichaam. De olie
|
158 |
+
bevat 5 complementaire plantenoliën die droog en beschadigd haar herstellen en
|
159 |
+
de huid hydrateren en verzachten. De belangrijkste actieve ingrediënten zijn onder
|
160 |
+
andere Macadamia-olie, zoete amandelolie en jojoba-olie. Gebruik de olie als oliebad
|
161 |
+
voor het haar, als bescherming tegen chloor- of zoutwater in de zomer, voor droge
|
162 |
+
haarpunten en als hydraterende behandeling voor het lichaam en gezicht. Breng
|
163 |
+
de olie aan op gereinigde huid en haar en laat het intrekken voor een optimaal
|
164 |
+
resultaat. Voorzorgsmaatregelen: vermijd contact met de ogen en bij eventuele
|
165 |
+
irritatie stop het gebruik. Inhoud: 100 ml.'
|
166 |
+
- New Nordic Hair Volume tabletten ondersteunen het behoud van gezond haar door
|
167 |
+
voedingsstoffen zoals biotine, zink en appelextract naar de hoofdhuid en haarfollikels
|
168 |
+
te brengen. Deze tabletten bevatten tevens gierst en koper, die het haar van binnenuit
|
169 |
+
versterken en volume geven. Door de unieke combinatie van ingrediënten wordt de
|
170 |
+
haargroei gestimuleerd en voelt het haar sterk en vol aan. Neem dagelijks 1 tablet
|
171 |
+
met water bij een maaltijd voor optimale resultaten. Niet geschikt voor zwangere
|
172 |
+
vrouwen, vrouwen die borstvoeding geven en kinderen jonger dan 11 jaar.
|
173 |
+
model-index:
|
174 |
+
- name: SentenceTransformer based on DTAI-KULeuven/robbert-2023-dutch-base
|
175 |
+
results:
|
176 |
+
- task:
|
177 |
+
type: semantic-similarity
|
178 |
+
name: Semantic Similarity
|
179 |
+
dataset:
|
180 |
+
name: dev
|
181 |
+
type: dev
|
182 |
+
metrics:
|
183 |
+
- type: pearson_cosine
|
184 |
+
value: 0.8746779172543907
|
185 |
+
name: Pearson Cosine
|
186 |
+
- type: spearman_cosine
|
187 |
+
value: 0.9328789750116325
|
188 |
+
name: Spearman Cosine
|
189 |
+
- type: pearson_manhattan
|
190 |
+
value: 0.8477519362630609
|
191 |
+
name: Pearson Manhattan
|
192 |
+
- type: spearman_manhattan
|
193 |
+
value: 0.9304982482117216
|
194 |
+
name: Spearman Manhattan
|
195 |
+
- type: pearson_euclidean
|
196 |
+
value: 0.845462737151077
|
197 |
+
name: Pearson Euclidean
|
198 |
+
- type: spearman_euclidean
|
199 |
+
value: 0.930938545165003
|
200 |
+
name: Spearman Euclidean
|
201 |
+
- type: pearson_dot
|
202 |
+
value: 0.8465798350368959
|
203 |
+
name: Pearson Dot
|
204 |
+
- type: spearman_dot
|
205 |
+
value: 0.9279104105081696
|
206 |
+
name: Spearman Dot
|
207 |
+
- type: pearson_max
|
208 |
+
value: 0.8746779172543907
|
209 |
+
name: Pearson Max
|
210 |
+
- type: spearman_max
|
211 |
+
value: 0.9328789750116325
|
212 |
+
name: Spearman Max
|
213 |
+
---
|
214 |
+
|
215 |
+
# SentenceTransformer based on DTAI-KULeuven/robbert-2023-dutch-base
|
216 |
+
|
217 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [DTAI-KULeuven/robbert-2023-dutch-base](https://huggingface.co/DTAI-KULeuven/robbert-2023-dutch-base). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
218 |
+
|
219 |
+
## Model Details
|
220 |
+
|
221 |
+
### Model Description
|
222 |
+
- **Model Type:** Sentence Transformer
|
223 |
+
- **Base model:** [DTAI-KULeuven/robbert-2023-dutch-base](https://huggingface.co/DTAI-KULeuven/robbert-2023-dutch-base) <!-- at revision d3059f07233b86057a9fb0ba4972aaa42b1f82a0 -->
|
224 |
+
- **Maximum Sequence Length:** 512 tokens
|
225 |
+
- **Output Dimensionality:** 768 tokens
|
226 |
+
- **Similarity Function:** Cosine Similarity
|
227 |
+
<!-- - **Training Dataset:** Unknown -->
|
228 |
+
<!-- - **Language:** Unknown -->
|
229 |
+
<!-- - **License:** Unknown -->
|
230 |
+
|
231 |
+
### Model Sources
|
232 |
+
|
233 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
234 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
235 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
236 |
+
|
237 |
+
### Full Model Architecture
|
238 |
+
|
239 |
+
```
|
240 |
+
SentenceTransformer(
|
241 |
+
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: RobertaModel
|
242 |
+
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
243 |
+
)
|
244 |
+
```
|
245 |
+
|
246 |
+
## Usage
|
247 |
+
|
248 |
+
### Direct Usage (Sentence Transformers)
|
249 |
+
|
250 |
+
First install the Sentence Transformers library:
|
251 |
+
|
252 |
+
```bash
|
253 |
+
pip install -U sentence-transformers
|
254 |
+
```
|
255 |
+
|
256 |
+
Then you can load this model and run inference.
|
257 |
+
```python
|
258 |
+
from sentence_transformers import SentenceTransformer
|
259 |
+
|
260 |
+
# Download from the 🤗 Hub
|
261 |
+
model = SentenceTransformer("ymelka/robbert-cosmetic-similarity-v1")
|
262 |
+
# Run inference
|
263 |
+
sentences = [
|
264 |
+
'Een rijke gezichtsverzorging voor vrouwen van 60 jaar en ouder, die te maken hebben met een vette huid, vergrote poriën en droogheid. Deze verzorging helpt bij het reguleren van talgproductie, het verfijnen van de poriën en het herstellen van de vochtbalans van de huid. Het resulteert in een egale en jeugdige uitstraling.',
|
265 |
+
'New Nordic Hair Volume tabletten ondersteunen het behoud van gezond haar door voedingsstoffen zoals biotine, zink en appelextract naar de hoofdhuid en haarfollikels te brengen. Deze tabletten bevatten tevens gierst en koper, die het haar van binnenuit versterken en volume geven. Door de unieke combinatie van ingrediënten wordt de haargroei gestimuleerd en voelt het haar sterk en vol aan. Neem dagelijks 1 tablet met water bij een maaltijd voor optimale resultaten. Niet geschikt voor zwangere vrouwen, vrouwen die borstvoeding geven en kinderen jonger dan 11 jaar.',
|
266 |
+
'Avène Cleanance Zuiverende En Matterende Reinigingsgel is speciaal ontwikkeld voor de vette huid met imperfecties. Deze reinigingsgel reinigt de huid diep en verwijdert onzuiverheden en overtollig talg, waardoor de huid fris en mat blijft. De formule bevat actieve ingrediënten zoals Avène Thermaal Water en Monolaurine die de talgproductie reguleren en de huid zuiveren. Gebruik de reinigingsgel dagelijks, breng aan op een vochtig gezicht en masseer zachtjes in. Spoel af met water en dep de huid droog. Vermijd contact met de ogen. Geschikt voor dagelijks gebruik.',
|
267 |
+
]
|
268 |
+
embeddings = model.encode(sentences)
|
269 |
+
print(embeddings.shape)
|
270 |
+
# [3, 768]
|
271 |
+
|
272 |
+
# Get the similarity scores for the embeddings
|
273 |
+
similarities = model.similarity(embeddings, embeddings)
|
274 |
+
print(similarities.shape)
|
275 |
+
# [3, 3]
|
276 |
+
```
|
277 |
+
|
278 |
+
<!--
|
279 |
+
### Direct Usage (Transformers)
|
280 |
+
|
281 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
282 |
+
|
283 |
+
</details>
|
284 |
+
-->
|
285 |
+
|
286 |
+
<!--
|
287 |
+
### Downstream Usage (Sentence Transformers)
|
288 |
+
|
289 |
+
You can finetune this model on your own dataset.
|
290 |
+
|
291 |
+
<details><summary>Click to expand</summary>
|
292 |
+
|
293 |
+
</details>
|
294 |
+
-->
|
295 |
+
|
296 |
+
<!--
|
297 |
+
### Out-of-Scope Use
|
298 |
+
|
299 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
300 |
+
-->
|
301 |
+
|
302 |
+
## Evaluation
|
303 |
+
|
304 |
+
### Metrics
|
305 |
+
|
306 |
+
#### Semantic Similarity
|
307 |
+
* Dataset: `dev`
|
308 |
+
* Evaluated with [<code>EmbeddingSimilarityEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator)
|
309 |
+
|
310 |
+
| Metric | Value |
|
311 |
+
|:--------------------|:-----------|
|
312 |
+
| pearson_cosine | 0.8747 |
|
313 |
+
| **spearman_cosine** | **0.9329** |
|
314 |
+
| pearson_manhattan | 0.8478 |
|
315 |
+
| spearman_manhattan | 0.9305 |
|
316 |
+
| pearson_euclidean | 0.8455 |
|
317 |
+
| spearman_euclidean | 0.9309 |
|
318 |
+
| pearson_dot | 0.8466 |
|
319 |
+
| spearman_dot | 0.9279 |
|
320 |
+
| pearson_max | 0.8747 |
|
321 |
+
| spearman_max | 0.9329 |
|
322 |
+
|
323 |
+
<!--
|
324 |
+
## Bias, Risks and Limitations
|
325 |
+
|
326 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
327 |
+
-->
|
328 |
+
|
329 |
+
<!--
|
330 |
+
### Recommendations
|
331 |
+
|
332 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
333 |
+
-->
|
334 |
+
|
335 |
+
## Training Details
|
336 |
+
|
337 |
+
### Training Dataset
|
338 |
+
|
339 |
+
#### Unnamed Dataset
|
340 |
+
|
341 |
+
|
342 |
+
* Size: 4,100 training samples
|
343 |
+
* Columns: <code>sentence1</code>, <code>sentence2</code>, and <code>score</code>
|
344 |
+
* Approximate statistics based on the first 1000 samples:
|
345 |
+
| | sentence1 | sentence2 | score |
|
346 |
+
|:--------|:-----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:---------------------------------------------------------------|
|
347 |
+
| type | string | string | float |
|
348 |
+
| details | <ul><li>min: 35 tokens</li><li>mean: 56.73 tokens</li><li>max: 86 tokens</li></ul> | <ul><li>min: 80 tokens</li><li>mean: 147.02 tokens</li><li>max: 226 tokens</li></ul> | <ul><li>min: 0.0</li><li>mean: 0.51</li><li>max: 1.0</li></ul> |
|
349 |
+
* Samples:
|
350 |
+
| sentence1 | sentence2 | score |
|
351 |
+
|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------|
|
352 |
+
| <code>Een hydraterende gezichtsverzorging voor mannen van 28 jaar oud, die specifiek is ontworpen om de doffe huid te verhelderen en te hydrateren. De formule bevat antioxidanten om de huid te beschermen tegen vrije radicalen en om wallen te verminderen. Het helpt ook bij het verminderen van droogheid en het verbeteren van de huidelasticiteit.</code> | <code>Natessance Biologische Jojoba Olie is een 100% pure olie die bekend staat om haar voedende en regenererende eigenschappen. Deze olie verfraait en beschermt de huid, waardoor deze elastischer wordt en het haar soepeler en glanzender maakt. Geschikt voor alle huid- en haartypes, bevat deze formule vierge biologische jojoba-olie van koude persing zonder toevoegingen. Breng de olie aan op het haar vóór het wassen met shampoo en op een schone en droge huid voor het gezicht en lichaam. De fles bevat 50 ml en is ideaal voor dagelijks gebruik.</code> | <code>0.0614345669746398</code> |
|
353 |
+
| <code>Een milde reiniger speciaal ontwikkeld voor de rijpere huid van vrouwen van 50 jaar en ouder. Deze reiniger verwijdert overtollig talg en onzuiverheden, terwijl het de huid hydrateert en een doffe teint revitaliseert.</code> | <code>De Clarins Zachte Schuimende Verzachtende Reiniger is speciaal ontwikkeld voor de zeer droge en gevoelige huid. Dit reinigingsschuim reinigt de huid grondig, verwijdert make-up en hydrateert intensief. De formule bevat actieve ingrediënten zoals shea butter, Moringa zaad extract en kamille bloem extract, die de huid verzachten en in balans houden. Gebruik de reiniger dagelijks door een kleine hoeveelheid op de vochtige huid aan te brengen en zachtjes in te masseren. Spoel vervolgens af met water. Voor een optimaal resultaat wordt aanbevolen om de reiniger 's ochtends en 's avonds te gebruiken. Let op: vermijd contact met de ogen en spoel grondig met water bij contact.</code> | <code>0.9998431205749512</code> |
|
354 |
+
| <code>Een hydraterende gezichtscrème die diep doordringt om droogheid te verlichten en de huid te voeden. Bevat antioxidanten om de teint te verbeteren en de huid te beschermen tegen schadelijke invloeden van buitenaf. Ideaal voor vrouwen van 60 jaar en ouder.</code> | <code>Apivita After Sun Beperkte Editie 200ml is een verfrissende en hydraterende aftersun lotion die speciaal is ontwikkeld om de huid te kalmeren en te herstellen na blootstelling aan de zon. Deze lotion bevat natuurlijke ingrediënten zoals aloë vera, kamille en olijfolie, die de huid verzachten, hydrateren en verkoelen. Aloë vera staat bekend om zijn kalmerende werking op de huid, terwijl kamille ontstekingsremmende eigenschappen heeft en de huid helpt te herstellen. Olijfolie voedt en hydrateert de huid diep, waardoor deze zacht en soepel aanvoelt. Breng de lotion royaal aan op de huid na blootstelling aan de zon en herhaal indien nodig. Vermijd contact met de ogen en bij eventuele irritatie stop het gebruik. Apivita After Sun Beperkte Editie 200ml is de perfecte aftersun lotion voor een gehydrateerde en gekalmeerde huid na een dag in de zon.</code> | <code>0.0812613666057586</code> |
|
355 |
+
* Loss: [<code>CoSENTLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosentloss) with these parameters:
|
356 |
+
```json
|
357 |
+
{
|
358 |
+
"scale": 20.0,
|
359 |
+
"similarity_fct": "pairwise_cos_sim"
|
360 |
+
}
|
361 |
+
```
|
362 |
+
|
363 |
+
### Evaluation Dataset
|
364 |
+
|
365 |
+
#### Unnamed Dataset
|
366 |
+
|
367 |
+
|
368 |
+
* Size: 790 evaluation samples
|
369 |
+
* Columns: <code>sentence1</code>, <code>sentence2</code>, and <code>score</code>
|
370 |
+
* Approximate statistics based on the first 1000 samples:
|
371 |
+
| | sentence1 | sentence2 | score |
|
372 |
+
|:--------|:-----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:---------------------------------------------------------------|
|
373 |
+
| type | string | string | float |
|
374 |
+
| details | <ul><li>min: 35 tokens</li><li>mean: 56.71 tokens</li><li>max: 81 tokens</li></ul> | <ul><li>min: 95 tokens</li><li>mean: 146.68 tokens</li><li>max: 225 tokens</li></ul> | <ul><li>min: 0.0</li><li>mean: 0.51</li><li>max: 1.0</li></ul> |
|
375 |
+
* Samples:
|
376 |
+
| sentence1 | sentence2 | score |
|
377 |
+
|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------|
|
378 |
+
| <code>Een milde reiniger speciaal ontwikkeld voor de gevoelige huid van vrouwen van 40 jaar en ouder. Deze reiniger helpt bij het verwijderen van onzuiverheden en overtollig talg, terwijl het de huid hydrateert en verzacht. Het is ideaal voor het verminderen van droogheid en roodheid op het gezicht.</code> | <code>De Cattier Zuiverende Reinigingsgel is speciaal ontwikkeld voor de vette huid met onzuiverheden en puistjes. Met biologische essentiële oliën van tea tree, rozemarijn en pepermunt reinigt deze gel zacht de huid en verwijdert effectief onzuiverheden en overtollig talg. Verrijkt met aloë vera, biedt het een aangename sensatie van frisheid en laat de huid helder en gezond achter. De actieve ingrediënten, waaronder biologische tea tree olie en aloë vera, helpen de huid te zuiveren, hydrateren en beschermen. Breng de gel aan op een vochtig gezicht, vermijd de oogcontour, masseer in en spoel af met lauw water. Gebruik de gel regelmatig voor een zuivere en gezonde huid.</code> | <code>0.9999536275863647</code> |
|
379 |
+
| <code>Een voedende gezichtsverzorging voor vrouwen van 55 jaar en ouder met een droge en doffe huid. Deze verzorging is rijk aan hydraterende en voedende ingrediënten om de huid te verzachten, te voeden en te herstellen. Het helpt ook om roodheid te verminderen en de huid te laten stralen.</code> | <code>Nivea Care Nutrition Intense Snel Intrekkende Gezichts-En Lichaamscrème is een all-purpose crème die de huid intens voedt zonder een vettig gevoel achter te laten. De formule is verrijkt met voedende hydro-waxen die onmiddellijk op de huid smelten, waardoor de huid 24 uur lang intens gevoed wordt. Dermatologisch goedgekeurd en 100% voedend. Ideaal voor een gehydrateerde en zachte huid. Breng de crème aan op een schone huid en masseer zachtjes in. Geschikt voor dagelijks gebruik. Voorzichtigheid geboden bij allergieën voor de vermelde ingrediënten.</code> | <code>0.9952190518379213</code> |
|
380 |
+
| <code>Een milde reiniger speciaal ontwikkeld voor de gevoelige huid van mannen van 75 jaar en ouder. Verwijdert overtollig talg en onzuiverheden, terwijl het de poriën verkleint en de huid verzacht. Helpt bij het verminderen van rimpels en het verbeteren van de algehele huidtextuur.</code> | <code>De Fleurance Nature Uiterst Rijke Dagcrème Met Sheaboter is een voedend verzorgingsproduct dat speciaal is ontwikkeld voor de droge tot zeer droge huid. De crème beschermt de huid tegen uitdroging en agressieve invloeden van buitenaf, terwijl het ook een trekkerig gevoel kalmeert. Dankzij de rijke textuur wordt de huid intens gevoed en gehydrateerd, waardoor deze de hele dag soepel en comfortabel aanvoelt. De dagcrème bevat sheaboter uit Fair Trade handel, aloe vera, zoete amandelolie en zonnebloemzaadolie, die de huid verzachten en verlichten. Breng de crème 's ochtends en 's avonds aan op een schone en droge huid van gezicht en hals voor optimale resultaten. Dit product is geschikt voor uitwendig gebruik en is speciaal ontwikkeld voor mensen met een droge tot zeer droge huid.</code> | <code>0.8514625430107117</code> |
|
381 |
+
* Loss: [<code>CoSENTLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosentloss) with these parameters:
|
382 |
+
```json
|
383 |
+
{
|
384 |
+
"scale": 20.0,
|
385 |
+
"similarity_fct": "pairwise_cos_sim"
|
386 |
+
}
|
387 |
+
```
|
388 |
+
|
389 |
+
### Training Hyperparameters
|
390 |
+
#### Non-Default Hyperparameters
|
391 |
+
|
392 |
+
- `eval_strategy`: steps
|
393 |
+
- `learning_rate`: 2e-05
|
394 |
+
- `weight_decay`: 0.01
|
395 |
+
- `warmup_ratio`: 0.1
|
396 |
+
- `bf16`: True
|
397 |
+
- `batch_sampler`: no_duplicates
|
398 |
+
|
399 |
+
#### All Hyperparameters
|
400 |
+
<details><summary>Click to expand</summary>
|
401 |
+
|
402 |
+
- `overwrite_output_dir`: False
|
403 |
+
- `do_predict`: False
|
404 |
+
- `eval_strategy`: steps
|
405 |
+
- `prediction_loss_only`: True
|
406 |
+
- `per_device_train_batch_size`: 8
|
407 |
+
- `per_device_eval_batch_size`: 8
|
408 |
+
- `per_gpu_train_batch_size`: None
|
409 |
+
- `per_gpu_eval_batch_size`: None
|
410 |
+
- `gradient_accumulation_steps`: 1
|
411 |
+
- `eval_accumulation_steps`: None
|
412 |
+
- `learning_rate`: 2e-05
|
413 |
+
- `weight_decay`: 0.01
|
414 |
+
- `adam_beta1`: 0.9
|
415 |
+
- `adam_beta2`: 0.999
|
416 |
+
- `adam_epsilon`: 1e-08
|
417 |
+
- `max_grad_norm`: 1.0
|
418 |
+
- `num_train_epochs`: 3
|
419 |
+
- `max_steps`: -1
|
420 |
+
- `lr_scheduler_type`: linear
|
421 |
+
- `lr_scheduler_kwargs`: {}
|
422 |
+
- `warmup_ratio`: 0.1
|
423 |
+
- `warmup_steps`: 0
|
424 |
+
- `log_level`: passive
|
425 |
+
- `log_level_replica`: warning
|
426 |
+
- `log_on_each_node`: True
|
427 |
+
- `logging_nan_inf_filter`: True
|
428 |
+
- `save_safetensors`: True
|
429 |
+
- `save_on_each_node`: False
|
430 |
+
- `save_only_model`: False
|
431 |
+
- `restore_callback_states_from_checkpoint`: False
|
432 |
+
- `no_cuda`: False
|
433 |
+
- `use_cpu`: False
|
434 |
+
- `use_mps_device`: False
|
435 |
+
- `seed`: 42
|
436 |
+
- `data_seed`: None
|
437 |
+
- `jit_mode_eval`: False
|
438 |
+
- `use_ipex`: False
|
439 |
+
- `bf16`: True
|
440 |
+
- `fp16`: False
|
441 |
+
- `fp16_opt_level`: O1
|
442 |
+
- `half_precision_backend`: auto
|
443 |
+
- `bf16_full_eval`: False
|
444 |
+
- `fp16_full_eval`: False
|
445 |
+
- `tf32`: None
|
446 |
+
- `local_rank`: 0
|
447 |
+
- `ddp_backend`: None
|
448 |
+
- `tpu_num_cores`: None
|
449 |
+
- `tpu_metrics_debug`: False
|
450 |
+
- `debug`: []
|
451 |
+
- `dataloader_drop_last`: False
|
452 |
+
- `dataloader_num_workers`: 0
|
453 |
+
- `dataloader_prefetch_factor`: None
|
454 |
+
- `past_index`: -1
|
455 |
+
- `disable_tqdm`: False
|
456 |
+
- `remove_unused_columns`: True
|
457 |
+
- `label_names`: None
|
458 |
+
- `load_best_model_at_end`: False
|
459 |
+
- `ignore_data_skip`: False
|
460 |
+
- `fsdp`: []
|
461 |
+
- `fsdp_min_num_params`: 0
|
462 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
463 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
464 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
465 |
+
- `deepspeed`: None
|
466 |
+
- `label_smoothing_factor`: 0.0
|
467 |
+
- `optim`: adamw_torch
|
468 |
+
- `optim_args`: None
|
469 |
+
- `adafactor`: False
|
470 |
+
- `group_by_length`: False
|
471 |
+
- `length_column_name`: length
|
472 |
+
- `ddp_find_unused_parameters`: None
|
473 |
+
- `ddp_bucket_cap_mb`: None
|
474 |
+
- `ddp_broadcast_buffers`: False
|
475 |
+
- `dataloader_pin_memory`: True
|
476 |
+
- `dataloader_persistent_workers`: False
|
477 |
+
- `skip_memory_metrics`: True
|
478 |
+
- `use_legacy_prediction_loop`: False
|
479 |
+
- `push_to_hub`: False
|
480 |
+
- `resume_from_checkpoint`: None
|
481 |
+
- `hub_model_id`: None
|
482 |
+
- `hub_strategy`: every_save
|
483 |
+
- `hub_private_repo`: False
|
484 |
+
- `hub_always_push`: False
|
485 |
+
- `gradient_checkpointing`: False
|
486 |
+
- `gradient_checkpointing_kwargs`: None
|
487 |
+
- `include_inputs_for_metrics`: False
|
488 |
+
- `eval_do_concat_batches`: True
|
489 |
+
- `fp16_backend`: auto
|
490 |
+
- `push_to_hub_model_id`: None
|
491 |
+
- `push_to_hub_organization`: None
|
492 |
+
- `mp_parameters`:
|
493 |
+
- `auto_find_batch_size`: False
|
494 |
+
- `full_determinism`: False
|
495 |
+
- `torchdynamo`: None
|
496 |
+
- `ray_scope`: last
|
497 |
+
- `ddp_timeout`: 1800
|
498 |
+
- `torch_compile`: False
|
499 |
+
- `torch_compile_backend`: None
|
500 |
+
- `torch_compile_mode`: None
|
501 |
+
- `dispatch_batches`: None
|
502 |
+
- `split_batches`: None
|
503 |
+
- `include_tokens_per_second`: False
|
504 |
+
- `include_num_input_tokens_seen`: False
|
505 |
+
- `neftune_noise_alpha`: None
|
506 |
+
- `optim_target_modules`: None
|
507 |
+
- `batch_eval_metrics`: False
|
508 |
+
- `eval_on_start`: False
|
509 |
+
- `batch_sampler`: no_duplicates
|
510 |
+
- `multi_dataset_batch_sampler`: proportional
|
511 |
+
|
512 |
+
</details>
|
513 |
+
|
514 |
+
### Training Logs
|
515 |
+
| Epoch | Step | Training Loss | loss | dev_spearman_cosine |
|
516 |
+
|:------:|:----:|:-------------:|:------:|:-------------------:|
|
517 |
+
| 0 | 0 | - | - | 0.6910 |
|
518 |
+
| 0.3899 | 200 | 2.93 | 2.8793 | 0.8809 |
|
519 |
+
| 0.7797 | 400 | 2.7965 | 2.7213 | 0.8993 |
|
520 |
+
| 1.1696 | 600 | 2.6738 | 2.6655 | 0.9253 |
|
521 |
+
| 1.5595 | 800 | 2.5102 | 2.6055 | 0.9216 |
|
522 |
+
| 1.9493 | 1000 | 2.4069 | 2.8576 | 0.9057 |
|
523 |
+
| 2.3392 | 1200 | 2.2689 | 2.9301 | 0.9282 |
|
524 |
+
| 2.7290 | 1400 | 2.168 | 2.6996 | 0.9349 |
|
525 |
+
| 3.0 | 1539 | - | - | 0.9329 |
|
526 |
+
|
527 |
+
|
528 |
+
### Framework Versions
|
529 |
+
- Python: 3.10.12
|
530 |
+
- Sentence Transformers: 3.0.1
|
531 |
+
- Transformers: 4.42.3
|
532 |
+
- PyTorch: 2.3.0+cu121
|
533 |
+
- Accelerate: 0.32.1
|
534 |
+
- Datasets: 2.20.0
|
535 |
+
- Tokenizers: 0.19.1
|
536 |
+
|
537 |
+
## Citation
|
538 |
+
|
539 |
+
### BibTeX
|
540 |
+
|
541 |
+
#### Sentence Transformers
|
542 |
+
```bibtex
|
543 |
+
@inproceedings{reimers-2019-sentence-bert,
|
544 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
545 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
546 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
547 |
+
month = "11",
|
548 |
+
year = "2019",
|
549 |
+
publisher = "Association for Computational Linguistics",
|
550 |
+
url = "https://arxiv.org/abs/1908.10084",
|
551 |
+
}
|
552 |
+
```
|
553 |
+
|
554 |
+
#### CoSENTLoss
|
555 |
+
```bibtex
|
556 |
+
@online{kexuefm-8847,
|
557 |
+
title={CoSENT: A more efficient sentence vector scheme than Sentence-BERT},
|
558 |
+
author={Su Jianlin},
|
559 |
+
year={2022},
|
560 |
+
month={Jan},
|
561 |
+
url={https://kexue.fm/archives/8847},
|
562 |
+
}
|
563 |
+
```
|
564 |
+
|
565 |
+
<!--
|
566 |
+
## Glossary
|
567 |
+
|
568 |
+
*Clearly define terms in order to be accessible across audiences.*
|
569 |
+
-->
|
570 |
+
|
571 |
+
<!--
|
572 |
+
## Model Card Authors
|
573 |
+
|
574 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
575 |
+
-->
|
576 |
+
|
577 |
+
<!--
|
578 |
+
## Model Card Contact
|
579 |
+
|
580 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
581 |
+
-->
|
config.json
ADDED
@@ -0,0 +1,33 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"_name_or_path": "DTAI-KULeuven/robbert-2023-dutch-base",
|
3 |
+
"additional_special_tokens_ids": [],
|
4 |
+
"architectures": [
|
5 |
+
"RobertaModel"
|
6 |
+
],
|
7 |
+
"attention_probs_dropout_prob": 0.1,
|
8 |
+
"bos_token_id": 0,
|
9 |
+
"classifier_dropout": null,
|
10 |
+
"cls_token_id": 0,
|
11 |
+
"eos_token_id": 3,
|
12 |
+
"hidden_act": "gelu",
|
13 |
+
"hidden_dropout_prob": 0.1,
|
14 |
+
"hidden_size": 768,
|
15 |
+
"initializer_range": 0.02,
|
16 |
+
"intermediate_size": 3072,
|
17 |
+
"layer_norm_eps": 1e-05,
|
18 |
+
"mask_token_id": 4,
|
19 |
+
"max_position_embeddings": 514,
|
20 |
+
"model_type": "roberta",
|
21 |
+
"num_attention_heads": 12,
|
22 |
+
"num_hidden_layers": 12,
|
23 |
+
"pad_token_id": 1,
|
24 |
+
"position_embedding_type": "absolute",
|
25 |
+
"sep_token_id": 3,
|
26 |
+
"tokenizer_class": "RobertaTokenizerFast",
|
27 |
+
"torch_dtype": "float32",
|
28 |
+
"transformers_version": "4.42.3",
|
29 |
+
"type_vocab_size": 1,
|
30 |
+
"unk_token_id": 2,
|
31 |
+
"use_cache": true,
|
32 |
+
"vocab_size": 50000
|
33 |
+
}
|
config_sentence_transformers.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"__version__": {
|
3 |
+
"sentence_transformers": "3.0.1",
|
4 |
+
"transformers": "4.42.3",
|
5 |
+
"pytorch": "2.3.0+cu121"
|
6 |
+
},
|
7 |
+
"prompts": {},
|
8 |
+
"default_prompt_name": null,
|
9 |
+
"similarity_fn_name": null
|
10 |
+
}
|
merges.txt
ADDED
The diff for this file is too large to render.
See raw diff
|
|
model.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:2d3edde9fb14f09f7bf53b959624fe71e292b54c289577e14fbc96c55391a5cf
|
3 |
+
size 497790824
|
modules.json
ADDED
@@ -0,0 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"idx": 0,
|
4 |
+
"name": "0",
|
5 |
+
"path": "",
|
6 |
+
"type": "sentence_transformers.models.Transformer"
|
7 |
+
},
|
8 |
+
{
|
9 |
+
"idx": 1,
|
10 |
+
"name": "1",
|
11 |
+
"path": "1_Pooling",
|
12 |
+
"type": "sentence_transformers.models.Pooling"
|
13 |
+
}
|
14 |
+
]
|
sentence_bert_config.json
ADDED
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"max_seq_length": 512,
|
3 |
+
"do_lower_case": false
|
4 |
+
}
|
special_tokens_map.json
ADDED
@@ -0,0 +1,51 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"bos_token": {
|
3 |
+
"content": "<s>",
|
4 |
+
"lstrip": false,
|
5 |
+
"normalized": true,
|
6 |
+
"rstrip": false,
|
7 |
+
"single_word": false
|
8 |
+
},
|
9 |
+
"cls_token": {
|
10 |
+
"content": "<s>",
|
11 |
+
"lstrip": false,
|
12 |
+
"normalized": true,
|
13 |
+
"rstrip": false,
|
14 |
+
"single_word": false
|
15 |
+
},
|
16 |
+
"eos_token": {
|
17 |
+
"content": "</s>",
|
18 |
+
"lstrip": false,
|
19 |
+
"normalized": true,
|
20 |
+
"rstrip": false,
|
21 |
+
"single_word": false
|
22 |
+
},
|
23 |
+
"mask_token": {
|
24 |
+
"content": "<mask>",
|
25 |
+
"lstrip": true,
|
26 |
+
"normalized": true,
|
27 |
+
"rstrip": false,
|
28 |
+
"single_word": false
|
29 |
+
},
|
30 |
+
"pad_token": {
|
31 |
+
"content": "<pad>",
|
32 |
+
"lstrip": false,
|
33 |
+
"normalized": true,
|
34 |
+
"rstrip": false,
|
35 |
+
"single_word": false
|
36 |
+
},
|
37 |
+
"sep_token": {
|
38 |
+
"content": "</s>",
|
39 |
+
"lstrip": false,
|
40 |
+
"normalized": true,
|
41 |
+
"rstrip": false,
|
42 |
+
"single_word": false
|
43 |
+
},
|
44 |
+
"unk_token": {
|
45 |
+
"content": "<unk>",
|
46 |
+
"lstrip": false,
|
47 |
+
"normalized": true,
|
48 |
+
"rstrip": false,
|
49 |
+
"single_word": false
|
50 |
+
}
|
51 |
+
}
|
tokenizer.json
ADDED
The diff for this file is too large to render.
See raw diff
|
|
tokenizer_config.json
ADDED
@@ -0,0 +1,57 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"add_prefix_space": false,
|
3 |
+
"added_tokens_decoder": {
|
4 |
+
"0": {
|
5 |
+
"content": "<s>",
|
6 |
+
"lstrip": false,
|
7 |
+
"normalized": true,
|
8 |
+
"rstrip": false,
|
9 |
+
"single_word": false,
|
10 |
+
"special": true
|
11 |
+
},
|
12 |
+
"1": {
|
13 |
+
"content": "<pad>",
|
14 |
+
"lstrip": false,
|
15 |
+
"normalized": true,
|
16 |
+
"rstrip": false,
|
17 |
+
"single_word": false,
|
18 |
+
"special": true
|
19 |
+
},
|
20 |
+
"2": {
|
21 |
+
"content": "<unk>",
|
22 |
+
"lstrip": false,
|
23 |
+
"normalized": true,
|
24 |
+
"rstrip": false,
|
25 |
+
"single_word": false,
|
26 |
+
"special": true
|
27 |
+
},
|
28 |
+
"3": {
|
29 |
+
"content": "</s>",
|
30 |
+
"lstrip": false,
|
31 |
+
"normalized": true,
|
32 |
+
"rstrip": false,
|
33 |
+
"single_word": false,
|
34 |
+
"special": true
|
35 |
+
},
|
36 |
+
"4": {
|
37 |
+
"content": "<mask>",
|
38 |
+
"lstrip": true,
|
39 |
+
"normalized": true,
|
40 |
+
"rstrip": false,
|
41 |
+
"single_word": false,
|
42 |
+
"special": true
|
43 |
+
}
|
44 |
+
},
|
45 |
+
"bos_token": "<s>",
|
46 |
+
"clean_up_tokenization_spaces": true,
|
47 |
+
"cls_token": "<s>",
|
48 |
+
"eos_token": "</s>",
|
49 |
+
"errors": "replace",
|
50 |
+
"mask_token": "<mask>",
|
51 |
+
"model_max_length": 512,
|
52 |
+
"pad_token": "<pad>",
|
53 |
+
"sep_token": "</s>",
|
54 |
+
"tokenizer_class": "RobertaTokenizer",
|
55 |
+
"trim_offsets": true,
|
56 |
+
"unk_token": "<unk>"
|
57 |
+
}
|
vocab.json
ADDED
The diff for this file is too large to render.
See raw diff
|
|