sylvain471
commited on
Commit
•
ac22adf
1
Parent(s):
f270463
Add new SentenceTransformer model.
Browse files- 1_Pooling/config.json +10 -0
- README.md +1095 -0
- config.json +29 -0
- config_sentence_transformers.json +10 -0
- model.safetensors +3 -0
- modules.json +14 -0
- sentence_bert_config.json +4 -0
- sentencepiece.bpe.model +3 -0
- special_tokens_map.json +55 -0
- tokenizer.json +0 -0
- tokenizer_config.json +82 -0
1_Pooling/config.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"word_embedding_dimension": 768,
|
3 |
+
"pooling_mode_cls_token": false,
|
4 |
+
"pooling_mode_mean_tokens": true,
|
5 |
+
"pooling_mode_max_tokens": false,
|
6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
7 |
+
"pooling_mode_weightedmean_tokens": false,
|
8 |
+
"pooling_mode_lasttoken": false,
|
9 |
+
"include_prompt": true
|
10 |
+
}
|
README.md
ADDED
@@ -0,0 +1,1095 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
base_model: dangvantuan/sentence-camembert-base
|
3 |
+
datasets: []
|
4 |
+
language:
|
5 |
+
- en
|
6 |
+
library_name: sentence-transformers
|
7 |
+
license: apache-2.0
|
8 |
+
metrics:
|
9 |
+
- cosine_accuracy@1
|
10 |
+
- cosine_accuracy@3
|
11 |
+
- cosine_accuracy@5
|
12 |
+
- cosine_accuracy@10
|
13 |
+
- cosine_precision@1
|
14 |
+
- cosine_precision@3
|
15 |
+
- cosine_precision@5
|
16 |
+
- cosine_precision@10
|
17 |
+
- cosine_recall@1
|
18 |
+
- cosine_recall@3
|
19 |
+
- cosine_recall@5
|
20 |
+
- cosine_recall@10
|
21 |
+
- cosine_ndcg@10
|
22 |
+
- cosine_mrr@10
|
23 |
+
- cosine_map@100
|
24 |
+
pipeline_tag: sentence-similarity
|
25 |
+
tags:
|
26 |
+
- sentence-transformers
|
27 |
+
- sentence-similarity
|
28 |
+
- feature-extraction
|
29 |
+
- generated_from_trainer
|
30 |
+
- dataset_size:4842
|
31 |
+
- loss:MatryoshkaLoss
|
32 |
+
- loss:MultipleNegativesRankingLoss
|
33 |
+
widget:
|
34 |
+
- source_sentence: Qui a souhaité conserver la gestion de la base de données des facteurs
|
35 |
+
d’émissions ?
|
36 |
+
sentences:
|
37 |
+
- 'L’enquête TCU 2017 permet de connaitre le nombre de voyageurs sur chacun des
|
38 |
+
modes: autobus, tramways et métro, la consommation réelle définissant des émissions
|
39 |
+
GES propres à chacun de ces modes de transport. L’enquête sur le parc des services
|
40 |
+
urbains de 2018, quant à elle, permet de connaître finement les caractéristiques
|
41 |
+
des véhicules de 139 réseaux urbains. Les données proposées intègrent les émissions
|
42 |
+
liées à la consommation de carburant (amont + combustion). Ne sont pas incluses
|
43 |
+
les émissions liées à la fabrication des véhicules ou à l’infrastructure routière.'
|
44 |
+
- 'Dans le cadre de ce transfert, l’ADEME a souhaité conserver la gestion de la
|
45 |
+
base de données des facteurs d’émissions: la Base Carbone <unk>. Cette base a
|
46 |
+
pour objectif d’alimenter en données un maximum de calculateurs carbone dont l’outil
|
47 |
+
Bilan Carbone <unk>. Scope 2 : émissions indirectes - énergie Les émissions indirectes
|
48 |
+
liées à l’énergie, correspondent à la consommation d''une énergie finale dont
|
49 |
+
les émissions ne sont pas émises sur le lieu de consommation, mais de production.
|
50 |
+
Concrètement, il s''agit de l''électricité et des réseaux de chaleur / froid.
|
51 |
+
Dans le cadre d''un exercice de bilan GES, on parle usuellement de scope 2. Fossiles
|
52 |
+
Le terme "combustibles fossiles" désigne tous les produits bruts ou dérivés issus
|
53 |
+
du pétrole, du gaz naturel et du charbon.'
|
54 |
+
- 'Périmètre FE valides génériques FE recyclage - impact : ces FE prennent en compte
|
55 |
+
les étapes allant de la collecte des déchets jusqu''à la sortie du recyclage,
|
56 |
+
à savoir : <unk>collecte sélective dont bacs/conteneurs, collecte et transfert<unk>tri
|
57 |
+
en centre de tri (préparateur de calcin pour le verre)<unk>transport entre le
|
58 |
+
centre de tri et les sites de recyclage/régénération<unk>recyclage/régénération
|
59 |
+
FE recyclage - émissions évitées : les émissions évitées correspondent à la production
|
60 |
+
de matière vierge considérée comme évitée du fait de la production d''un matériau
|
61 |
+
recyclé. Les taux de substitution entre matière recyclée et matière vierge/primaire
|
62 |
+
sont de 1 pour 1, à l''exception du carton pour lequel un taux de substitution
|
63 |
+
de 0,85 de matière vierge pour 1 de matière recyclée a été considéré.'
|
64 |
+
- source_sentence: Quels sont les facteurs d'émissions traités comme les émissions
|
65 |
+
de gaz à effet de serre ?
|
66 |
+
sentences:
|
67 |
+
- 'En effet, en l''absence de replantation (ou de régénération naturelle), le fait
|
68 |
+
de couper un arbre pour le transformer en charpente ne fait que déplacer un stock
|
69 |
+
existant, mais n''en reconstitue aucun. En ce qui concerne les bois exotiques,
|
70 |
+
qui proviennent de forêts qui ne sont généralement pas bien gérées, et où les
|
71 |
+
coupes ne sont pas compensées par des plantations (puisque la surface diminue),
|
72 |
+
on ne peut donc pas parler de puits de carbone. En fait il est même probable que
|
73 |
+
l''exploitation d''une tonne de bois exotique conduise à des émissions nettes
|
74 |
+
significatives : pour pouvoir exploiter les quelques espèces commercialement intéressantes
|
75 |
+
(pas plus de quelques exemplaires à l''hectare), les forestiers construisent des
|
76 |
+
pistes qui, par la suite, servent à des paysans pour aller défricher le reste
|
77 |
+
de la forêt, ce qui cause des émissions significatives de CO2.'
|
78 |
+
- Ils sont traités comme ces dernières.
|
79 |
+
- 'En fait les véritables constituants primaires rentrent dans 3 catégories : *des
|
80 |
+
granulats, c''est-à-dire des constituants provenant de carrières et plus ou moins
|
81 |
+
finement concassés, *du liant, qui est l''équivalent routier du ciment, *enfin
|
82 |
+
du métal, pour faire des glissières ou des équivalents routiers du béton armé.
|
83 |
+
Ces composants sont alors mélangés en parts variables et fournissent des "produits"
|
84 |
+
qui sont directement utilisés lors de la construction, et qui portent des noms
|
85 |
+
usuels pour les sociétés de travaux routiers. Seuls sont mentionnés ci-dessous
|
86 |
+
les produits dont les équivalents CO2 ne sont pas abordés au [chapitre métaux](metaux_et_produits_metalliques.htm)
|
87 |
+
(donc notamment pas l''acier). Il s''agit pour l''essentiel de constituants propres
|
88 |
+
à la construction de voies routières. La publication discrimine les émissions
|
89 |
+
des phases de fabrication, de transport et de mise en œuvre. Le cas échéant, il
|
90 |
+
sera donc possible de "réduire" les facteurs d''émission si l''une de ces phases
|
91 |
+
est absente du cas considéré.'
|
92 |
+
- source_sentence: Quel est le pourcentage des indésirables (morceaux de tissus ou
|
93 |
+
plastique) dans la famille des DEA bois collectés en 2017 ?
|
94 |
+
sentences:
|
95 |
+
- 'Il faut alors recourir à une valeur moyenne, représentant les émissions moyennes
|
96 |
+
liées à la production d''une tonne de plastique. Il s''agit, en quelque sorte,
|
97 |
+
d''une valeur tenant compte des tonnages respectifs des différentes qualités de
|
98 |
+
plastique et des facteurs d''émission par plastique. Le mémento des décideurs
|
99 |
+
de la MIES12 donne une valeur moyenne pour le plastique de 2 350 kg équivalent
|
100 |
+
CO2 par tonne. Ce montant étant cohérent avec les valeurs obtenues ci-dessus pour
|
101 |
+
les plastiques les plus courants, nous la retiendrons, faute de mieux, lorsque
|
102 |
+
le type de plastique n’est pas connu. Pour le plastique 100% ex-recyclé nous prendrons
|
103 |
+
la valeur de 202 kgCO2e par tonne par défaut, en faisant l’hypothèse que le mode
|
104 |
+
largement dominant de recyclage est mécanique. reference Sources : 1. US Environment
|
105 |
+
Protection Agency / 1998 / Greenhouse Gas Emissions From Management of Selected
|
106 |
+
Materials in Municipal Waste. 2.'
|
107 |
+
- 'On les trouve généralement dans les résidus urbains solides (parfois appelées
|
108 |
+
ordures ménagères biodégradables) comme : *les déchets végétaux *les déchets de
|
109 |
+
cuisine allant dans les ordures ménagères *les déchets de papiers et cartons *les
|
110 |
+
plastiques et autres contenants ou emballages biodégradables. Cette décomposition
|
111 |
+
a notamment lieu dans des centres de stockage. Elle génère des émissions de GES
|
112 |
+
en suivant le principe du schéma représenté ci-dessus.'
|
113 |
+
- 'Description du facteur d’émissions Composition et représentativité du gisement
|
114 |
+
de déchets Le graphique ci-dessous représente la composition du gisement collecté
|
115 |
+
et modélisé pour les facteurs DEA moyen: DEA_Collecté Figure : Composition représentative
|
116 |
+
des DEA collectés en 2017 Composition des DEA Bois collectés en 2017 La famille
|
117 |
+
des DEA bois est composée de 32% de bois massif, 7% d’indésirables (morceaux de
|
118 |
+
tissus ou plastique), les 61% restant pouvant être considérés comme du panneau
|
119 |
+
de particules ou assimilé. Les panneaux de particules sont principalement composés
|
120 |
+
de particules de bois (jusqu’à 93 %) et de colles à base de formaldéhyde (entre
|
121 |
+
7 % et 12 %). Des matériaux supplémentaires peuvent également faire partie des
|
122 |
+
flux entrant (éléments de quincaillerie, vernis, revêtements etc.) mais ils sont
|
123 |
+
considérés comme négligeables. Ces informations sont issues d’une étude d’Eco-mobilier
|
124 |
+
réalisée à l’échelle nationale.'
|
125 |
+
- source_sentence: Où est stockée la partie résiduelle des déchets d'emballages qui
|
126 |
+
n'est pas recyclée ni valorisée énergétiquement?
|
127 |
+
sentences:
|
128 |
+
- 66,7% moyenne 4106C ECO CHALEUR DE BLOIS Blois 0,014 0,020 94,3% moyenne 4202C
|
129 |
+
Quartier la Cotonne Saint-Etienne 0,207 0,247 0,0% 2020 4203C Quartier de La Métare
|
130 |
+
Saint-Etienne 0,194 0,230 0,0% 2020 4204C HLM Beaulieu Montchovet IV Saint-Etienne
|
131 |
+
0,286 0,296 0,0% 2020 4206C Réseau de Firminy Firminy 0,109 0,141 49,2% moyenne
|
132 |
+
4207C Roanne énergies Roanne 0,054 0,077 78,8% moyenne 4208C Quartier Parc des
|
133 |
+
Sports Roanne 0,225 0,253 0,0% 2020 4210C Quartier Montreynaud SAINT-ETIENNE 0,082
|
134 |
+
0,105 66,8% moyenne 4211C Andrézieux-Bouthéon Andrezieux-Boutheon 0,083 0,109
|
135 |
+
67,2% 2020 4212C Montrond-les-Bains Montrond-les-Bains 0,064 0,090 78,2% moyenne
|
136 |
+
4213C Réseau de Chaleur VIACONFORT SAINT-ETIENNE 0,049 0,101 80,5% 2020 4213F
|
137 |
+
Réseaux de Froid VIACONFORT Saint-Etienne 0,013 0,026 0,0% 2020 4214C Scevia quartier
|
138 |
+
de fonsala
|
139 |
+
- et al.
|
140 |
+
- Ils sont considérés comme représentatifs jusqu'en 2022. Les différents facteurs
|
141 |
+
d’émissions proposés dans cette catégorie ont été établis avec des données datant
|
142 |
+
de 2015, et sont considérés comme représentatifs jusqu'en 2022. Représentativité
|
143 |
+
géographique FE valides génériques FE valides spécifiques sur le recyclage des
|
144 |
+
plastiques Les FE proposés sont considérés comme représentatifs de la gestion
|
145 |
+
des déchets d'emballages ménagers produits en France. Le recyclage des déchets
|
146 |
+
d'emballages ménagers produits en France est majoritairement opéré en France mais
|
147 |
+
une partie peut avoir lieu dans d'autres pays européens limitrophes de la France.
|
148 |
+
L'incinération avec valorisation des déchets d'emballages ménagers est opérée
|
149 |
+
en France. La partie résiduelle des déchets d'emballages qui n'est pas recyclée
|
150 |
+
ni valorisée énergétiquement est stockée dans des installations en France.
|
151 |
+
- source_sentence: Quel est le site web de l'expérimentation pour plus d'informations
|
152 |
+
sur les niveaux de performance et le label ?
|
153 |
+
sentences:
|
154 |
+
- 'Le recalcul en tonne.km a été réalisé à partir des hypothèses suivantes: Type
|
155 |
+
Capacité Distance Unité BC Masse type (en kg) Allocation fret (si pertinent) Tonnage
|
156 |
+
total (en tonnes) Durée de vie en km Par capacité d''avion Capacité 20 - 50 sièges
|
157 |
+
<unk>500 kms /t.km 11 705,6 0,03 0,0986 30 000 000 Par capacité d''avion Capacité
|
158 |
+
20 - 50 sièges 500-1000kms /t.km 11 700,5 0,03 0,0985 30 000 000 Par capacité
|
159 |
+
d''avion Capacité 20 - 50 sièges 1000-3500kms /t.km 11 700,5 0,04 0,1266 30 000
|
160 |
+
000 Par capacité d''avion Capacité 51-100 sièges <unk>500 kms /t.km 13 070,9 0,03
|
161 |
+
0,1218 30 000 000 Par capacité d''avion Capacité 51-100 sièges 500-1000kms /t.km
|
162 |
+
13 069,3 0,03 0,1218 30 000 000 Par capacité d''avion Capacité 51-100 sièges 1000-3500kms
|
163 |
+
/t.km 13 069,3 0,03 0,1566 30 000 000 Par capacité d''avion Capacité 101-220 sièges
|
164 |
+
<unk>500 kms /t.km 40 056,0 0,03 0,3408 40 000 000.'
|
165 |
+
- 'Les facteurs d’émissions associés ne sont à utiliser que dans ce cadre très précis.
|
166 |
+
Plus d’informations sur le [site de l’expérimentation](http://www.batiment-energiecarbone.fr/niveaux-de-performance-et-label/documentation/)[.](new_liquides.htm)
|
167 |
+
Sources : [[101] Arrêté du 31 octobre 2012 relatif à la vérification et à la quantification
|
168 |
+
des émissions déclarées dans le cadre du système d''échange de quotas d''émission
|
169 |
+
de gaz à effet de serre pour sa troisième période (2013-2020)](references.htm)
|
170 |
+
[[102] Rapport OMINEA 2011, CITEPA](references.htm) [[103] Décision 2007/589/CE
|
171 |
+
définissant des lignes directrices pour la surveillance et la déclaration des
|
172 |
+
émissions de gaz à effet de serre, conformément à la directive 2003/87/CE du Parlement
|
173 |
+
européen et du Conseil](references.htm) [[110] Wikipédia - raffinage du pétrole](references.htm)
|
174 |
+
[[111] Guide méthodologique d''application de l''application de l''article L.'
|
175 |
+
- 'Ces valeurs sont bien entendu plus précises que les valeurs ci-dessous et s''y
|
176 |
+
substitue donc. Part CH4 En pratique, il faut une durée de séjour minimum en conditions
|
177 |
+
anaérobies et une concentration minimum des eaux usées en matières organiques,
|
178 |
+
pour que les émissions soient significatives, ce qui suit ne concerne pas: *les
|
179 |
+
eaux rejetées dans un milieu non stagnant (eaux en mouvement de rivière ou de
|
180 |
+
fleuve, par exemple), où les conditions anaérobies ne sont pas réunies, *les eaux
|
181 |
+
rejetées dans un réseau qui aboutit à une station d’épuration, car le maintien
|
182 |
+
en conditions anaérobies de la matière organique en suspension (qui ne dure que
|
183 |
+
le temps d’arriver à la station) est bien trop court pour que des émissions significatives
|
184 |
+
aient lieu. Seules les eaux en sortie de station, et rejetées dans un milieu stagnant,
|
185 |
+
sont éventuellement à prendre en compte.'
|
186 |
+
model-index:
|
187 |
+
- name: gte multi base BEGES Matryoshka
|
188 |
+
results:
|
189 |
+
- task:
|
190 |
+
type: information-retrieval
|
191 |
+
name: Information Retrieval
|
192 |
+
dataset:
|
193 |
+
name: dim 768
|
194 |
+
type: dim_768
|
195 |
+
metrics:
|
196 |
+
- type: cosine_accuracy@1
|
197 |
+
value: 0.12244897959183673
|
198 |
+
name: Cosine Accuracy@1
|
199 |
+
- type: cosine_accuracy@3
|
200 |
+
value: 0.2857142857142857
|
201 |
+
name: Cosine Accuracy@3
|
202 |
+
- type: cosine_accuracy@5
|
203 |
+
value: 0.3784786641929499
|
204 |
+
name: Cosine Accuracy@5
|
205 |
+
- type: cosine_accuracy@10
|
206 |
+
value: 0.49536178107606677
|
207 |
+
name: Cosine Accuracy@10
|
208 |
+
- type: cosine_precision@1
|
209 |
+
value: 0.12244897959183673
|
210 |
+
name: Cosine Precision@1
|
211 |
+
- type: cosine_precision@3
|
212 |
+
value: 0.09523809523809523
|
213 |
+
name: Cosine Precision@3
|
214 |
+
- type: cosine_precision@5
|
215 |
+
value: 0.07569573283858998
|
216 |
+
name: Cosine Precision@5
|
217 |
+
- type: cosine_precision@10
|
218 |
+
value: 0.04953617810760668
|
219 |
+
name: Cosine Precision@10
|
220 |
+
- type: cosine_recall@1
|
221 |
+
value: 0.12244897959183673
|
222 |
+
name: Cosine Recall@1
|
223 |
+
- type: cosine_recall@3
|
224 |
+
value: 0.2857142857142857
|
225 |
+
name: Cosine Recall@3
|
226 |
+
- type: cosine_recall@5
|
227 |
+
value: 0.3784786641929499
|
228 |
+
name: Cosine Recall@5
|
229 |
+
- type: cosine_recall@10
|
230 |
+
value: 0.49536178107606677
|
231 |
+
name: Cosine Recall@10
|
232 |
+
- type: cosine_ndcg@10
|
233 |
+
value: 0.2931071876915551
|
234 |
+
name: Cosine Ndcg@10
|
235 |
+
- type: cosine_mrr@10
|
236 |
+
value: 0.23014621432988777
|
237 |
+
name: Cosine Mrr@10
|
238 |
+
- type: cosine_map@100
|
239 |
+
value: 0.2413962095024068
|
240 |
+
name: Cosine Map@100
|
241 |
+
- task:
|
242 |
+
type: information-retrieval
|
243 |
+
name: Information Retrieval
|
244 |
+
dataset:
|
245 |
+
name: dim 512
|
246 |
+
type: dim_512
|
247 |
+
metrics:
|
248 |
+
- type: cosine_accuracy@1
|
249 |
+
value: 0.11688311688311688
|
250 |
+
name: Cosine Accuracy@1
|
251 |
+
- type: cosine_accuracy@3
|
252 |
+
value: 0.300556586270872
|
253 |
+
name: Cosine Accuracy@3
|
254 |
+
- type: cosine_accuracy@5
|
255 |
+
value: 0.3784786641929499
|
256 |
+
name: Cosine Accuracy@5
|
257 |
+
- type: cosine_accuracy@10
|
258 |
+
value: 0.47866419294990725
|
259 |
+
name: Cosine Accuracy@10
|
260 |
+
- type: cosine_precision@1
|
261 |
+
value: 0.11688311688311688
|
262 |
+
name: Cosine Precision@1
|
263 |
+
- type: cosine_precision@3
|
264 |
+
value: 0.10018552875695733
|
265 |
+
name: Cosine Precision@3
|
266 |
+
- type: cosine_precision@5
|
267 |
+
value: 0.07569573283858998
|
268 |
+
name: Cosine Precision@5
|
269 |
+
- type: cosine_precision@10
|
270 |
+
value: 0.04786641929499073
|
271 |
+
name: Cosine Precision@10
|
272 |
+
- type: cosine_recall@1
|
273 |
+
value: 0.11688311688311688
|
274 |
+
name: Cosine Recall@1
|
275 |
+
- type: cosine_recall@3
|
276 |
+
value: 0.300556586270872
|
277 |
+
name: Cosine Recall@3
|
278 |
+
- type: cosine_recall@5
|
279 |
+
value: 0.3784786641929499
|
280 |
+
name: Cosine Recall@5
|
281 |
+
- type: cosine_recall@10
|
282 |
+
value: 0.47866419294990725
|
283 |
+
name: Cosine Recall@10
|
284 |
+
- type: cosine_ndcg@10
|
285 |
+
value: 0.2869476449220236
|
286 |
+
name: Cosine Ndcg@10
|
287 |
+
- type: cosine_mrr@10
|
288 |
+
value: 0.22664325470447919
|
289 |
+
name: Cosine Mrr@10
|
290 |
+
- type: cosine_map@100
|
291 |
+
value: 0.2387784414658013
|
292 |
+
name: Cosine Map@100
|
293 |
+
- task:
|
294 |
+
type: information-retrieval
|
295 |
+
name: Information Retrieval
|
296 |
+
dataset:
|
297 |
+
name: dim 256
|
298 |
+
type: dim_256
|
299 |
+
metrics:
|
300 |
+
- type: cosine_accuracy@1
|
301 |
+
value: 0.10204081632653061
|
302 |
+
name: Cosine Accuracy@1
|
303 |
+
- type: cosine_accuracy@3
|
304 |
+
value: 0.2653061224489796
|
305 |
+
name: Cosine Accuracy@3
|
306 |
+
- type: cosine_accuracy@5
|
307 |
+
value: 0.3673469387755102
|
308 |
+
name: Cosine Accuracy@5
|
309 |
+
- type: cosine_accuracy@10
|
310 |
+
value: 0.4749536178107607
|
311 |
+
name: Cosine Accuracy@10
|
312 |
+
- type: cosine_precision@1
|
313 |
+
value: 0.10204081632653061
|
314 |
+
name: Cosine Precision@1
|
315 |
+
- type: cosine_precision@3
|
316 |
+
value: 0.08843537414965986
|
317 |
+
name: Cosine Precision@3
|
318 |
+
- type: cosine_precision@5
|
319 |
+
value: 0.07346938775510203
|
320 |
+
name: Cosine Precision@5
|
321 |
+
- type: cosine_precision@10
|
322 |
+
value: 0.04749536178107607
|
323 |
+
name: Cosine Precision@10
|
324 |
+
- type: cosine_recall@1
|
325 |
+
value: 0.10204081632653061
|
326 |
+
name: Cosine Recall@1
|
327 |
+
- type: cosine_recall@3
|
328 |
+
value: 0.2653061224489796
|
329 |
+
name: Cosine Recall@3
|
330 |
+
- type: cosine_recall@5
|
331 |
+
value: 0.3673469387755102
|
332 |
+
name: Cosine Recall@5
|
333 |
+
- type: cosine_recall@10
|
334 |
+
value: 0.4749536178107607
|
335 |
+
name: Cosine Recall@10
|
336 |
+
- type: cosine_ndcg@10
|
337 |
+
value: 0.2739365043133011
|
338 |
+
name: Cosine Ndcg@10
|
339 |
+
- type: cosine_mrr@10
|
340 |
+
value: 0.21145566451688907
|
341 |
+
name: Cosine Mrr@10
|
342 |
+
- type: cosine_map@100
|
343 |
+
value: 0.22341831930709694
|
344 |
+
name: Cosine Map@100
|
345 |
+
- task:
|
346 |
+
type: information-retrieval
|
347 |
+
name: Information Retrieval
|
348 |
+
dataset:
|
349 |
+
name: dim 128
|
350 |
+
type: dim_128
|
351 |
+
metrics:
|
352 |
+
- type: cosine_accuracy@1
|
353 |
+
value: 0.10760667903525047
|
354 |
+
name: Cosine Accuracy@1
|
355 |
+
- type: cosine_accuracy@3
|
356 |
+
value: 0.24118738404452691
|
357 |
+
name: Cosine Accuracy@3
|
358 |
+
- type: cosine_accuracy@5
|
359 |
+
value: 0.3302411873840445
|
360 |
+
name: Cosine Accuracy@5
|
361 |
+
- type: cosine_accuracy@10
|
362 |
+
value: 0.4712430426716141
|
363 |
+
name: Cosine Accuracy@10
|
364 |
+
- type: cosine_precision@1
|
365 |
+
value: 0.10760667903525047
|
366 |
+
name: Cosine Precision@1
|
367 |
+
- type: cosine_precision@3
|
368 |
+
value: 0.08039579468150895
|
369 |
+
name: Cosine Precision@3
|
370 |
+
- type: cosine_precision@5
|
371 |
+
value: 0.06604823747680891
|
372 |
+
name: Cosine Precision@5
|
373 |
+
- type: cosine_precision@10
|
374 |
+
value: 0.04712430426716141
|
375 |
+
name: Cosine Precision@10
|
376 |
+
- type: cosine_recall@1
|
377 |
+
value: 0.10760667903525047
|
378 |
+
name: Cosine Recall@1
|
379 |
+
- type: cosine_recall@3
|
380 |
+
value: 0.24118738404452691
|
381 |
+
name: Cosine Recall@3
|
382 |
+
- type: cosine_recall@5
|
383 |
+
value: 0.3302411873840445
|
384 |
+
name: Cosine Recall@5
|
385 |
+
- type: cosine_recall@10
|
386 |
+
value: 0.4712430426716141
|
387 |
+
name: Cosine Recall@10
|
388 |
+
- type: cosine_ndcg@10
|
389 |
+
value: 0.2675135047982248
|
390 |
+
name: Cosine Ndcg@10
|
391 |
+
- type: cosine_mrr@10
|
392 |
+
value: 0.20498645345584124
|
393 |
+
name: Cosine Mrr@10
|
394 |
+
- type: cosine_map@100
|
395 |
+
value: 0.21574898062556175
|
396 |
+
name: Cosine Map@100
|
397 |
+
- task:
|
398 |
+
type: information-retrieval
|
399 |
+
name: Information Retrieval
|
400 |
+
dataset:
|
401 |
+
name: dim 64
|
402 |
+
type: dim_64
|
403 |
+
metrics:
|
404 |
+
- type: cosine_accuracy@1
|
405 |
+
value: 0.09647495361781076
|
406 |
+
name: Cosine Accuracy@1
|
407 |
+
- type: cosine_accuracy@3
|
408 |
+
value: 0.22448979591836735
|
409 |
+
name: Cosine Accuracy@3
|
410 |
+
- type: cosine_accuracy@5
|
411 |
+
value: 0.32653061224489793
|
412 |
+
name: Cosine Accuracy@5
|
413 |
+
- type: cosine_accuracy@10
|
414 |
+
value: 0.44341372912801486
|
415 |
+
name: Cosine Accuracy@10
|
416 |
+
- type: cosine_precision@1
|
417 |
+
value: 0.09647495361781076
|
418 |
+
name: Cosine Precision@1
|
419 |
+
- type: cosine_precision@3
|
420 |
+
value: 0.0748299319727891
|
421 |
+
name: Cosine Precision@3
|
422 |
+
- type: cosine_precision@5
|
423 |
+
value: 0.0653061224489796
|
424 |
+
name: Cosine Precision@5
|
425 |
+
- type: cosine_precision@10
|
426 |
+
value: 0.044341372912801484
|
427 |
+
name: Cosine Precision@10
|
428 |
+
- type: cosine_recall@1
|
429 |
+
value: 0.09647495361781076
|
430 |
+
name: Cosine Recall@1
|
431 |
+
- type: cosine_recall@3
|
432 |
+
value: 0.22448979591836735
|
433 |
+
name: Cosine Recall@3
|
434 |
+
- type: cosine_recall@5
|
435 |
+
value: 0.32653061224489793
|
436 |
+
name: Cosine Recall@5
|
437 |
+
- type: cosine_recall@10
|
438 |
+
value: 0.44341372912801486
|
439 |
+
name: Cosine Recall@10
|
440 |
+
- type: cosine_ndcg@10
|
441 |
+
value: 0.2486249166329699
|
442 |
+
name: Cosine Ndcg@10
|
443 |
+
- type: cosine_mrr@10
|
444 |
+
value: 0.18849500839296746
|
445 |
+
name: Cosine Mrr@10
|
446 |
+
- type: cosine_map@100
|
447 |
+
value: 0.2001634322993637
|
448 |
+
name: Cosine Map@100
|
449 |
+
---
|
450 |
+
|
451 |
+
# gte multi base BEGES Matryoshka
|
452 |
+
|
453 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [dangvantuan/sentence-camembert-base](https://huggingface.co/dangvantuan/sentence-camembert-base). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
454 |
+
|
455 |
+
## Model Details
|
456 |
+
|
457 |
+
### Model Description
|
458 |
+
- **Model Type:** Sentence Transformer
|
459 |
+
- **Base model:** [dangvantuan/sentence-camembert-base](https://huggingface.co/dangvantuan/sentence-camembert-base) <!-- at revision f932a695b88c254392fd739d537d573ab712e66a -->
|
460 |
+
- **Maximum Sequence Length:** 128 tokens
|
461 |
+
- **Output Dimensionality:** 768 tokens
|
462 |
+
- **Similarity Function:** Cosine Similarity
|
463 |
+
<!-- - **Training Dataset:** Unknown -->
|
464 |
+
- **Language:** en
|
465 |
+
- **License:** apache-2.0
|
466 |
+
|
467 |
+
### Model Sources
|
468 |
+
|
469 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
470 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
471 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
472 |
+
|
473 |
+
### Full Model Architecture
|
474 |
+
|
475 |
+
```
|
476 |
+
SentenceTransformer(
|
477 |
+
(0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: CamembertModel
|
478 |
+
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
479 |
+
)
|
480 |
+
```
|
481 |
+
|
482 |
+
## Usage
|
483 |
+
|
484 |
+
### Direct Usage (Sentence Transformers)
|
485 |
+
|
486 |
+
First install the Sentence Transformers library:
|
487 |
+
|
488 |
+
```bash
|
489 |
+
pip install -U sentence-transformers
|
490 |
+
```
|
491 |
+
|
492 |
+
Then you can load this model and run inference.
|
493 |
+
```python
|
494 |
+
from sentence_transformers import SentenceTransformer
|
495 |
+
|
496 |
+
# Download from the 🤗 Hub
|
497 |
+
model = SentenceTransformer("sylvain471/sentence-camembert-base-ademe")
|
498 |
+
# Run inference
|
499 |
+
sentences = [
|
500 |
+
"Quel est le site web de l'expérimentation pour plus d'informations sur les niveaux de performance et le label ?",
|
501 |
+
"Les facteurs d’émissions associés ne sont à utiliser que dans ce cadre très précis. Plus d’informations sur le [site de l’expérimentation](http://www.batiment-energiecarbone.fr/niveaux-de-performance-et-label/documentation/)[.](new_liquides.htm) Sources : [[101] Arrêté du 31 octobre 2012 relatif à la vérification et à la quantification des émissions déclarées dans le cadre du système d'échange de quotas d'émission de gaz à effet de serre pour sa troisième période (2013-2020)](references.htm) [[102] Rapport OMINEA 2011, CITEPA](references.htm) [[103] Décision 2007/589/CE définissant des lignes directrices pour la surveillance et la déclaration des émissions de gaz à effet de serre, conformément à la directive 2003/87/CE du Parlement européen et du Conseil](references.htm) [[110] Wikipédia - raffinage du pétrole](references.htm) [[111] Guide méthodologique d'application de l'application de l'article L.",
|
502 |
+
"Ces valeurs sont bien entendu plus précises que les valeurs ci-dessous et s'y substitue donc. Part CH4 En pratique, il faut une durée de séjour minimum en conditions anaérobies et une concentration minimum des eaux usées en matières organiques, pour que les émissions soient significatives, ce qui suit ne concerne pas: *les eaux rejetées dans un milieu non stagnant (eaux en mouvement de rivière ou de fleuve, par exemple), où les conditions anaérobies ne sont pas réunies, *les eaux rejetées dans un réseau qui aboutit à une station d’épuration, car le maintien en conditions anaérobies de la matière organique en suspension (qui ne dure que le temps d’arriver à la station) est bien trop court pour que des émissions significatives aient lieu. Seules les eaux en sortie de station, et rejetées dans un milieu stagnant, sont éventuellement à prendre en compte.",
|
503 |
+
]
|
504 |
+
embeddings = model.encode(sentences)
|
505 |
+
print(embeddings.shape)
|
506 |
+
# [3, 768]
|
507 |
+
|
508 |
+
# Get the similarity scores for the embeddings
|
509 |
+
similarities = model.similarity(embeddings, embeddings)
|
510 |
+
print(similarities.shape)
|
511 |
+
# [3, 3]
|
512 |
+
```
|
513 |
+
|
514 |
+
<!--
|
515 |
+
### Direct Usage (Transformers)
|
516 |
+
|
517 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
518 |
+
|
519 |
+
</details>
|
520 |
+
-->
|
521 |
+
|
522 |
+
<!--
|
523 |
+
### Downstream Usage (Sentence Transformers)
|
524 |
+
|
525 |
+
You can finetune this model on your own dataset.
|
526 |
+
|
527 |
+
<details><summary>Click to expand</summary>
|
528 |
+
|
529 |
+
</details>
|
530 |
+
-->
|
531 |
+
|
532 |
+
<!--
|
533 |
+
### Out-of-Scope Use
|
534 |
+
|
535 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
536 |
+
-->
|
537 |
+
|
538 |
+
## Evaluation
|
539 |
+
|
540 |
+
### Metrics
|
541 |
+
|
542 |
+
#### Information Retrieval
|
543 |
+
* Dataset: `dim_768`
|
544 |
+
* Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
|
545 |
+
|
546 |
+
| Metric | Value |
|
547 |
+
|:--------------------|:-----------|
|
548 |
+
| cosine_accuracy@1 | 0.1224 |
|
549 |
+
| cosine_accuracy@3 | 0.2857 |
|
550 |
+
| cosine_accuracy@5 | 0.3785 |
|
551 |
+
| cosine_accuracy@10 | 0.4954 |
|
552 |
+
| cosine_precision@1 | 0.1224 |
|
553 |
+
| cosine_precision@3 | 0.0952 |
|
554 |
+
| cosine_precision@5 | 0.0757 |
|
555 |
+
| cosine_precision@10 | 0.0495 |
|
556 |
+
| cosine_recall@1 | 0.1224 |
|
557 |
+
| cosine_recall@3 | 0.2857 |
|
558 |
+
| cosine_recall@5 | 0.3785 |
|
559 |
+
| cosine_recall@10 | 0.4954 |
|
560 |
+
| cosine_ndcg@10 | 0.2931 |
|
561 |
+
| cosine_mrr@10 | 0.2301 |
|
562 |
+
| **cosine_map@100** | **0.2414** |
|
563 |
+
|
564 |
+
#### Information Retrieval
|
565 |
+
* Dataset: `dim_512`
|
566 |
+
* Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
|
567 |
+
|
568 |
+
| Metric | Value |
|
569 |
+
|:--------------------|:-----------|
|
570 |
+
| cosine_accuracy@1 | 0.1169 |
|
571 |
+
| cosine_accuracy@3 | 0.3006 |
|
572 |
+
| cosine_accuracy@5 | 0.3785 |
|
573 |
+
| cosine_accuracy@10 | 0.4787 |
|
574 |
+
| cosine_precision@1 | 0.1169 |
|
575 |
+
| cosine_precision@3 | 0.1002 |
|
576 |
+
| cosine_precision@5 | 0.0757 |
|
577 |
+
| cosine_precision@10 | 0.0479 |
|
578 |
+
| cosine_recall@1 | 0.1169 |
|
579 |
+
| cosine_recall@3 | 0.3006 |
|
580 |
+
| cosine_recall@5 | 0.3785 |
|
581 |
+
| cosine_recall@10 | 0.4787 |
|
582 |
+
| cosine_ndcg@10 | 0.2869 |
|
583 |
+
| cosine_mrr@10 | 0.2266 |
|
584 |
+
| **cosine_map@100** | **0.2388** |
|
585 |
+
|
586 |
+
#### Information Retrieval
|
587 |
+
* Dataset: `dim_256`
|
588 |
+
* Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
|
589 |
+
|
590 |
+
| Metric | Value |
|
591 |
+
|:--------------------|:-----------|
|
592 |
+
| cosine_accuracy@1 | 0.102 |
|
593 |
+
| cosine_accuracy@3 | 0.2653 |
|
594 |
+
| cosine_accuracy@5 | 0.3673 |
|
595 |
+
| cosine_accuracy@10 | 0.475 |
|
596 |
+
| cosine_precision@1 | 0.102 |
|
597 |
+
| cosine_precision@3 | 0.0884 |
|
598 |
+
| cosine_precision@5 | 0.0735 |
|
599 |
+
| cosine_precision@10 | 0.0475 |
|
600 |
+
| cosine_recall@1 | 0.102 |
|
601 |
+
| cosine_recall@3 | 0.2653 |
|
602 |
+
| cosine_recall@5 | 0.3673 |
|
603 |
+
| cosine_recall@10 | 0.475 |
|
604 |
+
| cosine_ndcg@10 | 0.2739 |
|
605 |
+
| cosine_mrr@10 | 0.2115 |
|
606 |
+
| **cosine_map@100** | **0.2234** |
|
607 |
+
|
608 |
+
#### Information Retrieval
|
609 |
+
* Dataset: `dim_128`
|
610 |
+
* Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
|
611 |
+
|
612 |
+
| Metric | Value |
|
613 |
+
|:--------------------|:-----------|
|
614 |
+
| cosine_accuracy@1 | 0.1076 |
|
615 |
+
| cosine_accuracy@3 | 0.2412 |
|
616 |
+
| cosine_accuracy@5 | 0.3302 |
|
617 |
+
| cosine_accuracy@10 | 0.4712 |
|
618 |
+
| cosine_precision@1 | 0.1076 |
|
619 |
+
| cosine_precision@3 | 0.0804 |
|
620 |
+
| cosine_precision@5 | 0.066 |
|
621 |
+
| cosine_precision@10 | 0.0471 |
|
622 |
+
| cosine_recall@1 | 0.1076 |
|
623 |
+
| cosine_recall@3 | 0.2412 |
|
624 |
+
| cosine_recall@5 | 0.3302 |
|
625 |
+
| cosine_recall@10 | 0.4712 |
|
626 |
+
| cosine_ndcg@10 | 0.2675 |
|
627 |
+
| cosine_mrr@10 | 0.205 |
|
628 |
+
| **cosine_map@100** | **0.2157** |
|
629 |
+
|
630 |
+
#### Information Retrieval
|
631 |
+
* Dataset: `dim_64`
|
632 |
+
* Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
|
633 |
+
|
634 |
+
| Metric | Value |
|
635 |
+
|:--------------------|:-----------|
|
636 |
+
| cosine_accuracy@1 | 0.0965 |
|
637 |
+
| cosine_accuracy@3 | 0.2245 |
|
638 |
+
| cosine_accuracy@5 | 0.3265 |
|
639 |
+
| cosine_accuracy@10 | 0.4434 |
|
640 |
+
| cosine_precision@1 | 0.0965 |
|
641 |
+
| cosine_precision@3 | 0.0748 |
|
642 |
+
| cosine_precision@5 | 0.0653 |
|
643 |
+
| cosine_precision@10 | 0.0443 |
|
644 |
+
| cosine_recall@1 | 0.0965 |
|
645 |
+
| cosine_recall@3 | 0.2245 |
|
646 |
+
| cosine_recall@5 | 0.3265 |
|
647 |
+
| cosine_recall@10 | 0.4434 |
|
648 |
+
| cosine_ndcg@10 | 0.2486 |
|
649 |
+
| cosine_mrr@10 | 0.1885 |
|
650 |
+
| **cosine_map@100** | **0.2002** |
|
651 |
+
|
652 |
+
<!--
|
653 |
+
## Bias, Risks and Limitations
|
654 |
+
|
655 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
656 |
+
-->
|
657 |
+
|
658 |
+
<!--
|
659 |
+
### Recommendations
|
660 |
+
|
661 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
662 |
+
-->
|
663 |
+
|
664 |
+
## Training Details
|
665 |
+
|
666 |
+
### Training Dataset
|
667 |
+
|
668 |
+
#### Unnamed Dataset
|
669 |
+
|
670 |
+
|
671 |
+
* Size: 4,842 training samples
|
672 |
+
* Columns: <code>positive</code> and <code>anchor</code>
|
673 |
+
* Approximate statistics based on the first 1000 samples:
|
674 |
+
| | positive | anchor |
|
675 |
+
|:--------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
|
676 |
+
| type | string | string |
|
677 |
+
| details | <ul><li>min: 8 tokens</li><li>mean: 21.72 tokens</li><li>max: 105 tokens</li></ul> | <ul><li>min: 5 tokens</li><li>mean: 123.1 tokens</li><li>max: 128 tokens</li></ul> |
|
678 |
+
* Samples:
|
679 |
+
| positive | anchor |
|
680 |
+
|:---------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
681 |
+
| <code>Quelles sont les deux phases de cycle de vie pour les articles d'habillement qui contribuent le plus aux émissions ?</code> | <code>Les conclusions de l’étude, montrent que, sur l’ensemble du cycle de vie: * Pour les articles d’habillement, les deux phases de cycle de vie les plus contributrices sont la phase de production des matières premières (variation entre 8% pour le pull en coton recyclé et 72%pour l’anorak; 35% en moyenne) et l’étape de mise en forme (variation entre 15 et 51%; 36% en moyenne). Remarque: la phase d’utilisation est évaluée en attribuant 100% des impacts des consommables à l’article d’habillement. Ainsi le scénario de référence est: aucun lavage (pour couvrir aussi bien le lavage machine que le nettoyage à sec), aucun séchage (étape non obligatoire) et aucun repassage (étape non obligatoire). De manière générale, les procédés contributeurs pour les articles d’habillement sont: •La production de la matière première textile•L'électricité consommée pendant la mise en forme. La contribution est fonction des pays de production.</code> |
|
682 |
+
| <code>Quels sont les types de navires qui ne sont pas représentés par l'ensemble des données disponibles pour la Base Carbone ?</code> | <code>* Poste "Fabrication de véhicule" Peu de ressources bibliographiques sont disponibles et la représentativité technique des données identifiées n’est pas suffisante pour permettre une intégration d’un poste «Fabrication» dans les facteurs d’émissions existants. En effet, seules deux sources hors base de donnée ecoinvent ont permis d’évaluer grossièrement (ie. à l’aide d’hypothèses) l’impact de la fabrication d’un pétrolier et d’un vraquier. seules des analyses de cycle de vie de ferry parcourant un nombre restreint de km ont été identifiées. Aucune de ces données n’est pertinente pour évaluer le transport de marchandises. Seules des données ecoinvent correspondent techniquement aux navires recherchés pour la Base Carbone<unk>. Cet échantillon de données n’est pas satisfaisant car les sources ne sont pas suffisamment diversifiées et l’ensemble des navires types de la Base Carbone<unk> ne sont pas représentés.</code> |
|
683 |
+
| <code>Quel était le pourcentage d'abattement des émissions de gaz à effet de serre observé pour la commune de Belle Neuve ?</code> | <code>Sornac 0,106 0,145 74,1% 2020 1904C Réseau de Servières le Château SERVIERES-LE-CHATEAU 0,000 0,028 100,0% 2020 1906C BORG WARNER EYREIN 0,271 0,305 0,0% 2020 1907C Réseau de Brive BRIVE-LA-GAILLARDE 0,098 0,114 67,6% 2020 2001C Réseau de Corte CORTE 0,257 0,265 33,3% moyenne 2102C Réseau du Grand Dijon Ouest Dijon 0,098 0,131 52,7% moyenne 2105C Les Gresilles Dijon 0,088 0,122 51,4% moyenne 2106C Dijon énergies DIJON 0,055 0,077 74,6% 2020 2107C Mairie BELLENEUVE 0,109 0,150 77,2% moyenne 2108C Réseau de la commune de Nuits Saint Georges NUITS-SAINT-GEORGES 0,113 0,146 74,1% moyenne 2202C RESEAU DE CHALEUR CHAUFFERIE 1 PLOUARET 0,000 0,103 100,0% 2020 2203C RESEAU DE CHALEUR CHAUFFERIE 2 PLOUARET 0,000 0,089 100,0% 2020 2204C SMITRED OUEST d'ARMOR PLUZUNET 0,000 0,004 100,0% 2020 2205C</code> |
|
684 |
+
* Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
|
685 |
+
```json
|
686 |
+
{
|
687 |
+
"loss": "MultipleNegativesRankingLoss",
|
688 |
+
"matryoshka_dims": [
|
689 |
+
768,
|
690 |
+
512,
|
691 |
+
256,
|
692 |
+
128,
|
693 |
+
64
|
694 |
+
],
|
695 |
+
"matryoshka_weights": [
|
696 |
+
1,
|
697 |
+
1,
|
698 |
+
1,
|
699 |
+
1,
|
700 |
+
1
|
701 |
+
],
|
702 |
+
"n_dims_per_step": -1
|
703 |
+
}
|
704 |
+
```
|
705 |
+
|
706 |
+
### Training Hyperparameters
|
707 |
+
#### Non-Default Hyperparameters
|
708 |
+
|
709 |
+
- `eval_strategy`: epoch
|
710 |
+
- `per_device_train_batch_size`: 32
|
711 |
+
- `per_device_eval_batch_size`: 16
|
712 |
+
- `gradient_accumulation_steps`: 16
|
713 |
+
- `learning_rate`: 2e-05
|
714 |
+
- `num_train_epochs`: 20
|
715 |
+
- `lr_scheduler_type`: cosine
|
716 |
+
- `warmup_ratio`: 0.1
|
717 |
+
- `bf16`: True
|
718 |
+
- `tf32`: True
|
719 |
+
- `load_best_model_at_end`: True
|
720 |
+
- `optim`: adamw_torch_fused
|
721 |
+
- `batch_sampler`: no_duplicates
|
722 |
+
|
723 |
+
#### All Hyperparameters
|
724 |
+
<details><summary>Click to expand</summary>
|
725 |
+
|
726 |
+
- `overwrite_output_dir`: False
|
727 |
+
- `do_predict`: False
|
728 |
+
- `eval_strategy`: epoch
|
729 |
+
- `prediction_loss_only`: True
|
730 |
+
- `per_device_train_batch_size`: 32
|
731 |
+
- `per_device_eval_batch_size`: 16
|
732 |
+
- `per_gpu_train_batch_size`: None
|
733 |
+
- `per_gpu_eval_batch_size`: None
|
734 |
+
- `gradient_accumulation_steps`: 16
|
735 |
+
- `eval_accumulation_steps`: None
|
736 |
+
- `torch_empty_cache_steps`: None
|
737 |
+
- `learning_rate`: 2e-05
|
738 |
+
- `weight_decay`: 0.0
|
739 |
+
- `adam_beta1`: 0.9
|
740 |
+
- `adam_beta2`: 0.999
|
741 |
+
- `adam_epsilon`: 1e-08
|
742 |
+
- `max_grad_norm`: 1.0
|
743 |
+
- `num_train_epochs`: 20
|
744 |
+
- `max_steps`: -1
|
745 |
+
- `lr_scheduler_type`: cosine
|
746 |
+
- `lr_scheduler_kwargs`: {}
|
747 |
+
- `warmup_ratio`: 0.1
|
748 |
+
- `warmup_steps`: 0
|
749 |
+
- `log_level`: passive
|
750 |
+
- `log_level_replica`: warning
|
751 |
+
- `log_on_each_node`: True
|
752 |
+
- `logging_nan_inf_filter`: True
|
753 |
+
- `save_safetensors`: True
|
754 |
+
- `save_on_each_node`: False
|
755 |
+
- `save_only_model`: False
|
756 |
+
- `restore_callback_states_from_checkpoint`: False
|
757 |
+
- `no_cuda`: False
|
758 |
+
- `use_cpu`: False
|
759 |
+
- `use_mps_device`: False
|
760 |
+
- `seed`: 42
|
761 |
+
- `data_seed`: None
|
762 |
+
- `jit_mode_eval`: False
|
763 |
+
- `use_ipex`: False
|
764 |
+
- `bf16`: True
|
765 |
+
- `fp16`: False
|
766 |
+
- `fp16_opt_level`: O1
|
767 |
+
- `half_precision_backend`: auto
|
768 |
+
- `bf16_full_eval`: False
|
769 |
+
- `fp16_full_eval`: False
|
770 |
+
- `tf32`: True
|
771 |
+
- `local_rank`: 0
|
772 |
+
- `ddp_backend`: None
|
773 |
+
- `tpu_num_cores`: None
|
774 |
+
- `tpu_metrics_debug`: False
|
775 |
+
- `debug`: []
|
776 |
+
- `dataloader_drop_last`: False
|
777 |
+
- `dataloader_num_workers`: 0
|
778 |
+
- `dataloader_prefetch_factor`: None
|
779 |
+
- `past_index`: -1
|
780 |
+
- `disable_tqdm`: False
|
781 |
+
- `remove_unused_columns`: True
|
782 |
+
- `label_names`: None
|
783 |
+
- `load_best_model_at_end`: True
|
784 |
+
- `ignore_data_skip`: False
|
785 |
+
- `fsdp`: []
|
786 |
+
- `fsdp_min_num_params`: 0
|
787 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
788 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
789 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
790 |
+
- `deepspeed`: None
|
791 |
+
- `label_smoothing_factor`: 0.0
|
792 |
+
- `optim`: adamw_torch_fused
|
793 |
+
- `optim_args`: None
|
794 |
+
- `adafactor`: False
|
795 |
+
- `group_by_length`: False
|
796 |
+
- `length_column_name`: length
|
797 |
+
- `ddp_find_unused_parameters`: None
|
798 |
+
- `ddp_bucket_cap_mb`: None
|
799 |
+
- `ddp_broadcast_buffers`: False
|
800 |
+
- `dataloader_pin_memory`: True
|
801 |
+
- `dataloader_persistent_workers`: False
|
802 |
+
- `skip_memory_metrics`: True
|
803 |
+
- `use_legacy_prediction_loop`: False
|
804 |
+
- `push_to_hub`: False
|
805 |
+
- `resume_from_checkpoint`: None
|
806 |
+
- `hub_model_id`: None
|
807 |
+
- `hub_strategy`: every_save
|
808 |
+
- `hub_private_repo`: False
|
809 |
+
- `hub_always_push`: False
|
810 |
+
- `gradient_checkpointing`: False
|
811 |
+
- `gradient_checkpointing_kwargs`: None
|
812 |
+
- `include_inputs_for_metrics`: False
|
813 |
+
- `eval_do_concat_batches`: True
|
814 |
+
- `fp16_backend`: auto
|
815 |
+
- `push_to_hub_model_id`: None
|
816 |
+
- `push_to_hub_organization`: None
|
817 |
+
- `mp_parameters`:
|
818 |
+
- `auto_find_batch_size`: False
|
819 |
+
- `full_determinism`: False
|
820 |
+
- `torchdynamo`: None
|
821 |
+
- `ray_scope`: last
|
822 |
+
- `ddp_timeout`: 1800
|
823 |
+
- `torch_compile`: False
|
824 |
+
- `torch_compile_backend`: None
|
825 |
+
- `torch_compile_mode`: None
|
826 |
+
- `dispatch_batches`: None
|
827 |
+
- `split_batches`: None
|
828 |
+
- `include_tokens_per_second`: False
|
829 |
+
- `include_num_input_tokens_seen`: False
|
830 |
+
- `neftune_noise_alpha`: None
|
831 |
+
- `optim_target_modules`: None
|
832 |
+
- `batch_eval_metrics`: False
|
833 |
+
- `eval_on_start`: False
|
834 |
+
- `eval_use_gather_object`: False
|
835 |
+
- `batch_sampler`: no_duplicates
|
836 |
+
- `multi_dataset_batch_sampler`: proportional
|
837 |
+
|
838 |
+
</details>
|
839 |
+
|
840 |
+
### Training Logs
|
841 |
+
<details><summary>Click to expand</summary>
|
842 |
+
|
843 |
+
| Epoch | Step | Training Loss | dim_128_cosine_map@100 | dim_256_cosine_map@100 | dim_512_cosine_map@100 | dim_64_cosine_map@100 | dim_768_cosine_map@100 |
|
844 |
+
|:----------:|:-----:|:-------------:|:----------------------:|:----------------------:|:----------------------:|:---------------------:|:----------------------:|
|
845 |
+
| **0.9474** | **9** | **-** | **0.1043** | **0.1451** | **0.1301** | **0.0804** | **0.1353** |
|
846 |
+
| 1.0526 | 10 | 10.439 | - | - | - | - | - |
|
847 |
+
| 2.0 | 19 | - | 0.1313 | 0.1614 | 0.1639 | 0.1034 | 0.1752 |
|
848 |
+
| 2.1053 | 20 | 7.6184 | - | - | - | - | - |
|
849 |
+
| 2.9474 | 28 | - | 0.1464 | 0.1725 | 0.1818 | 0.1102 | 0.1812 |
|
850 |
+
| 3.1579 | 30 | 5.8477 | - | - | - | - | - |
|
851 |
+
| 4.0 | 38 | - | 0.1649 | 0.1915 | 0.1977 | 0.1327 | 0.2031 |
|
852 |
+
| 4.2105 | 40 | 4.7386 | - | - | - | - | - |
|
853 |
+
| 4.9474 | 47 | - | 0.1783 | 0.2023 | 0.2104 | 0.1546 | 0.2160 |
|
854 |
+
| 5.2632 | 50 | 4.011 | - | - | - | - | - |
|
855 |
+
| 6.0 | 57 | - | 0.1875 | 0.2092 | 0.2152 | 0.1625 | 0.2205 |
|
856 |
+
| 6.3158 | 60 | 3.3806 | - | - | - | - | - |
|
857 |
+
| 6.9474 | 66 | - | 0.1950 | 0.2133 | 0.2193 | 0.1639 | 0.2236 |
|
858 |
+
| 7.3684 | 70 | 2.9599 | - | - | - | - | - |
|
859 |
+
| 8.0 | 76 | - | 0.1969 | 0.2156 | 0.2272 | 0.1710 | 0.2288 |
|
860 |
+
| 8.4211 | 80 | 2.5981 | - | - | - | - | - |
|
861 |
+
| 8.9474 | 85 | - | 0.2020 | 0.2172 | 0.2280 | 0.1770 | 0.2288 |
|
862 |
+
| 9.4737 | 90 | 2.2513 | - | - | - | - | - |
|
863 |
+
| 10.0 | 95 | - | 0.2051 | 0.2235 | 0.2309 | 0.1809 | 0.2293 |
|
864 |
+
| 10.5263 | 100 | 2.01 | - | - | - | - | - |
|
865 |
+
| 10.9474 | 104 | - | 0.2043 | 0.2253 | 0.2323 | 0.1847 | 0.2321 |
|
866 |
+
| 11.5789 | 110 | 1.8012 | - | - | - | - | - |
|
867 |
+
| 12.0 | 114 | - | 0.2019 | 0.2212 | 0.2327 | 0.1873 | 0.2315 |
|
868 |
+
| 12.6316 | 120 | 1.6787 | - | - | - | - | - |
|
869 |
+
| 12.9474 | 123 | - | 0.2032 | 0.2217 | 0.2321 | 0.1886 | 0.2331 |
|
870 |
+
| 13.6842 | 130 | 1.6183 | - | - | - | - | - |
|
871 |
+
| 14.0 | 133 | - | 0.2055 | 0.2230 | 0.2330 | 0.1901 | 0.2364 |
|
872 |
+
| 14.7368 | 140 | 1.5298 | - | - | - | - | - |
|
873 |
+
| 14.9474 | 142 | - | 0.2059 | 0.2246 | 0.2349 | 0.1909 | 0.2371 |
|
874 |
+
| 15.7895 | 150 | 1.4565 | - | - | - | - | - |
|
875 |
+
| 16.0 | 152 | - | 0.2081 | 0.2250 | 0.2362 | 0.1899 | 0.2371 |
|
876 |
+
| 16.8421 | 160 | 1.4486 | - | - | - | - | - |
|
877 |
+
| 16.9474 | 161 | - | 0.2081 | 0.2241 | 0.2343 | 0.1885 | 0.2348 |
|
878 |
+
| 17.8947 | 170 | 1.4163 | - | - | - | - | - |
|
879 |
+
| 18.0 | 171 | - | 0.2072 | 0.2250 | 0.2333 | 0.1906 | 0.2363 |
|
880 |
+
| 18.9474 | 180 | 1.4396 | 0.2081 | 0.2241 | 0.2343 | 0.1885 | 0.2348 |
|
881 |
+
| **0.9474** | **9** | **-** | **0.2077** | **0.2272** | **0.2335** | **0.1906** | **0.2388** |
|
882 |
+
| 1.0526 | 10 | 1.4076 | - | - | - | - | - |
|
883 |
+
| 2.0 | 19 | - | 0.2108 | 0.2281 | 0.2376 | 0.1878 | 0.2383 |
|
884 |
+
| 2.1053 | 20 | 1.3222 | - | - | - | - | - |
|
885 |
+
| 2.9474 | 28 | - | 0.2110 | 0.2297 | 0.2366 | 0.1955 | 0.2381 |
|
886 |
+
| 3.1579 | 30 | 1.0961 | - | - | - | - | - |
|
887 |
+
| 4.0 | 38 | - | 0.2122 | 0.2285 | 0.2425 | 0.1948 | 0.2416 |
|
888 |
+
| 4.2105 | 40 | 0.9421 | - | - | - | - | - |
|
889 |
+
| 4.9474 | 47 | - | 0.2139 | 0.2296 | 0.2401 | 0.2015 | 0.2391 |
|
890 |
+
| 5.2632 | 50 | 0.7959 | - | - | - | - | - |
|
891 |
+
| 6.0 | 57 | - | 0.2135 | 0.2296 | 0.2380 | 0.1997 | 0.2405 |
|
892 |
+
| 6.3158 | 60 | 0.6813 | - | - | - | - | - |
|
893 |
+
| 6.9474 | 66 | - | 0.2163 | 0.2277 | 0.2384 | 0.1967 | 0.2424 |
|
894 |
+
| 7.3684 | 70 | 0.5678 | - | - | - | - | - |
|
895 |
+
| 8.0 | 76 | - | 0.2172 | 0.2324 | 0.2400 | 0.1989 | 0.2412 |
|
896 |
+
| 8.4211 | 80 | 0.5139 | - | - | - | - | - |
|
897 |
+
| 8.9474 | 85 | - | 0.2163 | 0.2260 | 0.2399 | 0.1968 | 0.2419 |
|
898 |
+
| 9.4737 | 90 | 0.4495 | - | - | - | - | - |
|
899 |
+
| 10.0 | 95 | - | 0.2144 | 0.2234 | 0.2390 | 0.1985 | 0.2380 |
|
900 |
+
| 10.5263 | 100 | 0.4038 | - | - | - | - | - |
|
901 |
+
| 10.9474 | 104 | - | 0.2159 | 0.2270 | 0.2394 | 0.1992 | 0.2390 |
|
902 |
+
| 11.5789 | 110 | 0.3735 | - | - | - | - | - |
|
903 |
+
| 12.0 | 114 | - | 0.2124 | 0.2245 | 0.2394 | 0.1986 | 0.2410 |
|
904 |
+
| 12.6316 | 120 | 0.3537 | - | - | - | - | - |
|
905 |
+
| 12.9474 | 123 | - | 0.2116 | 0.2236 | 0.2378 | 0.1978 | 0.2372 |
|
906 |
+
| 13.6842 | 130 | 0.3417 | - | - | - | - | - |
|
907 |
+
| 14.0 | 133 | - | 0.2115 | 0.2207 | 0.2390 | 0.1999 | 0.2369 |
|
908 |
+
| 14.7368 | 140 | 0.3236 | - | - | - | - | - |
|
909 |
+
| 14.9474 | 142 | - | 0.2102 | 0.2228 | 0.2391 | 0.2011 | 0.2363 |
|
910 |
+
| 15.7895 | 150 | 0.3081 | - | - | - | - | - |
|
911 |
+
| 16.0 | 152 | - | 0.2095 | 0.2227 | 0.2388 | 0.2010 | 0.2379 |
|
912 |
+
| 16.8421 | 160 | 0.304 | - | - | - | - | - |
|
913 |
+
| 16.9474 | 161 | - | 0.2115 | 0.2218 | 0.2398 | 0.1997 | 0.2371 |
|
914 |
+
| 17.8947 | 170 | 0.3096 | - | - | - | - | - |
|
915 |
+
| 18.0 | 171 | - | 0.2104 | 0.2226 | 0.2386 | 0.1992 | 0.2368 |
|
916 |
+
| 18.9474 | 180 | 0.3182 | 0.2172 | 0.2324 | 0.2400 | 0.1989 | 0.2412 |
|
917 |
+
| **0.9474** | **9** | **-** | **0.2156** | **0.232** | **0.2382** | **0.2004** | **0.2433** |
|
918 |
+
| 1.0526 | 10 | 0.4808 | - | - | - | - | - |
|
919 |
+
| 2.0 | 19 | - | 0.2150 | 0.2259 | 0.2368 | 0.2011 | 0.2426 |
|
920 |
+
| 2.1053 | 20 | 0.4524 | - | - | - | - | - |
|
921 |
+
| 2.9474 | 28 | - | 0.2158 | 0.2277 | 0.2422 | 0.2029 | 0.2390 |
|
922 |
+
| 3.1579 | 30 | 0.4079 | - | - | - | - | - |
|
923 |
+
| 4.0 | 38 | - | 0.2150 | 0.2280 | 0.2420 | 0.2025 | 0.2391 |
|
924 |
+
| 4.2105 | 40 | 0.3377 | - | - | - | - | - |
|
925 |
+
| 4.9474 | 47 | - | 0.2158 | 0.2284 | 0.2405 | 0.2030 | 0.2378 |
|
926 |
+
| 5.2632 | 50 | 0.3138 | - | - | - | - | - |
|
927 |
+
| 6.0 | 57 | - | 0.2156 | 0.2268 | 0.2374 | 0.2006 | 0.2389 |
|
928 |
+
| 6.3158 | 60 | 0.2666 | - | - | - | - | - |
|
929 |
+
| 6.9474 | 66 | - | 0.2128 | 0.2227 | 0.2380 | 0.2003 | 0.2369 |
|
930 |
+
| 7.3684 | 70 | 0.2385 | - | - | - | - | - |
|
931 |
+
| 8.0 | 76 | - | 0.2134 | 0.2215 | 0.2387 | 0.1978 | 0.2374 |
|
932 |
+
| 8.4211 | 80 | 0.2161 | - | - | - | - | - |
|
933 |
+
| 8.9474 | 85 | - | 0.2101 | 0.2188 | 0.2367 | 0.1990 | 0.2372 |
|
934 |
+
| 9.4737 | 90 | 0.1948 | - | - | - | - | - |
|
935 |
+
| 10.0 | 95 | - | 0.2080 | 0.2174 | 0.2355 | 0.1963 | 0.2367 |
|
936 |
+
| 10.5263 | 100 | 0.1829 | - | - | - | - | - |
|
937 |
+
| 10.9474 | 104 | - | 0.2055 | 0.2188 | 0.2344 | 0.1973 | 0.2358 |
|
938 |
+
| 11.5789 | 110 | 0.1599 | - | - | - | - | - |
|
939 |
+
| 12.0 | 114 | - | 0.2096 | 0.2193 | 0.2326 | 0.1974 | 0.2315 |
|
940 |
+
| 12.6316 | 120 | 0.1592 | - | - | - | - | - |
|
941 |
+
| 12.9474 | 123 | - | 0.2067 | 0.2170 | 0.2330 | 0.1945 | 0.2335 |
|
942 |
+
| 13.6842 | 130 | 0.1522 | - | - | - | - | - |
|
943 |
+
| 14.0 | 133 | - | 0.2072 | 0.2145 | 0.2292 | 0.1970 | 0.2351 |
|
944 |
+
| 14.7368 | 140 | 0.1475 | - | - | - | - | - |
|
945 |
+
| 14.9474 | 142 | - | 0.2076 | 0.2157 | 0.2289 | 0.1987 | 0.2351 |
|
946 |
+
| 15.7895 | 150 | 0.1372 | - | - | - | - | - |
|
947 |
+
| 16.0 | 152 | - | 0.2074 | 0.2164 | 0.2300 | 0.1985 | 0.2358 |
|
948 |
+
| 16.8421 | 160 | 0.139 | - | - | - | - | - |
|
949 |
+
| 16.9474 | 161 | - | 0.2064 | 0.2166 | 0.2304 | 0.1981 | 0.2347 |
|
950 |
+
| 17.8947 | 170 | 0.1374 | - | - | - | - | - |
|
951 |
+
| 18.0 | 171 | - | 0.2071 | 0.2167 | 0.2305 | 0.1973 | 0.2335 |
|
952 |
+
| 18.9474 | 180 | 0.1428 | 0.2065 | 0.2157 | 0.2305 | 0.1964 | 0.2332 |
|
953 |
+
| **0.9474** | **9** | **-** | **0.216** | **0.2307** | **0.2414** | **0.1998** | **0.2446** |
|
954 |
+
| 1.0526 | 10 | 0.472 | - | - | - | - | - |
|
955 |
+
| 2.0 | 19 | - | 0.2157 | 0.2279 | 0.2390 | 0.2038 | 0.2437 |
|
956 |
+
| 2.1053 | 20 | 0.4299 | - | - | - | - | - |
|
957 |
+
| 2.9474 | 28 | - | 0.2143 | 0.2290 | 0.2444 | 0.2001 | 0.2454 |
|
958 |
+
| 3.1579 | 30 | 0.3927 | - | - | - | - | - |
|
959 |
+
| 4.0 | 38 | - | 0.2170 | 0.2193 | 0.2385 | 0.1981 | 0.2399 |
|
960 |
+
| 4.2105 | 40 | 0.3396 | - | - | - | - | - |
|
961 |
+
| 4.9474 | 47 | - | 0.2131 | 0.2283 | 0.2383 | 0.1987 | 0.2421 |
|
962 |
+
| 5.2632 | 50 | 0.2937 | - | - | - | - | - |
|
963 |
+
| 6.0 | 57 | - | 0.2166 | 0.2254 | 0.2410 | 0.2018 | 0.2409 |
|
964 |
+
| 6.3158 | 60 | 0.2707 | - | - | - | - | - |
|
965 |
+
| 6.9474 | 66 | - | 0.2136 | 0.2283 | 0.2404 | 0.1973 | 0.2452 |
|
966 |
+
| 7.3684 | 70 | 0.2329 | - | - | - | - | - |
|
967 |
+
| 8.0 | 76 | - | 0.2103 | 0.2245 | 0.2392 | 0.1987 | 0.2408 |
|
968 |
+
| 8.4211 | 80 | 0.2059 | - | - | - | - | - |
|
969 |
+
| 8.9474 | 85 | - | 0.2118 | 0.2212 | 0.2366 | 0.1958 | 0.2372 |
|
970 |
+
| 9.4737 | 90 | 0.1947 | - | - | - | - | - |
|
971 |
+
| 10.0 | 95 | - | 0.2116 | 0.2166 | 0.2333 | 0.1947 | 0.2352 |
|
972 |
+
| 10.5263 | 100 | 0.1721 | - | - | - | - | - |
|
973 |
+
| 10.9474 | 104 | - | 0.2110 | 0.2168 | 0.2335 | 0.1947 | 0.2332 |
|
974 |
+
| 11.5789 | 110 | 0.1637 | - | - | - | - | - |
|
975 |
+
| 12.0 | 114 | - | 0.2076 | 0.2159 | 0.2343 | 0.1950 | 0.2331 |
|
976 |
+
| 12.6316 | 120 | 0.1553 | - | - | - | - | - |
|
977 |
+
| 12.9474 | 123 | - | 0.2077 | 0.2169 | 0.2321 | 0.1955 | 0.2342 |
|
978 |
+
| 13.6842 | 130 | 0.1488 | - | - | - | - | - |
|
979 |
+
| 14.0 | 133 | - | 0.2083 | 0.2170 | 0.2313 | 0.1952 | 0.2369 |
|
980 |
+
| 14.7368 | 140 | 0.1436 | - | - | - | - | - |
|
981 |
+
| 14.9474 | 142 | - | 0.2082 | 0.2184 | 0.2312 | 0.1927 | 0.2368 |
|
982 |
+
| 15.7895 | 150 | 0.1347 | - | - | - | - | - |
|
983 |
+
| 16.0 | 152 | - | 0.2069 | 0.2162 | 0.2297 | 0.1925 | 0.2340 |
|
984 |
+
| 16.8421 | 160 | 0.1363 | - | - | - | - | - |
|
985 |
+
| 16.9474 | 161 | - | 0.2081 | 0.2183 | 0.2331 | 0.1915 | 0.2357 |
|
986 |
+
| 17.8947 | 170 | 0.1391 | - | - | - | - | - |
|
987 |
+
| 18.0 | 171 | - | 0.2067 | 0.2170 | 0.2312 | 0.1931 | 0.2328 |
|
988 |
+
| 18.9474 | 180 | 0.1376 | 0.2077 | 0.2171 | 0.2312 | 0.1926 | 0.2316 |
|
989 |
+
| **0.9474** | **9** | **-** | **0.2157** | **0.2234** | **0.2388** | **0.2002** | **0.2414** |
|
990 |
+
| 1.0526 | 10 | 0.236 | - | - | - | - | - |
|
991 |
+
| 2.0 | 19 | - | 0.2104 | 0.2256 | 0.2406 | 0.1950 | 0.2409 |
|
992 |
+
| 2.1053 | 20 | 0.23 | - | - | - | - | - |
|
993 |
+
| 2.9474 | 28 | - | 0.2103 | 0.2267 | 0.2362 | 0.1973 | 0.2405 |
|
994 |
+
| 3.1579 | 30 | 0.2026 | - | - | - | - | - |
|
995 |
+
| 4.0 | 38 | - | 0.2052 | 0.2210 | 0.2352 | 0.1939 | 0.2405 |
|
996 |
+
| 4.2105 | 40 | 0.1806 | - | - | - | - | - |
|
997 |
+
| 4.9474 | 47 | - | 0.2055 | 0.2201 | 0.2338 | 0.1930 | 0.2397 |
|
998 |
+
| 5.2632 | 50 | 0.1738 | - | - | - | - | - |
|
999 |
+
| 6.0 | 57 | - | 0.2060 | 0.2190 | 0.2358 | 0.1935 | 0.2391 |
|
1000 |
+
| 6.3158 | 60 | 0.147 | - | - | - | - | - |
|
1001 |
+
| 6.9474 | 66 | - | 0.2071 | 0.2128 | 0.2299 | 0.1928 | 0.2321 |
|
1002 |
+
| 7.3684 | 70 | 0.1341 | - | - | - | - | - |
|
1003 |
+
| 8.0 | 76 | - | 0.2054 | 0.2114 | 0.2281 | 0.1908 | 0.2325 |
|
1004 |
+
| 8.4211 | 80 | 0.1225 | - | - | - | - | - |
|
1005 |
+
| 8.9474 | 85 | - | 0.2037 | 0.2104 | 0.2244 | 0.1933 | 0.2263 |
|
1006 |
+
| 9.4737 | 90 | 0.118 | - | - | - | - | - |
|
1007 |
+
| 10.0 | 95 | - | 0.2072 | 0.2092 | 0.2248 | 0.1902 | 0.2305 |
|
1008 |
+
| 10.5263 | 100 | 0.1037 | - | - | - | - | - |
|
1009 |
+
| 10.9474 | 104 | - | 0.2053 | 0.2096 | 0.2240 | 0.1867 | 0.2300 |
|
1010 |
+
| 11.5789 | 110 | 0.0954 | - | - | - | - | - |
|
1011 |
+
| 12.0 | 114 | - | 0.2040 | 0.2067 | 0.2230 | 0.1846 | 0.2287 |
|
1012 |
+
| 12.6316 | 120 | 0.0947 | - | - | - | - | - |
|
1013 |
+
| 12.9474 | 123 | - | 0.2006 | 0.2043 | 0.2222 | 0.1850 | 0.2267 |
|
1014 |
+
| 13.6842 | 130 | 0.0892 | - | - | - | - | - |
|
1015 |
+
| 14.0 | 133 | - | 0.2044 | 0.2060 | 0.2210 | 0.1831 | 0.2249 |
|
1016 |
+
| 14.7368 | 140 | 0.0834 | - | - | - | - | - |
|
1017 |
+
| 14.9474 | 142 | - | 0.2057 | 0.2046 | 0.2223 | 0.1802 | 0.2252 |
|
1018 |
+
| 15.7895 | 150 | 0.0821 | - | - | - | - | - |
|
1019 |
+
| 16.0 | 152 | - | 0.2047 | 0.2048 | 0.2208 | 0.1806 | 0.2244 |
|
1020 |
+
| 16.8421 | 160 | 0.0847 | - | - | - | - | - |
|
1021 |
+
| 16.9474 | 161 | - | 0.2046 | 0.2042 | 0.2221 | 0.1829 | 0.2239 |
|
1022 |
+
| 17.8947 | 170 | 0.0817 | - | - | - | - | - |
|
1023 |
+
| 18.0 | 171 | - | 0.2046 | 0.2055 | 0.2218 | 0.1813 | 0.2245 |
|
1024 |
+
| 18.9474 | 180 | 0.0833 | 0.2157 | 0.2234 | 0.2388 | 0.2002 | 0.2414 |
|
1025 |
+
|
1026 |
+
* The bold row denotes the saved checkpoint.
|
1027 |
+
</details>
|
1028 |
+
|
1029 |
+
### Framework Versions
|
1030 |
+
- Python: 3.10.12
|
1031 |
+
- Sentence Transformers: 3.0.1
|
1032 |
+
- Transformers: 4.44.2
|
1033 |
+
- PyTorch: 2.4.1+cu121
|
1034 |
+
- Accelerate: 0.34.2
|
1035 |
+
- Datasets: 2.21.0
|
1036 |
+
- Tokenizers: 0.19.1
|
1037 |
+
|
1038 |
+
## Citation
|
1039 |
+
|
1040 |
+
### BibTeX
|
1041 |
+
|
1042 |
+
#### Sentence Transformers
|
1043 |
+
```bibtex
|
1044 |
+
@inproceedings{reimers-2019-sentence-bert,
|
1045 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
1046 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
1047 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
1048 |
+
month = "11",
|
1049 |
+
year = "2019",
|
1050 |
+
publisher = "Association for Computational Linguistics",
|
1051 |
+
url = "https://arxiv.org/abs/1908.10084",
|
1052 |
+
}
|
1053 |
+
```
|
1054 |
+
|
1055 |
+
#### MatryoshkaLoss
|
1056 |
+
```bibtex
|
1057 |
+
@misc{kusupati2024matryoshka,
|
1058 |
+
title={Matryoshka Representation Learning},
|
1059 |
+
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
|
1060 |
+
year={2024},
|
1061 |
+
eprint={2205.13147},
|
1062 |
+
archivePrefix={arXiv},
|
1063 |
+
primaryClass={cs.LG}
|
1064 |
+
}
|
1065 |
+
```
|
1066 |
+
|
1067 |
+
#### MultipleNegativesRankingLoss
|
1068 |
+
```bibtex
|
1069 |
+
@misc{henderson2017efficient,
|
1070 |
+
title={Efficient Natural Language Response Suggestion for Smart Reply},
|
1071 |
+
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
|
1072 |
+
year={2017},
|
1073 |
+
eprint={1705.00652},
|
1074 |
+
archivePrefix={arXiv},
|
1075 |
+
primaryClass={cs.CL}
|
1076 |
+
}
|
1077 |
+
```
|
1078 |
+
|
1079 |
+
<!--
|
1080 |
+
## Glossary
|
1081 |
+
|
1082 |
+
*Clearly define terms in order to be accessible across audiences.*
|
1083 |
+
-->
|
1084 |
+
|
1085 |
+
<!--
|
1086 |
+
## Model Card Authors
|
1087 |
+
|
1088 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
1089 |
+
-->
|
1090 |
+
|
1091 |
+
<!--
|
1092 |
+
## Model Card Contact
|
1093 |
+
|
1094 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
1095 |
+
-->
|
config.json
ADDED
@@ -0,0 +1,29 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"_name_or_path": "dangvantuan/sentence-camembert-base",
|
3 |
+
"architectures": [
|
4 |
+
"CamembertModel"
|
5 |
+
],
|
6 |
+
"attention_probs_dropout_prob": 0.1,
|
7 |
+
"bos_token_id": 0,
|
8 |
+
"classifier_dropout": null,
|
9 |
+
"eos_token_id": 2,
|
10 |
+
"eos_token_ids": 0,
|
11 |
+
"hidden_act": "gelu",
|
12 |
+
"hidden_dropout_prob": 0.1,
|
13 |
+
"hidden_size": 768,
|
14 |
+
"initializer_range": 0.02,
|
15 |
+
"intermediate_size": 3072,
|
16 |
+
"layer_norm_eps": 1e-05,
|
17 |
+
"max_position_embeddings": 514,
|
18 |
+
"model_type": "camembert",
|
19 |
+
"num_attention_heads": 12,
|
20 |
+
"num_hidden_layers": 12,
|
21 |
+
"output_past": true,
|
22 |
+
"pad_token_id": 0,
|
23 |
+
"position_embedding_type": "absolute",
|
24 |
+
"torch_dtype": "float32",
|
25 |
+
"transformers_version": "4.44.2",
|
26 |
+
"type_vocab_size": 1,
|
27 |
+
"use_cache": true,
|
28 |
+
"vocab_size": 32005
|
29 |
+
}
|
config_sentence_transformers.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"__version__": {
|
3 |
+
"sentence_transformers": "3.0.1",
|
4 |
+
"transformers": "4.44.2",
|
5 |
+
"pytorch": "2.4.1+cu121"
|
6 |
+
},
|
7 |
+
"prompts": {},
|
8 |
+
"default_prompt_name": null,
|
9 |
+
"similarity_fn_name": null
|
10 |
+
}
|
model.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:69deffa7a298e5e496641557637135b32c0f36d17b6d6e35f860018f5ad15067
|
3 |
+
size 442510176
|
modules.json
ADDED
@@ -0,0 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"idx": 0,
|
4 |
+
"name": "0",
|
5 |
+
"path": "",
|
6 |
+
"type": "sentence_transformers.models.Transformer"
|
7 |
+
},
|
8 |
+
{
|
9 |
+
"idx": 1,
|
10 |
+
"name": "1",
|
11 |
+
"path": "1_Pooling",
|
12 |
+
"type": "sentence_transformers.models.Pooling"
|
13 |
+
}
|
14 |
+
]
|
sentence_bert_config.json
ADDED
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"max_seq_length": 128,
|
3 |
+
"do_lower_case": false
|
4 |
+
}
|
sentencepiece.bpe.model
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:988bc5a00281c6d210a5d34bd143d0363741a432fefe741bf71e61b1869d4314
|
3 |
+
size 810912
|
special_tokens_map.json
ADDED
@@ -0,0 +1,55 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"additional_special_tokens": [
|
3 |
+
"<s>NOTUSED",
|
4 |
+
"</s>NOTUSED"
|
5 |
+
],
|
6 |
+
"bos_token": {
|
7 |
+
"content": "<s>",
|
8 |
+
"lstrip": false,
|
9 |
+
"normalized": false,
|
10 |
+
"rstrip": false,
|
11 |
+
"single_word": false
|
12 |
+
},
|
13 |
+
"cls_token": {
|
14 |
+
"content": "<s>",
|
15 |
+
"lstrip": false,
|
16 |
+
"normalized": false,
|
17 |
+
"rstrip": false,
|
18 |
+
"single_word": false
|
19 |
+
},
|
20 |
+
"eos_token": {
|
21 |
+
"content": "</s>",
|
22 |
+
"lstrip": false,
|
23 |
+
"normalized": false,
|
24 |
+
"rstrip": false,
|
25 |
+
"single_word": false
|
26 |
+
},
|
27 |
+
"mask_token": {
|
28 |
+
"content": "<mask>",
|
29 |
+
"lstrip": true,
|
30 |
+
"normalized": true,
|
31 |
+
"rstrip": false,
|
32 |
+
"single_word": false
|
33 |
+
},
|
34 |
+
"pad_token": {
|
35 |
+
"content": "<pad>",
|
36 |
+
"lstrip": false,
|
37 |
+
"normalized": false,
|
38 |
+
"rstrip": false,
|
39 |
+
"single_word": false
|
40 |
+
},
|
41 |
+
"sep_token": {
|
42 |
+
"content": "</s>",
|
43 |
+
"lstrip": false,
|
44 |
+
"normalized": false,
|
45 |
+
"rstrip": false,
|
46 |
+
"single_word": false
|
47 |
+
},
|
48 |
+
"unk_token": {
|
49 |
+
"content": "<unk>",
|
50 |
+
"lstrip": false,
|
51 |
+
"normalized": false,
|
52 |
+
"rstrip": false,
|
53 |
+
"single_word": false
|
54 |
+
}
|
55 |
+
}
|
tokenizer.json
ADDED
The diff for this file is too large to render.
See raw diff
|
|
tokenizer_config.json
ADDED
@@ -0,0 +1,82 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"added_tokens_decoder": {
|
3 |
+
"0": {
|
4 |
+
"content": "<s>NOTUSED",
|
5 |
+
"lstrip": false,
|
6 |
+
"normalized": false,
|
7 |
+
"rstrip": false,
|
8 |
+
"single_word": false,
|
9 |
+
"special": true
|
10 |
+
},
|
11 |
+
"1": {
|
12 |
+
"content": "<pad>",
|
13 |
+
"lstrip": false,
|
14 |
+
"normalized": false,
|
15 |
+
"rstrip": false,
|
16 |
+
"single_word": false,
|
17 |
+
"special": true
|
18 |
+
},
|
19 |
+
"2": {
|
20 |
+
"content": "</s>NOTUSED",
|
21 |
+
"lstrip": false,
|
22 |
+
"normalized": false,
|
23 |
+
"rstrip": false,
|
24 |
+
"single_word": false,
|
25 |
+
"special": true
|
26 |
+
},
|
27 |
+
"3": {
|
28 |
+
"content": "<unk>",
|
29 |
+
"lstrip": false,
|
30 |
+
"normalized": false,
|
31 |
+
"rstrip": false,
|
32 |
+
"single_word": false,
|
33 |
+
"special": true
|
34 |
+
},
|
35 |
+
"5": {
|
36 |
+
"content": "<s>",
|
37 |
+
"lstrip": false,
|
38 |
+
"normalized": false,
|
39 |
+
"rstrip": false,
|
40 |
+
"single_word": false,
|
41 |
+
"special": true
|
42 |
+
},
|
43 |
+
"6": {
|
44 |
+
"content": "</s>",
|
45 |
+
"lstrip": false,
|
46 |
+
"normalized": false,
|
47 |
+
"rstrip": false,
|
48 |
+
"single_word": false,
|
49 |
+
"special": true
|
50 |
+
},
|
51 |
+
"32004": {
|
52 |
+
"content": "<mask>",
|
53 |
+
"lstrip": true,
|
54 |
+
"normalized": true,
|
55 |
+
"rstrip": false,
|
56 |
+
"single_word": false,
|
57 |
+
"special": true
|
58 |
+
}
|
59 |
+
},
|
60 |
+
"additional_special_tokens": [
|
61 |
+
"<s>NOTUSED",
|
62 |
+
"</s>NOTUSED"
|
63 |
+
],
|
64 |
+
"bos_token": "<s>",
|
65 |
+
"clean_up_tokenization_spaces": true,
|
66 |
+
"cls_token": "<s>",
|
67 |
+
"eos_token": "</s>",
|
68 |
+
"mask_token": "<mask>",
|
69 |
+
"max_length": 128,
|
70 |
+
"model_max_length": 128,
|
71 |
+
"pad_to_multiple_of": null,
|
72 |
+
"pad_token": "<pad>",
|
73 |
+
"pad_token_type_id": 0,
|
74 |
+
"padding_side": "right",
|
75 |
+
"sep_token": "</s>",
|
76 |
+
"sp_model_kwargs": {},
|
77 |
+
"stride": 0,
|
78 |
+
"tokenizer_class": "CamembertTokenizer",
|
79 |
+
"truncation_side": "right",
|
80 |
+
"truncation_strategy": "longest_first",
|
81 |
+
"unk_token": "<unk>"
|
82 |
+
}
|