pedevineau commited on
Commit
80df72f
1 Parent(s): f260f30

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +285 -13
README.md CHANGED
@@ -1,10 +1,57 @@
1
- **Guillaume Tell** is a French LLM based on Mistral Open-Hermes 2.5 optimized for Retrieval-Augmented Generation with source tracability and explainability.
2
 
3
- ## Purpose
4
 
5
- Guillaume Tell aims to enhance the verifiability of text generation based on French administrative sources. Given a question and a selection of five chunks/sources it will generate a sourced answer, with a special parameters for quotations.
 
 
 
6
 
7
- For instance:
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
8
 
9
  > Question: Quelles sont les étapes de la procédure de rétablissement en cas de surendettement ?
10
  >
@@ -15,21 +62,246 @@ For instance:
15
  > * **n28e7fcf81deee0ff_0** : Surendettement : rétablissement personnel avec liquidation judiciaire. Conditions. Personnes concernées. Une procédure de rétablissement personnel avec liquidation judiciaire est engagée…
16
  > * **568bebd8fb112ee_0** : Peut-on être saisi pendant la procédure de surendettement ? Dès que le dossier est recevable…
17
  >
18
- > Result:
19
- > La procédure de rétablissement en cas de surendettement comporte plusieurs étapes. Tout d'abord, la personne concernée doit répondre à certaines conditions pour être éligible à cette procédure. Ensuite, la commission de surendettement ouvre la procédure avec l'accord du surendetté. Si le surendetté possède un patrimoine pouvant être vendu, une liquidation judiciaire est prononcée<ref text="Lorsque le surendetté possède un patrimoine pouvant être vendu, la procédure de rétablissement consiste à effacer les dettes et est prononcée avec liquidation judiciaire (vente des biens).">[28e7fcf81deee0ff_0]</ref>. Dans le cas contraire, une procédure sans liquidation judiciaire est engagée<ref text="Elle est prononcée sans liquidation judiciaire (c'est-à-dire sans vente des biens) lorsque la personne surendettée ne possède pas de patrimoine.">[4c4511d1c0e6dc4c_0]</ref>.
20
-
 
 
21
  > Pendant la procédure, la suspension de toute action juridique contre le surendetté est possible<ref text="Dès le dépôt du dossier de surendettement. Durée de la suspension. La suspension, si elle est accordée, est acquise selon les cas jusqu'à l'un des événements suivants : Décision d'irrecevabilité du dossier Approbation du plan conventionnel de redressement Décision de mesures imposées Jugement prononçant un rétablissement personnel sans liquidation judiciaire Jugement d'ouverture d'une procédure de rétablissement personnel avec liquidation judiciaire Elle ne peut toutefois pas dépasser 2 ans.">[b8d3342e4ac89fe9_0]</ref>.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
22
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
23
  > Enfin, la clôture de la procédure se fait par jugement qui permet l'effacement des dettes<ref text="Jugement prononçant un rétablissement personnel sans liquidation judiciaire Jugement d'ouverture d'une procédure de rétablissement personnel avec liquidation judiciaire">[28e7fcf81deee0ff_0]</ref>.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
24
 
25
- Guillaume-Tell is currently trained and tested on a fixed selection of five sources. It should be working on a smaller or larger set but this has not been experimented yet.
 
 
26
 
27
- ## Use
28
 
29
- Like Mistral Open-Hermes 2.5, Guillaume Tell syntax is based on chatml. It requires a special system prompt, as well as a predefined syntax to append the sources to the question.
30
 
31
- ```<|im_start|>system\nTu es Albert, le chatbot des Maisons France Service qui donne des réponses sourcées.<|im_end|>\n<|im_start|>userEcrit un texte référencé en réponse à cette question : Quelles sont les étapes de la procédure de rétablissement en cas de surendettement ?\n\nLes références doivent être citées de cette manière : texte rédigé<ref text=\"[passage pertinent dans la référence]\">[\"identifiant de la référence\"]</ref>Si les références ne permettent pas de répondre, qu'il n'y a pas de réponse.\n\nLes cinq références disponibles :10965c7bc7a8e185_0 :(…)\n\n4c4511d1c0e6dc4c_0 :(…)\n\nb8d3342e4ac89fe9_0 :(…)\n\n28e7fcf81deee0ff_0 :(…)\n\ne568bebd8fb112ee_0 :(…)```
32
 
33
- We recommend to use the following parameters for text generation:
34
 
35
- ```sampling_params = SamplingParams(temperature=.7, top_p=.95, max_tokens=2000, presence_penalty = 1.5, stop = ["``"])```
 
1
+ # Carte du modèle : Guillaume Tell
2
 
3
+ [Version française](#Version-française1) / [English version](#English-version)
4
 
5
+ ---
6
+ # Version française
7
+ ---
8
+ **Guillaume Tell** est un Large Language Model (LLM) français basé sur Mistral Open-Hermes 2.5 optimisé pour le RAG (Retrieval Augmented Generation) avec traçabilité des sources et explicabilité.
9
 
10
+ ---
11
+ ## Sommaire
12
+ 1. [Détails du modèle](#Détails-du-modèle)
13
+ 2. [Utilisation](#Utilisation)
14
+ - [Contexte de création](#Contexte-de-création)
15
+ - [Finalités et limites du modèle](#Finalités-et-limites-du-modèle)
16
+ - [Cas d'usage et utilisateurs](#Cas-d’usage-et-utilisateurs)
17
+ - [Exemple](#Exemple)
18
+ 3. [Prompt](#Prompt)
19
+ 4. [Informations sur le finetuning](#Informations-sur-le-finetuning)
20
+ 5. [Utilisation d'Albert pour des tâches de RAG](#Utilisation-d’Albert-pour-des-tâches-de-RAG)
21
+ 5. [Glossaire](#Glossaire)
22
+ ---
23
+
24
+ ## Détails du modèle
25
+
26
+ ### Description du modèle
27
+
28
+ <!-- Provide a longer summary of what this model is. -->
29
+
30
+ Le modèle "Guillaume Tell" vise à améliorer la vérifiabilité de la génération de textes basés sur des sources administratives françaises. À partir d'une question et d'une sélection de cinq sources, il génère une réponse sourcée, avec des paramètres spéciaux pour les citations.
31
+
32
+
33
+ - **Développé par :** Etalab (Service du Datalab) - Direction Interministérielle du Numérique
34
+ - **Version:** Guillaume-Tell-base
35
+ - **Type de modèle :** Transformers, Text-Generation
36
+ - **Licence :** [Apache-2.0](https://spdx.org/licenses/Apache-2.0.html)
37
+ - **Entraîné depuis le modèle :** OpenHermes-2.5-Mistral-7B
38
+
39
+ ---
40
+ ## Utilisation
41
+ ### Contexte de création
42
+ Guillaume Tell a été developpé pour **ALBERT**, l’outil d’IA Générative interministérielle de l’État, et plus particulièrement dans le cadre de [l'expérimentation d'un modèle d'assistance aux conseillers numériques](https://www.france-services.gouv.fr/actualites/experimentation-dun-modele-dassistance-france-services-IA) [France services](#Glossaire) basé sur l’intelligence artificielle. Guillaume Tell vise à répondre aux besoins spécifiques des conseillers face à un LLM, en l'occurence la vérification des réponses générées par Albert pour s'assurer de leur justesse avant de les transmettre à des usagers accueillis en maison France services.
43
+
44
+ ### Finalités et limites du modèle
45
+ Guillaume Tell est un modèle de langage, avec des capacités conversationnelles et de recherche d'information sourcée. Il peut être utilisé pour formuler une réponse à des questions relatives à l'administration française (eg. démarches administratives) en allant récupérer des informations pertinentes dans sa base de connaissances (RAG) et en synthétisant une réponse à partir de celles-ci.
46
+
47
+ Guillaume Tell fournit des réponses de premier niveau et n'est pas en capacité de donner des réponses administratives complexes. Il n'est pas en capacité de répondre à des questions sortant du champ administratif français. Il formule des réponses seulement en français.
48
+
49
+ ### Cas d'usage et utilisateurs
50
+ Son usage est prévu par les agents publics des administrations françaises afin de faciliter la recherche d'information administrative. Il est déconseillé de mettre Guillaume Tell directement entre les mains de personnes qui n'ont pas été formées spécifiquement à son usage et qui manquent d'expertise sur les démarches administratives, comme par exemple les usagers des services publics. En effet, comme tout LLM, Guillaume Tell présente des risques d'erreurs ("hallucinations") ou d'oublis qu'une personne non formée ne sera pas en capacité de détecter.
51
+
52
+ ### Exemple
53
+
54
+ <!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
55
 
56
  > Question: Quelles sont les étapes de la procédure de rétablissement en cas de surendettement ?
57
  >
 
62
  > * **n28e7fcf81deee0ff_0** : Surendettement : rétablissement personnel avec liquidation judiciaire. Conditions. Personnes concernées. Une procédure de rétablissement personnel avec liquidation judiciaire est engagée…
63
  > * **568bebd8fb112ee_0** : Peut-on être saisi pendant la procédure de surendettement ? Dès que le dossier est recevable…
64
  >
65
+ > Résultat :
66
+ > La proc&eacute;dure de r&eacute;tablissement en cas de surendettement comporte plusieurs &eacute;tapes. Tout d'abord, la personne concern&eacute;e doit r&eacute;pondre &agrave; certaines conditions pour &ecirc;tre &eacute;ligible &agrave; cette proc&eacute;dure.
67
+ > Ensuite, la commission de surendettement ouvre la proc&eacute;dure avec l'accord du surendett&eacute;. Si le surendett&eacute; poss&egrave;de un patrimoine pouvant &ecirc;tre vendu, une liquidation judiciaire est prononc&eacute;e&lt;ref text=&quot;Lorsque le surendett&eacute; poss&egrave;de un patrimoine pouvant &ecirc;tre vendu, la proc&eacute;dure de r&eacute;tablissement consiste &agrave; effacer les dettes et est prononc&eacute;e avec liquidation judiciaire (vente des biens).&quot;&gt;[28e7fcf81deee0ff_0]&lt;/ref&gt;.
68
+ > Dans le cas contraire, une proc&eacute;dure sans liquidation judiciaire est engag&eacute;e&lt;ref text=&quot;Elle est prononc&eacute;e sans liquidation judiciaire (c'est-&agrave;-dire sans vente des biens) lorsque la personne surendett&eacute;e ne poss&egrave;de pas de patrimoine.&quot;&gt;[4c4511d1c0e6dc4c_0]&lt;/ref&gt;.
69
+ >
70
  > Pendant la proc&eacute;dure, la suspension de toute action juridique contre le surendett&eacute; est possible&lt;ref text=&quot;D&egrave;s le d&eacute;p&ocirc;t du dossier de surendettement. Dur&eacute;e de la suspension. La suspension, si elle est accord&eacute;e, est acquise selon les cas jusqu'&agrave; l'un des &eacute;v&eacute;nements suivants : D&eacute;cision d'irrecevabilit&eacute; du dossier Approbation du plan conventionnel de redressement D&eacute;cision de mesures impos&eacute;es Jugement pronon&ccedil;ant un r&eacute;tablissement personnel sans liquidation judiciaire Jugement d'ouverture d'une proc&eacute;dure de r&eacute;tablissement personnel avec liquidation judiciaire Elle ne peut toutefois pas d&eacute;passer 2 ans.&quot;&gt;[b8d3342e4ac89fe9_0]&lt;/ref&gt;.
71
+ >
72
+ > Enfin, la cl&ocirc;ture de la proc&eacute;dure se fait par jugement qui permet l'effacement des dettes&lt;ref text=&quot;Jugement pronon&ccedil;ant un r&eacute;tablissement personnel sans liquidation judiciaire Jugement d'ouverture d'une proc&eacute;dure de r&eacute;tablissement personnel avec liquidation judiciaire&quot;&gt;[28e7fcf81deee0ff_0]&lt;/ref&gt;.
73
+ >
74
+
75
+
76
+ <!-- Provide the basic links for the model.
77
+ ### Model Sources [optional]
78
+
79
+ - **Repository:**
80
+ - **Paper [optional]:**
81
+ - **Demo [optional]:**
82
+ -->
83
+
84
+
85
+ ---
86
+ ## Prompt
87
+
88
+ <!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
89
+
90
+ ### Format du prompt
91
+
92
+ <!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
93
+
94
+ Comme Mistral, Open-Hermes 2.5, la syntaxe de Guillaume Tell est basée sur chatml. Elle nécessite un prompt spécifique, ainsi qu'une syntaxe prédéfinie pour ajouter les sources à la question.
95
+
96
+ **Exemple de prompt:**
97
+ ```
98
+ <|im_start|>system
99
+ Tu es Albert, le chatbot des Maisons France Service qui donne des réponses sourcées.<|im_end|>
100
+ <|im_start|>user
101
+ Ecrit un texte référencé en réponse à cette question : Quelles sont les étapes de la procédure de rétablissement en cas de surendettement ?
102
+
103
+ Les références doivent être citées de cette manière : texte rédigé<ref text=\"[passage pertinent dans la référence]\">[\"identifiant de la référence\"]</ref>Si les références ne permettent pas de répondre, qu'il n'y a pas de réponse.
104
+
105
+ Les cinq références disponibles :
106
+
107
+ 10965c7bc7a8e185_0 :(…)
108
+
109
+ 4c4511d1c0e6dc4c_0 :(…)
110
+
111
+ b8d3342e4ac89fe9_0 :(…)
112
+
113
+ 28e7fcf81deee0ff_0 :(…)
114
+
115
+ e568bebd8fb112ee_0 :(…)
116
+ ```
117
+
118
+
119
+ Guillaume-Tell est actuellement entraîné et testé sur une sélection fixe de cinq sources. Il devrait fonctionner sur un ensemble plus petit ou plus grand, mais cela n'a pas encore été expérimenté.
120
+
121
+ ---
122
+
123
+ ## Informations sur le finetuning
124
+
125
+ <!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
126
+
127
+ Guillaume Tell a été fine tuné en utilisant l'approche LORA et une quantization sur 4 bits sur :
128
+ - 3880 instructions RAG synthétiques basées sur les données de service-public.fr ;
129
+ - 5000 instructions chatRAG basées sur les données de service-public.fr et d'Open Hermes.
130
+
131
+ Le code de finetuning `finetuning.py` est disponible dans la section `Files and versions`.
132
+
133
+ ---
134
+ ## Utilisation d'Albert pour des tâches de [RAG](#Glossaire)
135
+
136
+ Il est possible d'utiliser des techniques de RAG afin d'optimiser la pertinence de la réponse du modèle. Nous pouvons ainsi obtenir des réponses basées sur les bonnes données adaptées à la question.
137
+ C'est ce que nous faisons actuellement en production avec ALBERT.
138
+
139
+ À la date de la sortie du modèle, les données pour effectuer le RAG d'ALBERT sont constituées de:
140
+ - Fiches service-public.fr decoupées en chunks de 300 mots.
141
+
142
+ ---
143
+ ## Glossaire
144
+
145
+ <!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
146
+
147
+ - **France services** : réseau de structures territoriales qui combinent accueil physique et accompagnement numérique pour aider les publics reçus dans les démarches administratives de plusieurs services publics.
148
+ - **LLM** (Large Language Model): modèle de Deep Learning capable de comprendre et de générer du langage humain en traitant de grandes quantités de données textuelles.
149
+ - **RAG** (Retrieval Augmented Generation) : Technique améliorant les performances des IA génératives en permettant aux LLM d'utiliser des ressources de données supplémentaires sans besoin de réentraînement.
150
+
151
+
152
+
153
+ ---
154
+ # English version
155
+
156
+
157
+ ---
158
+ **Guillaume Tell** is a French LLM based on Mistral Open-Hermes 2.5 optimized for RAG (Retrieval Augmented Generation) with source traceability and explicability.
159
+
160
+ ---
161
+ ## Table of contents
162
+ 1. [Model details](#Model-details)
163
+ 2. [Uses](#Uses)
164
+ - [Creation context](#Creation-context)
165
+ - [Purposes and limitations of the model](#Purposes-and-limitations-of-the-model)
166
+ - [Use-cases-and-users](#Use-cases-and-users)
167
+ - [Example](#Example)
168
+ 3. [Prompt](#Prompt1)
169
+ 4. [Finetuning information](#Finetuning-information)
170
+ 5. [Using Albert for RAG tasks](#Using-Albert-for-RAG-tasks)
171
+ 5. [Glossary](#Glossary)
172
+ ---
173
 
174
+ ## Model details
175
+
176
+ ### Model Description
177
+
178
+ <!-- Provide a longer summary of what this model is. -->
179
+
180
+ Guillaume Tell vise à améliorer la vérifiabilité de la génération de textes basés sur des sources administratives françaises. A partir d'une question et d'une sélection de cinq sources, il génère une réponse sourcée, avec des paramètres spéciaux pour les citations.
181
+
182
+
183
+ - **Developed by:** Etalab (Service du Datalab) - Direction Interministérielle du Numérique
184
+ - **Version:** Guillaume-Tell-base
185
+ - **Model type:** Transformers, Text-Generation
186
+ - **License:** [Apache-2.0](https://spdx.org/licenses/Apache-2.0.html)
187
+ - **Finetuned from model :** OpenHermes-2.5-Mistral-7B
188
+
189
+ ---
190
+ ## Uses
191
+ ### Creation context
192
+ Guillaume Tell has been developed for **ALBERT**, the French government's interministerial Generative AI tool, and more specifically as part of the [experimentation of a France services advisor assistance model](https://www.france-services.gouv.fr/actualites/experimentation-dun-modele-dassistance-france-services-IA) based on artificial intelligence. Guillaume Tell is designed to meet the specific needs of advisors faced with an LLM, in this case the verification of answers generated by Albert to ensure their accuracy before transmitting them to users welcomed in France services centers.
193
+
194
+ ### Purposes and limitations of the model
195
+ Guillaume Tell is a language model, with conversational and sourced information retrieval capabilities. It can be used to formulate an answer to questions relating to the French administration (eg. administrative procedures) by retrieving relevant information from its knowledge base (RAG) and synthesizing an answer from it.
196
+
197
+ Guillaume Tell provides first-level answers and is not able to give complex administrative answers. He is not able to answer questions outside the French administrative field. He provides answers in French only.
198
+
199
+ ### Use cases and users
200
+ It is intended for use by public officials of French administrations to facilitate the search for administrative information. It is not recommended to put Guillaume Tell directly into the hands of people who have not been specifically trained in its use and who lack expertise in administrative procedures, such as users of public services. Indeed, like any LLM, Guillaume Tell presents risks of hallucination or forgetfulness that an untrained person will not be able to detect.
201
+
202
+
203
+ ### Example
204
+
205
+ <!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
206
+
207
+ > Question: Quelles sont les étapes de la procédure de rétablissement en cas de surendettement ?
208
+ >
209
+ > Sources:
210
+ > * **10965c7bc7a8e185_0** : Surendettement : rétablissement personnel avec liquidation judiciaire. La procédure de rétablissement consiste à effacer les dettes d'une personne surendettée…
211
+ > * **4c4511d1c0e6dc4c_0** : Surendettement : rétablissement personnel sans liquidation judiciaire. La procédure de rétablissement personnel consiste à effacer les dettes
212
+ > * **b8d3342e4ac89fe9_0** : Peut-on être saisi pendant la procédure de surendettement ? Dès le dépôt du dossier de surendettement. Durée de la suspension…
213
+ > * **n28e7fcf81deee0ff_0** : Surendettement : rétablissement personnel avec liquidation judiciaire. Conditions. Personnes concernées. Une procédure de rétablissement personnel avec liquidation judiciaire est engagée…
214
+ > * **568bebd8fb112ee_0** : Peut-on être saisi pendant la procédure de surendettement ? Dès que le dossier est recevable…
215
+ >
216
+ > Result:
217
+ > La proc&eacute;dure de r&eacute;tablissement en cas de surendettement comporte plusieurs &eacute;tapes. Tout d'abord, la personne concern&eacute;e doit r&eacute;pondre &agrave; certaines conditions pour &ecirc;tre &eacute;ligible &agrave; cette proc&eacute;dure.
218
+ > Ensuite, la commission de surendettement ouvre la proc&eacute;dure avec l'accord du surendett&eacute;. Si le surendett&eacute; poss&egrave;de un patrimoine pouvant &ecirc;tre vendu, une liquidation judiciaire est prononc&eacute;e&lt;ref text=&quot;Lorsque le surendett&eacute; poss&egrave;de un patrimoine pouvant &ecirc;tre vendu, la proc&eacute;dure de r&eacute;tablissement consiste &agrave; effacer les dettes et est prononc&eacute;e avec liquidation judiciaire (vente des biens).&quot;&gt;[28e7fcf81deee0ff_0]&lt;/ref&gt;.
219
+ > Dans le cas contraire, une proc&eacute;dure sans liquidation judiciaire est engag&eacute;e&lt;ref text=&quot;Elle est prononc&eacute;e sans liquidation judiciaire (c'est-&agrave;-dire sans vente des biens) lorsque la personne surendett&eacute;e ne poss&egrave;de pas de patrimoine.&quot;&gt;[4c4511d1c0e6dc4c_0]&lt;/ref&gt;.
220
+ >
221
+ > Pendant la proc&eacute;dure, la suspension de toute action juridique contre le surendett&eacute; est possible&lt;ref text=&quot;D&egrave;s le d&eacute;p&ocirc;t du dossier de surendettement. Dur&eacute;e de la suspension. La suspension, si elle est accord&eacute;e, est acquise selon les cas jusqu'&agrave; l'un des &eacute;v&eacute;nements suivants : D&eacute;cision d'irrecevabilit&eacute; du dossier Approbation du plan conventionnel de redressement D&eacute;cision de mesures impos&eacute;es Jugement pronon&ccedil;ant un r&eacute;tablissement personnel sans liquidation judiciaire Jugement d'ouverture d'une proc&eacute;dure de r&eacute;tablissement personnel avec liquidation judiciaire Elle ne peut toutefois pas d&eacute;passer 2 ans.&quot;&gt;[b8d3342e4ac89fe9_0]&lt;/ref&gt;.
222
+ >
223
  > Enfin, la cl&ocirc;ture de la proc&eacute;dure se fait par jugement qui permet l'effacement des dettes&lt;ref text=&quot;Jugement pronon&ccedil;ant un r&eacute;tablissement personnel sans liquidation judiciaire Jugement d'ouverture d'une proc&eacute;dure de r&eacute;tablissement personnel avec liquidation judiciaire&quot;&gt;[28e7fcf81deee0ff_0]&lt;/ref&gt;.
224
+ >
225
+
226
+
227
+ <!-- Provide the basic links for the model.
228
+ ### Model Sources [optional]
229
+
230
+ - **Repository:**
231
+ - **Paper [optional]:**
232
+ - **Demo [optional]:**
233
+ -->
234
+ ---
235
+ ## Prompt
236
+
237
+ <!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
238
+
239
+ ### Prompt format
240
+
241
+ <!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
242
+
243
+ Like Mistral Open-Hermes 2.5, Guillaume Tell's syntax is based on chatml. It requires a specific prompt, as well as a predefined syntax for adding sources to the question.
244
+
245
+ **Prompt example :**
246
+ ```
247
+ <|im_start|>system
248
+ Tu es Albert, le chatbot des Maisons France Service qui donne des réponses sourcées.<|im_end|>
249
+ <|im_start|>user
250
+ Ecrit un texte référencé en réponse à cette question : Quelles sont les étapes de la procédure de rétablissement en cas de surendettement ?
251
+
252
+ Les références doivent être citées de cette manière : texte rédigé<ref text=\"[passage pertinent dans la référence]\">[\"identifiant de la référence\"]</ref>Si les références ne permettent pas de répondre, qu'il n'y a pas de réponse.
253
+
254
+ Les cinq références disponibles :
255
+
256
+ 10965c7bc7a8e185_0 :(…)
257
+
258
+ 4c4511d1c0e6dc4c_0 :(…)
259
+
260
+ b8d3342e4ac89fe9_0 :(…)
261
+
262
+ 28e7fcf81deee0ff_0 :(…)
263
+
264
+ e568bebd8fb112ee_0 :(…)
265
+ ```
266
+
267
+
268
+ Guillaume-Tell is currently being trained and tested on a fixed selection of five sources. It should work on a smaller or larger set, but this has not yet been tested.
269
+
270
+ ---
271
+ ## Finetuning information
272
+
273
+ <!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
274
+
275
+ Guillaume Tell was fine-tuned using the LORA approach and 4-bit quantization on :
276
+ - 3880 synthetic RAG instructions based on service-public.fr data
277
+ - 5000 chatRAG instructions based on service-public.fr and Open Hermes data.
278
+
279
+ The finetuning code `finetuning.py` is available in the `Files and versions` section.
280
+
281
+ ---
282
+ ## Using Albert for [RAG](#Glossary) tasks
283
+
284
+ RAG techniques can be used to optimize the relevance of the model's response. In this way, we can obtain answers based on the right data for the right question.
285
+ This is what we are currently doing in production with ALBERT.
286
+
287
+ At the time of the model's release, the data for ALBERT's RAG consisted of the following:
288
+ - service-public.fr sheets cut into 300-word chunks
289
+ ---
290
+ ## Glossary
291
+
292
+ <!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
293
+ - **France services** : network of local structures that combine physical reception with digital support to help visitors with administrative procedures for several public services.
294
+
295
+ - **LLM** (Large Language Model): Deep Learning model capable of understanding and generating human language by processing large amounts of textual data.
296
 
297
+ - **RAG** (Retrieval Augmented Generation): Technique improving the performance of generative AI by enabling LLMs to use additional data resources without the need for retraining.
298
+ ---
299
+ <!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
300
 
301
+ <!--
302
 
303
+ ## Evaluation
304
 
305
+ <!-- This section describes the evaluation protocols and provides the results. -->
306
 
 
307