Utiliser Claire pour faire des résumés

#2
by Stephane1 - opened

Bonjour

Quelle est la meilleure manière d'utiliser Claire pour faire des résumés de meeting, sachant que son context est limité ?
Merci à vous

OpenLLM France org

Bonjour,

Claire n'est pas actuellement fine-tuné pour faire du résumé. C'est quelque chose que l'on voudrait faire, mais c'est pas prioritaire pour le moment, en partie parce que nous n'avons pas terminé la collecte de données nécessaires pour le faire sur le français.

Merci pour votre réponse

Que conseillez vous comme LLM Français pour faire des résumés ? Je travaille au ministère de la justice et nous aurions beaucoup de cas d'usages à explorer

Il faut trouver un modèle du type instruct. De notre coté, nous avons testé les modèles instruct de XGen (https://huggingface.co/Salesforce/xgen-7b-8k-inst), Llama2 (https://huggingface.co/togethercomputer/Llama-2-7B-32K-Instruct), Open Assistant (mais on ne retrouve plus le même modèle) et ChatGPT. XGen nous semblait intéressant justement car il a une taille de contexte de 8000 tokens. Mais on a trouvé que les performances étaient quand même meilleures quand on limitait l'input à 4000 tokens (ce qui revient à la taille de contexte de Llama).

Nous avons ensuite testé deux stratégies pour gérer la limitation de contexte : 1) segmenter la transcription en chunks de 4000 tokens -> faire un résumé de chaque chunk -> utiliser un LLM pour synthétiser les chunks et 2) segmenter la transcriptions en chunks un peu plus petits -> pour chaque chunk (à partir du deuxième), passer le chunk + le résumé de l'étape précédente au LLM pour continuer le résumé précédent. ChatGPT se débrouille bien avec les deux stratégies et llama avait l'air prometteur pour les deux aussi, mais on a eu du mal avec la stratégie 2 pour les autres modèles.

Si jamais vous voulez en discuter davantage et même parler des éventuelles collaborations sur le sujet, n'hésitez pas à revenir vers moi. C'est un sujet qui nous intéresse beaucoup à Linagora et sur lequel on compte revenir rapidement.

Sign up or log in to comment