tokenizer-arena / stats /compression_rate /CohereForAI.aya-101 @ cc100.fr.diff.json
xu-song's picture
add compression_rate details
a4208a2
[
{
"text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie",
"decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie",
"diff": [
"delete text[193:194] --> decoded_text[193:193] ' ' --> ''"
],
"n_oov_chars": 0,
"oov_ratio": 0.0,
"oov_charset": "[]"
},
{
"text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort",
"decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort",
"diff": [
"delete text[150:151] --> decoded_text[150:150] ' ' --> ''"
],
"n_oov_chars": 0,
"oov_ratio": 0.0,
"oov_charset": "[]"
},
{
"text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)",
"decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)",
"diff": [
"delete text[100:101] --> decoded_text[100:100] ' ' --> ''"
],
"n_oov_chars": 0,
"oov_ratio": 0.0,
"oov_charset": "[]"
},
{
"text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^",
"decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^",
"diff": [
"delete text[23:24] --> decoded_text[23:23] ' ' --> ''"
],
"n_oov_chars": 0,
"oov_ratio": 0.0,
"oov_charset": "[]"
},
{
"text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")",
"decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")",
"diff": [
"delete text[277:278] --> decoded_text[277:277] ' ' --> ''"
],
"n_oov_chars": 0,
"oov_ratio": 0.0,
"oov_charset": "[]"
},
{
"text": "Quand les élus se réunissent-ils ?",
"decoded_text": "Quand les élus se réunissent-ils?",
"diff": [
"delete text[32:33] --> decoded_text[32:32] ' ' --> ''"
],
"n_oov_chars": 0,
"oov_ratio": 0.0,
"oov_charset": "[]"
},
{
"text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici",
"decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici",
"diff": [
"delete text[34:35] --> decoded_text[34:34] ' ' --> ''"
],
"n_oov_chars": 0,
"oov_ratio": 0.0,
"oov_charset": "[]"
},
{
"text": "- Si tu étais une couleur, tu serais… Insérez votre réponse ici",
"decoded_text": "- Si tu étais une couleur, tu serais... Insérez votre réponse ici",
"diff": [
"replace text[36:37] --> decoded_text[36:39] '…' --> '...'"
],
"n_oov_chars": 1,
"oov_ratio": 0.015873015873015872,
"oov_charset": "[\"…\"]"
},
{
"text": "- Si tu étais une plante, tu serais… Insérez votre réponse ici",
"decoded_text": "- Si tu étais une plante, tu serais... Insérez votre réponse ici",
"diff": [
"replace text[35:36] --> decoded_text[35:38] '…' --> '...'"
],
"n_oov_chars": 1,
"oov_ratio": 0.016129032258064516,
"oov_charset": "[\"…\"]"
},
{
"text": "- Si tu étais un aliment, tu serais… Insérez votre réponse ici",
"decoded_text": "- Si tu étais un aliment, tu serais... Insérez votre réponse ici",
"diff": [
"replace text[35:36] --> decoded_text[35:38] '…' --> '...'"
],
"n_oov_chars": 1,
"oov_ratio": 0.016129032258064516,
"oov_charset": "[\"…\"]"
}
]