tokenizer-arena / stats /compression_rate /CohereForAI.aya-101 @ cc100.ja.diff.json
xu-song's picture
add compression_rate details
a4208a2
[
{
"text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!",
"decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!",
"diff": [
"replace text[36:37] --> decoded_text[36:37] '!' --> '!'"
],
"n_oov_chars": 1,
"oov_ratio": 0.02702702702702703,
"oov_charset": "[\"!\"]"
},
{
"text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。",
"decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。",
"diff": [
"replace text[3:4] --> decoded_text[3:4] '1' --> '1'"
],
"n_oov_chars": 1,
"oov_ratio": 0.02040816326530612,
"oov_charset": "[\"1\"]"
},
{
"text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。",
"decoded_text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。",
"diff": [
"replace text[35:36] --> decoded_text[35:36] '5' --> '5'",
"replace text[51:52] --> decoded_text[51:52] '1' --> '1'"
],
"n_oov_chars": 2,
"oov_ratio": 0.03125,
"oov_charset": "[\"5\", \"1\"]"
},
{
"text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。……でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。",
"decoded_text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。......でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。",
"diff": [
"replace text[30:32] --> decoded_text[30:36] '……' --> '......'"
],
"n_oov_chars": 2,
"oov_ratio": 0.024096385542168676,
"oov_charset": "[\"…\"]"
},
{
"text": "何故こんなものを……と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。",
"decoded_text": "何故こんなものを......と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。",
"diff": [
"replace text[8:10] --> decoded_text[8:14] '……' --> '......'"
],
"n_oov_chars": 2,
"oov_ratio": 0.029411764705882353,
"oov_charset": "[\"…\"]"
},
{
"text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。",
"decoded_text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。",
"diff": [
"replace text[14:15] --> decoded_text[14:15] '!' --> '!'"
],
"n_oov_chars": 1,
"oov_ratio": 0.015384615384615385,
"oov_charset": "[\"!\"]"
},
{
"text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。",
"decoded_text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。",
"diff": [
"replace text[2:3] --> decoded_text[2:3] '1' --> '1'"
],
"n_oov_chars": 1,
"oov_ratio": 0.029411764705882353,
"oov_charset": "[\"1\"]"
},
{
"text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?",
"decoded_text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?",
"diff": [
"replace text[41:42] --> decoded_text[41:42] '?' --> '?'"
],
"n_oov_chars": 1,
"oov_ratio": 0.023809523809523808,
"oov_charset": "[\"?\"]"
},
{
"text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。",
"decoded_text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。",
"diff": [
"replace text[0:1] --> decoded_text[0:1] '1' --> '1'"
],
"n_oov_chars": 1,
"oov_ratio": 0.024390243902439025,
"oov_charset": "[\"1\"]"
},
{
"text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。",
"decoded_text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。",
"diff": [
"replace text[36:37] --> decoded_text[36:37] '?' --> '?'"
],
"n_oov_chars": 1,
"oov_ratio": 0.015384615384615385,
"oov_charset": "[\"?\"]"
}
]