diff --git a/.gitignore b/.gitignore
index 6031a6e9de8990b6ef46ad34d41453731323a863..63d9370a512bae1bf06b75f32e78878482af1a2e 100644
--- a/.gitignore
+++ b/.gitignore
@@ -15,7 +15,6 @@ eggs/
.eggs/
.idea/
gradio_cached_examples
-stats/
test/
wip/
tools/
\ No newline at end of file
diff --git a/compression_app.py b/compression_app.py
index da5c29d323f32f0d0be7c7b42f9d599db45b8e1c..86147bd44f229cb6de3018beafe6f9f26d5f1c5a 100644
--- a/compression_app.py
+++ b/compression_app.py
@@ -38,9 +38,15 @@ The encoding and decoding process can be formulated as
- **Lossless**
Lossless tokenization preserves the exact original text, i.e. `decoded_text = input_text`.
- - Most lossy tokenizers get many out-of-vocabulary tokens. 👉 Check the [oov of bert-base-uncased](https://huggingface.co/spaces/eson/tokenizer-arena/blob/main/stats/compression_rate/google-bert.bert-base-cased%20%40%20cc100.zh-Hans.diff.json).
- - Some other tokenizers have no oov, but still be lossy due to text normalization. For example qwen performs [unicode normalization](https://github.com/huggingface/transformers/blob/v4.42.3/src/transformers/models/qwen2/tokenization_qwen2.py#L338),
- which may bring some [slight differences](https://huggingface.co/spaces/eson/tokenizer-arena/raw/main/stats/compression_rate/Qwen.Qwen1.5-1.8B%20@%20cc100.ja.diff.json) to the reconstructed text.
+ - Most lossy tokenizers get many out-of-vocabulary tokens. 👉 Check the
+ oov of [bert](https://huggingface.co/spaces/eson/tokenizer-arena/blob/main/stats/compression_rate/google-bert.bert-base-cased%20%40%20cc100.zh-Hans.diff.json) and
+ [t5](https://huggingface.co/spaces/eson/tokenizer-arena/blob/main/stats/compression_rate/google-t5.t5-large%20%40%20cc100.es.diff.json).
+ - Some other tokenizers have no oov, but still be lossy due to text normalization. For example, qwen performs [unicode normalization](https://github.com/huggingface/transformers/blob/v4.42.3/src/transformers/models/qwen2/tokenization_qwen2.py#L338) in encoding process,
+ llama performs [clean_up_tokenization_spaces](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B/blob/main/tokenizer_config.json#L2053) in decoding process,
+ which may bring some slight differences to the reconstructed text. 👉 Check the diff of
+ [qwen](https://huggingface.co/spaces/eson/tokenizer-arena/raw/main/stats/compression_rate/Qwen.Qwen1.5-1.8B%20@%20cc100.ja.diff.json) and
+ [llama](https://huggingface.co/spaces/eson/tokenizer-arena/raw/main/stats/compression_rate/meta-llama.Meta-Llama-3.1-405B%20@%20cc100.en.diff.json).
+
- **Compression Rate**
There are mainly two types of metric to represent the `input_text`:
@@ -50,7 +56,7 @@ There are mainly two types of metric to represent the `input_text`:
To evaluate compression rate, simple metrics can be "how many chars per token" or "how many bytes per token".
In this leaderboard, we adopt more frequently used metric: "how many chars per token" and
"how many billion tokens per gigabytes corpus", i.e. `char/token` and `b_tokens/g_bytes`.
-💬 [Discussions is Welcome](https://huggingface.co/spaces/eson/tokenizer-arena/discussions)
+💬 [Discussion is Welcome](https://huggingface.co/spaces/eson/tokenizer-arena/discussions)
"""
diff --git a/stats/compression_rate.json b/stats/compression_rate.json
index f855ce70a61ca2003aec7c30d6c4a52179ae1647..84938d32130a0bb38abc196798202a06c5150c60 100644
--- a/stats/compression_rate.json
+++ b/stats/compression_rate.json
@@ -10258,5 +10258,53 @@
"oov_ratio": 0.0,
"_oov_charset": "[]",
"lossless": true
+ },
+ "mistralai/Mistral-Nemo-Instruct-2407 @ cc100/en": {
+ "tokenizer": "Mistral-Nemo-Instruct-2407",
+ "organization": "Mistral",
+ "vocab_size": 131072,
+ "_n_bytes": 1124813,
+ "_n_tokens": 261607,
+ "_n_chars": 1121360,
+ "_n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "_oov_charset": "[]",
+ "lossless": true
+ },
+ "mistralai/Mistral-Nemo-Instruct-2407 @ cc100/zh-Hans": {
+ "tokenizer": "Mistral-Nemo-Instruct-2407",
+ "organization": "Mistral",
+ "vocab_size": 131072,
+ "_n_bytes": 2633047,
+ "_n_tokens": 855499,
+ "_n_chars": 927311,
+ "_n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "_oov_charset": "[]",
+ "lossless": true
+ },
+ "mistralai/Mistral-Nemo-Instruct-2407 @ cc100/fr": {
+ "tokenizer": "Mistral-Nemo-Instruct-2407",
+ "organization": "Mistral",
+ "vocab_size": 131072,
+ "_n_bytes": 1540504,
+ "_n_tokens": 361958,
+ "_n_chars": 1484970,
+ "_n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "_oov_charset": "[]",
+ "lossless": true
+ },
+ "mistralai/Mistral-Nemo-Instruct-2407 @ cc100/es": {
+ "tokenizer": "Mistral-Nemo-Instruct-2407",
+ "organization": "Mistral",
+ "vocab_size": 131072,
+ "_n_bytes": 1664455,
+ "_n_tokens": 392597,
+ "_n_chars": 1630297,
+ "_n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "_oov_charset": "[]",
+ "lossless": true
}
}
\ No newline at end of file
diff --git a/stats/compression_rate/Qwen.Qwen2-72B @ cc100.ar.diff.json b/stats/compression_rate/Qwen.Qwen2-72B @ cc100.ar.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..e78e4a372286263b8cacf7a3e3a27af596d940b2
--- /dev/null
+++ b/stats/compression_rate/Qwen.Qwen2-72B @ cc100.ar.diff.json
@@ -0,0 +1,117 @@
+[
+ {
+ "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
+ "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
+ "diff": [
+ "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'",
+ "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....",
+ "decoded_text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....",
+ "diff": [
+ "insert text[145:145] --> decoded_text[145:146] '' --> 'ٍ'",
+ "delete text[146:147] --> decoded_text[147:147] 'ٍ' --> ''",
+ "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'",
+ "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .",
+ "decoded_text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .",
+ "diff": [
+ "insert text[326:326] --> decoded_text[326:327] '' --> 'َ'",
+ "delete text[327:328] --> decoded_text[328:328] 'َ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.",
+ "decoded_text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.",
+ "diff": [
+ "insert text[497:497] --> decoded_text[497:498] '' --> 'َ'",
+ "delete text[498:499] --> decoded_text[499:499] 'َ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.",
+ "decoded_text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.",
+ "diff": [
+ "insert text[825:825] --> decoded_text[825:826] '' --> 'َ'",
+ "delete text[826:827] --> decoded_text[827:827] 'َ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )",
+ "decoded_text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )",
+ "diff": [
+ "insert text[286:286] --> decoded_text[286:287] '' --> 'َ'",
+ "replace text[287:295] --> decoded_text[288:296] 'َهَ وَال' --> 'هَ وَالَ'",
+ "delete text[296:297] --> decoded_text[297:297] 'َ' --> ''",
+ "insert text[333:333] --> decoded_text[333:334] '' --> 'َ'",
+ "delete text[334:335] --> decoded_text[335:335] 'َ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا",
+ "decoded_text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا",
+ "diff": [
+ "insert text[2:2] --> decoded_text[2:3] '' --> 'َ'",
+ "delete text[3:4] --> decoded_text[4:4] 'َ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).",
+ "decoded_text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).",
+ "diff": [
+ "insert text[23:23] --> decoded_text[23:24] '' --> 'َ'",
+ "delete text[24:25] --> decoded_text[25:25] 'َ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم",
+ "decoded_text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم",
+ "diff": [
+ "insert text[13:13] --> decoded_text[13:14] '' --> 'َ'",
+ "delete text[14:15] --> decoded_text[15:15] 'َ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد",
+ "decoded_text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد",
+ "diff": [
+ "insert text[50:50] --> decoded_text[50:51] '' --> 'َ'",
+ "delete text[51:52] --> decoded_text[52:52] 'َ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/Qwen.Qwen2-72B @ cc100.de.diff.json b/stats/compression_rate/Qwen.Qwen2-72B @ cc100.de.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..3c7cc0a5cbaf82bf7dab7e840259c64e7b35fee7
--- /dev/null
+++ b/stats/compression_rate/Qwen.Qwen2-72B @ cc100.de.diff.json
@@ -0,0 +1,109 @@
+[
+ {
+ "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?",
+ "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?",
+ "diff": [
+ "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.",
+ "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.",
+ "diff": [
+ "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.",
+ "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.",
+ "diff": [
+ "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:",
+ "decoded_text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:",
+ "diff": [
+ "replace text[6:8] --> decoded_text[6:7] 'ü' --> 'ü'",
+ "replace text[35:37] --> decoded_text[34:35] 'ä' --> 'ä'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Zum einen haben wir im März einen neuen Kirchenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Gemeinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglückwünschen: Denn es ist nicht selbstverständlich, für ein Amt von sechs Jahren Dauer zu kandidieren.",
+ "decoded_text": "Zum einen haben wir im März einen neuen Kirchenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Gemeinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglückwünschen: Denn es ist nicht selbstverständlich, für ein Amt von sechs Jahren Dauer zu kandidieren.",
+ "diff": [
+ "replace text[24:26] --> decoded_text[24:25] 'ä' --> 'ä'",
+ "replace text[61:63] --> decoded_text[60:61] 'ä' --> 'ä'",
+ "replace text[69:71] --> decoded_text[67:68] 'ü' --> 'ü'",
+ "replace text[81:83] --> decoded_text[78:79] 'Ä' --> 'Ä'",
+ "replace text[162:164] --> decoded_text[158:159] 'ü' --> 'ü'",
+ "replace text[180:182] --> decoded_text[175:176] 'ü' --> 'ü'",
+ "replace text[295:297] --> decoded_text[289:290] 'ü' --> 'ü'",
+ "replace text[301:303] --> decoded_text[294:295] 'ü' --> 'ü'",
+ "replace text[340:342] --> decoded_text[332:333] 'ä' --> 'ä'",
+ "replace text[352:354] --> decoded_text[343:344] 'ü' --> 'ü'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Darüber freuen wir uns. Und wenn Sie je manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestärken.",
+ "decoded_text": "Darüber freuen wir uns. Und wenn Sie je manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestärken.",
+ "diff": [
+ "replace text[3:5] --> decoded_text[3:4] 'ü' --> 'ü'",
+ "replace text[122:124] --> decoded_text[121:122] 'ä' --> 'ä'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine besondere Zeit erleben – wie den Konfirmandenunterricht. Die anderen aber daran teilhaben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!",
+ "decoded_text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine besondere Zeit erleben – wie den Konfirmandenunterricht. Die anderen aber daran teilhaben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!",
+ "diff": [
+ "replace text[184:186] --> decoded_text[184:185] 'ü' --> 'ü'",
+ "replace text[203:205] --> decoded_text[202:203] 'ü' --> 'ü'",
+ "replace text[209:211] --> decoded_text[207:208] 'ü' --> 'ü'",
+ "replace text[265:267] --> decoded_text[262:263] 'ü' --> 'ü'",
+ "replace text[288:290] --> decoded_text[284:285] 'ü' --> 'ü'",
+ "replace text[297:299] --> decoded_text[292:293] 'ü' --> 'ü'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "‹ Herzlichen Dank für all Ihre Spenden!",
+ "decoded_text": "‹ Herzlichen Dank für all Ihre Spenden!",
+ "diff": [
+ "replace text[19:21] --> decoded_text[19:20] 'ü' --> 'ü'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.",
+ "decoded_text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.",
+ "diff": [
+ "replace text[166:168] --> decoded_text[166:167] 'ä' --> 'ä'",
+ "replace text[222:224] --> decoded_text[221:222] 'ü' --> 'ü'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/Qwen.Qwen2-72B @ cc100.fa.diff.json b/stats/compression_rate/Qwen.Qwen2-72B @ cc100.fa.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..5b91e2d9037ac0d5273684a41a946d6625c4d8df
--- /dev/null
+++ b/stats/compression_rate/Qwen.Qwen2-72B @ cc100.fa.diff.json
@@ -0,0 +1,145 @@
+[
+ {
+ "text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه",
+ "decoded_text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه",
+ "diff": [
+ "insert text[436:436] --> decoded_text[436:437] '' --> 'َ'",
+ "delete text[437:438] --> decoded_text[438:438] 'َ' --> ''",
+ "insert text[520:520] --> decoded_text[520:521] '' --> 'َ'",
+ "delete text[521:522] --> decoded_text[522:522] 'َ' --> ''",
+ "insert text[543:543] --> decoded_text[543:544] '' --> 'َ'",
+ "delete text[544:545] --> decoded_text[545:545] 'َ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معاملهای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمیکند.»[1]",
+ "decoded_text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معاملهای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمیکند.»[1]",
+ "diff": [
+ "insert text[77:77] --> decoded_text[77:78] '' --> 'َ'",
+ "delete text[78:79] --> decoded_text[79:79] 'َ' --> ''",
+ "insert text[100:100] --> decoded_text[100:101] '' --> 'َ'",
+ "delete text[101:102] --> decoded_text[102:102] 'َ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسهای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]",
+ "decoded_text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسهای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]",
+ "diff": [
+ "insert text[7:7] --> decoded_text[7:8] '' --> 'َ'",
+ "delete text[8:9] --> decoded_text[9:9] 'َ' --> ''",
+ "insert text[20:20] --> decoded_text[20:21] '' --> 'َ'",
+ "delete text[21:22] --> decoded_text[22:22] 'َ' --> ''",
+ "insert text[33:33] --> decoded_text[33:34] '' --> 'َ'",
+ "delete text[34:35] --> decoded_text[35:35] 'َ' --> ''",
+ "insert text[72:72] --> decoded_text[72:73] '' --> 'َ'",
+ "delete text[73:74] --> decoded_text[74:74] 'َ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه میبرم به تو از وسوسههای شیاطین* و پناه میبرم به تو ای پروردگار من؛ از اینکه حاضر شوند.»([20]",
+ "decoded_text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه میبرم به تو از وسوسههای شیاطین* و پناه میبرم به تو ای پروردگار من؛ از اینکه حاضر شوند.»([20]",
+ "diff": [
+ "insert text[12:12] --> decoded_text[12:13] '' --> 'ِ'",
+ "delete text[13:14] --> decoded_text[14:14] 'ِ' --> ''",
+ "insert text[45:45] --> decoded_text[45:46] '' --> 'َ'",
+ "delete text[46:47] --> decoded_text[47:47] 'َ' --> ''",
+ "insert text[76:76] --> decoded_text[76:77] '' --> 'ِ'",
+ "delete text[77:78] --> decoded_text[78:78] 'ِ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "امیرالمؤمنین علیهالسلام فرمودهاند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]",
+ "decoded_text": "امیرالمؤمنین علیهالسلام فرمودهاند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]",
+ "diff": [
+ "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'",
+ "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "حضرت صادق علیهالسلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسهای که در نماز به من القا میشود شکایت دارم. حتی اینکه نمیدانم چهقدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابهی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]",
+ "decoded_text": "حضرت صادق علیهالسلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسهای که در نماز به من القا میشود شکایت دارم. حتی اینکه نمیدانم چهقدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابهی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]",
+ "diff": [
+ "insert text[301:301] --> decoded_text[301:302] '' --> 'َ'",
+ "delete text[302:303] --> decoded_text[303:303] 'َ' --> ''",
+ "insert text[339:339] --> decoded_text[339:340] '' --> 'َ'",
+ "delete text[340:341] --> decoded_text[341:341] 'َ' --> ''",
+ "insert text[366:366] --> decoded_text[366:367] '' --> 'َ'",
+ "delete text[367:368] --> decoded_text[368:368] 'َ' --> ''",
+ "insert text[379:379] --> decoded_text[379:380] '' --> 'َ'",
+ "delete text[380:381] --> decoded_text[381:381] 'َ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.",
+ "decoded_text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.",
+ "diff": [
+ "insert text[230:230] --> decoded_text[230:231] '' --> 'ِ'",
+ "insert text[231:231] --> decoded_text[232:249] '' --> 'مونَ خَیرُ النّاس'",
+ "replace text[232:246] --> decoded_text[250:255] 'مونَ خَیرُ الن' --> ' کُلَ'",
+ "replace text[247:249] --> decoded_text[256:269] 'اس' --> 'ما أخلَقَ الذ'",
+ "delete text[250:254] --> decoded_text[270:270] ' کُل' --> ''",
+ "replace text[255:269] --> decoded_text[271:279] 'َما أخلَقَ الذ' --> 'کرُ جَدَ'",
+ "delete text[270:280] --> decoded_text[280:280] 'ِکرُ جَدَّ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.",
+ "decoded_text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.",
+ "diff": [
+ "replace text[207:209] --> decoded_text[207:209] 'َّ' --> 'َّ'",
+ "replace text[215:222] --> decoded_text[215:222] 'َّبِیِّ' --> 'َّبِیِّ'",
+ "delete text[402:403] --> decoded_text[402:402] 'ّ' --> ''",
+ "replace text[404:412] --> decoded_text[403:412] 'وا التَّ' --> 'ّوا التَّ'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "آن گاه که وقت خروج قائم مىشود، منادىاى از آسمان ندا مىدهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى الله علیه وآله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مىشود، منادىاى از آسمان ندا مىدهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به",
+ "decoded_text": "آن گاه که وقت خروج قائم مىشود، منادىاى از آسمان ندا مىدهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى الله علیه وآله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مىشود، منادىاى از آسمان ندا مىدهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به",
+ "diff": [
+ "replace text[321:323] --> decoded_text[321:323] 'َّ' --> 'َّ'",
+ "replace text[331:333] --> decoded_text[331:333] 'ُّ' --> 'ُّ'",
+ "replace text[364:366] --> decoded_text[364:366] 'َّ' --> 'َّ'",
+ "replace text[406:408] --> decoded_text[406:408] 'َّ' --> 'َّ'",
+ "replace text[417:419] --> decoded_text[417:419] 'َّ' --> 'َّ'",
+ "replace text[437:439] --> decoded_text[437:439] 'َّ' --> 'َّ'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.",
+ "decoded_text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.",
+ "diff": [
+ "insert text[310:310] --> decoded_text[310:311] '' --> 'َ'",
+ "delete text[311:312] --> decoded_text[312:312] 'َ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/Qwen.Qwen2-72B @ cc100.fr.diff.json b/stats/compression_rate/Qwen.Qwen2-72B @ cc100.fr.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..1586a3ce0b9a7729810cfeef8775be9e9b6b4168
--- /dev/null
+++ b/stats/compression_rate/Qwen.Qwen2-72B @ cc100.fr.diff.json
@@ -0,0 +1,105 @@
+[
+ {
+ "text": "Une Agence conseil en Communication et Coopération Décentralisée.",
+ "decoded_text": "Une Agence conseil en Communication et Coopération Décentralisée.",
+ "diff": [
+ "replace text[43:45] --> decoded_text[43:44] 'é' --> 'é'",
+ "replace text[53:55] --> decoded_text[52:53] 'é' --> 'é'",
+ "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.",
+ "decoded_text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.",
+ "diff": [
+ "replace text[4:6] --> decoded_text[4:5] 'é' --> 'é'",
+ "replace text[30:32] --> decoded_text[29:30] 'é' --> 'é'",
+ "replace text[38:40] --> decoded_text[36:37] 'é' --> 'é'",
+ "replace text[88:90] --> decoded_text[85:86] 'é' --> 'é'",
+ "replace text[97:99] --> decoded_text[93:94] 'é' --> 'é'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Des compétences confirmées dans les domaines des médias et de la communication publique.",
+ "decoded_text": "Des compétences confirmées dans les domaines des médias et de la communication publique.",
+ "diff": [
+ "replace text[8:10] --> decoded_text[8:9] 'é' --> 'é'",
+ "replace text[24:26] --> decoded_text[23:24] 'é' --> 'é'",
+ "replace text[52:54] --> decoded_text[50:51] 'é' --> 'é'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.",
+ "decoded_text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.",
+ "diff": [
+ "replace text[27:29] --> decoded_text[27:28] 'é' --> 'é'",
+ "replace text[39:41] --> decoded_text[38:39] 'é' --> 'é'",
+ "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.",
+ "decoded_text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.",
+ "diff": [
+ "replace text[56:58] --> decoded_text[56:57] 'ô' --> 'ô'",
+ "replace text[156:158] --> decoded_text[155:156] 'é' --> 'é'",
+ "replace text[169:171] --> decoded_text[167:168] 'ç' --> 'ç'",
+ "replace text[184:186] --> decoded_text[181:182] 'é' --> 'é'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.",
+ "decoded_text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.",
+ "diff": [
+ "replace text[44:46] --> decoded_text[44:45] 'é' --> 'é'",
+ "replace text[58:60] --> decoded_text[57:58] 'ç' --> 'ç'",
+ "replace text[76:78] --> decoded_text[74:75] 'é' --> 'é'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.",
+ "decoded_text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.",
+ "diff": [
+ "replace text[21:23] --> decoded_text[21:22] 'é' --> 'é'",
+ "replace text[46:48] --> decoded_text[45:46] 'é' --> 'é'",
+ "replace text[50:52] --> decoded_text[48:49] 'é' --> 'é'",
+ "replace text[64:66] --> decoded_text[61:62] 'é' --> 'é'",
+ "replace text[77:79] --> decoded_text[73:74] 'ç' --> 'ç'",
+ "replace text[92:94] --> decoded_text[87:88] 'é' --> 'é'",
+ "replace text[108:110] --> decoded_text[102:103] 'ô' --> 'ô'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.",
+ "decoded_text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.",
+ "diff": [
+ "replace text[54:56] --> decoded_text[54:55] 'é' --> 'é'",
+ "replace text[64:66] --> decoded_text[63:64] 'é' --> 'é'",
+ "replace text[75:77] --> decoded_text[73:74] 'é' --> 'é'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/Qwen.Qwen2-72B @ cc100.ja.diff.json b/stats/compression_rate/Qwen.Qwen2-72B @ cc100.ja.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..7bfed3ed2f9d78f3275bc6f2a350f9467f78720d
--- /dev/null
+++ b/stats/compression_rate/Qwen.Qwen2-72B @ cc100.ja.diff.json
@@ -0,0 +1,142 @@
+[
+ {
+ "text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。",
+ "decoded_text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。",
+ "diff": [
+ "replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'",
+ "replace text[38:40] --> decoded_text[37:38] 'ジ' --> 'ジ'",
+ "replace text[46:48] --> decoded_text[44:45] 'で' --> 'で'",
+ "replace text[52:54] --> decoded_text[49:50] 'で' --> 'で'",
+ "replace text[74:76] --> decoded_text[70:71] 'で' --> 'で'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。",
+ "decoded_text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。",
+ "diff": [
+ "replace text[0:2] --> decoded_text[0:1] 'ド' --> 'ド'",
+ "replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'",
+ "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'",
+ "replace text[27:29] --> decoded_text[24:25] 'が' --> 'が'",
+ "replace text[35:37] --> decoded_text[31:32] 'で' --> 'で'",
+ "replace text[38:40] --> decoded_text[33:34] 'ぜ' --> 'ぜ'",
+ "replace text[45:47] --> decoded_text[39:40] 'ジ' --> 'ジ'",
+ "replace text[52:54] --> decoded_text[45:46] 'だ' --> 'だ'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。",
+ "decoded_text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。",
+ "diff": [
+ "replace text[5:7] --> decoded_text[5:6] 'が' --> 'が'",
+ "replace text[12:14] --> decoded_text[11:12] 'で' --> 'で'",
+ "replace text[37:39] --> decoded_text[35:36] 'で' --> 'で'",
+ "replace text[44:46] --> decoded_text[41:42] 'で' --> 'で'",
+ "replace text[51:53] --> decoded_text[47:48] 'が' --> 'が'",
+ "replace text[66:68] --> decoded_text[61:62] 'で' --> 'で'",
+ "replace text[72:74] --> decoded_text[66:67] 'で' --> 'で'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。",
+ "decoded_text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。",
+ "diff": [
+ "replace text[2:4] --> decoded_text[2:3] 'が' --> 'が'",
+ "replace text[9:11] --> decoded_text[8:9] 'ポ' --> 'ポ'",
+ "replace text[19:21] --> decoded_text[17:18] 'で' --> 'で'",
+ "replace text[27:29] --> decoded_text[24:25] 'で' --> 'で'",
+ "replace text[45:47] --> decoded_text[41:42] 'で' --> 'で'",
+ "replace text[53:55] --> decoded_text[48:49] 'だ' --> 'だ'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。",
+ "decoded_text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。",
+ "diff": [
+ "replace text[13:15] --> decoded_text[13:14] 'で' --> 'で'",
+ "replace text[38:40] --> decoded_text[37:38] 'だ' --> 'だ'",
+ "replace text[41:43] --> decoded_text[39:40] 'で' --> 'で'",
+ "replace text[50:52] --> decoded_text[47:48] 'が' --> 'が'",
+ "replace text[72:76] --> decoded_text[68:70] 'どで' --> 'どで'",
+ "replace text[86:88] --> decoded_text[80:81] 'で' --> 'で'",
+ "replace text[106:108] --> decoded_text[99:100] 'で' --> 'で'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。",
+ "decoded_text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。",
+ "diff": [
+ "replace text[10:12] --> decoded_text[10:11] 'ず' --> 'ず'",
+ "replace text[37:39] --> decoded_text[36:37] 'で' --> 'で'",
+ "replace text[45:47] --> decoded_text[43:44] 'で' --> 'で'",
+ "replace text[56:58] --> decoded_text[53:54] 'だ' --> 'だ'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。",
+ "decoded_text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。",
+ "diff": [
+ "replace text[1:3] --> decoded_text[1:2] 'ず' --> 'ず'",
+ "replace text[7:9] --> decoded_text[6:7] 'が' --> 'が'",
+ "replace text[47:49] --> decoded_text[45:46] 'だ' --> 'だ'",
+ "replace text[70:72] --> decoded_text[67:68] 'で' --> 'で'",
+ "replace text[73:75] --> decoded_text[69:70] 'だ' --> 'だ'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。",
+ "decoded_text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。",
+ "diff": [
+ "replace text[20:24] --> decoded_text[20:22] 'がど' --> 'がど'",
+ "replace text[35:37] --> decoded_text[33:34] 'ぜ' --> 'ぜ'",
+ "replace text[63:65] --> decoded_text[60:61] 'ド' --> 'ド'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "細かい事でも、疑問に思った事は必ず先生に質問してください。",
+ "decoded_text": "細かい事でも、疑問に思った事は必ず先生に質問してください。",
+ "diff": [
+ "replace text[4:6] --> decoded_text[4:5] 'で' --> 'で'",
+ "replace text[17:19] --> decoded_text[16:17] 'ず' --> 'ず'",
+ "replace text[27:29] --> decoded_text[25:26] 'だ' --> 'だ'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。",
+ "decoded_text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。",
+ "diff": [
+ "replace text[39:41] --> decoded_text[39:40] 'で' --> 'で'",
+ "replace text[54:56] --> decoded_text[53:54] 'が' --> 'が'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/Qwen.Qwen2-72B @ cc100.ko.diff.json b/stats/compression_rate/Qwen.Qwen2-72B @ cc100.ko.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..9bd7f431850c0e16db0df5ad82455c1a4a7e93ae
--- /dev/null
+++ b/stats/compression_rate/Qwen.Qwen2-72B @ cc100.ko.diff.json
@@ -0,0 +1,105 @@
+[
+ {
+ "text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more",
+ "decoded_text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more",
+ "diff": [
+ "replace text[4:5] --> decoded_text[4:5] '樂' --> '樂'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.006211180124223602,
+ "oov_charset": "[\"樂\"]"
+ },
+ {
+ "text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.",
+ "decoded_text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.",
+ "diff": [
+ "replace text[171:172] --> decoded_text[171:172] '樂' --> '樂'",
+ "replace text[401:402] --> decoded_text[401:402] '累' --> '累'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.004784688995215311,
+ "oov_charset": "[\"樂\", \"累\"]"
+ },
+ {
+ "text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로",
+ "decoded_text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로",
+ "diff": [
+ "replace text[47:48] --> decoded_text[47:48] '陸' --> '陸'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.007936507936507936,
+ "oov_charset": "[\"陸\"]"
+ },
+ {
+ "text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학",
+ "decoded_text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학",
+ "diff": [
+ "replace text[108:109] --> decoded_text[108:109] '良' --> '良'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.007692307692307693,
+ "oov_charset": "[\"良\"]"
+ },
+ {
+ "text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다",
+ "decoded_text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다",
+ "diff": [
+ "replace text[6:7] --> decoded_text[6:7] '理' --> '理'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.013513513513513514,
+ "oov_charset": "[\"理\"]"
+ },
+ {
+ "text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.",
+ "decoded_text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.",
+ "diff": [
+ "replace text[115:116] --> decoded_text[115:116] '樂' --> '樂'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.004629629629629629,
+ "oov_charset": "[\"樂\"]"
+ },
+ {
+ "text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출",
+ "decoded_text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출",
+ "diff": [
+ "replace text[3:4] --> decoded_text[3:4] '立' --> '立'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.007874015748031496,
+ "oov_charset": "[\"立\"]"
+ },
+ {
+ "text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인",
+ "decoded_text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인",
+ "diff": [
+ "replace text[27:28] --> decoded_text[27:28] '金' --> '金'",
+ "replace text[63:64] --> decoded_text[63:64] '金' --> '金'",
+ "replace text[119:120] --> decoded_text[119:120] '金' --> '金'"
+ ],
+ "n_oov_chars": 3,
+ "oov_ratio": 0.023622047244094488,
+ "oov_charset": "[\"金\"]"
+ },
+ {
+ "text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘",
+ "decoded_text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘",
+ "diff": [
+ "replace text[37:38] --> decoded_text[37:38] '梁' --> '梁'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.017543859649122806,
+ "oov_charset": "[\"梁\"]"
+ },
+ {
+ "text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘",
+ "decoded_text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘",
+ "diff": [
+ "replace text[18:19] --> decoded_text[18:19] '樂' --> '樂'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.011363636363636364,
+ "oov_charset": "[\"樂\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/apple.DCLM-7B @ cc100.ar.diff.json b/stats/compression_rate/apple.DCLM-7B @ cc100.ar.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..3a4c24cf62620a737509a66b9ea4c60bef3bdf20
--- /dev/null
+++ b/stats/compression_rate/apple.DCLM-7B @ cc100.ar.diff.json
@@ -0,0 +1,104 @@
+[
+ {
+ "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)",
+ "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)",
+ "diff": [
+ "delete text[42:43] --> decoded_text[42:42] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
+ "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
+ "diff": [
+ "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'",
+ "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.",
+ "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.",
+ "diff": [
+ "delete text[45:46] --> decoded_text[45:45] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .",
+ "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.",
+ "diff": [
+ "delete text[81:82] --> decoded_text[81:81] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان",
+ "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان",
+ "diff": [
+ "delete text[825:826] --> decoded_text[825:825] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .",
+ "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.",
+ "diff": [
+ "delete text[469:470] --> decoded_text[469:469] ' ' --> ''",
+ "delete text[720:721] --> decoded_text[719:719] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .",
+ "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.",
+ "diff": [
+ "delete text[147:148] --> decoded_text[147:147] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...",
+ "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....",
+ "diff": [
+ "delete text[183:184] --> decoded_text[183:183] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...",
+ "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...",
+ "diff": [
+ "delete text[279:280] --> decoded_text[279:279] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة",
+ "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة",
+ "diff": [
+ "delete text[22:23] --> decoded_text[22:22] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/apple.DCLM-7B @ cc100.de.diff.json b/stats/compression_rate/apple.DCLM-7B @ cc100.de.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..b31fed767a868bc47ca49e85c685bc4dcf70a05f
--- /dev/null
+++ b/stats/compression_rate/apple.DCLM-7B @ cc100.de.diff.json
@@ -0,0 +1,103 @@
+[
+ {
+ "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !",
+ "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!",
+ "diff": [
+ "delete text[67:68] --> decoded_text[67:67] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Laut dieser Studie sind es ....",
+ "decoded_text": "Laut dieser Studie sind es....",
+ "diff": [
+ "delete text[26:27] --> decoded_text[26:26] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...",
+ "decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...",
+ "diff": [
+ "delete text[78:79] --> decoded_text[78:78] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?",
+ "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?",
+ "diff": [
+ "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.",
+ "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.",
+ "diff": [
+ "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.",
+ "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.",
+ "diff": [
+ "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,",
+ "decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,",
+ "diff": [
+ "delete text[81:82] --> decoded_text[81:81] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung , als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.",
+ "decoded_text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung, als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.",
+ "diff": [
+ "delete text[553:554] --> decoded_text[553:553] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen, ,Mein Widerruf ist wahr', haben Sie immer gesagt ,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.",
+ "decoded_text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen,,Mein Widerruf ist wahr', haben Sie immer gesagt,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.",
+ "diff": [
+ "delete text[169:170] --> decoded_text[169:169] ' ' --> ''",
+ "delete text[218:219] --> decoded_text[217:217] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket !",
+ "decoded_text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket!",
+ "diff": [
+ "delete text[68:69] --> decoded_text[68:68] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/apple.DCLM-7B @ cc100.en.diff.json b/stats/compression_rate/apple.DCLM-7B @ cc100.en.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..d979744b61249e52ca88219a5b6b19ce7f373b02
--- /dev/null
+++ b/stats/compression_rate/apple.DCLM-7B @ cc100.en.diff.json
@@ -0,0 +1,103 @@
+[
+ {
+ "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.",
+ "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.",
+ "diff": [
+ "delete text[86:87] --> decoded_text[86:86] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .",
+ "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.",
+ "diff": [
+ "delete text[318:319] --> decoded_text[318:318] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.",
+ "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.",
+ "diff": [
+ "delete text[51:52] --> decoded_text[51:51] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "We're not so rough and over the top these days, so they miiiiight survive ._.",
+ "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.",
+ "diff": [
+ "delete text[73:74] --> decoded_text[73:73] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...",
+ "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...",
+ "diff": [
+ "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...",
+ "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...",
+ "diff": [
+ "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.",
+ "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.",
+ "diff": [
+ "delete text[26:27] --> decoded_text[26:26] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.",
+ "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.",
+ "diff": [
+ "delete text[114:115] --> decoded_text[114:114] ' ' --> ''",
+ "delete text[217:218] --> decoded_text[216:216] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.",
+ "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.",
+ "diff": [
+ "delete text[328:329] --> decoded_text[328:328] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..",
+ "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..",
+ "diff": [
+ "delete text[99:100] --> decoded_text[99:99] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/apple.DCLM-7B @ cc100.es.diff.json b/stats/compression_rate/apple.DCLM-7B @ cc100.es.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..b90657b036c86d67f13b2d3de20c4ddc41694150
--- /dev/null
+++ b/stats/compression_rate/apple.DCLM-7B @ cc100.es.diff.json
@@ -0,0 +1,104 @@
+[
+ {
+ "text": "Actividad física , Deporte , Salud",
+ "decoded_text": "Actividad física, Deporte, Salud",
+ "diff": [
+ "delete text[16:17] --> decoded_text[16:16] ' ' --> ''",
+ "delete text[26:27] --> decoded_text[25:25] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!",
+ "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!",
+ "diff": [
+ "delete text[6:7] --> decoded_text[6:6] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?",
+ "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?",
+ "diff": [
+ "delete text[58:59] --> decoded_text[58:58] ' ' --> ''",
+ "delete text[155:156] --> decoded_text[154:154] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Si , podría hacerte un precio. La medida va desde el exterior.",
+ "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.",
+ "diff": [
+ "delete text[2:3] --> decoded_text[2:2] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".",
+ "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".",
+ "diff": [
+ "delete text[415:416] --> decoded_text[415:415] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .",
+ "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.",
+ "diff": [
+ "delete text[138:139] --> decoded_text[138:138] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .",
+ "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.",
+ "diff": [
+ "delete text[220:221] --> decoded_text[220:220] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .",
+ "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.",
+ "diff": [
+ "delete text[122:123] --> decoded_text[122:122] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...",
+ "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...",
+ "diff": [
+ "delete text[69:70] --> decoded_text[69:69] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!",
+ "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!",
+ "diff": [
+ "delete text[105:106] --> decoded_text[105:105] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/apple.DCLM-7B @ cc100.fa.diff.json b/stats/compression_rate/apple.DCLM-7B @ cc100.fa.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..f4e4ecdb515292b758d6286e69b570d824d99d60
--- /dev/null
+++ b/stats/compression_rate/apple.DCLM-7B @ cc100.fa.diff.json
@@ -0,0 +1,104 @@
+[
+ {
+ "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید",
+ "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید",
+ "diff": [
+ "delete text[82:83] --> decoded_text[82:82] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..",
+ "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..",
+ "diff": [
+ "delete text[108:109] --> decoded_text[108:108] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)",
+ "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)",
+ "diff": [
+ "delete text[129:130] --> decoded_text[129:129] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.",
+ "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.",
+ "diff": [
+ "delete text[290:291] --> decoded_text[290:290] ' ' --> ''",
+ "delete text[621:622] --> decoded_text[620:620] ' ' --> ''",
+ "delete text[672:673] --> decoded_text[670:670] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...",
+ "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...",
+ "diff": [
+ "delete text[122:123] --> decoded_text[122:122] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...",
+ "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...",
+ "diff": [
+ "delete text[128:129] --> decoded_text[128:128] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...",
+ "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...",
+ "diff": [
+ "delete text[123:124] --> decoded_text[123:123] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...",
+ "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...",
+ "diff": [
+ "delete text[122:123] --> decoded_text[122:122] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی . کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.",
+ "decoded_text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی. کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.",
+ "diff": [
+ "delete text[161:162] --> decoded_text[161:161] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "سلام .آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش",
+ "decoded_text": "سلام.آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش",
+ "diff": [
+ "delete text[4:5] --> decoded_text[4:4] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/apple.DCLM-7B @ cc100.fr.diff.json b/stats/compression_rate/apple.DCLM-7B @ cc100.fr.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..77c4141fcf4750b5fd725b2dc90c0872cb8c5632
--- /dev/null
+++ b/stats/compression_rate/apple.DCLM-7B @ cc100.fr.diff.json
@@ -0,0 +1,102 @@
+[
+ {
+ "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie",
+ "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie",
+ "diff": [
+ "delete text[193:194] --> decoded_text[193:193] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort",
+ "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort",
+ "diff": [
+ "delete text[150:151] --> decoded_text[150:150] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)",
+ "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)",
+ "diff": [
+ "delete text[100:101] --> decoded_text[100:100] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^",
+ "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^",
+ "diff": [
+ "delete text[23:24] --> decoded_text[23:23] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")",
+ "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")",
+ "diff": [
+ "delete text[277:278] --> decoded_text[277:277] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Quand les élus se réunissent-ils ?",
+ "decoded_text": "Quand les élus se réunissent-ils?",
+ "diff": [
+ "delete text[32:33] --> decoded_text[32:32] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici",
+ "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici",
+ "diff": [
+ "delete text[34:35] --> decoded_text[34:34] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!",
+ "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!",
+ "diff": [
+ "delete text[81:82] --> decoded_text[81:81] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé",
+ "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé",
+ "diff": [
+ "delete text[35:36] --> decoded_text[35:35] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!",
+ "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!",
+ "diff": [
+ "delete text[53:54] --> decoded_text[53:53] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/apple.DCLM-7B @ cc100.ja.diff.json b/stats/compression_rate/apple.DCLM-7B @ cc100.ja.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..23b1a8422585081a0b510b8317d4a07e9a1ae544
--- /dev/null
+++ b/stats/compression_rate/apple.DCLM-7B @ cc100.ja.diff.json
@@ -0,0 +1,113 @@
+[
+ {
+ "text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって ...",
+ "decoded_text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって...",
+ "diff": [
+ "delete text[100:101] --> decoded_text[100:100] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。 ...",
+ "decoded_text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。...",
+ "diff": [
+ "delete text[132:133] --> decoded_text[132:132] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。 ...",
+ "decoded_text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。...",
+ "diff": [
+ "delete text[131:132] --> decoded_text[131:131] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、 ...",
+ "decoded_text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、...",
+ "diff": [
+ "delete text[36:37] --> decoded_text[36:36] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad ...",
+ "decoded_text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad...",
+ "diff": [
+ "delete text[100:101] --> decoded_text[100:100] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい ...",
+ "decoded_text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい...",
+ "diff": [
+ "delete text[40:41] --> decoded_text[40:40] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな ...",
+ "decoded_text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな...",
+ "diff": [
+ "delete text[40:41] --> decoded_text[40:40] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。 ...",
+ "decoded_text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。...",
+ "diff": [
+ "delete text[68:69] --> decoded_text[68:68] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。",
+ "decoded_text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。",
+ "diff": [
+ "replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'",
+ "replace text[38:40] --> decoded_text[37:38] 'ジ' --> 'ジ'",
+ "replace text[46:48] --> decoded_text[44:45] 'で' --> 'で'",
+ "replace text[52:54] --> decoded_text[49:50] 'で' --> 'で'",
+ "replace text[74:76] --> decoded_text[70:71] 'で' --> 'で'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。",
+ "decoded_text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。",
+ "diff": [
+ "replace text[0:2] --> decoded_text[0:1] 'ド' --> 'ド'",
+ "replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'",
+ "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'",
+ "replace text[27:29] --> decoded_text[24:25] 'が' --> 'が'",
+ "replace text[35:37] --> decoded_text[31:32] 'で' --> 'で'",
+ "replace text[38:40] --> decoded_text[33:34] 'ぜ' --> 'ぜ'",
+ "replace text[45:47] --> decoded_text[39:40] 'ジ' --> 'ジ'",
+ "replace text[52:54] --> decoded_text[45:46] 'だ' --> 'だ'"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/apple.DCLM-7B @ cc100.ko.diff.json b/stats/compression_rate/apple.DCLM-7B @ cc100.ko.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..75baab06b7c8132f9a4b52ca8bca1383747ad540
--- /dev/null
+++ b/stats/compression_rate/apple.DCLM-7B @ cc100.ko.diff.json
@@ -0,0 +1,106 @@
+[
+ {
+ "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
+ "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
+ "diff": [
+ "delete text[59:60] --> decoded_text[59:59] ' ' --> ''",
+ "delete text[64:65] --> decoded_text[63:63] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.",
+ "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.",
+ "diff": [
+ "delete text[28:29] --> decoded_text[28:28] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.",
+ "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.",
+ "diff": [
+ "delete text[58:59] --> decoded_text[58:58] ' ' --> ''",
+ "delete text[86:87] --> decoded_text[85:85] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).",
+ "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).",
+ "diff": [
+ "delete text[33:34] --> decoded_text[33:33] ' ' --> ''",
+ "delete text[38:39] --> decoded_text[37:37] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율 .276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.",
+ "decoded_text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율.276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.",
+ "diff": [
+ "delete text[54:55] --> decoded_text[54:54] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야 .쟤 달라고 로또1등세금 무슨 평소와는",
+ "decoded_text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야.쟤 달라고 로또1등세금 무슨 평소와는",
+ "diff": [
+ "delete text[62:63] --> decoded_text[62:62] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.",
+ "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.",
+ "diff": [
+ "delete text[53:54] --> decoded_text[53:53] ' ' --> ''",
+ "delete text[81:82] --> decoded_text[80:80] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가 .특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게",
+ "decoded_text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가.특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게",
+ "diff": [
+ "delete text[27:28] --> decoded_text[27:27] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고, ....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.",
+ "decoded_text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고,....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.",
+ "diff": [
+ "delete text[29:30] --> decoded_text[29:29] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "유림은바라보았다. 아니란걸 .게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....",
+ "decoded_text": "유림은바라보았다. 아니란걸.게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....",
+ "diff": [
+ "delete text[14:15] --> decoded_text[14:14] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/apple.DCLM-7B @ cc100.zh-Hans.diff.json b/stats/compression_rate/apple.DCLM-7B @ cc100.zh-Hans.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..c1c69d7d03f682b68ae2bc75a4efef27b8377806
--- /dev/null
+++ b/stats/compression_rate/apple.DCLM-7B @ cc100.zh-Hans.diff.json
@@ -0,0 +1,102 @@
+[
+ {
+ "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。",
+ "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。",
+ "diff": [
+ "delete text[56:57] --> decoded_text[56:56] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。",
+ "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。",
+ "diff": [
+ "delete text[12:13] --> decoded_text[12:12] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。",
+ "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。",
+ "diff": [
+ "delete text[94:95] --> decoded_text[94:94] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...",
+ "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...",
+ "diff": [
+ "delete text[103:104] --> decoded_text[103:103] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱",
+ "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱",
+ "diff": [
+ "delete text[16:17] --> decoded_text[16:16] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v",
+ "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v",
+ "diff": [
+ "delete text[54:55] --> decoded_text[54:54] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _",
+ "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _",
+ "diff": [
+ "delete text[80:81] --> decoded_text[80:80] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M",
+ "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M",
+ "diff": [
+ "delete text[58:59] --> decoded_text[58:58] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?",
+ "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?",
+ "diff": [
+ "delete text[1:2] --> decoded_text[1:1] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。",
+ "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。",
+ "diff": [
+ "delete text[24:25] --> decoded_text[24:24] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.ar.diff.json b/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.ar.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..588152eab38607bf56c78f174a7f63d8d38549fb
--- /dev/null
+++ b/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.ar.diff.json
@@ -0,0 +1,12 @@
+[
+ {
+ "text": "من طرف A.Höganäs في الأحد سبتمبر 20, 2009 2:44 am",
+ "decoded_text": "من طرف A.H�ganäs في الأحد سبتمبر 20, 2009 2:44 am",
+ "diff": [
+ "replace text[10:11] --> decoded_text[10:11] 'ö' --> '�'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.02040816326530612,
+ "oov_charset": "[\"ö\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.de.diff.json b/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.de.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..1890e724ecc3e5f4e09ccf1268cc6b05efa102be
--- /dev/null
+++ b/stats/compression_rate/deepseek-ai.deepseek-llm-7b-base @ cc100.de.diff.json
@@ -0,0 +1,121 @@
+[
+ {
+ "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.",
+ "decoded_text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „P�ngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu h�ren. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil f�r die Gäste.",
+ "diff": [
+ "replace text[60:61] --> decoded_text[60:61] 'ü' --> '�'",
+ "replace text[159:160] --> decoded_text[159:160] 'ö' --> '�'",
+ "replace text[267:268] --> decoded_text[267:268] 'ü' --> '�'"
+ ],
+ "n_oov_chars": 3,
+ "oov_ratio": 0.010714285714285714,
+ "oov_charset": "[\"ü\", \"ö\"]"
+ },
+ {
+ "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.",
+ "decoded_text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „P�ngel-Weihnacht“ an.",
+ "diff": [
+ "replace text[59:60] --> decoded_text[59:60] 'ü' --> '�'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.012658227848101266,
+ "oov_charset": "[\"ü\"]"
+ },
+ {
+ "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de",
+ "decoded_text": "02683 967019. Die Karten k�nnen auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de",
+ "diff": [
+ "replace text[26:27] --> decoded_text[26:27] 'ö' --> '�'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.009708737864077669,
+ "oov_charset": "[\"ö\"]"
+ },
+ {
+ "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.",
+ "decoded_text": "Der Chor w�nscht Ihnen schon jetzt viel Vergn�gen.",
+ "diff": [
+ "replace text[10:11] --> decoded_text[10:11] 'ü' --> '�'",
+ "replace text[45:46] --> decoded_text[45:46] 'ü' --> '�'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.04,
+ "oov_charset": "[\"ü\"]"
+ },
+ {
+ "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.",
+ "decoded_text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder �ber ein auf der Internetseite befindliches Webformular, an den f�r die Verarbeitung Verantwortlichen �bermittelt. Sollten Sie �ber einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verf�gen, k�nnen wir die Daten auch von Ihrer �ffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchf�hrung des Bewerbungsverfahrens.",
+ "diff": [
+ "replace text[211:212] --> decoded_text[211:212] 'ü' --> '�'",
+ "replace text[276:277] --> decoded_text[276:277] 'ü' --> '�'",
+ "replace text[313:314] --> decoded_text[313:314] 'ü' --> '�'",
+ "replace text[338:339] --> decoded_text[338:339] 'ü' --> '�'",
+ "replace text[435:436] --> decoded_text[435:436] 'ü' --> '�'",
+ "replace text[442:443] --> decoded_text[442:443] 'ö' --> '�'",
+ "replace text[477:478] --> decoded_text[477:478] 'ö' --> '�'",
+ "replace text[646:647] --> decoded_text[646:647] 'ü' --> '�'"
+ ],
+ "n_oov_chars": 8,
+ "oov_ratio": 0.011799410029498525,
+ "oov_charset": "[\"ü\", \"ö\"]"
+ },
+ {
+ "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.",
+ "decoded_text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die �bermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gel�scht, sofern einer L�schung keine sonstigen berechtigten Interessen des f�r die Verarbeitung Verantwortlichen entgegenstehen.",
+ "diff": [
+ "replace text[77:78] --> decoded_text[77:78] 'ü' --> '�'",
+ "replace text[316:317] --> decoded_text[316:317] 'ö' --> '�'",
+ "replace text[337:338] --> decoded_text[337:338] 'ö' --> '�'",
+ "replace text[390:391] --> decoded_text[390:391] 'ü' --> '�'"
+ ],
+ "n_oov_chars": 4,
+ "oov_ratio": 0.00904977375565611,
+ "oov_charset": "[\"ü\", \"ö\"]"
+ },
+ {
+ "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.",
+ "decoded_text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erf�llung unserer vertraglichen und gesetzlichen Pflichten (wie F�hrungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung �ber die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses ben�tigen.",
+ "diff": [
+ "replace text[119:120] --> decoded_text[119:120] 'ü' --> '�'",
+ "replace text[181:182] --> decoded_text[181:182] 'ü' --> '�'",
+ "replace text[280:281] --> decoded_text[280:281] 'ü' --> '�'",
+ "replace text[476:477] --> decoded_text[476:477] 'ö' --> '�'"
+ ],
+ "n_oov_chars": 4,
+ "oov_ratio": 0.008281573498964804,
+ "oov_charset": "[\"ü\", \"ö\"]"
+ },
+ {
+ "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;",
+ "decoded_text": "bei denen wir zur Erf�llung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im �ffentlichen Interesse liegt;",
+ "diff": [
+ "replace text[21:22] --> decoded_text[21:22] 'ü' --> '�'",
+ "replace text[160:161] --> decoded_text[160:161] 'ö' --> '�'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.010582010582010581,
+ "oov_charset": "[\"ü\", \"ö\"]"
+ },
+ {
+ "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);",
+ "decoded_text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Beh�rden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);",
+ "diff": [
+ "replace text[98:99] --> decoded_text[98:99] 'ö' --> '�'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.005263157894736842,
+ "oov_charset": "[\"ö\"]"
+ },
+ {
+ "text": "Zudem erhalten Personen aus den jeweils betroffenen Fachabteilungen Zugang zu Ihren Daten, soweit dies für die Entscheidung über die Begründung eines Beschäftigungsverhältnisses erforderlich ist.",
+ "decoded_text": "Zudem erhalten Personen aus den jeweils betroffenen Fachabteilungen Zugang zu Ihren Daten, soweit dies f�r die Entscheidung �ber die Begr�ndung eines Beschäftigungsverhältnisses erforderlich ist.",
+ "diff": [
+ "replace text[104:105] --> decoded_text[104:105] 'ü' --> '�'",
+ "replace text[124:125] --> decoded_text[124:125] 'ü' --> '�'",
+ "replace text[137:138] --> decoded_text[137:138] 'ü' --> '�'"
+ ],
+ "n_oov_chars": 3,
+ "oov_ratio": 0.015384615384615385,
+ "oov_charset": "[\"ü\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/eson.kplug-base-encoder @ cc100.ar.diff.json b/stats/compression_rate/eson.kplug-base-encoder @ cc100.ar.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..23cd05614681c98d4dd8d30c7134954ffe5acdf0
--- /dev/null
+++ b/stats/compression_rate/eson.kplug-base-encoder @ cc100.ar.diff.json
@@ -0,0 +1,232 @@
+[
+ {
+ "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)",
+ "decoded_text": "- [UNK] / [UNK] [UNK] [UNK] - [UNK] [UNK].. ( 1 )",
+ "diff": [
+ "replace text[2:8] --> decoded_text[2:7] 'اللواء' --> '[UNK]'",
+ "replace text[11:14] --> decoded_text[10:15] 'علي' --> '[UNK]'",
+ "replace text[15:19] --> decoded_text[16:21] 'محمد' --> '[UNK]'",
+ "replace text[20:28] --> decoded_text[22:27] 'الكحلاني' --> '[UNK]'",
+ "replace text[31:36] --> decoded_text[30:35] 'نصيحة' --> '[UNK]'",
+ "replace text[37:43] --> decoded_text[36:41] 'صادقة ' --> '[UNK]'",
+ "insert text[49:49] --> decoded_text[47:48] '' --> ' '"
+ ],
+ "n_oov_chars": 31,
+ "oov_ratio": 0.62,
+ "oov_charset": "[\"ا\", \"ل\", \"و\", \"ء\", \"ع\", \"ي\", \"م\", \"ح\", \"د\", \"ك\", \"ن\", \"ص\", \"ة\", \"ق\"]"
+ },
+ {
+ "text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..",
+ "decoded_text": "[UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( [UNK] ) [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..",
+ "diff": [
+ "replace text[0:97] --> decoded_text[0:91] 'اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي' --> '[UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[99:247] --> decoded_text[93:250] 'ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[249:279] --> decoded_text[252:281] 'ومن اضطراب في نسيجها الاجتماعي' --> '[UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[281:389] --> decoded_text[283:398] 'ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[391:525] --> decoded_text[400:537] 'ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[527:785] --> decoded_text[539:798] 'وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[787:884] --> decoded_text[800:897] 'عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي' --> '[UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[886:890] --> decoded_text[899:906] 'تردف' --> ' [UNK] '",
+ "replace text[892:966] --> decoded_text[908:987] 'كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..'"
+ ],
+ "n_oov_chars": 776,
+ "oov_ratio": 0.8033126293995859,
+ "oov_charset": "[\"ا\", \"ل\", \"ي\", \"م\", \"ن\", \"ج\", \"و\", \"ب\", \"ه\", \"ش\", \"ر\", \"ق\", \"غ\", \"ف\", \"ت\", \"ع\", \"ى\", \"ث\", \"س\", \"د\", \"ة\", \"ض\", \"ط\", \"ح\", \"ك\", \"أ\", \"ً\", \"ص\", \"إ\", \"ئ\", \"ء\", \"ذ\", \"ز\", \"ظ\", \"ٍ\", \"خ\"]"
+ },
+ {
+ "text": "واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية, أو انتماءاتهم المناطقية أو القبلية أو الجهوية, أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان..",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..",
+ "diff": [
+ "replace text[0:49] --> decoded_text[0:59] 'واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[51:81] --> decoded_text[61:96] 'وما شهدته البلد من مواقف عديدة' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[83:151] --> decoded_text[98:163] 'فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[153:198] --> decoded_text[165:206] 'أو انتماءاتهم المناطقية أو القبلية أو الجهوية' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[200:337] --> decoded_text[208:351] 'أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'"
+ ],
+ "n_oov_chars": 333,
+ "oov_ratio": 0.9823008849557522,
+ "oov_charset": "[\"و\", \"ا\", \"ل\", \"ي\", \"م\", \" \", \"ب\", \"ع\", \"د\", \"أ\", \"ن\", \"ج\", \"ر\", \"ت\", \"ه\", \"ك\", \"ث\", \"ة\", \"ف\", \"ق\", \"ح\", \"س\", \"ش\", \"إ\", \"ى\", \"ء\", \"ً\", \"ط\", \"ذ\", \"ص\", \"ض\", \"آ\", \"خ\"]"
+ },
+ {
+ "text": "وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..",
+ "diff": [
+ "replace text[0:5] --> decoded_text[0:5] 'وكلام' --> '[UNK]'",
+ "replace text[6:12] --> decoded_text[6:11] 'الرسول' --> '[UNK]'",
+ "replace text[13:21] --> decoded_text[12:17] 'وأحاديثه' --> '[UNK]'",
+ "replace text[22:24] --> decoded_text[18:23] 'ما' --> '[UNK]'",
+ "replace text[25:27] --> decoded_text[24:29] 'هي' --> '[UNK]'",
+ "replace text[28:31] --> decoded_text[30:35] 'إلا' --> '[UNK]'",
+ "replace text[32:35] --> decoded_text[36:41] 'وحي' --> '[UNK]'",
+ "replace text[36:38] --> decoded_text[42:47] 'من' --> '[UNK]'",
+ "replace text[39:43] --> decoded_text[48:53] 'الله' --> '[UNK]'",
+ "replace text[46:51] --> decoded_text[56:61] 'بمعنى' --> '[UNK]'",
+ "replace text[52:54] --> decoded_text[62:67] 'أن' --> '[UNK]'",
+ "replace text[55:60] --> decoded_text[68:73] 'العمل' --> '[UNK]'",
+ "replace text[61:64] --> decoded_text[74:79] 'بما' --> '[UNK]'",
+ "replace text[65:69] --> decoded_text[80:85] 'قاله' --> '[UNK]'",
+ "replace text[70:76] --> decoded_text[86:91] 'الرسول' --> '[UNK]'",
+ "replace text[77:83] --> decoded_text[92:97] 'الأعظم' --> '[UNK]'",
+ "replace text[84:86] --> decoded_text[98:103] 'هو' --> '[UNK]'",
+ "replace text[87:94] --> decoded_text[104:109] 'مسؤولية' --> '[UNK]'",
+ "replace text[95:102] --> decoded_text[110:115] 'أخلاقية' --> '[UNK]'",
+ "replace text[103:109] --> decoded_text[116:121] 'ودينية' --> '[UNK]'",
+ "replace text[110:118] --> decoded_text[122:127] 'ومسؤولية' --> '[UNK]'",
+ "replace text[119:125] --> decoded_text[128:133] 'سياسية' --> '[UNK]'"
+ ],
+ "n_oov_chars": 123,
+ "oov_ratio": 0.968503937007874,
+ "oov_charset": "[\"و\", \"ك\", \"ل\", \"ا\", \"م\", \" \", \"ر\", \"س\", \"أ\", \"ح\", \"د\", \"ي\", \"ث\", \"ه\", \"إ\", \"ن\", \"ب\", \"ع\", \"ى\", \"ق\", \"ظ\", \"ؤ\", \"ة\", \"خ\"]"
+ },
+ {
+ "text": "فهل أوضاع اليمنيين القائمة هي نتاج حكمة, وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم..",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..",
+ "diff": [
+ "replace text[0:3] --> decoded_text[0:5] 'فهل' --> '[UNK]'",
+ "replace text[4:9] --> decoded_text[6:11] 'أوضاع' --> '[UNK]'",
+ "replace text[10:18] --> decoded_text[12:17] 'اليمنيين' --> '[UNK]'",
+ "replace text[19:26] --> decoded_text[18:23] 'القائمة' --> '[UNK]'",
+ "replace text[27:29] --> decoded_text[24:29] 'هي' --> '[UNK]'",
+ "replace text[30:34] --> decoded_text[30:35] 'نتاج' --> '[UNK]'",
+ "replace text[35:39] --> decoded_text[36:41] 'حكمة' --> '[UNK]'",
+ "replace text[41:44] --> decoded_text[43:48] 'وهل' --> '[UNK]'",
+ "replace text[45:47] --> decoded_text[49:54] 'من' --> '[UNK]'",
+ "replace text[48:54] --> decoded_text[55:60] 'الحكمة' --> '[UNK]'",
+ "replace text[55:57] --> decoded_text[61:66] 'أن' --> '[UNK]'",
+ "replace text[58:61] --> decoded_text[67:72] 'تظل' --> '[UNK]'",
+ "replace text[62:70] --> decoded_text[73:78] 'البندقية' --> '[UNK]'",
+ "replace text[71:79] --> decoded_text[79:84] 'والقذيفة' --> '[UNK]'",
+ "replace text[80:82] --> decoded_text[85:90] 'هي' --> '[UNK]'",
+ "replace text[83:88] --> decoded_text[91:96] 'وسيلة' --> '[UNK]'",
+ "replace text[89:95] --> decoded_text[97:102] 'الخطاب' --> '[UNK]'",
+ "replace text[96:103] --> decoded_text[103:108] 'والحوار' --> '[UNK]'",
+ "replace text[104:108] --> decoded_text[109:114] 'فيما' --> '[UNK]'",
+ "replace text[109:114] --> decoded_text[115:120] 'بيننا' --> '[UNK]'",
+ "replace text[115:118] --> decoded_text[121:126] 'نحن' --> '[UNK]'",
+ "replace text[119:124] --> decoded_text[127:132] 'أبناء' --> '[UNK]'",
+ "replace text[125:128] --> decoded_text[133:138] 'هذا' --> '[UNK]'",
+ "replace text[129:134] --> decoded_text[139:144] 'البلد' --> '[UNK]'",
+ "replace text[135:141] --> decoded_text[145:150] 'العظيم' --> '[UNK]'"
+ ],
+ "n_oov_chars": 140,
+ "oov_ratio": 0.9790209790209791,
+ "oov_charset": "[\"ف\", \"ه\", \"ل\", \" \", \"أ\", \"و\", \"ض\", \"ا\", \"ع\", \"ي\", \"م\", \"ن\", \"ق\", \"ئ\", \"ة\", \"ت\", \"ج\", \"ح\", \"ك\", \"ظ\", \"ب\", \"د\", \"ذ\", \"س\", \"خ\", \"ط\", \"ر\", \"ء\"]"
+ },
+ {
+ "text": "وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان, ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله..",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..",
+ "diff": [
+ "replace text[0:3] --> decoded_text[0:5] 'وهل' --> '[UNK]'",
+ "replace text[4:12] --> decoded_text[6:11] 'الانسياق' --> '[UNK]'",
+ "replace text[13:16] --> decoded_text[12:17] 'نحو' --> '[UNK]'",
+ "replace text[17:22] --> decoded_text[18:23] 'مزيدٍ' --> '[UNK]'",
+ "replace text[23:25] --> decoded_text[24:29] 'من' --> '[UNK]'",
+ "replace text[26:32] --> decoded_text[30:35] 'العناد' --> '[UNK]'",
+ "replace text[33:39] --> decoded_text[36:41] 'ومزيدٍ' --> '[UNK]'",
+ "replace text[40:42] --> decoded_text[42:47] 'من' --> '[UNK]'",
+ "replace text[43:51] --> decoded_text[48:53] 'الاحتقان' --> '[UNK]'",
+ "replace text[53:59] --> decoded_text[55:60] 'ومزيدٍ' --> '[UNK]'",
+ "replace text[60:62] --> decoded_text[61:66] 'من' --> '[UNK]'",
+ "replace text[63:71] --> decoded_text[67:72] 'الاحتراب' --> '[UNK]'",
+ "replace text[72:75] --> decoded_text[73:78] 'بين' --> '[UNK]'",
+ "replace text[76:81] --> decoded_text[79:84] 'أبناء' --> '[UNK]'",
+ "replace text[82:85] --> decoded_text[85:90] 'بلد' --> '[UNK]'",
+ "replace text[86:90] --> decoded_text[91:96] 'واحد' --> '[UNK]'",
+ "replace text[91:95] --> decoded_text[97:102] 'وشعب' --> '[UNK]'",
+ "replace text[96:100] --> decoded_text[103:108] 'واحد' --> '[UNK]'",
+ "replace text[101:105] --> decoded_text[109:114] 'يرضى' --> '[UNK]'",
+ "replace text[106:110] --> decoded_text[115:120] 'الله' --> '[UNK]'",
+ "replace text[111:117] --> decoded_text[121:126] 'ورسوله' --> '[UNK]'",
+ "replace text[118:124] --> decoded_text[127:132] 'الكريم' --> '[UNK]'",
+ "replace text[125:129] --> decoded_text[133:138] 'عليه' --> '[UNK]'",
+ "replace text[130:134] --> decoded_text[139:144] 'صلاة' --> '[UNK]'",
+ "replace text[135:139] --> decoded_text[145:150] 'الله' --> '[UNK]'",
+ "replace text[140:146] --> decoded_text[151:156] 'وسلامه' --> '[UNK]'",
+ "replace text[147:151] --> decoded_text[157:162] 'وعلى' --> '[UNK]'",
+ "replace text[152:155] --> decoded_text[163:168] 'آله' --> '[UNK]'"
+ ],
+ "n_oov_chars": 154,
+ "oov_ratio": 0.9808917197452229,
+ "oov_charset": "[\"و\", \"ه\", \"ل\", \" \", \"ا\", \"ن\", \"س\", \"ي\", \"ق\", \"ح\", \"م\", \"ز\", \"د\", \"ٍ\", \"ع\", \"ت\", \"ر\", \"ب\", \"أ\", \"ء\", \"ش\", \"ض\", \"ى\", \"ك\", \"ص\", \"ة\", \"آ\"]"
+ },
+ {
+ "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] - [UNK] [UNK] [UNK] [UNK], [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..",
+ "diff": [
+ "replace text[0:84] --> decoded_text[0:110] 'أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] '",
+ "replace text[86:107] --> decoded_text[112:135] 'وهو بلد ولاَّد بالخير' --> '[UNK] [UNK] [UNK] [UNK]'",
+ "replace text[109:118] --> decoded_text[137:148] 'إلى أطلال' --> '[UNK] [UNK]'",
+ "replace text[120:175] --> decoded_text[150:209] 'وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[177:226] --> decoded_text[211:266] 'بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..'"
+ ],
+ "n_oov_chars": 176,
+ "oov_ratio": 0.7787610619469026,
+ "oov_charset": "[\"أ\", \"ن\", \"ا\", \"ل\", \"ع\", \"ت\", \"ق\", \"د\", \"ً\", \"م\", \"ب\", \"ء\", \"ه\", \"ذ\", \"ي\", \"و\", \"س\", \"غ\", \"ج\", \"ر\", \"ف\", \"ح\", \"ّ\", \"َ\", \"خ\", \"إ\", \"ى\", \"ط\", \"ض\", \"ؤ\", \"ئ\", \"ش\", \"ك\", \"ة\"]"
+ },
+ {
+ "text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي..؟!",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK].. [UNK]!",
+ "diff": [
+ "replace text[0:96] --> decoded_text[0:95] 'اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[98:118] --> decoded_text[97:120] 'لم يسلموا ولن يسلموا' --> '[UNK] [UNK] [UNK] [UNK]'",
+ "replace text[121:150] --> decoded_text[123:146] 'والأعباء والمتاعب طالت الجميع' --> '[UNK] [UNK] [UNK] [UNK]'",
+ "replace text[152:280] --> decoded_text[148:279] 'وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[282:392] --> decoded_text[281:394] 'وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[394:403] --> decoded_text[396:407] 'أو أبوظبي' --> '[UNK] [UNK]'",
+ "replace text[405:406] --> decoded_text[409:415] '؟' --> ' [UNK]'"
+ ],
+ "n_oov_chars": 398,
+ "oov_ratio": 0.9778869778869779,
+ "oov_charset": "[\"ا\", \"ل\", \"ي\", \"م\", \"ن\", \" \", \"أ\", \"ه\", \"ك\", \"ع\", \"د\", \"و\", \"ح\", \"ص\", \"ر\", \"ت\", \"ى\", \"ئ\", \"ذ\", \"ظ\", \"ب\", \"ث\", \"ش\", \"ة\", \"س\", \"ء\", \"ط\", \"ج\", \"إ\", \"خ\", \"ف\", \"ق\", \"ً\", \"ض\", \"غ\", \"ز\", \"؟\"]"
+ },
+ {
+ "text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية.. أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب!!",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]!!",
+ "diff": [
+ "replace text[0:118] --> decoded_text[0:131] 'وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[121:245] --> decoded_text[134:271] 'أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'"
+ ],
+ "n_oov_chars": 243,
+ "oov_ratio": 0.9838056680161943,
+ "oov_charset": "[\"و\", \"ه\", \"ل\", \" \", \"ا\", \"ن\", \"ع\", \"ك\", \"س\", \"ت\", \"م\", \"ف\", \"ي\", \"ح\", \"ق\", \"ب\", \"ى\", \"ص\", \"ة\", \"ر\", \"ز\", \"أ\", \"خ\", \"د\", \"ج\", \"غ\", \"إ\", \"ض\", \"ئ\", \"ء\", \"ش\", \"ط\"]"
+ },
+ {
+ "text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي, وصوب الرياض, وصوب واشنطن..",
+ "decoded_text": "[UNK].. [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK], [UNK], [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK], [UNK] [UNK]..",
+ "diff": [
+ "replace text[0:5] --> decoded_text[0:5] 'اليمن' --> '[UNK]'",
+ "replace text[8:10] --> decoded_text[8:13] 'في' --> '[UNK]'",
+ "replace text[11:14] --> decoded_text[14:19] 'هذه' --> '[UNK]'",
+ "replace text[15:21] --> decoded_text[20:25] 'اللحظة' --> '[UNK]'",
+ "replace text[22:29] --> decoded_text[26:31] 'الفارقة' --> '[UNK]'",
+ "replace text[32:34] --> decoded_text[34:39] 'في' --> '[UNK]'",
+ "replace text[35:38] --> decoded_text[40:45] 'هذه' --> '[UNK]'",
+ "replace text[39:46] --> decoded_text[46:51] 'المرحلة' --> '[UNK]'",
+ "replace text[47:54] --> decoded_text[52:57] 'الخطيرة' --> '[UNK]'",
+ "replace text[55:60] --> decoded_text[58:63] 'مدمرة' --> '[UNK]'",
+ "replace text[62:69] --> decoded_text[65:70] 'ومحاصرة' --> '[UNK]'",
+ "replace text[71:76] --> decoded_text[72:77] 'ويباد' --> '[UNK]'",
+ "replace text[77:82] --> decoded_text[78:83] 'أهلها' --> '[UNK]'",
+ "replace text[83:91] --> decoded_text[84:89] 'وساكنوها' --> '[UNK]'",
+ "replace text[94:99] --> decoded_text[92:97] 'اليمن' --> '[UNK]'",
+ "replace text[100:107] --> decoded_text[98:103] 'أصابتها' --> '[UNK]'",
+ "replace text[108:112] --> decoded_text[104:109] 'لعنة' --> '[UNK]'",
+ "replace text[113:121] --> decoded_text[110:115] 'الارتزاق' --> '[UNK]'",
+ "replace text[122:130] --> decoded_text[116:121] 'وابتلاها' --> '[UNK]'",
+ "replace text[131:135] --> decoded_text[122:127] 'الله' --> '[UNK]'",
+ "replace text[136:143] --> decoded_text[128:133] 'بقيادات' --> '[UNK]'",
+ "replace text[144:148] --> decoded_text[134:139] 'يممت' --> '[UNK]'",
+ "replace text[149:154] --> decoded_text[140:145] 'وجهها' --> '[UNK]'",
+ "replace text[155:158] --> decoded_text[146:151] 'صوب' --> '[UNK]'",
+ "replace text[159:162] --> decoded_text[152:157] 'أبو' --> '[UNK]'",
+ "replace text[163:166] --> decoded_text[158:163] 'ظبي' --> '[UNK]'",
+ "replace text[168:172] --> decoded_text[165:170] 'وصوب' --> '[UNK]'",
+ "replace text[173:179] --> decoded_text[171:176] 'الرياض' --> '[UNK]'",
+ "replace text[181:185] --> decoded_text[178:183] 'وصوب' --> '[UNK]'",
+ "replace text[186:192] --> decoded_text[184:189] 'واشنطن' --> '[UNK]'"
+ ],
+ "n_oov_chars": 182,
+ "oov_ratio": 0.9381443298969072,
+ "oov_charset": "[\"ا\", \"ل\", \"ي\", \"م\", \"ن\", \" \", \"ف\", \"ه\", \"ذ\", \"ح\", \"ظ\", \"ة\", \"ر\", \"ق\", \"خ\", \"ط\", \"د\", \"و\", \"ص\", \"ب\", \"أ\", \"س\", \"ك\", \"ت\", \"ع\", \"ز\", \"ج\", \"ض\", \"ش\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/eson.kplug-base-encoder @ cc100.de.diff.json b/stats/compression_rate/eson.kplug-base-encoder @ cc100.de.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..23d1eef70b0f3097d6da175953e465393b412d14
--- /dev/null
+++ b/stats/compression_rate/eson.kplug-base-encoder @ cc100.de.diff.json
@@ -0,0 +1,213 @@
+[
+ {
+ "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.",
+ "decoded_text": "bereits eine woche vorher am samstag, 2. dezember ist die „ pungel - weihnacht “ in siegburg - kaldauen um 18 uhr ( einlass 17. 30 uhr ) im restaurant kaldauer hof zu horen. hier ist im eintrittspreis von 18, 50 € ein abendessen enthalten. auch hier gibt es einen mitsingteil fur die gaste.",
+ "diff": [
+ "replace text[0:14] --> decoded_text[0:14] 'Bereits eine W' --> 'bereits eine w'",
+ "replace text[29:30] --> decoded_text[29:30] 'S' --> 's'",
+ "replace text[41:42] --> decoded_text[41:42] 'D' --> 'd'",
+ "replace text[59:65] --> decoded_text[59:67] 'Püngel' --> ' pungel '",
+ "replace text[66:67] --> decoded_text[68:70] 'W' --> ' w'",
+ "insert text[75:75] --> decoded_text[78:79] '' --> ' '",
+ "replace text[80:88] --> decoded_text[84:93] 'Siegburg' --> 'siegburg '",
+ "replace text[89:90] --> decoded_text[94:96] 'K' --> ' k'",
+ "replace text[104:105] --> decoded_text[110:111] 'U' --> 'u'",
+ "replace text[109:110] --> decoded_text[115:117] 'E' --> ' e'",
+ "insert text[120:120] --> decoded_text[127:128] '' --> ' '",
+ "replace text[123:126] --> decoded_text[131:135] 'Uhr' --> 'uhr '",
+ "replace text[131:152] --> decoded_text[140:161] 'Restaurant Kaldauer H' --> 'restaurant kaldauer h'",
+ "replace text[159:178] --> decoded_text[168:187] 'ören. Hier ist im E' --> 'oren. hier ist im e'",
+ "insert text[199:199] --> decoded_text[208:209] '' --> ' '",
+ "replace text[208:231] --> decoded_text[218:241] 'Abendessen enthalten. A' --> 'abendessen enthalten. a'",
+ "replace text[254:255] --> decoded_text[264:265] 'M' --> 'm'",
+ "replace text[267:280] --> decoded_text[277:290] 'ür die Gäste.' --> 'ur die gaste.'"
+ ],
+ "n_oov_chars": 24,
+ "oov_ratio": 0.08571428571428572,
+ "oov_charset": "[\"B\", \"W\", \"S\", \"D\", \"P\", \"ü\", \"K\", \"U\", \"E\", \"R\", \"H\", \"ö\", \"A\", \"M\", \"G\", \"ä\"]"
+ },
+ {
+ "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.",
+ "decoded_text": "der chor bietet noch einen weiteren termin im rahmen der „ pungel - weihnacht “ an.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'",
+ "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'",
+ "replace text[36:37] --> decoded_text[36:37] 'T' --> 't'",
+ "replace text[46:47] --> decoded_text[46:47] 'R' --> 'r'",
+ "replace text[58:60] --> decoded_text[58:61] 'Pü' --> ' pu'",
+ "insert text[64:64] --> decoded_text[65:66] '' --> ' '",
+ "replace text[65:66] --> decoded_text[67:69] 'W' --> ' w'",
+ "insert text[74:74] --> decoded_text[77:78] '' --> ' '"
+ ],
+ "n_oov_chars": 7,
+ "oov_ratio": 0.08860759493670886,
+ "oov_charset": "[\"D\", \"C\", \"T\", \"R\", \"P\", \"ü\", \"W\"]"
+ },
+ {
+ "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de",
+ "decoded_text": "02683 967019. die karten konnen auch per email bestellt werden : en - koelsche - weihnachtsfeier @ t - online. de",
+ "diff": [
+ "replace text[14:15] --> decoded_text[14:15] 'D' --> 'd'",
+ "replace text[18:19] --> decoded_text[18:19] 'K' --> 'k'",
+ "replace text[26:27] --> decoded_text[26:27] 'ö' --> 'o'",
+ "replace text[41:42] --> decoded_text[41:42] 'E' --> 'e'",
+ "insert text[62:62] --> decoded_text[62:63] '' --> ' '",
+ "replace text[64:65] --> decoded_text[65:66] 'E' --> 'e'",
+ "insert text[66:66] --> decoded_text[67:68] '' --> ' '",
+ "replace text[67:68] --> decoded_text[69:71] 'K' --> ' k'",
+ "insert text[75:75] --> decoded_text[78:79] '' --> ' '",
+ "replace text[76:77] --> decoded_text[80:82] 'W' --> ' w'",
+ "insert text[91:91] --> decoded_text[96:97] '' --> ' '",
+ "insert text[92:92] --> decoded_text[98:99] '' --> ' '",
+ "insert text[93:93] --> decoded_text[100:101] '' --> ' '",
+ "insert text[94:94] --> decoded_text[102:103] '' --> ' '",
+ "insert text[101:101] --> decoded_text[110:111] '' --> ' '"
+ ],
+ "n_oov_chars": 7,
+ "oov_ratio": 0.06796116504854369,
+ "oov_charset": "[\"D\", \"K\", \"ö\", \"E\", \"W\"]"
+ },
+ {
+ "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.",
+ "decoded_text": "der chor wunscht ihnen schon jetzt viel vergnugen.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'",
+ "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'",
+ "replace text[10:11] --> decoded_text[10:11] 'ü' --> 'u'",
+ "replace text[17:18] --> decoded_text[17:18] 'I' --> 'i'",
+ "replace text[40:41] --> decoded_text[40:41] 'V' --> 'v'",
+ "replace text[45:46] --> decoded_text[45:46] 'ü' --> 'u'"
+ ],
+ "n_oov_chars": 6,
+ "oov_ratio": 0.12,
+ "oov_charset": "[\"D\", \"C\", \"ü\", \"I\", \"V\"]"
+ },
+ {
+ "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.",
+ "decoded_text": "die verarbeitung kann auch auf elektronischem wege erfolgen. dies ist insbesondere dann der fall, wenn ein bewerber entsprechende bewerbungsunterlagen auf dem elektronischen wege, beispielsweise per e - mail oder uber ein auf der internetseite befindliches webformular, an den fur die verarbeitung verantwortlichen ubermittelt. sollten sie uber einen account in einem berufsorientierten sozialen netzwerk wie etwa xing oder linkedin verfugen, konnen wir die daten auch von ihrer offentlich einsehbaren profilseite erheben. zwecke der verarbeitung und rechtsgrundlage wir verarbeiten ihre personenbezogenen daten ausschließlich zum zwecke der durchfuhrung des bewerbungsverfahrens.",
+ "diff": [
+ "replace text[0:5] --> decoded_text[0:5] 'Die V' --> 'die v'",
+ "replace text[46:47] --> decoded_text[46:47] 'W' --> 'w'",
+ "replace text[61:93] --> decoded_text[61:93] 'Dies ist insbesondere dann der F' --> 'dies ist insbesondere dann der f'",
+ "replace text[107:108] --> decoded_text[107:108] 'B' --> 'b'",
+ "replace text[130:131] --> decoded_text[130:131] 'B' --> 'b'",
+ "replace text[174:175] --> decoded_text[174:175] 'W' --> 'w'",
+ "replace text[199:200] --> decoded_text[199:201] 'E' --> 'e '",
+ "replace text[201:261] --> decoded_text[202:203] 'Mail oder über ein auf der Internetseite befindliches Webfor' --> ' '",
+ "insert text[262:262] --> decoded_text[204:264] '' --> 'ail oder uber ein auf der internetseite befindliches webform'",
+ "replace text[276:314] --> decoded_text[278:316] 'ür die Verarbeitung Verantwortlichen ü' --> 'ur die verarbeitung verantwortlichen u'",
+ "replace text[326:350] --> decoded_text[328:352] 'Sollten Sie über einen A' --> 'sollten sie uber einen a'",
+ "replace text[394:395] --> decoded_text[396:397] 'N' --> 'n'",
+ "replace text[412:436] --> decoded_text[414:438] 'Xing oder LinkedIn verfü' --> 'xing oder linkedin verfu'",
+ "replace text[442:501] --> decoded_text[444:503] 'önnen wir die Daten auch von Ihrer öffentlich einsehbaren P' --> 'onnen wir die daten auch von ihrer offentlich einsehbaren p'",
+ "replace text[521:582] --> decoded_text[523:584] 'Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten I' --> 'zwecke der verarbeitung und rechtsgrundlage wir verarbeiten i'",
+ "replace text[604:605] --> decoded_text[606:607] 'D' --> 'd'",
+ "replace text[629:658] --> decoded_text[631:660] 'Zwecke der Durchführung des B' --> 'zwecke der durchfuhrung des b'"
+ ],
+ "n_oov_chars": 41,
+ "oov_ratio": 0.06047197640117994,
+ "oov_charset": "[\"D\", \"V\", \"W\", \"F\", \"B\", \"E\", \"M\", \"ü\", \"I\", \"S\", \"A\", \"N\", \"X\", \"L\", \"ö\", \"P\", \"Z\", \"R\"]"
+ },
+ {
+ "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.",
+ "decoded_text": "sofern wir mit dem bewerber einen anstellungsvertrag abschließen, werden die ubermittelten daten zum zwecke der abwicklung des beschaftigungsverhaltnisses unter beachtung der gesetzlichen vorschriften gespeichert. ansonsten werden die personenbezogenen daten sechs monate nach beendigung des bewerbungsverfahrens geloscht, sofern einer loschung keine sonstigen berechtigten interessen des fur die verarbeitung verantwortlichen entgegenstehen.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'",
+ "replace text[19:35] --> decoded_text[19:35] 'Bewerber einen A' --> 'bewerber einen a'",
+ "replace text[77:78] --> decoded_text[77:78] 'ü' --> 'u'",
+ "replace text[91:92] --> decoded_text[91:92] 'D' --> 'd'",
+ "replace text[101:102] --> decoded_text[101:102] 'Z' --> 'z'",
+ "replace text[112:113] --> decoded_text[112:113] 'A' --> 'a'",
+ "replace text[127:162] --> decoded_text[127:162] 'Beschäftigungsverhältnisses unter B' --> 'beschaftigungsverhaltnisses unter b'",
+ "replace text[188:189] --> decoded_text[188:189] 'V' --> 'v'",
+ "replace text[214:215] --> decoded_text[214:215] 'A' --> 'a'",
+ "replace text[253:317] --> decoded_text[253:317] 'Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelö' --> 'daten sechs monate nach beendigung des bewerbungsverfahrens gelo'",
+ "replace text[336:338] --> decoded_text[336:338] 'Lö' --> 'lo'",
+ "replace text[374:411] --> decoded_text[374:411] 'Interessen des für die Verarbeitung V' --> 'interessen des fur die verarbeitung v'"
+ ],
+ "n_oov_chars": 24,
+ "oov_ratio": 0.05429864253393665,
+ "oov_charset": "[\"S\", \"B\", \"A\", \"ü\", \"D\", \"Z\", \"ä\", \"V\", \"M\", \"ö\", \"L\", \"I\"]"
+ },
+ {
+ "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.",
+ "decoded_text": "innerhalb unseres hauses erhalten diejenigen internen stellen bzw. organisationseinheiten ihre daten, die diese zur erfullung unserer vertraglichen und gesetzlichen pflichten ( wie fuhrungskrafte und fachverantwortliche, die einen neuen mitarbeiter suchen oder an der entscheidung uber die stellenbesetzung mitwirken, buchhaltung, betriebsarzt, arbeitssicherheit, ggf. mitarbeitervertretung usw. ) oder im rahmen der bearbeitung und umsetzung unseres berechtigten interesses benotigen.",
+ "diff": [
+ "replace text[0:19] --> decoded_text[0:19] 'Innerhalb unseres H' --> 'innerhalb unseres h'",
+ "replace text[54:55] --> decoded_text[54:55] 'S' --> 's'",
+ "replace text[67:120] --> decoded_text[67:120] 'Organisationseinheiten Ihre Daten, die diese zur Erfü' --> 'organisationseinheiten ihre daten, die diese zur erfu'",
+ "replace text[165:166] --> decoded_text[165:166] 'P' --> 'p'",
+ "insert text[176:176] --> decoded_text[176:177] '' --> ' '",
+ "replace text[180:182] --> decoded_text[181:183] 'Fü' --> 'fu'",
+ "replace text[190:200] --> decoded_text[191:201] 'äfte und F' --> 'afte und f'",
+ "replace text[236:290] --> decoded_text[237:291] 'Mitarbeiter suchen oder an der Entscheidung über die S' --> 'mitarbeiter suchen oder an der entscheidung uber die s'",
+ "replace text[317:345] --> decoded_text[318:346] 'Buchhaltung, Betriebsarzt, A' --> 'buchhaltung, betriebsarzt, a'",
+ "replace text[368:369] --> decoded_text[369:370] 'M' --> 'm'",
+ "insert text[394:394] --> decoded_text[395:396] '' --> ' '",
+ "replace text[404:477] --> decoded_text[406:479] 'Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benö' --> 'rahmen der bearbeitung und umsetzung unseres berechtigten interesses beno'"
+ ],
+ "n_oov_chars": 26,
+ "oov_ratio": 0.053830227743271224,
+ "oov_charset": "[\"I\", \"H\", \"S\", \"O\", \"D\", \"E\", \"ü\", \"P\", \"F\", \"ä\", \"M\", \"B\", \"A\", \"R\", \"U\", \"ö\"]"
+ },
+ {
+ "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,",
+ "decoded_text": "eine weitergabe ihrer daten an externe stellen erfolgt ausschließlich zu zwecken,",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'",
+ "replace text[5:6] --> decoded_text[5:6] 'W' --> 'w'",
+ "replace text[16:17] --> decoded_text[16:17] 'I' --> 'i'",
+ "replace text[22:23] --> decoded_text[22:23] 'D' --> 'd'",
+ "replace text[39:40] --> decoded_text[39:40] 'S' --> 's'",
+ "replace text[73:74] --> decoded_text[73:74] 'Z' --> 'z'"
+ ],
+ "n_oov_chars": 6,
+ "oov_ratio": 0.07407407407407407,
+ "oov_charset": "[\"E\", \"W\", \"I\", \"D\", \"S\", \"Z\"]"
+ },
+ {
+ "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;",
+ "decoded_text": "bei denen wir zur erfullung gesetzlicher vorgaben zur auskunft, meldung oder weitergabe von daten verpflichtet oder berechtigt sind oder die datenweitergabe im offentlichen interesse liegt ;",
+ "diff": [
+ "replace text[18:19] --> decoded_text[18:19] 'E' --> 'e'",
+ "replace text[21:22] --> decoded_text[21:22] 'ü' --> 'u'",
+ "replace text[41:42] --> decoded_text[41:42] 'V' --> 'v'",
+ "replace text[54:55] --> decoded_text[54:55] 'A' --> 'a'",
+ "replace text[64:65] --> decoded_text[64:65] 'M' --> 'm'",
+ "replace text[77:78] --> decoded_text[77:78] 'W' --> 'w'",
+ "replace text[92:93] --> decoded_text[92:93] 'D' --> 'd'",
+ "replace text[141:142] --> decoded_text[141:142] 'D' --> 'd'",
+ "replace text[160:161] --> decoded_text[160:161] 'ö' --> 'o'",
+ "replace text[173:174] --> decoded_text[173:174] 'I' --> 'i'",
+ "insert text[188:188] --> decoded_text[188:189] '' --> ' '"
+ ],
+ "n_oov_chars": 10,
+ "oov_ratio": 0.05291005291005291,
+ "oov_charset": "[\"E\", \"ü\", \"V\", \"A\", \"M\", \"W\", \"D\", \"ö\", \"I\"]"
+ },
+ {
+ "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);",
+ "decoded_text": "aufgrund unseres berechtigten interesses oder des berechtigten interesses des dritten ( z. b. an behorden, auskunfteien, rechtsanwalte, gerichte, gutachter, und gremien und kontrollinstanzen ) ;",
+ "diff": [
+ "replace text[30:31] --> decoded_text[30:31] 'I' --> 'i'",
+ "replace text[63:64] --> decoded_text[63:64] 'I' --> 'i'",
+ "replace text[78:79] --> decoded_text[78:79] 'D' --> 'd'",
+ "insert text[87:87] --> decoded_text[87:88] '' --> ' '",
+ "replace text[89:90] --> decoded_text[90:92] 'B' --> ' b'",
+ "replace text[95:96] --> decoded_text[97:98] 'B' --> 'b'",
+ "replace text[98:99] --> decoded_text[100:101] 'ö' --> 'o'",
+ "replace text[105:106] --> decoded_text[107:108] 'A' --> 'a'",
+ "replace text[119:120] --> decoded_text[121:122] 'R' --> 'r'",
+ "replace text[128:129] --> decoded_text[130:131] 'ä' --> 'a'",
+ "replace text[134:135] --> decoded_text[136:137] 'G' --> 'g'",
+ "replace text[144:145] --> decoded_text[146:147] 'G' --> 'g'",
+ "replace text[159:160] --> decoded_text[161:162] 'G' --> 'g'",
+ "replace text[171:172] --> decoded_text[173:174] 'K' --> 'k'",
+ "insert text[188:188] --> decoded_text[190:191] '' --> ' '",
+ "insert text[189:189] --> decoded_text[192:193] '' --> ' '"
+ ],
+ "n_oov_chars": 13,
+ "oov_ratio": 0.06842105263157895,
+ "oov_charset": "[\"I\", \"D\", \"B\", \"ö\", \"A\", \"R\", \"ä\", \"G\", \"K\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/eson.kplug-base-encoder @ cc100.fa.diff.json b/stats/compression_rate/eson.kplug-base-encoder @ cc100.fa.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..bd753f8e816b816d57298207648c942898d01c56
--- /dev/null
+++ b/stats/compression_rate/eson.kplug-base-encoder @ cc100.fa.diff.json
@@ -0,0 +1,171 @@
+[
+ {
+ "text": "آشپزخانه کوچک من: February 2012",
+ "decoded_text": "[UNK] [UNK] [UNK] : february 2012",
+ "diff": [
+ "replace text[0:8] --> decoded_text[0:5] 'آشپزخانه' --> '[UNK]'",
+ "replace text[9:13] --> decoded_text[6:11] 'کوچک' --> '[UNK]'",
+ "replace text[14:16] --> decoded_text[12:18] 'من' --> '[UNK] '",
+ "replace text[18:19] --> decoded_text[20:21] 'F' --> 'f'"
+ ],
+ "n_oov_chars": 15,
+ "oov_ratio": 0.4838709677419355,
+ "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ا\", \"ن\", \"ه\", \"ک\", \"و\", \"چ\", \"م\", \"F\"]"
+ },
+ {
+ "text": "آشپزخانه کوچک من",
+ "decoded_text": "[UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:8] --> decoded_text[0:5] 'آشپزخانه' --> '[UNK]'",
+ "replace text[9:13] --> decoded_text[6:11] 'کوچک' --> '[UNK]'",
+ "replace text[14:16] --> decoded_text[12:17] 'من' --> '[UNK]'"
+ ],
+ "n_oov_chars": 16,
+ "oov_ratio": 1.0,
+ "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ا\", \"ن\", \"ه\", \" \", \"ک\", \"و\", \"چ\", \"م\"]"
+ },
+ {
+ "text": "بکینگ پودر:2 قاشق چای خوری",
+ "decoded_text": "[UNK] [UNK] : 2 [UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:5] --> decoded_text[0:5] 'بکینگ' --> '[UNK]'",
+ "replace text[6:10] --> decoded_text[6:12] 'پودر' --> '[UNK] '",
+ "insert text[11:11] --> decoded_text[13:14] '' --> ' '",
+ "replace text[13:17] --> decoded_text[16:21] 'قاشق' --> '[UNK]'",
+ "replace text[18:21] --> decoded_text[22:27] 'چای' --> '[UNK]'",
+ "replace text[22:26] --> decoded_text[28:33] 'خوری' --> '[UNK]'"
+ ],
+ "n_oov_chars": 20,
+ "oov_ratio": 0.7692307692307693,
+ "oov_charset": "[\"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"و\", \"د\", \"ر\", \"ق\", \"ا\", \"ش\", \"چ\", \"خ\"]"
+ },
+ {
+ "text": "تخم مرغ:2 عدد بزرگ",
+ "decoded_text": "[UNK] [UNK] : 2 [UNK] [UNK]",
+ "diff": [
+ "replace text[0:3] --> decoded_text[0:5] 'تخم' --> '[UNK]'",
+ "replace text[4:7] --> decoded_text[6:12] 'مرغ' --> '[UNK] '",
+ "insert text[8:8] --> decoded_text[13:14] '' --> ' '",
+ "replace text[10:13] --> decoded_text[16:21] 'عدد' --> '[UNK]'",
+ "replace text[14:18] --> decoded_text[22:27] 'بزرگ' --> '[UNK]'"
+ ],
+ "n_oov_chars": 13,
+ "oov_ratio": 0.7222222222222222,
+ "oov_charset": "[\"ت\", \"خ\", \"م\", \"ر\", \"غ\", \"ع\", \"د\", \"ب\", \"ز\", \"گ\"]"
+ },
+ {
+ "text": "کره:225 گرم به دمای اتاق رسیده",
+ "decoded_text": "[UNK] : 225 [UNK] [UNK] [UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:3] --> decoded_text[0:6] 'کره' --> '[UNK] '",
+ "insert text[4:4] --> decoded_text[7:8] '' --> ' '",
+ "replace text[8:11] --> decoded_text[12:17] 'گرم' --> '[UNK]'",
+ "replace text[12:14] --> decoded_text[18:23] 'به' --> '[UNK]'",
+ "replace text[15:19] --> decoded_text[24:29] 'دمای' --> '[UNK]'",
+ "replace text[20:24] --> decoded_text[30:35] 'اتاق' --> '[UNK]'",
+ "replace text[25:30] --> decoded_text[36:41] 'رسیده' --> '[UNK]'"
+ ],
+ "n_oov_chars": 21,
+ "oov_ratio": 0.7,
+ "oov_charset": "[\"ک\", \"ر\", \"ه\", \"گ\", \"م\", \"ب\", \"د\", \"ا\", \"ی\", \"ت\", \"ق\", \"س\"]"
+ },
+ {
+ "text": "شکر:1و1/2 پیمانه+ 3 قاشق غذا خوری",
+ "decoded_text": "[UNK] : [UNK] / 2 [UNK] + 3 [UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:3] --> decoded_text[0:6] 'شکر' --> '[UNK] '",
+ "replace text[4:7] --> decoded_text[7:14] '1و1' --> ' [UNK] '",
+ "insert text[8:8] --> decoded_text[15:16] '' --> ' '",
+ "replace text[10:16] --> decoded_text[18:24] 'پیمانه' --> '[UNK] '",
+ "replace text[20:24] --> decoded_text[28:33] 'قاشق' --> '[UNK]'",
+ "replace text[25:28] --> decoded_text[34:39] 'غذا' --> '[UNK]'",
+ "replace text[29:33] --> decoded_text[40:45] 'خوری' --> '[UNK]'"
+ ],
+ "n_oov_chars": 21,
+ "oov_ratio": 0.6363636363636364,
+ "oov_charset": "[\"ش\", \"ک\", \"ر\", \"و\", \"پ\", \"ی\", \"م\", \"ا\", \"ن\", \"ه\", \"ق\", \"غ\", \"ذ\", \"خ\"]"
+ },
+ {
+ "text": "پودر دارچین:2 و1/2قاشق چای خوری",
+ "decoded_text": "[UNK] [UNK] : 2 [UNK] / [UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:4] --> decoded_text[0:5] 'پودر' --> '[UNK]'",
+ "replace text[5:11] --> decoded_text[6:12] 'دارچین' --> '[UNK] '",
+ "insert text[12:12] --> decoded_text[13:14] '' --> ' '",
+ "replace text[14:16] --> decoded_text[16:22] 'و1' --> '[UNK] '",
+ "delete text[17:22] --> decoded_text[23:23] '2قاشق' --> ''",
+ "replace text[23:26] --> decoded_text[24:29] 'چای' --> '[UNK]'",
+ "replace text[27:31] --> decoded_text[30:41] 'خوری' --> '[UNK] [UNK]'"
+ ],
+ "n_oov_chars": 22,
+ "oov_ratio": 0.7096774193548387,
+ "oov_charset": "[\"پ\", \"و\", \"د\", \"ر\", \"ا\", \"چ\", \"ی\", \"ن\", \"ق\", \"ش\", \"خ\"]"
+ },
+ {
+ "text": "فر رو روی 350 درجه فارنهایت روشن کنید",
+ "decoded_text": "[UNK] [UNK] [UNK] 350 [UNK] [UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:2] --> decoded_text[0:5] 'فر' --> '[UNK]'",
+ "replace text[3:5] --> decoded_text[6:11] 'رو' --> '[UNK]'",
+ "replace text[6:9] --> decoded_text[12:17] 'روی' --> '[UNK]'",
+ "replace text[14:18] --> decoded_text[22:27] 'درجه' --> '[UNK]'",
+ "replace text[19:27] --> decoded_text[28:33] 'فارنهایت' --> '[UNK]'",
+ "replace text[28:32] --> decoded_text[34:39] 'روشن' --> '[UNK]'",
+ "replace text[33:37] --> decoded_text[40:45] 'کنید' --> '[UNK]'"
+ ],
+ "n_oov_chars": 34,
+ "oov_ratio": 0.918918918918919,
+ "oov_charset": "[\"ف\", \"ر\", \" \", \"و\", \"ی\", \"د\", \"ج\", \"ه\", \"ا\", \"ن\", \"ت\", \"ش\", \"ک\"]"
+ },
+ {
+ "text": "کره رو با شکر هم بزنید تا یکدست و کرمی بشه تخم مرغها رو دونه دونه اضافه کنید و هم بزنید",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:3] --> decoded_text[0:5] 'کره' --> '[UNK]'",
+ "replace text[4:6] --> decoded_text[6:11] 'رو' --> '[UNK]'",
+ "replace text[7:9] --> decoded_text[12:17] 'با' --> '[UNK]'",
+ "replace text[10:13] --> decoded_text[18:23] 'شکر' --> '[UNK]'",
+ "replace text[14:16] --> decoded_text[24:29] 'هم' --> '[UNK]'",
+ "replace text[17:22] --> decoded_text[30:35] 'بزنید' --> '[UNK]'",
+ "replace text[23:25] --> decoded_text[36:41] 'تا' --> '[UNK]'",
+ "replace text[26:31] --> decoded_text[42:47] 'یکدست' --> '[UNK]'",
+ "replace text[32:33] --> decoded_text[48:53] 'و' --> '[UNK]'",
+ "replace text[34:38] --> decoded_text[54:59] 'کرمی' --> '[UNK]'",
+ "replace text[39:42] --> decoded_text[60:65] 'بشه' --> '[UNK]'",
+ "replace text[43:46] --> decoded_text[66:71] 'تخم' --> '[UNK]'",
+ "replace text[47:52] --> decoded_text[72:77] 'مرغها' --> '[UNK]'",
+ "replace text[53:55] --> decoded_text[78:83] 'رو' --> '[UNK]'",
+ "replace text[56:60] --> decoded_text[84:89] 'دونه' --> '[UNK]'",
+ "replace text[61:65] --> decoded_text[90:95] 'دونه' --> '[UNK]'",
+ "replace text[66:71] --> decoded_text[96:101] 'اضافه' --> '[UNK]'",
+ "replace text[72:76] --> decoded_text[102:107] 'کنید' --> '[UNK]'",
+ "replace text[77:78] --> decoded_text[108:113] 'و' --> '[UNK]'",
+ "replace text[79:81] --> decoded_text[114:119] 'هم' --> '[UNK]'",
+ "replace text[82:87] --> decoded_text[120:125] 'بزنید' --> '[UNK]'"
+ ],
+ "n_oov_chars": 87,
+ "oov_ratio": 1.0,
+ "oov_charset": "[\"ک\", \"ر\", \"ه\", \" \", \"و\", \"ب\", \"ا\", \"ش\", \"م\", \"ز\", \"ن\", \"ی\", \"د\", \"ت\", \"س\", \"خ\", \"غ\", \"ض\", \"ف\"]"
+ },
+ {
+ "text": "ارد و بکینگ پودر و نمک رو الک کنید و اضافه کنید",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:3] --> decoded_text[0:5] 'ارد' --> '[UNK]'",
+ "replace text[4:5] --> decoded_text[6:11] 'و' --> '[UNK]'",
+ "replace text[6:11] --> decoded_text[12:17] 'بکینگ' --> '[UNK]'",
+ "replace text[12:16] --> decoded_text[18:23] 'پودر' --> '[UNK]'",
+ "replace text[17:18] --> decoded_text[24:29] 'و' --> '[UNK]'",
+ "replace text[19:22] --> decoded_text[30:35] 'نمک' --> '[UNK]'",
+ "replace text[23:25] --> decoded_text[36:41] 'رو' --> '[UNK]'",
+ "replace text[26:29] --> decoded_text[42:47] 'الک' --> '[UNK]'",
+ "replace text[30:34] --> decoded_text[48:53] 'کنید' --> '[UNK]'",
+ "replace text[35:36] --> decoded_text[54:59] 'و' --> '[UNK]'",
+ "replace text[37:42] --> decoded_text[60:65] 'اضافه' --> '[UNK]'",
+ "replace text[43:47] --> decoded_text[66:71] 'کنید' --> '[UNK]'"
+ ],
+ "n_oov_chars": 47,
+ "oov_ratio": 1.0,
+ "oov_charset": "[\"ا\", \"ر\", \"د\", \" \", \"و\", \"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"م\", \"ل\", \"ض\", \"ف\", \"ه\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/eson.kplug-base-encoder @ cc100.ja.diff.json b/stats/compression_rate/eson.kplug-base-encoder @ cc100.ja.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..69b99cf5937818dfdd35ff7d979b6f0cdf46379e
--- /dev/null
+++ b/stats/compression_rate/eson.kplug-base-encoder @ cc100.ja.diff.json
@@ -0,0 +1,209 @@
+[
+ {
+ "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!",
+ "decoded_text": "午 [UNK] [UNK] 雨 [UNK] 心 配 [UNK] [UNK] 出 [UNK] 、 『 [UNK] 』 [UNK] 走 [UNK] 来 [UNK] !",
+ "diff": [
+ "replace text[1:4] --> decoded_text[1:14] '後から' --> ' [UNK] [UNK] '",
+ "replace text[5:6] --> decoded_text[15:22] 'が' --> ' [UNK] '",
+ "insert text[7:7] --> decoded_text[23:24] '' --> ' '",
+ "replace text[8:14] --> decoded_text[25:38] 'だったので遠' --> ' [UNK] [UNK] '",
+ "replace text[15:18] --> decoded_text[39:46] 'はせず' --> ' [UNK] '",
+ "insert text[19:19] --> decoded_text[47:48] '' --> ' '",
+ "replace text[20:27] --> decoded_text[49:56] 'ふれあいロード' --> ' [UNK] '",
+ "replace text[28:29] --> decoded_text[57:64] 'を' --> ' [UNK] '",
+ "replace text[30:32] --> decoded_text[65:72] 'って' --> ' [UNK] '",
+ "replace text[33:36] --> decoded_text[73:80] 'ました' --> ' [UNK] '"
+ ],
+ "n_oov_chars": 26,
+ "oov_ratio": 0.7027027027027027,
+ "oov_charset": "[\"後\", \"か\", \"ら\", \"が\", \"だ\", \"っ\", \"た\", \"の\", \"で\", \"遠\", \"は\", \"せ\", \"ず\", \"ふ\", \"れ\", \"あ\", \"い\", \"ロ\", \"ー\", \"ド\", \"を\", \"て\", \"ま\", \"し\"]"
+ },
+ {
+ "text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。",
+ "decoded_text": "[UNK] 実 [UNK] 春 [UNK] 近 [UNK] 肌 [UNK] 感 [UNK] 出 来 [UNK] 着 [UNK] 整 [UNK] [UNK] 圏 央 道 [UNK] 越 [UNK] 世 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 来 [UNK] 。",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:6] '確' --> '[UNK] '",
+ "replace text[2:3] --> decoded_text[7:14] 'に' --> ' [UNK] '",
+ "replace text[4:5] --> decoded_text[15:22] 'が' --> ' [UNK] '",
+ "replace text[6:13] --> decoded_text[23:30] 'づいてることを' --> ' [UNK] '",
+ "replace text[14:15] --> decoded_text[31:38] 'で' --> ' [UNK] '",
+ "replace text[16:21] --> decoded_text[39:46] 'じることが' --> ' [UNK] '",
+ "insert text[22:22] --> decoded_text[47:48] '' --> ' '",
+ "replace text[23:26] --> decoded_text[49:55] 'ました' --> ' [UNK]'",
+ "replace text[28:30] --> decoded_text[57:64] '々と' --> ' [UNK] '",
+ "replace text[31:36] --> decoded_text[65:78] '備されてる' --> ' [UNK] [UNK] '",
+ "insert text[37:37] --> decoded_text[79:80] '' --> ' '",
+ "insert text[38:38] --> decoded_text[81:82] '' --> ' '",
+ "replace text[39:40] --> decoded_text[83:90] 'を' --> ' [UNK] '",
+ "replace text[41:45] --> decoded_text[91:98] 'えるとお' --> ' [UNK] '",
+ "replace text[46:62] --> decoded_text[99:136] '話になってるボウリング場が見えて' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
+ "replace text[63:66] --> decoded_text[137:144] 'ました' --> ' [UNK] '"
+ ],
+ "n_oov_chars": 49,
+ "oov_ratio": 0.7313432835820896,
+ "oov_charset": "[\"確\", \"に\", \"が\", \"づ\", \"い\", \"て\", \"る\", \"こ\", \"と\", \"を\", \"で\", \"じ\", \"ま\", \"し\", \"た\", \"備\", \"さ\", \"れ\", \"え\", \"お\", \"話\", \"な\", \"っ\", \"ボ\", \"ウ\", \"リ\", \"ン\", \"グ\", \"場\", \"見\"]"
+ },
+ {
+ "text": "うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。",
+ "decoded_text": "[UNK] 〜 〜 、 私 [UNK] 途 中 [UNK] 行 [UNK] 、 通 [UNK] 道 [UNK] 変 更 [UNK] 。",
+ "diff": [
+ "replace text[0:2] --> decoded_text[0:6] 'うぅ' --> '[UNK] '",
+ "insert text[3:3] --> decoded_text[7:8] '' --> ' '",
+ "insert text[4:4] --> decoded_text[9:10] '' --> ' '",
+ "insert text[5:5] --> decoded_text[11:12] '' --> ' '",
+ "replace text[6:7] --> decoded_text[13:20] 'が' --> ' [UNK] '",
+ "insert text[8:8] --> decoded_text[21:22] '' --> ' '",
+ "replace text[9:14] --> decoded_text[23:30] 'でトイレに' --> ' [UNK] '",
+ "replace text[15:24] --> decoded_text[31:38] 'きたくなってしまい' --> ' [UNK] '",
+ "insert text[25:25] --> decoded_text[39:40] '' --> ' '",
+ "replace text[26:27] --> decoded_text[41:48] 'り' --> ' [UNK] '",
+ "replace text[28:36] --> decoded_text[49:56] 'にあったケンタに' --> ' [UNK] '",
+ "insert text[37:37] --> decoded_text[57:58] '' --> ' '",
+ "replace text[38:45] --> decoded_text[59:66] 'しちゃいました' --> ' [UNK] '"
+ ],
+ "n_oov_chars": 33,
+ "oov_ratio": 0.717391304347826,
+ "oov_charset": "[\"う\", \"ぅ\", \"が\", \"で\", \"ト\", \"イ\", \"レ\", \"に\", \"き\", \"た\", \"く\", \"な\", \"っ\", \"て\", \"し\", \"ま\", \"い\", \"り\", \"あ\", \"ケ\", \"ン\", \"タ\", \"ち\", \"ゃ\"]"
+ },
+ {
+ "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。",
+ "decoded_text": "実 [UNK] 、 [UNK] 年 程 前 [UNK] 右 目 [UNK] 黒 目 [UNK] 端 [UNK] 〜 [UNK] [UNK] [UNK] 分 [UNK] 程 [UNK] 小 [UNK] 斑 [UNK] [UNK] [UNK] 。",
+ "diff": [
+ "replace text[1:2] --> decoded_text[1:8] 'は' --> ' [UNK] '",
+ "replace text[3:4] --> decoded_text[9:16] '1' --> ' [UNK] '",
+ "insert text[5:5] --> decoded_text[17:18] '' --> ' '",
+ "insert text[6:6] --> decoded_text[19:20] '' --> ' '",
+ "replace text[7:13] --> decoded_text[21:28] 'にエルモサの' --> ' [UNK] '",
+ "insert text[14:14] --> decoded_text[29:30] '' --> ' '",
+ "replace text[15:16] --> decoded_text[31:38] 'の' --> ' [UNK] '",
+ "insert text[17:17] --> decoded_text[39:40] '' --> ' '",
+ "replace text[18:19] --> decoded_text[41:48] 'の' --> ' [UNK] '",
+ "replace text[20:22] --> decoded_text[49:56] 'によ' --> ' [UNK] '",
+ "replace text[23:28] --> decoded_text[57:76] 'く見ないと' --> ' [UNK] [UNK] [UNK] '",
+ "replace text[29:33] --> decoded_text[77:84] 'からない' --> ' [UNK] '",
+ "replace text[34:35] --> decoded_text[85:92] 'の' --> ' [UNK] '",
+ "replace text[36:38] --> decoded_text[93:100] 'さな' --> ' [UNK] '",
+ "replace text[39:48] --> decoded_text[101:120] 'を見つけてたんです' --> ' [UNK] [UNK] [UNK] '"
+ ],
+ "n_oov_chars": 33,
+ "oov_ratio": 0.673469387755102,
+ "oov_charset": "[\"は\", \"1\", \"に\", \"エ\", \"ル\", \"モ\", \"サ\", \"の\", \"よ\", \"く\", \"見\", \"な\", \"い\", \"と\", \"か\", \"ら\", \"さ\", \"を\", \"つ\", \"け\", \"て\", \"た\", \"ん\", \"で\", \"す\"]"
+ },
+ {
+ "text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。",
+ "decoded_text": "[UNK] [UNK] 点 [UNK] 先 生 [UNK] 『 角 膜 [UNK] 』 [UNK] [UNK] 断 [UNK] 。",
+ "diff": [
+ "replace text[0:3] --> decoded_text[0:12] 'その時' --> '[UNK] [UNK] '",
+ "replace text[4:5] --> decoded_text[13:20] 'で' --> ' [UNK] '",
+ "insert text[6:6] --> decoded_text[21:22] '' --> ' '",
+ "replace text[7:14] --> decoded_text[23:30] 'からはおそらく' --> ' [UNK] '",
+ "insert text[15:15] --> decoded_text[31:32] '' --> ' '",
+ "insert text[16:16] --> decoded_text[33:34] '' --> ' '",
+ "replace text[17:24] --> decoded_text[35:42] 'ジストロフィー' --> ' [UNK] '",
+ "replace text[25:32] --> decoded_text[43:56] 'であろうとの診' --> ' [UNK] [UNK] '",
+ "replace text[33:42] --> decoded_text[57:64] 'をもらっていました' --> ' [UNK] '"
+ ],
+ "n_oov_chars": 34,
+ "oov_ratio": 0.7906976744186046,
+ "oov_charset": "[\"そ\", \"の\", \"時\", \"で\", \"か\", \"ら\", \"は\", \"お\", \"く\", \"ジ\", \"ス\", \"ト\", \"ロ\", \"フ\", \"ィ\", \"ー\", \"あ\", \"ろ\", \"う\", \"と\", \"診\", \"を\", \"も\", \"っ\", \"て\", \"い\", \"ま\", \"し\", \"た\"]"
+ },
+ {
+ "text": "エルモサの場合は1年程経過して徐々にではあるんですけど、少し大きくなってきちゃいました",
+ "decoded_text": "[UNK] [UNK] 合 [UNK] 年 程 経 [UNK] [UNK] 徐 [UNK] 、 少 [UNK] 大 [UNK]",
+ "diff": [
+ "replace text[0:6] --> decoded_text[0:12] 'エルモサの場' --> '[UNK] [UNK] '",
+ "replace text[7:9] --> decoded_text[13:20] 'は1' --> ' [UNK] '",
+ "insert text[10:10] --> decoded_text[21:22] '' --> ' '",
+ "insert text[11:11] --> decoded_text[23:24] '' --> ' '",
+ "replace text[12:15] --> decoded_text[25:38] '過して' --> ' [UNK] [UNK] '",
+ "replace text[16:27] --> decoded_text[39:46] '々にではあるんですけど' --> ' [UNK] '",
+ "insert text[28:28] --> decoded_text[47:48] '' --> ' '",
+ "replace text[29:30] --> decoded_text[49:56] 'し' --> ' [UNK] '",
+ "replace text[31:43] --> decoded_text[57:63] 'きくなってきちゃいました' --> ' [UNK]'"
+ ],
+ "n_oov_chars": 33,
+ "oov_ratio": 0.7674418604651163,
+ "oov_charset": "[\"エ\", \"ル\", \"モ\", \"サ\", \"の\", \"場\", \"は\", \"過\", \"し\", \"て\", \"に\", \"で\", \"あ\", \"る\", \"ん\", \"す\", \"け\", \"ど\", \"き\", \"く\", \"な\", \"っ\", \"ち\", \"ゃ\", \"い\", \"ま\", \"た\"]"
+ },
+ {
+ "text": "ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。",
+ "decoded_text": "[UNK] 、 [UNK] 散 歩 仲 [UNK] [UNK] 指 摘 [UNK] 、 [UNK] 言 [UNK] 目 立 [UNK] 程 [UNK] 。",
+ "diff": [
+ "replace text[0:2] --> decoded_text[0:6] 'ただ' --> '[UNK] '",
+ "replace text[3:8] --> decoded_text[7:14] 'これまでお' --> ' [UNK] '",
+ "insert text[9:9] --> decoded_text[15:16] '' --> ' '",
+ "insert text[10:10] --> decoded_text[17:18] '' --> ' '",
+ "replace text[11:15] --> decoded_text[19:32] '間からは' --> ' [UNK] [UNK] '",
+ "insert text[16:16] --> decoded_text[33:34] '' --> ' '",
+ "replace text[17:29] --> decoded_text[35:42] 'とかされたことはないので' --> ' [UNK] '",
+ "replace text[30:35] --> decoded_text[43:50] 'こちらから' --> ' [UNK] '",
+ "replace text[36:45] --> decoded_text[51:58] 'わなければそんなに' --> ' [UNK] '",
+ "insert text[46:46] --> decoded_text[59:60] '' --> ' '",
+ "replace text[47:48] --> decoded_text[61:68] 'つ' --> ' [UNK] '",
+ "replace text[49:59] --> decoded_text[69:76] 'ではないんですけどね' --> ' [UNK] '"
+ ],
+ "n_oov_chars": 48,
+ "oov_ratio": 0.8,
+ "oov_charset": "[\"た\", \"だ\", \"こ\", \"れ\", \"ま\", \"で\", \"お\", \"間\", \"か\", \"ら\", \"は\", \"と\", \"さ\", \"な\", \"い\", \"の\", \"ち\", \"わ\", \"け\", \"ば\", \"そ\", \"ん\", \"に\", \"つ\", \"す\", \"ど\", \"ね\"]"
+ },
+ {
+ "text": "昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。",
+ "decoded_text": "昔 [UNK] 酸 [UNK] 目 薬 [UNK] 処 方 [UNK] 、 [UNK] 効 [UNK] 事 [UNK] 。",
+ "diff": [
+ "replace text[1:7] --> decoded_text[1:8] 'はヒアルロン' --> ' [UNK] '",
+ "replace text[8:9] --> decoded_text[9:16] 'の' --> ' [UNK] '",
+ "insert text[10:10] --> decoded_text[17:18] '' --> ' '",
+ "replace text[11:14] --> decoded_text[19:26] 'なども' --> ' [UNK] '",
+ "insert text[15:15] --> decoded_text[27:28] '' --> ' '",
+ "replace text[16:25] --> decoded_text[29:36] 'されてたようですが' --> ' [UNK] '",
+ "replace text[26:29] --> decoded_text[37:44] 'これが' --> ' [UNK] '",
+ "replace text[30:31] --> decoded_text[45:52] 'く' --> ' [UNK] '",
+ "replace text[32:39] --> decoded_text[53:60] 'はないそうです' --> ' [UNK] '"
+ ],
+ "n_oov_chars": 30,
+ "oov_ratio": 0.75,
+ "oov_charset": "[\"は\", \"ヒ\", \"ア\", \"ル\", \"ロ\", \"ン\", \"の\", \"な\", \"ど\", \"も\", \"さ\", \"れ\", \"て\", \"た\", \"よ\", \"う\", \"で\", \"す\", \"が\", \"こ\", \"く\", \"い\", \"そ\"]"
+ },
+ {
+ "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。",
+ "decoded_text": "[UNK] 、 [UNK] 散 歩 [UNK] [UNK] [UNK] 。 [UNK] 花 [UNK] 分 咲 [UNK] 情 [UNK] [UNK] 今 回 [UNK] 取 [UNK] 入 [UNK] 。",
+ "diff": [
+ "replace text[0:3] --> decoded_text[0:6] 'なので' --> '[UNK] '",
+ "replace text[4:11] --> decoded_text[7:14] 'エルディとのお' --> ' [UNK] '",
+ "insert text[12:12] --> decoded_text[15:16] '' --> ' '",
+ "replace text[13:26] --> decoded_text[17:36] 'でも訪れたことがありません' --> ' [UNK] [UNK] [UNK] '",
+ "replace text[28:33] --> decoded_text[38:44] 'カタクリの' --> '[UNK] '",
+ "replace text[34:36] --> decoded_text[45:52] 'が5' --> ' [UNK] '",
+ "insert text[37:37] --> decoded_text[53:54] '' --> ' '",
+ "replace text[38:41] --> decoded_text[55:62] 'きとの' --> ' [UNK] '",
+ "replace text[42:45] --> decoded_text[63:76] '報から' --> ' [UNK] [UNK] '",
+ "insert text[46:46] --> decoded_text[77:78] '' --> ' '",
+ "replace text[47:54] --> decoded_text[79:86] 'コースの1つに' --> ' [UNK] '",
+ "replace text[55:56] --> decoded_text[87:94] 'り' --> ' [UNK] '",
+ "replace text[57:63] --> decoded_text[95:102] 'れてみました' --> ' [UNK] '"
+ ],
+ "n_oov_chars": 50,
+ "oov_ratio": 0.78125,
+ "oov_charset": "[\"な\", \"の\", \"で\", \"エ\", \"ル\", \"デ\", \"ィ\", \"と\", \"お\", \"も\", \"訪\", \"れ\", \"た\", \"こ\", \"が\", \"あ\", \"り\", \"ま\", \"せ\", \"ん\", \"カ\", \"タ\", \"ク\", \"リ\", \"5\", \"き\", \"報\", \"か\", \"ら\", \"コ\", \"ー\", \"ス\", \"1\", \"つ\", \"に\", \"て\", \"み\", \"し\"]"
+ },
+ {
+ "text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました",
+ "decoded_text": "前 [UNK] 走 [UNK] 、 [UNK] [UNK] 上 部 [UNK] 学 生 [UNK] 駆 [UNK] 抜 [UNK] 目 [UNK] 当 [UNK]",
+ "diff": [
+ "replace text[1:4] --> decoded_text[1:8] '々から' --> ' [UNK] '",
+ "replace text[5:16] --> decoded_text[9:16] 'ってみたかったんだけど' --> ' [UNK] '",
+ "replace text[17:21] --> decoded_text[17:30] 'いつも陸' --> ' [UNK] [UNK] '",
+ "insert text[22:22] --> decoded_text[31:32] '' --> ' '",
+ "replace text[23:26] --> decoded_text[33:40] 'らしき' --> ' [UNK] '",
+ "insert text[27:27] --> decoded_text[41:42] '' --> ' '",
+ "replace text[28:41] --> decoded_text[43:50] 'さんがものすごいスピードで' --> ' [UNK] '",
+ "replace text[42:43] --> decoded_text[51:58] 'け' --> ' [UNK] '",
+ "replace text[44:50] --> decoded_text[59:66] 'けていくのを' --> ' [UNK] '",
+ "replace text[51:52] --> decoded_text[67:74] 'の' --> ' [UNK] '",
+ "replace text[53:71] --> decoded_text[75:81] 'たりにしてちょっとビビっておりました' --> ' [UNK]'"
+ ],
+ "n_oov_chars": 59,
+ "oov_ratio": 0.8309859154929577,
+ "oov_charset": "[\"か\", \"ら\", \"っ\", \"て\", \"み\", \"た\", \"ん\", \"だ\", \"け\", \"ど\", \"い\", \"つ\", \"も\", \"陸\", \"し\", \"き\", \"さ\", \"が\", \"の\", \"す\", \"ご\", \"ス\", \"ピ\", \"ー\", \"ド\", \"で\", \"く\", \"を\", \"り\", \"に\", \"ち\", \"ょ\", \"と\", \"ビ\", \"お\", \"ま\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/eson.kplug-base-encoder @ cc100.ko.diff.json b/stats/compression_rate/eson.kplug-base-encoder @ cc100.ko.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..efbd132bcd3044bd401f17f49ae93e9a294c3e6f
--- /dev/null
+++ b/stats/compression_rate/eson.kplug-base-encoder @ cc100.ko.diff.json
@@ -0,0 +1,259 @@
+[
+ {
+ "text": "+ HOME > 라이브스코어",
+ "decoded_text": "+ home > [UNK]",
+ "diff": [
+ "replace text[2:6] --> decoded_text[2:6] 'HOME' --> 'home'",
+ "replace text[9:15] --> decoded_text[9:14] '라이브스코어' --> '[UNK]'"
+ ],
+ "n_oov_chars": 10,
+ "oov_ratio": 0.6666666666666666,
+ "oov_charset": "[\"H\", \"O\", \"M\", \"E\", \"라\", \"이\", \"브\", \"스\", \"코\", \"어\"]"
+ },
+ {
+ "text": "특히 주소 15~17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.",
+ "decoded_text": "[UNK] [UNK] 15 ~ [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:2] --> decoded_text[0:5] '특히' --> '[UNK]'",
+ "replace text[3:5] --> decoded_text[6:11] '주소' --> '[UNK]'",
+ "insert text[8:8] --> decoded_text[14:15] '' --> ' '",
+ "delete text[9:12] --> decoded_text[16:16] '17번' --> ''",
+ "replace text[13:16] --> decoded_text[17:22] '홀에선' --> '[UNK]'",
+ "replace text[17:20] --> decoded_text[23:28] '3연속' --> '[UNK]'",
+ "replace text[21:24] --> decoded_text[29:34] '보기로' --> '[UNK]'",
+ "replace text[25:33] --> decoded_text[35:40] '황금의제국카지노' --> '[UNK]'",
+ "replace text[34:39] --> decoded_text[41:52] '홀아웃했다' --> '[UNK] [UNK]'"
+ ],
+ "n_oov_chars": 26,
+ "oov_ratio": 0.65,
+ "oov_charset": "[\"특\", \"히\", \"주\", \"소\", \"번\", \"홀\", \"에\", \"선\", \"연\", \"속\", \"보\", \"기\", \"로\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"아\", \"웃\", \"했\", \"다\"]"
+ },
+ {
+ "text": "1편인'신과함께-죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.",
+ "decoded_text": "[UNK]'[UNK] - [UNK] [UNK]'[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:3] --> decoded_text[0:5] '1편인' --> '[UNK]'",
+ "replace text[4:8] --> decoded_text[6:12] '신과함께' --> '[UNK] '",
+ "delete text[9:11] --> decoded_text[13:13] '죄와' --> ''",
+ "replace text[12:13] --> decoded_text[14:25] '벌' --> '[UNK] [UNK]'",
+ "replace text[14:15] --> decoded_text[26:31] '이' --> '[UNK]'",
+ "replace text[16:19] --> decoded_text[32:37] '천만을' --> '[UNK]'",
+ "replace text[20:22] --> decoded_text[38:43] '넘은' --> '[UNK]'",
+ "replace text[23:25] --> decoded_text[44:49] '만큼' --> '[UNK]'",
+ "replace text[26:29] --> decoded_text[50:55] '2편을' --> '[UNK]'",
+ "replace text[30:33] --> decoded_text[56:61] '기다린' --> '[UNK]'",
+ "replace text[34:42] --> decoded_text[62:67] '황금의제국카지노' --> '[UNK]'",
+ "replace text[43:47] --> decoded_text[68:73] '관객들의' --> '[UNK]'",
+ "replace text[48:51] --> decoded_text[74:79] '기대와' --> '[UNK]'",
+ "replace text[52:54] --> decoded_text[80:85] '주소' --> '[UNK]'",
+ "replace text[55:58] --> decoded_text[86:91] '관심은' --> '[UNK]'",
+ "replace text[59:64] --> decoded_text[92:97] '폭발적이다' --> '[UNK]'"
+ ],
+ "n_oov_chars": 47,
+ "oov_ratio": 0.7230769230769231,
+ "oov_charset": "[\"편\", \"인\", \"신\", \"과\", \"함\", \"께\", \"죄\", \"와\", \"벌\", \"이\", \"천\", \"만\", \"을\", \"넘\", \"은\", \"큼\", \"기\", \"다\", \"린\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"관\", \"객\", \"들\", \"대\", \"주\", \"소\", \"심\", \"폭\", \"발\", \"적\"]"
+ },
+ {
+ "text": "고려해서 주소 '대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.",
+ "decoded_text": "[UNK] [UNK]'[UNK] [UNK]'[UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:4] --> decoded_text[0:5] '고려해서' --> '[UNK]'",
+ "replace text[5:7] --> decoded_text[6:17] '주소' --> \"[UNK]'[UNK]\"",
+ "insert text[8:8] --> decoded_text[18:23] '' --> '[UNK]'",
+ "replace text[9:12] --> decoded_text[24:29] '대체재' --> '[UNK]'",
+ "replace text[13:17] --> decoded_text[30:35] \"일색'의\" --> '[UNK]'",
+ "replace text[18:21] --> decoded_text[36:41] '분재를' --> '[UNK]'",
+ "replace text[22:25] --> decoded_text[42:47] '내놓을' --> '[UNK]'",
+ "replace text[26:32] --> decoded_text[48:53] '위험이 있다' --> '[UNK]'",
+ "replace text[34:37] --> decoded_text[55:60] '문학의' --> '[UNK]'",
+ "replace text[38:41] --> decoded_text[61:66] '자유를' --> '[UNK]'",
+ "replace text[42:46] --> decoded_text[67:72] '소설가가' --> '[UNK]'",
+ "replace text[47:50] --> decoded_text[73:78] '스스로' --> '[UNK]'",
+ "replace text[51:59] --> decoded_text[79:84] '황금의제국카지노' --> '[UNK]'",
+ "replace text[60:64] --> decoded_text[85:90] '출판사에' --> '[UNK]'",
+ "replace text[65:69] --> decoded_text[91:96] '상납하는' --> '[UNK]'",
+ "replace text[70:73] --> decoded_text[97:102] '것이다' --> '[UNK]'"
+ ],
+ "n_oov_chars": 55,
+ "oov_ratio": 0.7432432432432432,
+ "oov_charset": "[\"고\", \"려\", \"해\", \"서\", \"주\", \"소\", \"대\", \"체\", \"재\", \"일\", \"색\", \"의\", \"분\", \"를\", \"내\", \"놓\", \"을\", \"위\", \"험\", \"이\", \"있\", \"다\", \"문\", \"학\", \"자\", \"유\", \"설\", \"가\", \"스\", \"로\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"출\", \"판\", \"사\", \"에\", \"상\", \"납\", \"하\", \"는\", \"것\"]"
+ },
+ {
+ "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] ( 22 ) [UNK] [UNK] [UNK] ( [UNK] [UNK] ) [UNK] (. 246. 270. 508 ). [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:6] --> decoded_text[0:5] '조시도널슨의' --> '[UNK]'",
+ "replace text[7:9] --> decoded_text[6:11] '유산' --> '[UNK]'",
+ "replace text[10:14] --> decoded_text[12:17] '프랭클린' --> '[UNK]'",
+ "replace text[15:17] --> decoded_text[18:23] '주소' --> '[UNK]'",
+ "replace text[18:21] --> decoded_text[24:30] '바레토' --> '[UNK] '",
+ "insert text[22:22] --> decoded_text[31:32] '' --> ' '",
+ "delete text[24:26] --> decoded_text[34:34] ')는' --> ''",
+ "delete text[27:49] --> decoded_text[35:35] '황금의제국카지노 4타수3안타(2루타 홈런' --> ''",
+ "replace text[51:54] --> decoded_text[37:77] '3타점' --> '[UNK] [UNK] [UNK] ( [UNK] [UNK] ) [UNK] '",
+ "insert text[56:56] --> decoded_text[79:80] '' --> ' '",
+ "insert text[59:59] --> decoded_text[83:84] '' --> '.'",
+ "delete text[60:61] --> decoded_text[85:85] '.' --> ''",
+ "insert text[64:64] --> decoded_text[88:89] '' --> '.'",
+ "delete text[65:66] --> decoded_text[90:90] '.' --> ''",
+ "insert text[69:69] --> decoded_text[93:94] '' --> ' '",
+ "replace text[72:75] --> decoded_text[97:102] '하지만' --> '[UNK]'",
+ "replace text[76:79] --> decoded_text[103:108] '아직은' --> '[UNK]'",
+ "replace text[80:84] --> decoded_text[109:114] '트레이드' --> '[UNK]'",
+ "replace text[85:88] --> decoded_text[115:120] '당시의' --> '[UNK]'",
+ "replace text[89:93] --> decoded_text[121:126] '기대치를' --> '[UNK]'",
+ "replace text[94:98] --> decoded_text[127:132] '보여주지' --> '[UNK]'",
+ "replace text[99:102] --> decoded_text[133:138] '못하고' --> '[UNK]'",
+ "replace text[103:105] --> decoded_text[139:144] '있다' --> '[UNK]'"
+ ],
+ "n_oov_chars": 62,
+ "oov_ratio": 0.5849056603773585,
+ "oov_charset": "[\"조\", \"시\", \"도\", \"널\", \"슨\", \"의\", \"유\", \"산\", \"프\", \"랭\", \"클\", \"린\", \"주\", \"소\", \"바\", \"레\", \"토\", \"는\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"타\", \"수\", \"안\", \"루\", \"홈\", \"런\", \"점\", \"하\", \"만\", \"아\", \"직\", \"은\", \"트\", \"이\", \"드\", \"당\", \"기\", \"대\", \"치\", \"를\", \"보\", \"여\", \"못\", \"고\", \"있\", \"다\"]"
+ },
+ {
+ "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK]. [UNK] a, [UNK] [UNK] [UNK] - [UNK] - [UNK] [UNK] [UNK], c, d, [UNK] e, [UNK] [UNK] [UNK] [UNK] - [UNK] - [UNK] - [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:6] --> decoded_text[0:5] '여기서승리한' --> '[UNK]'",
+ "replace text[7:10] --> decoded_text[6:11] '2팀이' --> '[UNK]'",
+ "replace text[11:15] --> decoded_text[12:17] '준결승에' --> '[UNK]'",
+ "replace text[16:19] --> decoded_text[18:23] '오른다' --> '[UNK]'",
+ "replace text[21:23] --> decoded_text[25:30] '결국' --> '[UNK]'",
+ "replace text[24:25] --> decoded_text[31:32] 'A' --> 'a'",
+ "replace text[27:29] --> decoded_text[34:39] 'B조' --> '[UNK]'",
+ "replace text[30:33] --> decoded_text[40:45] '1위는' --> '[UNK]'",
+ "replace text[34:37] --> decoded_text[46:52] '12강' --> '[UNK] '",
+ "replace text[38:40] --> decoded_text[53:60] '4강' --> ' [UNK] '",
+ "delete text[41:45] --> decoded_text[61:61] '결승으로' --> ''",
+ "replace text[46:50] --> decoded_text[62:67] '3경기를' --> '[UNK]'",
+ "replace text[51:55] --> decoded_text[68:79] '치르지만' --> '[UNK] [UNK]'",
+ "replace text[57:58] --> decoded_text[81:82] 'C' --> 'c'",
+ "replace text[60:61] --> decoded_text[84:85] 'D' --> 'd'",
+ "replace text[63:71] --> decoded_text[87:92] '황금의제국카지노' --> '[UNK]'",
+ "replace text[72:73] --> decoded_text[93:94] 'E' --> 'e'",
+ "replace text[75:77] --> decoded_text[96:101] 'F조' --> '[UNK]'",
+ "replace text[78:81] --> decoded_text[102:107] '1위는' --> '[UNK]'",
+ "replace text[82:84] --> decoded_text[108:113] '주소' --> '[UNK]'",
+ "replace text[85:88] --> decoded_text[114:120] '12강' --> '[UNK] '",
+ "replace text[89:91] --> decoded_text[121:128] '6강' --> ' [UNK] '",
+ "replace text[92:94] --> decoded_text[129:136] '4강' --> ' [UNK] '",
+ "delete text[95:99] --> decoded_text[137:137] '결승으로' --> ''",
+ "replace text[100:104] --> decoded_text[138:143] '4경기를' --> '[UNK]'",
+ "replace text[105:107] --> decoded_text[144:149] '해야' --> '[UNK]'",
+ "replace text[108:110] --> decoded_text[150:161] '한다' --> '[UNK] [UNK]'"
+ ],
+ "n_oov_chars": 66,
+ "oov_ratio": 0.5945945945945946,
+ "oov_charset": "[\"여\", \"기\", \"서\", \"승\", \"리\", \"한\", \"팀\", \"이\", \"준\", \"결\", \"에\", \"오\", \"른\", \"다\", \"국\", \"A\", \"B\", \"조\", \"위\", \"는\", \"강\", \"으\", \"로\", \"경\", \"를\", \"치\", \"르\", \"지\", \"만\", \"C\", \"D\", \"황\", \"금\", \"의\", \"제\", \"카\", \"노\", \"E\", \"F\", \"주\", \"소\", \"해\", \"야\"]"
+ },
+ {
+ "text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 '실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'[UNK] [UNK] [UNK]'[UNK] [UNK], [UNK] [UNK].",
+ "diff": [
+ "replace text[0:4] --> decoded_text[0:5] '또한이날' --> '[UNK]'",
+ "replace text[5:8] --> decoded_text[6:11] '눈길을' --> '[UNK]'",
+ "replace text[9:11] --> decoded_text[12:17] '주소' --> '[UNK]'",
+ "replace text[12:13] --> decoded_text[18:23] '끈' --> '[UNK]'",
+ "replace text[14:16] --> decoded_text[24:29] '것은' --> '[UNK]'",
+ "replace text[17:18] --> decoded_text[30:35] '한' --> '[UNK]'",
+ "replace text[19:24] --> decoded_text[36:41] '신인배우의' --> '[UNK]'",
+ "replace text[25:30] --> decoded_text[42:47] '매니저였다' --> '[UNK]'",
+ "replace text[32:40] --> decoded_text[49:54] '황금의제국카지노' --> '[UNK]'",
+ "replace text[41:44] --> decoded_text[55:60] '배우의' --> '[UNK]'",
+ "replace text[45:48] --> decoded_text[61:66] '매니저' --> '[UNK]'",
+ "replace text[49:51] --> decoded_text[67:72] '일을' --> '[UNK]'",
+ "replace text[52:54] --> decoded_text[73:78] '하고' --> '[UNK]'",
+ "replace text[55:58] --> decoded_text[79:84] '있다는' --> '[UNK]'",
+ "replace text[59:60] --> decoded_text[85:90] '한' --> '[UNK]'",
+ "replace text[61:65] --> decoded_text[91:96] '청취자의' --> '[UNK]'",
+ "replace text[66:69] --> decoded_text[97:102] '사연에' --> '[UNK]'",
+ "replace text[70:74] --> decoded_text[103:114] '박명수는' --> \"[UNK]'[UNK]\"",
+ "insert text[75:75] --> decoded_text[115:126] '' --> '[UNK] [UNK]'",
+ "replace text[76:79] --> decoded_text[127:132] '실시간' --> '[UNK]'",
+ "replace text[80:96] --> decoded_text[133:138] \"검색어 1위'를 만들어주겠다며\" --> '[UNK]'",
+ "replace text[98:103] --> decoded_text[140:145] '통화연결을' --> '[UNK]'",
+ "replace text[104:106] --> decoded_text[146:151] '했다' --> '[UNK]'"
+ ],
+ "n_oov_chars": 101,
+ "oov_ratio": 0.9439252336448598,
+ "oov_charset": "[\"또\", \"한\", \"이\", \"날\", \" \", \"눈\", \"길\", \"을\", \"주\", \"소\", \"끈\", \"것\", \"은\", \"신\", \"인\", \"배\", \"우\", \"의\", \"매\", \"니\", \"저\", \"였\", \"다\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"일\", \"하\", \"고\", \"있\", \"는\", \"청\", \"취\", \"자\", \"사\", \"연\", \"에\", \"박\", \"명\", \"수\", \"실\", \"시\", \"간\", \"검\", \"색\", \"어\", \"위\", \"를\", \"만\", \"들\", \"겠\", \"며\", \"통\", \"화\", \"결\", \"했\"]"
+ },
+ {
+ "text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다.",
+ "decoded_text": "[UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] ‘ [UNK] [UNK] ’ [UNK] [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:5] --> decoded_text[0:5] '하지만이번' --> '[UNK]'",
+ "replace text[6:14] --> decoded_text[6:11] '황금의제국카지노' --> '[UNK]'",
+ "replace text[15:17] --> decoded_text[12:17] '시즌' --> '[UNK]'",
+ "replace text[19:23] --> decoded_text[19:24] '호날두와' --> '[UNK]'",
+ "replace text[24:28] --> decoded_text[25:30] '이과인이' --> '[UNK]'",
+ "replace text[29:31] --> decoded_text[31:36] '다시' --> '[UNK]'",
+ "replace text[32:34] --> decoded_text[37:42] '주소' --> '[UNK]'",
+ "replace text[35:39] --> decoded_text[43:48] '한솥밥을' --> '[UNK]'",
+ "replace text[40:42] --> decoded_text[49:54] '먹는' --> '[UNK]'",
+ "replace text[43:45] --> decoded_text[55:60] '일이' --> '[UNK]'",
+ "replace text[46:50] --> decoded_text[61:66] '성사됐다' --> '[UNK]'",
+ "replace text[52:56] --> decoded_text[68:73] '호날두가' --> '[UNK]'",
+ "delete text[58:59] --> decoded_text[75:75] '빅' --> ''",
+ "replace text[60:63] --> decoded_text[76:88] '사이닝' --> '[UNK] [UNK] '",
+ "delete text[64:65] --> decoded_text[89:89] '을' --> ''",
+ "replace text[66:68] --> decoded_text[90:95] '통해' --> '[UNK]'",
+ "replace text[69:74] --> decoded_text[96:101] '유벤투스로' --> '[UNK]'",
+ "replace text[75:78] --> decoded_text[102:107] '옮겼기' --> '[UNK]'",
+ "replace text[79:83] --> decoded_text[108:119] '때문이다' --> '[UNK] [UNK]'"
+ ],
+ "n_oov_chars": 62,
+ "oov_ratio": 0.7380952380952381,
+ "oov_charset": "[\"하\", \"지\", \"만\", \"이\", \"번\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"노\", \"시\", \"즌\", \"호\", \"날\", \"두\", \"와\", \"과\", \"인\", \"다\", \"주\", \"소\", \"한\", \"솥\", \"밥\", \"을\", \"먹\", \"는\", \"일\", \"성\", \"사\", \"됐\", \"가\", \"빅\", \"닝\", \"통\", \"해\", \"유\", \"벤\", \"투\", \"스\", \"로\", \"옮\", \"겼\", \"기\", \"때\", \"문\"]"
+ },
+ {
+ "text": "현대캐피탈은삼성화재와 시범경기를 위해 홍천에 황금의제국카지노 주소 왔다.",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:11] --> decoded_text[0:5] '현대캐피탈은삼성화재와' --> '[UNK]'",
+ "replace text[12:17] --> decoded_text[6:11] '시범경기를' --> '[UNK]'",
+ "replace text[18:20] --> decoded_text[12:17] '위해' --> '[UNK]'",
+ "replace text[21:24] --> decoded_text[18:23] '홍천에' --> '[UNK]'",
+ "replace text[25:33] --> decoded_text[24:29] '황금의제국카지노' --> '[UNK]'",
+ "replace text[34:36] --> decoded_text[30:35] '주소' --> '[UNK]'",
+ "replace text[37:39] --> decoded_text[36:41] '왔다' --> '[UNK]'"
+ ],
+ "n_oov_chars": 39,
+ "oov_ratio": 0.975,
+ "oov_charset": "[\"현\", \"대\", \"캐\", \"피\", \"탈\", \"은\", \"삼\", \"성\", \"화\", \"재\", \"와\", \" \", \"시\", \"범\", \"경\", \"기\", \"를\", \"위\", \"해\", \"홍\", \"천\", \"에\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"주\", \"소\", \"왔\", \"다\"]"
+ },
+ {
+ "text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:5] --> decoded_text[0:5] '사실자매가' --> '[UNK]'",
+ "replace text[6:9] --> decoded_text[6:11] '나란히' --> '[UNK]'",
+ "replace text[10:12] --> decoded_text[12:17] '앉아' --> '[UNK]'",
+ "replace text[13:17] --> decoded_text[18:23] '인터뷰를' --> '[UNK]'",
+ "replace text[18:21] --> decoded_text[24:29] '한다는' --> '[UNK]'",
+ "replace text[22:23] --> decoded_text[30:35] '게' --> '[UNK]'",
+ "replace text[24:28] --> decoded_text[36:41] '쑥스러울' --> '[UNK]'",
+ "replace text[29:31] --> decoded_text[42:47] '법도' --> '[UNK]'",
+ "replace text[32:34] --> decoded_text[48:53] '한데' --> '[UNK]'",
+ "replace text[36:38] --> decoded_text[55:60] '주소' --> '[UNK]'",
+ "replace text[39:40] --> decoded_text[61:66] '둘' --> '[UNK]'",
+ "replace text[41:45] --> decoded_text[67:72] '사이에는' --> '[UNK]'",
+ "replace text[46:48] --> decoded_text[73:78] '어떤' --> '[UNK]'",
+ "replace text[49:53] --> decoded_text[79:84] '거리낌도' --> '[UNK]'",
+ "replace text[54:57] --> decoded_text[85:90] '없었다' --> '[UNK]'",
+ "replace text[59:61] --> decoded_text[92:97] '마치' --> '[UNK]'",
+ "replace text[62:65] --> decoded_text[98:103] '하루에' --> '[UNK]'",
+ "replace text[66:67] --> decoded_text[104:109] '한' --> '[UNK]'",
+ "replace text[68:70] --> decoded_text[110:115] '번씩' --> '[UNK]'",
+ "replace text[71:74] --> decoded_text[116:121] '만나는' --> '[UNK]'",
+ "replace text[75:77] --> decoded_text[122:127] '친구' --> '[UNK]'",
+ "replace text[78:80] --> decoded_text[128:133] '같은' --> '[UNK]'",
+ "replace text[81:84] --> decoded_text[134:139] '느낌이' --> '[UNK]'",
+ "replace text[85:93] --> decoded_text[140:145] '황금의제국카지노' --> '[UNK]'",
+ "replace text[94:97] --> decoded_text[146:151] '강했다' --> '[UNK]'"
+ ],
+ "n_oov_chars": 95,
+ "oov_ratio": 0.9693877551020408,
+ "oov_charset": "[\"사\", \"실\", \"자\", \"매\", \"가\", \" \", \"나\", \"란\", \"히\", \"앉\", \"아\", \"인\", \"터\", \"뷰\", \"를\", \"한\", \"다\", \"는\", \"게\", \"쑥\", \"스\", \"러\", \"울\", \"법\", \"도\", \"데\", \"주\", \"소\", \"둘\", \"이\", \"에\", \"어\", \"떤\", \"거\", \"리\", \"낌\", \"없\", \"었\", \"마\", \"치\", \"하\", \"루\", \"번\", \"씩\", \"만\", \"친\", \"구\", \"같\", \"은\", \"느\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"강\", \"했\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.ar.diff.json b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.ar.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..77531264d60e6e521687b6f678701f19170f629b
--- /dev/null
+++ b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.ar.diff.json
@@ -0,0 +1,103 @@
+[
+ {
+ "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)",
+ "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)",
+ "diff": [
+ "delete text[42:43] --> decoded_text[42:42] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.",
+ "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.",
+ "diff": [
+ "delete text[45:46] --> decoded_text[45:45] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .",
+ "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.",
+ "diff": [
+ "delete text[81:82] --> decoded_text[81:81] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان",
+ "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان",
+ "diff": [
+ "delete text[825:826] --> decoded_text[825:825] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .",
+ "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.",
+ "diff": [
+ "delete text[469:470] --> decoded_text[469:469] ' ' --> ''",
+ "delete text[720:721] --> decoded_text[719:719] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .",
+ "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.",
+ "diff": [
+ "delete text[147:148] --> decoded_text[147:147] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...",
+ "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....",
+ "diff": [
+ "delete text[183:184] --> decoded_text[183:183] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...",
+ "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...",
+ "diff": [
+ "delete text[279:280] --> decoded_text[279:279] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة",
+ "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة",
+ "diff": [
+ "delete text[22:23] --> decoded_text[22:22] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين .",
+ "decoded_text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين.",
+ "diff": [
+ "delete text[73:74] --> decoded_text[73:73] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.de.diff.json b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.de.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..629e26e6c5c7f857418b1c3625fae4f322452c80
--- /dev/null
+++ b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.de.diff.json
@@ -0,0 +1,103 @@
+[
+ {
+ "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !",
+ "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!",
+ "diff": [
+ "delete text[67:68] --> decoded_text[67:67] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Laut dieser Studie sind es ....",
+ "decoded_text": "Laut dieser Studie sind es....",
+ "diff": [
+ "delete text[26:27] --> decoded_text[26:26] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...",
+ "decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...",
+ "diff": [
+ "delete text[78:79] --> decoded_text[78:78] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,",
+ "decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,",
+ "diff": [
+ "delete text[81:82] --> decoded_text[81:81] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung , als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.",
+ "decoded_text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung, als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.",
+ "diff": [
+ "delete text[553:554] --> decoded_text[553:553] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen, ,Mein Widerruf ist wahr', haben Sie immer gesagt ,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.",
+ "decoded_text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen,,Mein Widerruf ist wahr', haben Sie immer gesagt,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.",
+ "diff": [
+ "delete text[169:170] --> decoded_text[169:169] ' ' --> ''",
+ "delete text[218:219] --> decoded_text[217:217] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket !",
+ "decoded_text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket!",
+ "diff": [
+ "delete text[68:69] --> decoded_text[68:68] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Da sollte man mit 1,- € Spende ein Kind einen Tag sattmachen 😦 also 30,-€ im Monat !",
+ "decoded_text": "Da sollte man mit 1,- € Spende ein Kind einen Tag sattmachen 😦 also 30,-€ im Monat!",
+ "diff": [
+ "delete text[82:83] --> decoded_text[82:82] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Wie lange sind diese Produkte dann haltbar ?….und noch spannender,….was koche ich daraus?! 🙂",
+ "decoded_text": "Wie lange sind diese Produkte dann haltbar?….und noch spannender,….was koche ich daraus?! 🙂",
+ "diff": [
+ "delete text[42:43] --> decoded_text[42:42] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Aber ab und zu sollte halt auch was zum KAUEN ❤ dabei sein !",
+ "decoded_text": "Aber ab und zu sollte halt auch was zum KAUEN ❤ dabei sein!",
+ "diff": [
+ "delete text[58:59] --> decoded_text[58:58] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.fa.diff.json b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.fa.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..f4e4ecdb515292b758d6286e69b570d824d99d60
--- /dev/null
+++ b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.fa.diff.json
@@ -0,0 +1,104 @@
+[
+ {
+ "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید",
+ "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید",
+ "diff": [
+ "delete text[82:83] --> decoded_text[82:82] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..",
+ "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..",
+ "diff": [
+ "delete text[108:109] --> decoded_text[108:108] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)",
+ "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)",
+ "diff": [
+ "delete text[129:130] --> decoded_text[129:129] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.",
+ "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.",
+ "diff": [
+ "delete text[290:291] --> decoded_text[290:290] ' ' --> ''",
+ "delete text[621:622] --> decoded_text[620:620] ' ' --> ''",
+ "delete text[672:673] --> decoded_text[670:670] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...",
+ "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...",
+ "diff": [
+ "delete text[122:123] --> decoded_text[122:122] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...",
+ "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...",
+ "diff": [
+ "delete text[128:129] --> decoded_text[128:128] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...",
+ "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...",
+ "diff": [
+ "delete text[123:124] --> decoded_text[123:123] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...",
+ "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...",
+ "diff": [
+ "delete text[122:123] --> decoded_text[122:122] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی . کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.",
+ "decoded_text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی. کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.",
+ "diff": [
+ "delete text[161:162] --> decoded_text[161:161] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "سلام .آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش",
+ "decoded_text": "سلام.آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش",
+ "diff": [
+ "delete text[4:5] --> decoded_text[4:4] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.ja.diff.json b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.ja.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..59c1eda8928a616d850d9d89405e0fca8f845f67
--- /dev/null
+++ b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.ja.diff.json
@@ -0,0 +1,82 @@
+[
+ {
+ "text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって ...",
+ "decoded_text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって...",
+ "diff": [
+ "delete text[100:101] --> decoded_text[100:100] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。 ...",
+ "decoded_text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。...",
+ "diff": [
+ "delete text[132:133] --> decoded_text[132:132] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。 ...",
+ "decoded_text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。...",
+ "diff": [
+ "delete text[131:132] --> decoded_text[131:131] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、 ...",
+ "decoded_text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、...",
+ "diff": [
+ "delete text[36:37] --> decoded_text[36:36] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad ...",
+ "decoded_text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad...",
+ "diff": [
+ "delete text[100:101] --> decoded_text[100:100] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい ...",
+ "decoded_text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい...",
+ "diff": [
+ "delete text[40:41] --> decoded_text[40:40] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな ...",
+ "decoded_text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな...",
+ "diff": [
+ "delete text[40:41] --> decoded_text[40:40] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。 ...",
+ "decoded_text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。...",
+ "diff": [
+ "delete text[68:69] --> decoded_text[68:68] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.ko.diff.json b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.ko.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..75baab06b7c8132f9a4b52ca8bca1383747ad540
--- /dev/null
+++ b/stats/compression_rate/fnlp.moss-moon-003-sft @ cc100.ko.diff.json
@@ -0,0 +1,106 @@
+[
+ {
+ "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
+ "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
+ "diff": [
+ "delete text[59:60] --> decoded_text[59:59] ' ' --> ''",
+ "delete text[64:65] --> decoded_text[63:63] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.",
+ "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.",
+ "diff": [
+ "delete text[28:29] --> decoded_text[28:28] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.",
+ "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.",
+ "diff": [
+ "delete text[58:59] --> decoded_text[58:58] ' ' --> ''",
+ "delete text[86:87] --> decoded_text[85:85] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).",
+ "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).",
+ "diff": [
+ "delete text[33:34] --> decoded_text[33:33] ' ' --> ''",
+ "delete text[38:39] --> decoded_text[37:37] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율 .276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.",
+ "decoded_text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율.276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.",
+ "diff": [
+ "delete text[54:55] --> decoded_text[54:54] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야 .쟤 달라고 로또1등세금 무슨 평소와는",
+ "decoded_text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야.쟤 달라고 로또1등세금 무슨 평소와는",
+ "diff": [
+ "delete text[62:63] --> decoded_text[62:62] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.",
+ "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.",
+ "diff": [
+ "delete text[53:54] --> decoded_text[53:53] ' ' --> ''",
+ "delete text[81:82] --> decoded_text[80:80] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가 .특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게",
+ "decoded_text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가.특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게",
+ "diff": [
+ "delete text[27:28] --> decoded_text[27:27] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고, ....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.",
+ "decoded_text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고,....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.",
+ "diff": [
+ "delete text[29:30] --> decoded_text[29:29] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "유림은바라보았다. 아니란걸 .게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....",
+ "decoded_text": "유림은바라보았다. 아니란걸.게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....",
+ "diff": [
+ "delete text[14:15] --> decoded_text[14:14] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-bert.bert-base-cased @ cc100.ar.diff.json b/stats/compression_rate/google-bert.bert-base-cased @ cc100.ar.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..a92a720ff8de93b6526257ca15946fa431a78c66
--- /dev/null
+++ b/stats/compression_rate/google-bert.bert-base-cased @ cc100.ar.diff.json
@@ -0,0 +1,122 @@
+[
+ {
+ "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)",
+ "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1 )",
+ "diff": [
+ "delete text[42:43] --> decoded_text[42:42] ' ' --> ''",
+ "insert text[49:49] --> decoded_text[48:49] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..",
+ "decoded_text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها [UNK] [UNK] لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم [UNK] في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين [UNK] [UNK] نحو الوحدة [UNK] وبمستوى [UNK] من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى [UNK] كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي ( تردف ) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..",
+ "diff": [
+ "replace text[190:201] --> decoded_text[190:201] 'ألماً وأسىً' --> '[UNK] [UNK]'",
+ "replace text[506:513] --> decoded_text[506:511] 'منغمساً' --> '[UNK]'",
+ "replace text[626:658] --> decoded_text[624:652] 'شمالاً وجنوباً نحو الوحدة طوعياً' --> '[UNK] [UNK] نحو الوحدة [UNK]'",
+ "replace text[667:671] --> decoded_text[661:666] 'عالٍ' --> '[UNK]'",
+ "replace text[735:740] --> decoded_text[730:735] 'سواءً' --> '[UNK]'",
+ "replace text[886:890] --> decoded_text[881:887] 'تردف' --> ' تردف '"
+ ],
+ "n_oov_chars": 8,
+ "oov_ratio": 0.008281573498964804,
+ "oov_charset": "[\"ً\", \"ٍ\"]"
+ },
+ {
+ "text": "واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية, أو انتماءاتهم المناطقية أو القبلية أو الجهوية, أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان..",
+ "decoded_text": "واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فإن الحكمة اليمانية توجب على أبناء اليمن [UNK] كانت تياراتهم السياسية, أو انتماءاتهم المناطقية أو القبلية أو الجهوية, أن يستذكروا [UNK] ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان..",
+ "diff": [
+ "replace text[124:128] --> decoded_text[124:129] 'أياً' --> '[UNK]'",
+ "replace text[212:217] --> decoded_text[213:218] 'جيداً' --> '[UNK]'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.0058997050147492625,
+ "oov_charset": "[\"ً\"]"
+ },
+ {
+ "text": "وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..",
+ "decoded_text": "وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو [UNK] أخلاقية ودينية [UNK] سياسية..",
+ "diff": [
+ "replace text[87:94] --> decoded_text[87:92] 'مسؤولية' --> '[UNK]'",
+ "replace text[110:118] --> decoded_text[108:113] 'ومسؤولية' --> '[UNK]'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.015748031496062992,
+ "oov_charset": "[\"ؤ\"]"
+ },
+ {
+ "text": "وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان, ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله..",
+ "decoded_text": "وهل الانسياق نحو [UNK] من العناد [UNK] من الاحتقان, [UNK] من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله..",
+ "diff": [
+ "replace text[17:22] --> decoded_text[17:22] 'مزيدٍ' --> '[UNK]'",
+ "replace text[33:39] --> decoded_text[33:38] 'ومزيدٍ' --> '[UNK]'",
+ "replace text[53:59] --> decoded_text[52:57] 'ومزيدٍ' --> '[UNK]'"
+ ],
+ "n_oov_chars": 3,
+ "oov_ratio": 0.01910828025477707,
+ "oov_charset": "[\"ٍ\"]"
+ },
+ {
+ "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
+ "decoded_text": "أنا لا اعتقد أن [UNK] من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن - وهو بلد [UNK] بالخير, إلى أطلال, وأن يتعرض [UNK] الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية [UNK] أن يكون ذلك خدمة لأعدائه..",
+ "diff": [
+ "replace text[16:18] --> decoded_text[16:41] 'عا' --> '[UNK] من بناء هذا البلد ي'",
+ "delete text[19:43] --> decoded_text[42:42] 'لاً من بناء هذا البلد يق' --> ''",
+ "insert text[84:84] --> decoded_text[83:84] '' --> ' '",
+ "replace text[94:100] --> decoded_text[94:99] 'ولاَّد' --> '[UNK]'",
+ "replace text[130:136] --> decoded_text[129:134] 'أبناؤه' --> '[UNK]'",
+ "replace text[193:199] --> decoded_text[191:196] 'وألماً' --> '[UNK]'"
+ ],
+ "n_oov_chars": 4,
+ "oov_ratio": 0.017699115044247787,
+ "oov_charset": "[\"ً\", \"ّ\", \"ؤ\"]"
+ },
+ {
+ "text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي..؟!",
+ "decoded_text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون [UNK] وأضراره ستظل تلاحق الأجيال اليمنية [UNK] بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي.. [UNK]!",
+ "diff": [
+ "insert text[225:225] --> decoded_text[225:248] '' --> '[UNK] وأضراره ستظل تلاح'",
+ "delete text[226:250] --> decoded_text[249:249] 'اتماً وأضراره ستظل تلاحق' --> ''",
+ "replace text[267:272] --> decoded_text[266:271] 'جيلاً' --> '[UNK]'",
+ "replace text[405:406] --> decoded_text[404:410] '؟' --> ' [UNK]'"
+ ],
+ "n_oov_chars": 3,
+ "oov_ratio": 0.007371007371007371,
+ "oov_charset": "[\"ً\", \"؟\"]"
+ },
+ {
+ "text": "هل ينفض الذين يمموا صوب الرياض غبار الاستكانة والارتهان وقرارات الغير, وهل يفيق المتعامون من نومهم المغناطيسي في أبو ظبي, لأن لا سبيل لهم إلا العودة إلى حضن الوطن إلى صنعاء إلى عدن..؟!",
+ "decoded_text": "هل ينفض الذين يمموا صوب الرياض غبار الاستكانة والارتهان وقرارات الغير, وهل يفيق المتعامون من نومهم المغناطيسي في أبو ظبي, لأن لا سبيل لهم إلا العودة إلى حضن الوطن إلى صنعاء إلى عدن.. [UNK]!",
+ "diff": [
+ "replace text[182:183] --> decoded_text[182:188] '؟' --> ' [UNK]'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.005434782608695652,
+ "oov_charset": "[\"؟\"]"
+ },
+ {
+ "text": "ويبقى أمام ضمائر أولئك الذين ذهبوا في عمرة طويلة إلى الرياض وإلى أبو ظبي وإلى الدوحة وإلى اسطنبول.. هل يرضيهم أن يروا الوطن يعيش كل هذه المتاعب والمشاكل والتدمير؟!",
+ "decoded_text": "ويبقى أمام ضمائر أولئك الذين ذهبوا في عمرة طويلة إلى الرياض وإلى أبو ظبي وإلى الدوحة وإلى اسطنبول.. هل يرضيهم أن يروا الوطن يعيش كل هذه المتاعب والمشاكل والتدمير [UNK]!",
+ "diff": [
+ "replace text[161:162] --> decoded_text[161:167] '؟' --> ' [UNK]'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.006134969325153374,
+ "oov_charset": "[\"؟\"]"
+ },
+ {
+ "text": "هل من الإنصاف أن يروا أبناء وطنهم وشعبهم يعانون من حصار أربع سنوات عجاف.. أين ذهبت كل تلك المواعظ والوطنية والكلام الكبير الذي كانوا ينهالون به علينا صباحاً ومساءً.. هل كانوا \"كذبة كبيرة\" وافتراء تماهت مع \"شيكات\" الدفع المسبق!!",
+ "decoded_text": "هل من الإنصاف أن يروا أبناء وطنهم وشعبهم يعانون من حصار أربع سنوات عجاف.. أين ذهبت كل تلك المواعظ والوطنية والكلام الكبير الذي كانوا ينهالون به علينا [UNK] [UNK].. هل كانوا \" كذبة كبيرة \" وافتراء تماهت مع \" شيكات \" الدفع المسبق!!",
+ "diff": [
+ "replace text[150:160] --> decoded_text[150:193] 'صباحاً ومس' --> '[UNK] [UNK].. هل كانوا \" كذبة كبيرة \" وافتر'",
+ "replace text[162:206] --> decoded_text[195:207] 'ً.. هل كانوا \"كذبة كبيرة\" وافتراء تماهت مع \"' --> ' تماهت مع \" '",
+ "insert text[211:211] --> decoded_text[212:213] '' --> ' '"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.00881057268722467,
+ "oov_charset": "[\"ً\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-bert.bert-base-cased @ cc100.de.diff.json b/stats/compression_rate/google-bert.bert-base-cased @ cc100.de.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..ae3316e6c6bc654c2c5866165f9b85346dc0a8fb
--- /dev/null
+++ b/stats/compression_rate/google-bert.bert-base-cased @ cc100.de.diff.json
@@ -0,0 +1,133 @@
+[
+ {
+ "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.",
+ "decoded_text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „ Püngel - Weihnacht “ in Siegburg - Kaldauen um 18 Uhr ( Einlass 17. 30 Uhr ) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18, 50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.",
+ "diff": [
+ "insert text[59:59] --> decoded_text[59:60] '' --> ' '",
+ "insert text[65:65] --> decoded_text[66:67] '' --> ' '",
+ "insert text[66:66] --> decoded_text[68:69] '' --> ' '",
+ "insert text[75:75] --> decoded_text[78:79] '' --> ' '",
+ "insert text[88:88] --> decoded_text[92:93] '' --> ' '",
+ "insert text[89:89] --> decoded_text[94:95] '' --> ' '",
+ "insert text[109:109] --> decoded_text[115:116] '' --> ' '",
+ "insert text[120:120] --> decoded_text[127:128] '' --> ' '",
+ "insert text[126:126] --> decoded_text[134:135] '' --> ' '",
+ "insert text[199:199] --> decoded_text[208:209] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.",
+ "decoded_text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „ Püngel - Weihnacht “ an.",
+ "diff": [
+ "insert text[58:58] --> decoded_text[58:59] '' --> ' '",
+ "insert text[64:64] --> decoded_text[65:66] '' --> ' '",
+ "insert text[65:65] --> decoded_text[67:68] '' --> ' '",
+ "insert text[74:74] --> decoded_text[77:78] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de",
+ "decoded_text": "02683 967019. Die Karten können auch per Email bestellt werden : En - Koelsche - Weihnachtsfeier @ t - online. de",
+ "diff": [
+ "insert text[62:62] --> decoded_text[62:63] '' --> ' '",
+ "insert text[66:66] --> decoded_text[67:68] '' --> ' '",
+ "insert text[67:67] --> decoded_text[69:70] '' --> ' '",
+ "insert text[75:75] --> decoded_text[78:79] '' --> ' '",
+ "insert text[76:76] --> decoded_text[80:81] '' --> ' '",
+ "insert text[91:91] --> decoded_text[96:97] '' --> ' '",
+ "insert text[92:92] --> decoded_text[98:99] '' --> ' '",
+ "insert text[93:93] --> decoded_text[100:101] '' --> ' '",
+ "insert text[94:94] --> decoded_text[102:103] '' --> ' '",
+ "insert text[101:101] --> decoded_text[110:111] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.",
+ "decoded_text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E - Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.",
+ "diff": [
+ "insert text[200:200] --> decoded_text[200:201] '' --> ' '",
+ "insert text[201:201] --> decoded_text[202:203] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.",
+ "decoded_text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten ( wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw. ) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.",
+ "diff": [
+ "insert text[176:176] --> decoded_text[176:177] '' --> ' '",
+ "insert text[394:394] --> decoded_text[395:396] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;",
+ "decoded_text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt ;",
+ "diff": [
+ "insert text[188:188] --> decoded_text[188:189] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);",
+ "decoded_text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten ( z. B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen ) ;",
+ "diff": [
+ "insert text[87:87] --> decoded_text[87:88] '' --> ' '",
+ "insert text[89:89] --> decoded_text[90:91] '' --> ' '",
+ "insert text[188:188] --> decoded_text[190:191] '' --> ' '",
+ "insert text[189:189] --> decoded_text[192:193] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Darüber hinaus unterliegen wir verschiedenen Aufbewahrungs- und Dokumentationspflichten, die sich unter anderem aus dem Handelsgesetzbuch (HGB) und der Abgabenordnung (AO), ergeben. Die dort vorgegebenen Fristen zur Aufbewahrung bzw. Dokumentation betragen bis zehn Jahre über das Ende der Vertragsbeziehung oder des vorvertraglichen Rechtsverhältnisses hinaus.",
+ "decoded_text": "Darüber hinaus unterliegen wir verschiedenen Aufbewahrungs - und Dokumentationspflichten, die sich unter anderem aus dem Handelsgesetzbuch ( HGB ) und der Abgabenordnung ( AO ), ergeben. Die dort vorgegebenen Fristen zur Aufbewahrung bzw. Dokumentation betragen bis zehn Jahre über das Ende der Vertragsbeziehung oder des vorvertraglichen Rechtsverhältnisses hinaus.",
+ "diff": [
+ "insert text[58:58] --> decoded_text[58:59] '' --> ' '",
+ "insert text[139:139] --> decoded_text[140:141] '' --> ' '",
+ "insert text[142:142] --> decoded_text[144:145] '' --> ' '",
+ "insert text[168:168] --> decoded_text[171:172] '' --> ' '",
+ "insert text[170:170] --> decoded_text[174:175] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Ihre Bewerbungsunterlagen werden Ihnen bei Nicht-Einstellung nach Ablauf von sechs Monaten im Original zurückgegeben. Elektronische Daten werden nach sechs Monaten entsprechend gelöscht.",
+ "decoded_text": "Ihre Bewerbungsunterlagen werden Ihnen bei Nicht - Einstellung nach Ablauf von sechs Monaten im Original zurückgegeben. Elektronische Daten werden nach sechs Monaten entsprechend gelöscht.",
+ "diff": [
+ "insert text[48:48] --> decoded_text[48:49] '' --> ' '",
+ "insert text[49:49] --> decoded_text[50:51] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Sollten wir Ihre Daten für spätere Vakanzen länger speichern wollen oder Sie Ihre Daten in einen Bewerberpool eingestellt haben, werden die Daten zu späteren Zeitpunkten gelöscht; Einzelheiten dazu werden Ihnen im Zusammenhang mit dem jeweiligen Prozess mitgeteilt.",
+ "decoded_text": "Sollten wir Ihre Daten für spätere Vakanzen länger speichern wollen oder Sie Ihre Daten in einen Bewerberpool eingestellt haben, werden die Daten zu späteren Zeitpunkten gelöscht ; Einzelheiten dazu werden Ihnen im Zusammenhang mit dem jeweiligen Prozess mitgeteilt.",
+ "diff": [
+ "insert text[178:178] --> decoded_text[178:179] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-bert.bert-base-cased @ cc100.fa.diff.json b/stats/compression_rate/google-bert.bert-base-cased @ cc100.fa.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..dd88b7d3f054e7e9f34a4de9dce90808997a2ff2
--- /dev/null
+++ b/stats/compression_rate/google-bert.bert-base-cased @ cc100.fa.diff.json
@@ -0,0 +1,120 @@
+[
+ {
+ "text": "آشپزخانه کوچک من: February 2012",
+ "decoded_text": "آشپزخانه کوچک من : February 2012",
+ "diff": [
+ "insert text[16:16] --> decoded_text[16:17] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "بکینگ پودر:2 قاشق چای خوری",
+ "decoded_text": "بکینگ پودر : 2 قاشق چای خوری",
+ "diff": [
+ "insert text[10:10] --> decoded_text[10:11] '' --> ' '",
+ "insert text[11:11] --> decoded_text[12:13] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "تخم مرغ:2 عدد بزرگ",
+ "decoded_text": "تخم مرغ : 2 عدد بزرگ",
+ "diff": [
+ "insert text[7:7] --> decoded_text[7:8] '' --> ' '",
+ "insert text[8:8] --> decoded_text[9:10] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "کره:225 گرم به دمای اتاق رسیده",
+ "decoded_text": "کره : 225 گرم به دمای اتاق رسیده",
+ "diff": [
+ "insert text[3:3] --> decoded_text[3:4] '' --> ' '",
+ "insert text[4:4] --> decoded_text[5:6] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "شکر:1و1/2 پیمانه+ 3 قاشق غذا خوری",
+ "decoded_text": "شکر : 1و1 / 2 پیمانه + 3 قاشق غذا خوری",
+ "diff": [
+ "insert text[3:3] --> decoded_text[3:4] '' --> ' '",
+ "insert text[4:4] --> decoded_text[5:6] '' --> ' '",
+ "insert text[7:7] --> decoded_text[9:10] '' --> ' '",
+ "insert text[8:8] --> decoded_text[11:12] '' --> ' '",
+ "insert text[16:16] --> decoded_text[20:21] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "پودر دارچین:2 و1/2قاشق چای خوری",
+ "decoded_text": "پودر دارچین : 2 و1 / 2قاشق چای خوری",
+ "diff": [
+ "insert text[11:11] --> decoded_text[11:12] '' --> ' '",
+ "insert text[12:12] --> decoded_text[13:14] '' --> ' '",
+ "insert text[16:16] --> decoded_text[18:19] '' --> ' '",
+ "insert text[17:17] --> decoded_text[20:21] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!در Twitter به اشتراک بگذاریددر Facebook به اشتراک بگذاریداشتراکگذاری در Pinterest",
+ "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید! در Twitter به اشتراک بگذاریددر Facebook به اشتراک بگذاریداشتراکگذاری در Pinterest",
+ "diff": [
+ "replace text[46:47] --> decoded_text[46:47] '\\u200f' --> ' '",
+ "delete text[75:76] --> decoded_text[75:75] '\\u200f' --> ''",
+ "delete text[105:106] --> decoded_text[104:104] '\\u200f' --> ''",
+ "delete text[112:113] --> decoded_text[110:110] '\\u200c' --> ''"
+ ],
+ "n_oov_chars": 4,
+ "oov_ratio": 0.030534351145038167,
+ "oov_charset": "[\"\", \"\"]"
+ },
+ {
+ "text": "برچسبها: شیرینی ها",
+ "decoded_text": "برچسبها : شیرینی ها",
+ "diff": [
+ "delete text[5:6] --> decoded_text[5:5] '\\u200c' --> ''",
+ "insert text[8:8] --> decoded_text[7:8] '' --> ' '"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.05263157894736842,
+ "oov_charset": "[\"\"]"
+ },
+ {
+ "text": "ارد:1 و 1/2 پیمانه + 1 قاشق غذا خوری سر صاف سبوس گندم",
+ "decoded_text": "ارد : 1 و 1 / 2 پیمانه + 1 قاشق غذا خوری سر صاف سبوس گندم",
+ "diff": [
+ "insert text[3:3] --> decoded_text[3:4] '' --> ' '",
+ "insert text[4:4] --> decoded_text[5:6] '' --> ' '",
+ "insert text[9:9] --> decoded_text[11:12] '' --> ' '",
+ "insert text[10:10] --> decoded_text[13:14] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "رنده پوست پرتقال:1 قاشق چای خوری",
+ "decoded_text": "رنده پوست پرتقال : 1 قاشق چای خوری",
+ "diff": [
+ "insert text[16:16] --> decoded_text[16:17] '' --> ' '",
+ "insert text[17:17] --> decoded_text[18:19] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-bert.bert-base-cased @ cc100.ja.diff.json b/stats/compression_rate/google-bert.bert-base-cased @ cc100.ja.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..4b1550e2bba6d0f3898989701103538b461f4588
--- /dev/null
+++ b/stats/compression_rate/google-bert.bert-base-cased @ cc100.ja.diff.json
@@ -0,0 +1,171 @@
+[
+ {
+ "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!",
+ "decoded_text": "[UNK] [UNK] から [UNK] [UNK] 心 [UNK] [UNK] [UNK] [UNK] [UNK] 、 『 [UNK] 』 [UNK] [UNK] [UNK] [UNK] ました !",
+ "diff": [
+ "replace text[0:2] --> decoded_text[0:12] '午後' --> '[UNK] [UNK] '",
+ "replace text[4:6] --> decoded_text[14:27] '雨が' --> ' [UNK] [UNK] '",
+ "replace text[7:18] --> decoded_text[28:59] '配だったので遠出はせず' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '",
+ "insert text[19:19] --> decoded_text[60:61] '' --> ' '",
+ "replace text[20:27] --> decoded_text[62:69] 'ふれあいロード' --> ' [UNK] '",
+ "replace text[28:33] --> decoded_text[70:95] 'を走って来' --> ' [UNK] [UNK] [UNK] [UNK] '",
+ "insert text[36:36] --> decoded_text[98:99] '' --> ' '"
+ ],
+ "n_oov_chars": 17,
+ "oov_ratio": 0.4594594594594595,
+ "oov_charset": "[\"午\", \"後\", \"雨\", \"が\", \"配\", \"だ\", \"っ\", \"で\", \"遠\", \"出\", \"ず\", \"ふ\", \"あ\", \"を\", \"走\", \"来\"]"
+ },
+ {
+ "text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。",
+ "decoded_text": "[UNK] [UNK] に [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ました [UNK] [UNK] [UNK] [UNK] されてる [UNK] [UNK] 道 [UNK] [UNK] えるとお [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] えて [UNK] ました 。",
+ "diff": [
+ "replace text[0:2] --> decoded_text[0:12] '確実' --> '[UNK] [UNK] '",
+ "replace text[3:23] --> decoded_text[13:74] '春が近づいてることを肌で感じることが出来' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
+ "replace text[27:32] --> decoded_text[78:102] '着々と整備' --> '[UNK] [UNK] [UNK] [UNK] '",
+ "replace text[36:38] --> decoded_text[106:119] '圏央' --> ' [UNK] [UNK] '",
+ "replace text[39:41] --> decoded_text[120:133] 'を越' --> ' [UNK] [UNK] '",
+ "replace text[45:60] --> decoded_text[137:174] '世話になってるボウリング場が見' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] '",
+ "replace text[62:63] --> decoded_text[176:183] '来' --> ' [UNK] '",
+ "insert text[66:66] --> decoded_text[186:187] '' --> ' '"
+ ],
+ "n_oov_chars": 30,
+ "oov_ratio": 0.44776119402985076,
+ "oov_charset": "[\"確\", \"実\", \"春\", \"が\", \"近\", \"づ\", \"を\", \"肌\", \"で\", \"感\", \"じ\", \"出\", \"来\", \"着\", \"々\", \"整\", \"備\", \"圏\", \"央\", \"越\", \"世\", \"話\", \"っ\", \"ボ\", \"場\", \"見\"]"
+ },
+ {
+ "text": "うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。",
+ "decoded_text": "[UNK] 〜 〜 、 [UNK] [UNK] [UNK] 中 [UNK] [UNK] [UNK] 、 [UNK] り 道 [UNK] [UNK] [UNK] [UNK] 。",
+ "diff": [
+ "replace text[0:2] --> decoded_text[0:6] 'うぅ' --> '[UNK] '",
+ "insert text[3:3] --> decoded_text[7:8] '' --> ' '",
+ "insert text[4:4] --> decoded_text[9:10] '' --> ' '",
+ "replace text[5:8] --> decoded_text[11:30] '私が途' --> ' [UNK] [UNK] [UNK] '",
+ "replace text[9:24] --> decoded_text[31:50] 'でトイレに行きたくなってしまい' --> ' [UNK] [UNK] [UNK] '",
+ "replace text[25:26] --> decoded_text[51:58] '通' --> ' [UNK] '",
+ "insert text[27:27] --> decoded_text[59:60] '' --> ' '",
+ "replace text[28:45] --> decoded_text[61:86] 'にあったケンタに変更しちゃいました' --> ' [UNK] [UNK] [UNK] [UNK] '"
+ ],
+ "n_oov_chars": 14,
+ "oov_ratio": 0.30434782608695654,
+ "oov_charset": "[\"ぅ\", \"私\", \"が\", \"途\", \"で\", \"行\", \"っ\", \"通\", \"あ\", \"ケ\", \"変\", \"更\", \"ゃ\"]"
+ },
+ {
+ "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。",
+ "decoded_text": "[UNK] は 、 [UNK] 年 [UNK] [UNK] [UNK] [UNK] [UNK] の [UNK] [UNK] の [UNK] によ 〜 く [UNK] ないと [UNK] からない [UNK] の 小 さな [UNK] [UNK] [UNK] [UNK] 。",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:6] '実' --> '[UNK] '",
+ "insert text[2:2] --> decoded_text[7:8] '' --> ' '",
+ "replace text[3:4] --> decoded_text[9:16] '1' --> ' [UNK] '",
+ "replace text[5:12] --> decoded_text[17:48] '程前にエルモサ' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '",
+ "replace text[13:15] --> decoded_text[49:62] '右目' --> ' [UNK] [UNK] '",
+ "replace text[16:20] --> decoded_text[63:70] '黒目の端' --> ' [UNK] '",
+ "insert text[22:22] --> decoded_text[72:73] '' --> ' '",
+ "insert text[23:23] --> decoded_text[74:75] '' --> ' '",
+ "replace text[24:25] --> decoded_text[76:83] '見' --> ' [UNK] '",
+ "replace text[28:29] --> decoded_text[86:93] '分' --> ' [UNK] '",
+ "replace text[33:34] --> decoded_text[97:104] '程' --> ' [UNK] '",
+ "insert text[35:35] --> decoded_text[105:106] '' --> ' '",
+ "insert text[36:36] --> decoded_text[107:108] '' --> ' '",
+ "replace text[38:48] --> decoded_text[110:135] '斑を見つけてたんです' --> ' [UNK] [UNK] [UNK] [UNK] '"
+ ],
+ "n_oov_chars": 17,
+ "oov_ratio": 0.3469387755102041,
+ "oov_charset": "[\"実\", \"1\", \"程\", \"前\", \"モ\", \"右\", \"目\", \"黒\", \"端\", \"見\", \"分\", \"斑\", \"を\", \"で\"]"
+ },
+ {
+ "text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。",
+ "decoded_text": "その [UNK] [UNK] [UNK] [UNK] 生 からはおそらく 『 [UNK] [UNK] ジストロフィー 』 [UNK] [UNK] [UNK] [UNK] 。",
+ "diff": [
+ "replace text[2:6] --> decoded_text[2:27] '時点で先' --> ' [UNK] [UNK] [UNK] [UNK] '",
+ "insert text[7:7] --> decoded_text[28:29] '' --> ' '",
+ "insert text[14:14] --> decoded_text[36:37] '' --> ' '",
+ "replace text[15:17] --> decoded_text[38:51] '角膜' --> ' [UNK] [UNK] '",
+ "insert text[24:24] --> decoded_text[58:59] '' --> ' '",
+ "replace text[25:42] --> decoded_text[60:85] 'であろうとの診断をもらっていました' --> ' [UNK] [UNK] [UNK] [UNK] '"
+ ],
+ "n_oov_chars": 13,
+ "oov_ratio": 0.3023255813953488,
+ "oov_charset": "[\"時\", \"点\", \"で\", \"先\", \"角\", \"膜\", \"あ\", \"ろ\", \"診\", \"断\", \"を\", \"っ\"]"
+ },
+ {
+ "text": "エルモサの場合は1年程経過して徐々にではあるんですけど、少し大きくなってきちゃいました",
+ "decoded_text": "[UNK] [UNK] [UNK] は1 年 [UNK] [UNK] [UNK] して [UNK] [UNK] 、 [UNK] し 大 [UNK]",
+ "diff": [
+ "replace text[0:7] --> decoded_text[0:18] 'エルモサの場合' --> '[UNK] [UNK] [UNK] '",
+ "insert text[9:9] --> decoded_text[20:21] '' --> ' '",
+ "replace text[10:13] --> decoded_text[22:41] '程経過' --> ' [UNK] [UNK] [UNK] '",
+ "replace text[15:27] --> decoded_text[43:56] '徐々にではあるんですけど' --> ' [UNK] [UNK] '",
+ "replace text[28:29] --> decoded_text[57:64] '少' --> ' [UNK] '",
+ "insert text[30:30] --> decoded_text[65:66] '' --> ' '",
+ "replace text[31:43] --> decoded_text[67:73] 'きくなってきちゃいました' --> ' [UNK]'"
+ ],
+ "n_oov_chars": 15,
+ "oov_ratio": 0.3488372093023256,
+ "oov_charset": "[\"モ\", \"場\", \"合\", \"程\", \"経\", \"過\", \"徐\", \"々\", \"で\", \"あ\", \"ど\", \"少\", \"っ\", \"ゃ\"]"
+ },
+ {
+ "text": "ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。",
+ "decoded_text": "[UNK] 、 [UNK] [UNK] [UNK] [UNK] [UNK] からは [UNK] [UNK] [UNK] 、 こちらから [UNK] [UNK] [UNK] [UNK] つ [UNK] [UNK] 。",
+ "diff": [
+ "replace text[0:2] --> decoded_text[0:6] 'ただ' --> '[UNK] '",
+ "replace text[3:12] --> decoded_text[7:38] 'これまでお散歩仲間' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '",
+ "replace text[15:29] --> decoded_text[41:60] '指摘とかされたことはないので' --> ' [UNK] [UNK] [UNK] '",
+ "insert text[30:30] --> decoded_text[61:62] '' --> ' '",
+ "replace text[35:47] --> decoded_text[67:92] '言わなければそんなに目立' --> ' [UNK] [UNK] [UNK] [UNK] '",
+ "replace text[48:59] --> decoded_text[93:106] '程ではないんですけどね' --> ' [UNK] [UNK] '"
+ ],
+ "n_oov_chars": 19,
+ "oov_ratio": 0.31666666666666665,
+ "oov_charset": "[\"だ\", \"で\", \"散\", \"歩\", \"仲\", \"間\", \"指\", \"摘\", \"言\", \"わ\", \"ば\", \"目\", \"立\", \"程\", \"ど\", \"ね\"]"
+ },
+ {
+ "text": "昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。",
+ "decoded_text": "[UNK] [UNK] [UNK] の [UNK] [UNK] [UNK] [UNK] 方 [UNK] 、 [UNK] [UNK] く 事 [UNK] 。",
+ "diff": [
+ "replace text[0:8] --> decoded_text[0:18] '昔はヒアルロン酸' --> '[UNK] [UNK] [UNK] '",
+ "replace text[9:15] --> decoded_text[19:44] '目薬なども処' --> ' [UNK] [UNK] [UNK] [UNK] '",
+ "replace text[16:25] --> decoded_text[45:52] 'されてたようですが' --> ' [UNK] '",
+ "replace text[26:30] --> decoded_text[53:66] 'これが効' --> ' [UNK] [UNK] '",
+ "insert text[31:31] --> decoded_text[67:68] '' --> ' '",
+ "replace text[32:39] --> decoded_text[69:76] 'はないそうです' --> ' [UNK] '"
+ ],
+ "n_oov_chars": 12,
+ "oov_ratio": 0.3,
+ "oov_charset": "[\"昔\", \"ヒ\", \"酸\", \"目\", \"薬\", \"ど\", \"処\", \"で\", \"が\", \"効\"]"
+ },
+ {
+ "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。",
+ "decoded_text": "[UNK] 、 エルディとのお [UNK] [UNK] [UNK] [UNK] [UNK] 。 カタクリの 花 [UNK] [UNK] [UNK] きとの [UNK] [UNK] から [UNK] [UNK] [UNK] [UNK] り [UNK] れてみました 。",
+ "diff": [
+ "replace text[0:3] --> decoded_text[0:6] 'なので' --> '[UNK] '",
+ "insert text[4:4] --> decoded_text[7:8] '' --> ' '",
+ "replace text[11:26] --> decoded_text[15:46] '散歩でも訪れたことがありません' --> ' [UNK] [UNK] [UNK] [UNK] [UNK] '",
+ "insert text[33:33] --> decoded_text[53:54] '' --> ' '",
+ "replace text[34:38] --> decoded_text[55:74] 'が5分咲' --> ' [UNK] [UNK] [UNK] '",
+ "replace text[41:43] --> decoded_text[77:90] '情報' --> ' [UNK] [UNK] '",
+ "replace text[45:55] --> decoded_text[92:117] '今回コースの1つに取' --> ' [UNK] [UNK] [UNK] [UNK] '",
+ "replace text[56:57] --> decoded_text[118:125] '入' --> ' [UNK] '",
+ "insert text[63:63] --> decoded_text[131:132] '' --> ' '"
+ ],
+ "n_oov_chars": 18,
+ "oov_ratio": 0.28125,
+ "oov_charset": "[\"で\", \"散\", \"歩\", \"訪\", \"が\", \"あ\", \"5\", \"分\", \"咲\", \"情\", \"報\", \"今\", \"回\", \"1\", \"取\", \"入\"]"
+ },
+ {
+ "text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] 、 いつも [UNK] 上 部 らしき [UNK] 生 [UNK] [UNK] け [UNK] [UNK] [UNK] の [UNK] [UNK]",
+ "diff": [
+ "replace text[0:16] --> decoded_text[0:24] '前々から走ってみたかったんだけど' --> '[UNK] [UNK] [UNK] [UNK] '",
+ "insert text[17:17] --> decoded_text[25:26] '' --> ' '",
+ "replace text[20:21] --> decoded_text[29:36] '陸' --> ' [UNK] '",
+ "insert text[22:22] --> decoded_text[37:38] '' --> ' '",
+ "insert text[23:23] --> decoded_text[39:40] '' --> ' '",
+ "replace text[26:27] --> decoded_text[43:50] '学' --> ' [UNK] '",
+ "replace text[28:32] --> decoded_text[51:84] 'さんがも' --> ' [UNK] [UNK] け [UNK] [UNK] [UNK] '",
+ "replace text[33:71] --> decoded_text[85:97] 'すごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました' --> ' [UNK] [UNK]'"
+ ],
+ "n_oov_chars": 23,
+ "oov_ratio": 0.323943661971831,
+ "oov_charset": "[\"前\", \"々\", \"走\", \"っ\", \"だ\", \"ど\", \"陸\", \"学\", \"が\", \"ご\", \"ピ\", \"で\", \"駆\", \"抜\", \"を\", \"目\", \"当\", \"ょ\", \"ビ\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-bert.bert-base-cased @ cc100.ko.diff.json b/stats/compression_rate/google-bert.bert-base-cased @ cc100.ko.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..e0463c7e5cfc5f4763c251f59f868a7c7070f689
--- /dev/null
+++ b/stats/compression_rate/google-bert.bert-base-cased @ cc100.ko.diff.json
@@ -0,0 +1,249 @@
+[
+ {
+ "text": "+ HOME > 라이브스코어",
+ "decoded_text": "+ HOME > [UNK]",
+ "diff": [
+ "replace text[9:15] --> decoded_text[9:14] '라이브스코어' --> '[UNK]'"
+ ],
+ "n_oov_chars": 5,
+ "oov_ratio": 0.3333333333333333,
+ "oov_charset": "[\"라\", \"브\", \"스\", \"코\", \"어\"]"
+ },
+ {
+ "text": "특히 주소 15~17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.",
+ "decoded_text": "[UNK] [UNK] 15 ~ [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:2] --> decoded_text[0:5] '특히' --> '[UNK]'",
+ "replace text[3:5] --> decoded_text[6:11] '주소' --> '[UNK]'",
+ "insert text[8:8] --> decoded_text[14:15] '' --> ' '",
+ "delete text[9:12] --> decoded_text[16:16] '17번' --> ''",
+ "replace text[13:16] --> decoded_text[17:22] '홀에선' --> '[UNK]'",
+ "replace text[17:20] --> decoded_text[23:28] '3연속' --> '[UNK]'",
+ "replace text[21:24] --> decoded_text[29:34] '보기로' --> '[UNK]'",
+ "replace text[25:33] --> decoded_text[35:40] '황금의제국카지노' --> '[UNK]'",
+ "replace text[34:39] --> decoded_text[41:52] '홀아웃했다' --> '[UNK] [UNK]'"
+ ],
+ "n_oov_chars": 25,
+ "oov_ratio": 0.625,
+ "oov_charset": "[\"특\", \"히\", \"주\", \"소\", \"번\", \"홀\", \"에\", \"선\", \"연\", \"속\", \"보\", \"기\", \"로\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"아\", \"웃\", \"했\", \"다\"]"
+ },
+ {
+ "text": "1편인'신과함께-죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.",
+ "decoded_text": "[UNK]'[UNK] - [UNK] [UNK]'이 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:3] --> decoded_text[0:5] '1편인' --> '[UNK]'",
+ "replace text[4:8] --> decoded_text[6:12] '신과함께' --> '[UNK] '",
+ "delete text[9:11] --> decoded_text[13:13] '죄와' --> ''",
+ "replace text[12:13] --> decoded_text[14:25] '벌' --> '[UNK] [UNK]'",
+ "replace text[16:19] --> decoded_text[28:33] '천만을' --> '[UNK]'",
+ "replace text[20:22] --> decoded_text[34:39] '넘은' --> '[UNK]'",
+ "replace text[23:25] --> decoded_text[40:45] '만큼' --> '[UNK]'",
+ "replace text[26:29] --> decoded_text[46:51] '2편을' --> '[UNK]'",
+ "replace text[30:33] --> decoded_text[52:57] '기다린' --> '[UNK]'",
+ "replace text[34:42] --> decoded_text[58:63] '황금의제국카지노' --> '[UNK]'",
+ "replace text[43:47] --> decoded_text[64:69] '관객들의' --> '[UNK]'",
+ "replace text[48:51] --> decoded_text[70:75] '기대와' --> '[UNK]'",
+ "replace text[52:54] --> decoded_text[76:81] '주소' --> '[UNK]'",
+ "replace text[55:58] --> decoded_text[82:87] '관심은' --> '[UNK]'",
+ "replace text[59:64] --> decoded_text[88:93] '폭발적이다' --> '[UNK]'"
+ ],
+ "n_oov_chars": 43,
+ "oov_ratio": 0.6615384615384615,
+ "oov_charset": "[\"편\", \"인\", \"신\", \"과\", \"함\", \"께\", \"죄\", \"와\", \"벌\", \"천\", \"만\", \"을\", \"넘\", \"은\", \"큼\", \"기\", \"다\", \"린\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"관\", \"객\", \"들\", \"대\", \"주\", \"소\", \"심\", \"폭\", \"발\", \"적\"]"
+ },
+ {
+ "text": "고려해서 주소 '대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.",
+ "decoded_text": "[UNK] [UNK]'[UNK] [UNK]'의 [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:4] --> decoded_text[0:5] '고려해서' --> '[UNK]'",
+ "replace text[5:7] --> decoded_text[6:17] '주소' --> \"[UNK]'[UNK]\"",
+ "replace text[8:15] --> decoded_text[18:23] \"'대체재 일색\" --> '[UNK]'",
+ "replace text[18:21] --> decoded_text[26:31] '분재를' --> '[UNK]'",
+ "replace text[22:25] --> decoded_text[32:37] '내놓을' --> '[UNK]'",
+ "replace text[26:29] --> decoded_text[38:43] '위험이' --> '[UNK]'",
+ "replace text[30:32] --> decoded_text[44:49] '있다' --> '[UNK]'",
+ "replace text[34:37] --> decoded_text[51:56] '문학의' --> '[UNK]'",
+ "replace text[38:41] --> decoded_text[57:62] '자유를' --> '[UNK]'",
+ "replace text[42:46] --> decoded_text[63:68] '소설가가' --> '[UNK]'",
+ "replace text[47:50] --> decoded_text[69:74] '스스로' --> '[UNK]'",
+ "replace text[51:59] --> decoded_text[75:80] '황금의제국카지노' --> '[UNK]'",
+ "replace text[60:64] --> decoded_text[81:86] '출판사에' --> '[UNK]'",
+ "replace text[65:69] --> decoded_text[87:92] '상납하는' --> '[UNK]'",
+ "replace text[70:73] --> decoded_text[93:98] '것이다' --> '[UNK]'"
+ ],
+ "n_oov_chars": 64,
+ "oov_ratio": 0.8648648648648649,
+ "oov_charset": "[\"고\", \"려\", \"해\", \"서\", \" \", \"주\", \"소\", \"대\", \"체\", \"재\", \"일\", \"색\", \"분\", \"를\", \"내\", \"놓\", \"을\", \"위\", \"험\", \"있\", \"다\", \"문\", \"학\", \"자\", \"유\", \"설\", \"가\", \"스\", \"로\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"출\", \"판\", \"에\", \"상\", \"납\", \"하\", \"는\", \"것\"]"
+ },
+ {
+ "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] ( 22 ) [UNK] [UNK] [UNK] ( [UNK] [UNK] ) [UNK] (. 246. 270. 508 ). [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:6] --> decoded_text[0:5] '조시도널슨의' --> '[UNK]'",
+ "replace text[7:9] --> decoded_text[6:11] '유산' --> '[UNK]'",
+ "replace text[10:14] --> decoded_text[12:17] '프랭클린' --> '[UNK]'",
+ "replace text[15:17] --> decoded_text[18:23] '주소' --> '[UNK]'",
+ "replace text[18:21] --> decoded_text[24:30] '바레토' --> '[UNK] '",
+ "insert text[22:22] --> decoded_text[31:32] '' --> ' '",
+ "delete text[24:26] --> decoded_text[34:34] ')는' --> ''",
+ "delete text[27:49] --> decoded_text[35:35] '황금의제국카지노 4타수3안타(2루타 홈런' --> ''",
+ "replace text[51:54] --> decoded_text[37:77] '3타점' --> '[UNK] [UNK] [UNK] ( [UNK] [UNK] ) [UNK] '",
+ "insert text[56:56] --> decoded_text[79:80] '' --> ' '",
+ "insert text[59:59] --> decoded_text[83:84] '' --> '.'",
+ "delete text[60:61] --> decoded_text[85:85] '.' --> ''",
+ "insert text[64:64] --> decoded_text[88:89] '' --> '.'",
+ "delete text[65:66] --> decoded_text[90:90] '.' --> ''",
+ "insert text[69:69] --> decoded_text[93:94] '' --> ' '",
+ "replace text[72:75] --> decoded_text[97:102] '하지만' --> '[UNK]'",
+ "replace text[76:79] --> decoded_text[103:108] '아직은' --> '[UNK]'",
+ "replace text[80:84] --> decoded_text[109:114] '트레이드' --> '[UNK]'",
+ "replace text[85:88] --> decoded_text[115:120] '당시의' --> '[UNK]'",
+ "replace text[89:93] --> decoded_text[121:126] '기대치를' --> '[UNK]'",
+ "replace text[94:98] --> decoded_text[127:132] '보여주지' --> '[UNK]'",
+ "replace text[99:102] --> decoded_text[133:138] '못하고' --> '[UNK]'",
+ "replace text[103:105] --> decoded_text[139:144] '있다' --> '[UNK]'"
+ ],
+ "n_oov_chars": 58,
+ "oov_ratio": 0.5471698113207547,
+ "oov_charset": "[\"조\", \"시\", \"도\", \"널\", \"슨\", \"유\", \"산\", \"프\", \"랭\", \"클\", \"린\", \"주\", \"소\", \"바\", \"레\", \"토\", \"는\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"타\", \"수\", \"안\", \"루\", \"홈\", \"런\", \"점\", \"하\", \"만\", \"아\", \"직\", \"은\", \"트\", \"드\", \"당\", \"기\", \"대\", \"치\", \"를\", \"보\", \"여\", \"못\", \"고\", \"있\", \"다\"]"
+ },
+ {
+ "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK]. [UNK] A, [UNK] [UNK] [UNK] - [UNK] - [UNK] [UNK] [UNK], C, D, [UNK] E, [UNK] [UNK] [UNK] [UNK] - [UNK] - [UNK] - [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:6] --> decoded_text[0:5] '여기서승리한' --> '[UNK]'",
+ "replace text[7:10] --> decoded_text[6:11] '2팀이' --> '[UNK]'",
+ "replace text[11:15] --> decoded_text[12:17] '준결승에' --> '[UNK]'",
+ "replace text[16:19] --> decoded_text[18:23] '오른다' --> '[UNK]'",
+ "replace text[21:23] --> decoded_text[25:30] '결국' --> '[UNK]'",
+ "replace text[27:29] --> decoded_text[34:39] 'B조' --> '[UNK]'",
+ "replace text[30:33] --> decoded_text[40:45] '1위는' --> '[UNK]'",
+ "replace text[34:37] --> decoded_text[46:52] '12강' --> '[UNK] '",
+ "replace text[38:40] --> decoded_text[53:60] '4강' --> ' [UNK] '",
+ "delete text[41:45] --> decoded_text[61:61] '결승으로' --> ''",
+ "replace text[46:50] --> decoded_text[62:67] '3경기를' --> '[UNK]'",
+ "replace text[51:55] --> decoded_text[68:79] '치르지만' --> '[UNK] [UNK]'",
+ "replace text[63:71] --> decoded_text[87:92] '황금의제국카지노' --> '[UNK]'",
+ "replace text[75:77] --> decoded_text[96:101] 'F조' --> '[UNK]'",
+ "replace text[78:81] --> decoded_text[102:107] '1위는' --> '[UNK]'",
+ "replace text[82:84] --> decoded_text[108:113] '주소' --> '[UNK]'",
+ "replace text[85:88] --> decoded_text[114:120] '12강' --> '[UNK] '",
+ "replace text[89:91] --> decoded_text[121:128] '6강' --> ' [UNK] '",
+ "replace text[92:94] --> decoded_text[129:136] '4강' --> ' [UNK] '",
+ "delete text[95:99] --> decoded_text[137:137] '결승으로' --> ''",
+ "replace text[100:104] --> decoded_text[138:143] '4경기를' --> '[UNK]'",
+ "replace text[105:107] --> decoded_text[144:149] '해야' --> '[UNK]'",
+ "replace text[108:110] --> decoded_text[150:161] '한다' --> '[UNK] [UNK]'"
+ ],
+ "n_oov_chars": 56,
+ "oov_ratio": 0.5045045045045045,
+ "oov_charset": "[\"여\", \"기\", \"서\", \"승\", \"리\", \"팀\", \"준\", \"결\", \"에\", \"오\", \"른\", \"다\", \"국\", \"조\", \"위\", \"는\", \"강\", \"으\", \"로\", \"경\", \"를\", \"치\", \"르\", \"지\", \"만\", \"황\", \"금\", \"제\", \"카\", \"노\", \"주\", \"소\", \"해\", \"야\"]"
+ },
+ {
+ "text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 '실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] 한 [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] 한 [UNK] [UNK] [UNK]'[UNK] [UNK] [UNK]'[UNK] [UNK], [UNK] [UNK].",
+ "diff": [
+ "replace text[0:4] --> decoded_text[0:5] '또한이날' --> '[UNK]'",
+ "replace text[5:8] --> decoded_text[6:11] '눈길을' --> '[UNK]'",
+ "replace text[9:11] --> decoded_text[12:17] '주소' --> '[UNK]'",
+ "replace text[12:13] --> decoded_text[18:23] '끈' --> '[UNK]'",
+ "replace text[14:16] --> decoded_text[24:29] '것은' --> '[UNK]'",
+ "replace text[19:24] --> decoded_text[32:37] '신인배우의' --> '[UNK]'",
+ "replace text[25:30] --> decoded_text[38:43] '매니저였다' --> '[UNK]'",
+ "replace text[32:40] --> decoded_text[45:50] '황금의제국카지노' --> '[UNK]'",
+ "replace text[41:44] --> decoded_text[51:56] '배우의' --> '[UNK]'",
+ "replace text[45:48] --> decoded_text[57:62] '매니저' --> '[UNK]'",
+ "replace text[49:51] --> decoded_text[63:68] '일을' --> '[UNK]'",
+ "replace text[52:54] --> decoded_text[69:74] '하고' --> '[UNK]'",
+ "replace text[55:58] --> decoded_text[75:80] '있다는' --> '[UNK]'",
+ "replace text[61:65] --> decoded_text[83:88] '청취자의' --> '[UNK]'",
+ "replace text[66:69] --> decoded_text[89:94] '사연에' --> '[UNK]'",
+ "replace text[70:74] --> decoded_text[95:106] '박명수는' --> \"[UNK]'[UNK]\"",
+ "insert text[75:75] --> decoded_text[107:118] '' --> '[UNK] [UNK]'",
+ "replace text[76:79] --> decoded_text[119:124] '실시간' --> '[UNK]'",
+ "replace text[80:96] --> decoded_text[125:130] \"검색어 1위'를 만들어주겠다며\" --> '[UNK]'",
+ "replace text[98:103] --> decoded_text[132:137] '통화연결을' --> '[UNK]'",
+ "replace text[104:106] --> decoded_text[138:143] '했다' --> '[UNK]'"
+ ],
+ "n_oov_chars": 69,
+ "oov_ratio": 0.6448598130841121,
+ "oov_charset": "[\"또\", \"날\", \"눈\", \"길\", \"을\", \"주\", \"소\", \"끈\", \"것\", \"은\", \"신\", \"인\", \"배\", \"우\", \"매\", \"니\", \"저\", \"였\", \"다\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"일\", \"하\", \"고\", \"있\", \"는\", \"청\", \"취\", \"자\", \"연\", \"에\", \"박\", \"명\", \"수\", \"실\", \"시\", \"간\", \"검\", \"색\", \"어\", \"위\", \"를\", \"만\", \"들\", \"겠\", \"며\", \"통\", \"화\", \"결\", \"했\"]"
+ },
+ {
+ "text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다.",
+ "decoded_text": "[UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] ‘ [UNK] [UNK] ’ [UNK] [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:5] --> decoded_text[0:5] '하지만이번' --> '[UNK]'",
+ "replace text[6:14] --> decoded_text[6:11] '황금의제국카지노' --> '[UNK]'",
+ "replace text[15:17] --> decoded_text[12:17] '시즌' --> '[UNK]'",
+ "replace text[19:23] --> decoded_text[19:24] '호날두와' --> '[UNK]'",
+ "replace text[24:28] --> decoded_text[25:30] '이과인이' --> '[UNK]'",
+ "replace text[29:31] --> decoded_text[31:36] '다시' --> '[UNK]'",
+ "replace text[32:34] --> decoded_text[37:42] '주소' --> '[UNK]'",
+ "replace text[35:39] --> decoded_text[43:48] '한솥밥을' --> '[UNK]'",
+ "replace text[40:42] --> decoded_text[49:54] '먹는' --> '[UNK]'",
+ "replace text[43:45] --> decoded_text[55:60] '일이' --> '[UNK]'",
+ "replace text[46:50] --> decoded_text[61:66] '성사됐다' --> '[UNK]'",
+ "replace text[52:56] --> decoded_text[68:73] '호날두가' --> '[UNK]'",
+ "delete text[58:59] --> decoded_text[75:75] '빅' --> ''",
+ "replace text[60:63] --> decoded_text[76:88] '사이닝' --> '[UNK] [UNK] '",
+ "delete text[64:65] --> decoded_text[89:89] '을' --> ''",
+ "replace text[66:68] --> decoded_text[90:95] '통해' --> '[UNK]'",
+ "replace text[69:74] --> decoded_text[96:101] '유벤투스로' --> '[UNK]'",
+ "replace text[75:78] --> decoded_text[102:107] '옮겼기' --> '[UNK]'",
+ "replace text[79:83] --> decoded_text[108:119] '때문이다' --> '[UNK] [UNK]'"
+ ],
+ "n_oov_chars": 52,
+ "oov_ratio": 0.6190476190476191,
+ "oov_charset": "[\"하\", \"지\", \"만\", \"번\", \"황\", \"금\", \"제\", \"국\", \"카\", \"노\", \"시\", \"즌\", \"호\", \"날\", \"두\", \"와\", \"과\", \"인\", \"다\", \"주\", \"소\", \"솥\", \"밥\", \"을\", \"먹\", \"는\", \"일\", \"성\", \"됐\", \"가\", \"빅\", \"닝\", \"통\", \"해\", \"유\", \"벤\", \"투\", \"스\", \"로\", \"옮\", \"겼\", \"기\", \"때\", \"문\"]"
+ },
+ {
+ "text": "현대캐피탈은삼성화재와 시범경기를 위해 홍천에 황금의제국카지노 주소 왔다.",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:11] --> decoded_text[0:5] '현대캐피탈은삼성화재와' --> '[UNK]'",
+ "replace text[12:17] --> decoded_text[6:11] '시범경기를' --> '[UNK]'",
+ "replace text[18:20] --> decoded_text[12:17] '위해' --> '[UNK]'",
+ "replace text[21:24] --> decoded_text[18:23] '홍천에' --> '[UNK]'",
+ "replace text[25:33] --> decoded_text[24:29] '황금의제국카지노' --> '[UNK]'",
+ "replace text[34:36] --> decoded_text[30:35] '주소' --> '[UNK]'",
+ "replace text[37:39] --> decoded_text[36:41] '왔다' --> '[UNK]'"
+ ],
+ "n_oov_chars": 38,
+ "oov_ratio": 0.95,
+ "oov_charset": "[\"현\", \"대\", \"캐\", \"피\", \"탈\", \"은\", \"삼\", \"성\", \"화\", \"재\", \"와\", \" \", \"시\", \"범\", \"경\", \"기\", \"를\", \"위\", \"해\", \"홍\", \"천\", \"에\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"주\", \"소\", \"왔\", \"다\"]"
+ },
+ {
+ "text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] 한 [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:5] --> decoded_text[0:5] '사실자매가' --> '[UNK]'",
+ "replace text[6:9] --> decoded_text[6:11] '나란히' --> '[UNK]'",
+ "replace text[10:12] --> decoded_text[12:17] '앉아' --> '[UNK]'",
+ "replace text[13:17] --> decoded_text[18:23] '인터뷰를' --> '[UNK]'",
+ "replace text[18:21] --> decoded_text[24:29] '한다는' --> '[UNK]'",
+ "replace text[22:23] --> decoded_text[30:35] '게' --> '[UNK]'",
+ "replace text[24:28] --> decoded_text[36:41] '쑥스러울' --> '[UNK]'",
+ "replace text[29:31] --> decoded_text[42:47] '법도' --> '[UNK]'",
+ "replace text[32:34] --> decoded_text[48:53] '한데' --> '[UNK]'",
+ "replace text[36:38] --> decoded_text[55:60] '주소' --> '[UNK]'",
+ "replace text[39:40] --> decoded_text[61:66] '둘' --> '[UNK]'",
+ "replace text[41:45] --> decoded_text[67:72] '사이에는' --> '[UNK]'",
+ "replace text[46:48] --> decoded_text[73:78] '어떤' --> '[UNK]'",
+ "replace text[49:53] --> decoded_text[79:84] '거리낌도' --> '[UNK]'",
+ "replace text[54:57] --> decoded_text[85:90] '없었다' --> '[UNK]'",
+ "replace text[59:61] --> decoded_text[92:97] '마치' --> '[UNK]'",
+ "replace text[62:65] --> decoded_text[98:103] '하루에' --> '[UNK]'",
+ "replace text[68:70] --> decoded_text[106:111] '번씩' --> '[UNK]'",
+ "replace text[71:74] --> decoded_text[112:117] '만나는' --> '[UNK]'",
+ "replace text[75:77] --> decoded_text[118:123] '친구' --> '[UNK]'",
+ "replace text[78:80] --> decoded_text[124:129] '같은' --> '[UNK]'",
+ "replace text[81:84] --> decoded_text[130:135] '느낌이' --> '[UNK]'",
+ "replace text[85:93] --> decoded_text[136:141] '황금의제국카지노' --> '[UNK]'",
+ "replace text[94:97] --> decoded_text[142:147] '강했다' --> '[UNK]'"
+ ],
+ "n_oov_chars": 63,
+ "oov_ratio": 0.6428571428571429,
+ "oov_charset": "[\"실\", \"자\", \"매\", \"가\", \"나\", \"란\", \"히\", \"앉\", \"아\", \"인\", \"터\", \"뷰\", \"를\", \"다\", \"는\", \"게\", \"쑥\", \"스\", \"러\", \"울\", \"법\", \"도\", \"데\", \"주\", \"소\", \"둘\", \"에\", \"어\", \"떤\", \"거\", \"리\", \"낌\", \"없\", \"었\", \"마\", \"치\", \"하\", \"루\", \"번\", \"씩\", \"만\", \"친\", \"구\", \"같\", \"은\", \"느\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"강\", \"했\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-bert.bert-base-chinese @ cc100.ar.diff.json b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.ar.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..69359e1e27efda85b8355dbd29af9acee04d7d59
--- /dev/null
+++ b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.ar.diff.json
@@ -0,0 +1,211 @@
+[
+ {
+ "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)",
+ "decoded_text": "- [UNK] / علي [UNK] [UNK] - [UNK] [UNK].. ( 1 )",
+ "diff": [
+ "replace text[2:8] --> decoded_text[2:7] 'اللواء' --> '[UNK]'",
+ "replace text[15:19] --> decoded_text[14:19] 'محمد' --> '[UNK]'",
+ "replace text[20:28] --> decoded_text[20:25] 'الكحلاني' --> '[UNK]'",
+ "replace text[31:36] --> decoded_text[28:33] 'نصيحة' --> '[UNK]'",
+ "replace text[37:43] --> decoded_text[34:39] 'صادقة ' --> '[UNK]'",
+ "insert text[49:49] --> decoded_text[45:46] '' --> ' '"
+ ],
+ "n_oov_chars": 8,
+ "oov_ratio": 0.16,
+ "oov_charset": "[\"ء\", \"ح\", \"ك\", \"ص\", \"ق\"]"
+ },
+ {
+ "text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..",
+ "decoded_text": "اليمن [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] العام [UNK] [UNK] من استعادة [UNK] [UNK], ومن [UNK] الاعتيادية [UNK] [UNK] 22مايو العام 1990م.. [UNK] [UNK] [UNK] تنهدت من [UNK] [UNK] [UNK] [UNK] لما [UNK] [UNK] [UNK] [UNK] من [UNK] ومن [UNK], ومن [UNK] [UNK] [UNK] [UNK], ومن [UNK] من [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] لم تعدم [UNK] [UNK] [UNK] من [UNK] [UNK], ومن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] اليمانيين [UNK] العام 1990م [UNK] العالم [UNK] [UNK] [UNK] العالم [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] اليمن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] اليمنيين [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] من [UNK] [UNK] [UNK] [UNK] [UNK] العليا عن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], عدا [UNK] اليمن [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] التسعينات من [UNK] [UNK] التي ( [UNK] ) [UNK] [UNK] [UNK] التي [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] اليمن..",
+ "diff": [
+ "replace text[6:72] --> decoded_text[6:67] 'جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين' --> '[UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] العام [UNK] [UNK]'",
+ "insert text[84:84] --> decoded_text[79:92] '' --> '[UNK] [UNK], '",
+ "replace text[85:106] --> decoded_text[93:106] 'ضعها الطبيعي, ومن حيا' --> 'من [UNK] الاع'",
+ "delete text[107:115] --> decoded_text[107:107] 'ها الاعت' --> ''",
+ "replace text[121:132] --> decoded_text[113:124] 'الطبيعية في' --> '[UNK] [UNK]'",
+ "replace text[154:166] --> decoded_text[146:163] 'بكل تأكيد قد' --> '[UNK] [UNK] [UNK]'",
+ "replace text[176:195] --> decoded_text[173:233] 'أعماق أعماقها ألماً' --> '[UNK] [UNK] [UNK] [UNK] لما [UNK] [UNK] [UNK] [UNK] من [UNK]'",
+ "replace text[197:205] --> decoded_text[235:244] 'أسىً لما' --> 'من [UNK],'",
+ "replace text[207:232] --> decoded_text[246:340] 'صل إليه حال أبنائها من اق' --> 'من [UNK] [UNK] [UNK] [UNK], ومن [UNK] من [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] لم '",
+ "replace text[233:236] --> decoded_text[341:378] 'تال' --> 'عدم [UNK] [UNK] [UNK] من [UNK] [UNK],'",
+ "replace text[241:456] --> decoded_text[383:452] 'احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] اليمانيين [UNK]'",
+ "replace text[469:486] --> decoded_text[465:782] 'فاجأوا العالم بوح' --> '[UNK] العالم [UNK] [UNK] [UNK] العالم [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] اليمن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] اليمنيين [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] من [UNK] [UNK] [UNK] [UNK] [UNK] العليا عن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], ع'",
+ "replace text[487:852] --> decoded_text[783:846] 'تهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة' --> 'ا [UNK] اليمن [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[866:879] --> decoded_text[860:871] 'القرن العشرين' --> '[UNK] [UNK]'",
+ "insert text[886:886] --> decoded_text[878:907] '' --> ' [UNK] ) [UNK] [UNK] [UNK] ال'",
+ "replace text[887:966] --> decoded_text[908:965] 'ردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..' --> 'ي [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] اليمن..'"
+ ],
+ "n_oov_chars": 163,
+ "oov_ratio": 0.16873706004140787,
+ "oov_charset": "[\"ج\", \"ش\", \"ق\", \"غ\", \"ف\", \"ى\", \"ث\", \"ض\", \"ط\", \"ح\", \"ك\", \"أ\", \"ً\", \"ص\", \"إ\", \"ئ\", \"ء\", \"ذ\", \"ز\", \"ظ\", \"ٍ\", \"خ\"]"
+ },
+ {
+ "text": "واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية, أو انتماءاتهم المناطقية أو القبلية أو الجهوية, أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان..",
+ "decoded_text": "واليوم وبعد [UNK] [UNK] مياه [UNK] [UNK] من [UNK] [UNK], وما [UNK] البلد من [UNK] عديدة, [UNK] [UNK] اليمانية [UNK] [UNK] [UNK] اليمن [UNK] [UNK] تياراتهم السياسية, [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] ما [UNK] به رسول العالمين [UNK] بن عبدالله عليه [UNK] [UNK] والتسليم [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..",
+ "diff": [
+ "replace text[12:49] --> decoded_text[12:55] 'أن جرت مياه كثيرة وتدفقت من تحت الجسر' --> '[UNK] [UNK] مياه [UNK] [UNK] من [UNK] [UNK]'",
+ "replace text[55:75] --> decoded_text[61:81] 'شهدته البلد من مواقف' --> '[UNK] البلد من [UNK]'",
+ "replace text[83:92] --> decoded_text[89:108] 'فإن الحكم' --> '[UNK] [UNK] اليماني'",
+ "replace text[94:133] --> decoded_text[110:145] 'اليمانية توجب على أبناء اليمن أياً كانت' --> '[UNK] [UNK] [UNK] اليمن [UNK] [UNK]'",
+ "replace text[153:198] --> decoded_text[165:206] 'أو انتماءاتهم المناطقية أو القبلية أو الجهوية' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[200:226] --> decoded_text[208:234] 'أن يستذكروا جيداً ما وصفهم' --> '[UNK] [UNK] [UNK] ما [UNK]'",
+ "replace text[244:277] --> decoded_text[252:285] 'محمد بن عبدالله عليه أفضل الصلوات' --> '[UNK] بن عبدالله عليه [UNK] [UNK]'",
+ "replace text[287:337] --> decoded_text[295:348] 'وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'"
+ ],
+ "n_oov_chars": 54,
+ "oov_ratio": 0.1592920353982301,
+ "oov_charset": "[\"أ\", \"ج\", \"ك\", \"ث\", \"ف\", \"ق\", \"ح\", \"ش\", \"إ\", \"ى\", \"ء\", \"ً\", \"ط\", \"ذ\", \"ص\", \"ض\", \"آ\", \"خ\"]"
+ },
+ {
+ "text": "وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..",
+ "decoded_text": "[UNK] الرسول [UNK] ما هي [UNK] [UNK] من الله.. [UNK] [UNK] العمل بما [UNK] الرسول [UNK] هو [UNK] [UNK] ودينية [UNK] سياسية..",
+ "diff": [
+ "replace text[0:5] --> decoded_text[0:5] 'وكلام' --> '[UNK]'",
+ "replace text[13:21] --> decoded_text[13:18] 'وأحاديثه' --> '[UNK]'",
+ "replace text[28:31] --> decoded_text[25:30] 'إلا' --> '[UNK]'",
+ "replace text[32:35] --> decoded_text[31:36] 'وحي' --> '[UNK]'",
+ "replace text[46:51] --> decoded_text[47:52] 'بمعنى' --> '[UNK]'",
+ "replace text[52:54] --> decoded_text[53:58] 'أن' --> '[UNK]'",
+ "replace text[65:69] --> decoded_text[69:74] 'قاله' --> '[UNK]'",
+ "replace text[77:83] --> decoded_text[82:87] 'الأعظم' --> '[UNK]'",
+ "replace text[87:94] --> decoded_text[91:96] 'مسؤولية' --> '[UNK]'",
+ "replace text[95:102] --> decoded_text[97:102] 'أخلاقية' --> '[UNK]'",
+ "replace text[110:118] --> decoded_text[110:115] 'ومسؤولية' --> '[UNK]'"
+ ],
+ "n_oov_chars": 16,
+ "oov_ratio": 0.12598425196850394,
+ "oov_charset": "[\"ك\", \"أ\", \"ح\", \"ث\", \"إ\", \"ى\", \"ق\", \"ظ\", \"ؤ\", \"خ\"]"
+ },
+ {
+ "text": "فهل أوضاع اليمنيين القائمة هي نتاج حكمة, وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم..",
+ "decoded_text": "[UNK] [UNK] اليمنيين [UNK] هي [UNK] [UNK], وهل من [UNK] [UNK] [UNK] [UNK] [UNK] هي وسيلة [UNK] [UNK] [UNK] بيننا [UNK] [UNK] [UNK] البلد [UNK]..",
+ "diff": [
+ "replace text[0:3] --> decoded_text[0:5] 'فهل' --> '[UNK]'",
+ "replace text[4:9] --> decoded_text[6:11] 'أوضاع' --> '[UNK]'",
+ "replace text[19:26] --> decoded_text[21:26] 'القائمة' --> '[UNK]'",
+ "replace text[30:34] --> decoded_text[30:35] 'نتاج' --> '[UNK]'",
+ "replace text[35:39] --> decoded_text[36:41] 'حكمة' --> '[UNK]'",
+ "replace text[48:54] --> decoded_text[50:55] 'الحكمة' --> '[UNK]'",
+ "replace text[55:57] --> decoded_text[56:61] 'أن' --> '[UNK]'",
+ "replace text[58:61] --> decoded_text[62:67] 'تظل' --> '[UNK]'",
+ "replace text[62:70] --> decoded_text[68:73] 'البندقية' --> '[UNK]'",
+ "replace text[71:79] --> decoded_text[74:79] 'والقذيفة' --> '[UNK]'",
+ "replace text[89:95] --> decoded_text[89:94] 'الخطاب' --> '[UNK]'",
+ "replace text[96:103] --> decoded_text[95:100] 'والحوار' --> '[UNK]'",
+ "replace text[104:108] --> decoded_text[101:106] 'فيما' --> '[UNK]'",
+ "replace text[115:118] --> decoded_text[113:118] 'نحن' --> '[UNK]'",
+ "replace text[119:124] --> decoded_text[119:124] 'أبناء' --> '[UNK]'",
+ "replace text[125:128] --> decoded_text[125:130] 'هذا' --> '[UNK]'",
+ "replace text[135:141] --> decoded_text[137:142] 'العظيم' --> '[UNK]'"
+ ],
+ "n_oov_chars": 25,
+ "oov_ratio": 0.17482517482517482,
+ "oov_charset": "[\"ف\", \"أ\", \"ض\", \"ق\", \"ئ\", \"ج\", \"ح\", \"ك\", \"ظ\", \"ذ\", \"خ\", \"ط\", \"ء\"]"
+ },
+ {
+ "text": "وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان, ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله..",
+ "decoded_text": "وهل [UNK] [UNK] [UNK] من العناد [UNK] من [UNK], [UNK] من [UNK] بين [UNK] بلد [UNK] [UNK] [UNK] [UNK] الله ورسوله [UNK] عليه [UNK] الله وسلامه [UNK] [UNK]..",
+ "diff": [
+ "replace text[4:12] --> decoded_text[4:9] 'الانسياق' --> '[UNK]'",
+ "replace text[13:16] --> decoded_text[10:15] 'نحو' --> '[UNK]'",
+ "replace text[17:22] --> decoded_text[16:21] 'مزيدٍ' --> '[UNK]'",
+ "replace text[33:39] --> decoded_text[32:37] 'ومزيدٍ' --> '[UNK]'",
+ "replace text[43:51] --> decoded_text[41:46] 'الاحتقان' --> '[UNK]'",
+ "replace text[53:59] --> decoded_text[48:53] 'ومزيدٍ' --> '[UNK]'",
+ "replace text[63:71] --> decoded_text[57:62] 'الاحتراب' --> '[UNK]'",
+ "replace text[76:81] --> decoded_text[67:72] 'أبناء' --> '[UNK]'",
+ "replace text[86:90] --> decoded_text[77:82] 'واحد' --> '[UNK]'",
+ "replace text[91:95] --> decoded_text[83:88] 'وشعب' --> '[UNK]'",
+ "replace text[96:100] --> decoded_text[89:94] 'واحد' --> '[UNK]'",
+ "replace text[101:105] --> decoded_text[95:100] 'يرضى' --> '[UNK]'",
+ "replace text[118:124] --> decoded_text[113:118] 'الكريم' --> '[UNK]'",
+ "replace text[130:134] --> decoded_text[124:129] 'صلاة' --> '[UNK]'",
+ "replace text[147:151] --> decoded_text[142:147] 'وعلى' --> '[UNK]'",
+ "replace text[152:155] --> decoded_text[148:153] 'آله' --> '[UNK]'"
+ ],
+ "n_oov_chars": 22,
+ "oov_ratio": 0.14012738853503184,
+ "oov_charset": "[\"ق\", \"ح\", \"ز\", \"ٍ\", \"أ\", \"ء\", \"ش\", \"ض\", \"ى\", \"ك\", \"ص\", \"آ\"]"
+ },
+ {
+ "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
+ "decoded_text": "[UNK] لا [UNK] [UNK] [UNK] من [UNK] [UNK] البلد [UNK] [UNK] [UNK] ما [UNK] [UNK].. [UNK] [UNK] اليمن - وهو بلد [UNK] [UNK], [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] من [UNK] [UNK] [UNK], بل [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:28] 'أ' --> '[UNK] لا [UNK] [UNK] [UNK] م'",
+ "replace text[2:11] --> decoded_text[29:46] 'ا لا اعتق' --> ' [UNK] [UNK] البل'",
+ "replace text[13:14] --> decoded_text[48:99] 'أ' --> '[UNK] [UNK] [UNK] ما [UNK] [UNK].. [UNK] [UNK] اليم'",
+ "delete text[16:84] --> decoded_text[101:101] 'عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن' --> ''",
+ "replace text[94:100] --> decoded_text[111:194] 'ولاَّد' --> '[UNK] [UNK], [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] من [UNK] [UNK] [UNK],'",
+ "replace text[102:226] --> decoded_text[196:247] 'الخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..' --> 'ل [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..'"
+ ],
+ "n_oov_chars": 47,
+ "oov_ratio": 0.2079646017699115,
+ "oov_charset": "[\"أ\", \"ق\", \"ً\", \"ء\", \"ذ\", \"غ\", \"ج\", \"ف\", \"ح\", \"ّ\", \"َ\", \"خ\", \"إ\", \"ى\", \"ط\", \"ض\", \"ؤ\", \"ئ\", \"ش\", \"ك\"]"
+ },
+ {
+ "text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي..؟!",
+ "decoded_text": "اليمن [UNK] من العدوان ومن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] بعيدون عن [UNK] [UNK] للعدوان, لم يسلموا ولن يسلموا.. [UNK] والمتاعب [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] اليمنية [UNK] بعد [UNK], [UNK] [UNK] [UNK] [UNK] هم [UNK] [UNK] [UNK] [UNK] منا [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK].. [UNK]!",
+ "diff": [
+ "replace text[6:10] --> decoded_text[6:11] 'أنهك' --> '[UNK]'",
+ "replace text[26:59] --> decoded_text[27:62] 'الحصار حتى أولئك الذين يظنون أنهم' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[70:88] --> decoded_text[73:84] 'التأثيرات المباشرة' --> '[UNK] [UNK]'",
+ "replace text[121:125] --> decoded_text[117:129] 'والأ' --> '[UNK] والمتا'",
+ "replace text[127:137] --> decoded_text[131:267] 'اء والمتاع' --> ' [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] اليمنية [UNK] '",
+ "replace text[138:150] --> decoded_text[268:276] ' طالت الجميع' --> 'عد [UNK]'",
+ "replace text[152:195] --> decoded_text[278:301] 'وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء' --> '[UNK] [UNK] [UNK] [UNK]'",
+ "replace text[197:280] --> decoded_text[303:386] 'ذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل' --> 'م [UNK] [UNK] [UNK] [UNK] منا [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[282:403] --> decoded_text[388:399] 'وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي' --> '[UNK] [UNK]'",
+ "replace text[405:406] --> decoded_text[401:407] '؟' --> ' [UNK]'"
+ ],
+ "n_oov_chars": 73,
+ "oov_ratio": 0.17936117936117937,
+ "oov_charset": "[\"أ\", \"ك\", \"ح\", \"ص\", \"ى\", \"ئ\", \"ذ\", \"ظ\", \"ث\", \"ش\", \"ء\", \"ط\", \"ج\", \"إ\", \"خ\", \"ف\", \"ق\", \"ً\", \"ض\", \"غ\", \"ز\", \"؟\"]"
+ },
+ {
+ "text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية.. أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب!!",
+ "decoded_text": "وهل [UNK] [UNK] [UNK] [UNK] بما [UNK] علينا من [UNK] [UNK] ومن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] عربية [UNK] [UNK].. [UNK] تباع [UNK] [UNK] وتباع [UNK] [UNK] من [UNK] عين [UNK] [UNK] [UNK] ومن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] تل [UNK]!!",
+ "diff": [
+ "replace text[4:38] --> decoded_text[4:37] 'انعكست المفاهيم ونحن نقبل بما يملى' --> '[UNK] [UNK] [UNK] [UNK] بما [UNK]'",
+ "replace text[48:99] --> decoded_text[47:104] 'عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير' --> '[UNK] [UNK] ومن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[106:118] --> decoded_text[111:122] 'وغير إسلامية' --> '[UNK] [UNK]'",
+ "replace text[121:126] --> decoded_text[125:130] 'أجندة' --> '[UNK]'",
+ "replace text[132:133] --> decoded_text[136:176] 'ف' --> '[UNK] [UNK] وتباع [UNK] [UNK] من [UNK] ع'",
+ "replace text[134:237] --> decoded_text[177:242] 'ها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي' --> 'ن [UNK] [UNK] [UNK] ومن [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[241:245] --> decoded_text[246:251] 'أبيب' --> '[UNK]'"
+ ],
+ "n_oov_chars": 46,
+ "oov_ratio": 0.1862348178137652,
+ "oov_charset": "[\"ك\", \"ف\", \"ح\", \"ق\", \"ى\", \"ص\", \"ز\", \"أ\", \"خ\", \"ج\", \"غ\", \"إ\", \"ض\", \"ئ\", \"ء\", \"ش\", \"ط\"]"
+ },
+ {
+ "text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي, وصوب الرياض, وصوب واشنطن..",
+ "decoded_text": "اليمن.. [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] مدمرة, [UNK], ويباد [UNK] [UNK].. اليمن [UNK] لعنة [UNK] وابتلاها الله [UNK] يممت [UNK] [UNK] [UNK] [UNK], [UNK] [UNK], [UNK] [UNK]..",
+ "diff": [
+ "replace text[8:10] --> decoded_text[8:13] 'في' --> '[UNK]'",
+ "replace text[11:14] --> decoded_text[14:19] 'هذه' --> '[UNK]'",
+ "replace text[15:21] --> decoded_text[20:25] 'اللحظة' --> '[UNK]'",
+ "replace text[22:29] --> decoded_text[26:31] 'الفارقة' --> '[UNK]'",
+ "replace text[32:34] --> decoded_text[34:39] 'في' --> '[UNK]'",
+ "replace text[35:38] --> decoded_text[40:45] 'هذه' --> '[UNK]'",
+ "replace text[39:46] --> decoded_text[46:51] 'المرحلة' --> '[UNK]'",
+ "replace text[47:54] --> decoded_text[52:57] 'الخطيرة' --> '[UNK]'",
+ "replace text[62:69] --> decoded_text[65:70] 'ومحاصرة' --> '[UNK]'",
+ "replace text[77:82] --> decoded_text[78:83] 'أهلها' --> '[UNK]'",
+ "replace text[83:91] --> decoded_text[84:89] 'وساكنوها' --> '[UNK]'",
+ "replace text[100:107] --> decoded_text[98:103] 'أصابتها' --> '[UNK]'",
+ "replace text[113:121] --> decoded_text[109:114] 'الارتزاق' --> '[UNK]'",
+ "replace text[136:143] --> decoded_text[129:134] 'بقيادات' --> '[UNK]'",
+ "replace text[149:154] --> decoded_text[140:145] 'وجهها' --> '[UNK]'",
+ "replace text[155:158] --> decoded_text[146:151] 'صوب' --> '[UNK]'",
+ "replace text[159:162] --> decoded_text[152:157] 'أبو' --> '[UNK]'",
+ "replace text[163:166] --> decoded_text[158:163] 'ظبي' --> '[UNK]'",
+ "replace text[168:172] --> decoded_text[165:170] 'وصوب' --> '[UNK]'",
+ "replace text[173:179] --> decoded_text[171:176] 'الرياض' --> '[UNK]'",
+ "replace text[181:185] --> decoded_text[178:183] 'وصوب' --> '[UNK]'",
+ "replace text[186:192] --> decoded_text[184:189] 'واشنطن' --> '[UNK]'"
+ ],
+ "n_oov_chars": 29,
+ "oov_ratio": 0.14948453608247422,
+ "oov_charset": "[\"ف\", \"ذ\", \"ح\", \"ظ\", \"ق\", \"خ\", \"ط\", \"ص\", \"أ\", \"ك\", \"ز\", \"ج\", \"ض\", \"ش\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-bert.bert-base-chinese @ cc100.de.diff.json b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.de.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..17e42752ae10befad1857455fa8ff7b8d312b5b0
--- /dev/null
+++ b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.de.diff.json
@@ -0,0 +1,197 @@
+[
+ {
+ "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.",
+ "decoded_text": "[UNK] eine [UNK] vorher am [UNK], 2. [UNK] ist die „ [UNK] - [UNK] [UNK] in [UNK] - [UNK] um 18 [UNK] ( [UNK] 17. 30 [UNK] ) im [UNK] [UNK] [UNK] zu [UNK]. [UNK] ist im [UNK] von 18, 50 € ein [UNK] enthalten. [UNK] hier gibt es einen [UNK] [UNK] die [UNK].",
+ "diff": [
+ "replace text[0:18] --> decoded_text[0:16] 'Bereits eine Woche' --> '[UNK] eine [UNK]'",
+ "replace text[29:32] --> decoded_text[27:44] 'Sam' --> '[UNK], 2. [UNK] i'",
+ "delete text[34:53] --> decoded_text[46:46] 'ag, 2. Dezember ist' --> ''",
+ "replace text[59:65] --> decoded_text[52:59] 'Püngel' --> ' [UNK] '",
+ "replace text[66:88] --> decoded_text[60:82] 'Weihnacht“ in Siegburg' --> ' [UNK] [UNK] in [UNK] '",
+ "replace text[89:97] --> decoded_text[83:89] 'Kaldauen' --> ' [UNK]'",
+ "replace text[104:107] --> decoded_text[96:101] 'Uhr' --> '[UNK]'",
+ "replace text[109:116] --> decoded_text[103:109] 'Einlass' --> ' [UNK]'",
+ "insert text[120:120] --> decoded_text[113:114] '' --> ' '",
+ "replace text[123:126] --> decoded_text[117:123] 'Uhr' --> '[UNK] '",
+ "replace text[131:154] --> decoded_text[128:145] 'Restaurant Kaldauer Hof' --> '[UNK] [UNK] [UNK]'",
+ "replace text[158:169] --> decoded_text[149:161] 'hören. Hier' --> '[UNK]. [UNK]'",
+ "replace text[177:191] --> decoded_text[169:174] 'Eintrittspreis' --> '[UNK]'",
+ "insert text[199:199] --> decoded_text[182:183] '' --> ' '",
+ "replace text[208:218] --> decoded_text[192:197] 'Abendessen' --> '[UNK]'",
+ "replace text[230:233] --> decoded_text[209:215] 'Auc' --> '[UNK] '",
+ "delete text[234:236] --> decoded_text[216:216] ' h' --> ''",
+ "replace text[254:269] --> decoded_text[234:245] 'Mitsingteil für' --> '[UNK] [UNK]'",
+ "replace text[274:280] --> decoded_text[250:256] 'Gäste.' --> '[UNK].'"
+ ],
+ "n_oov_chars": 25,
+ "oov_ratio": 0.08928571428571429,
+ "oov_charset": "[\"B\", \"W\", \"S\", \"D\", \"P\", \"ü\", \"“\", \"K\", \"U\", \"E\", \"R\", \"H\", \"ö\", \"A\", \"M\", \"G\", \"ä\"]"
+ },
+ {
+ "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.",
+ "decoded_text": "[UNK] [UNK] bietet noch einen weiteren [UNK] im [UNK] der „ [UNK] - [UNK] [UNK] an.",
+ "diff": [
+ "replace text[0:3] --> decoded_text[0:5] 'Der' --> '[UNK]'",
+ "replace text[4:8] --> decoded_text[6:11] 'Chor' --> '[UNK]'",
+ "replace text[36:42] --> decoded_text[39:44] 'Termin' --> '[UNK]'",
+ "replace text[46:52] --> decoded_text[48:53] 'Rahmen' --> '[UNK]'",
+ "replace text[58:64] --> decoded_text[59:66] 'Püngel' --> ' [UNK] '",
+ "replace text[65:75] --> decoded_text[67:79] 'Weihnacht“' --> ' [UNK] [UNK]'"
+ ],
+ "n_oov_chars": 8,
+ "oov_ratio": 0.10126582278481013,
+ "oov_charset": "[\"D\", \"C\", \"T\", \"R\", \"P\", \"ü\", \"W\", \"“\"]"
+ },
+ {
+ "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de",
+ "decoded_text": "02683 967019. [UNK] [UNK] [UNK] auch per [UNK] bestellt werden : [UNK] - [UNK] - [UNK] @ t - online. de",
+ "diff": [
+ "replace text[14:17] --> decoded_text[14:19] 'Die' --> '[UNK]'",
+ "insert text[18:18] --> decoded_text[20:23] '' --> '[UN'",
+ "replace text[19:24] --> decoded_text[24:25] 'arten' --> ']'",
+ "replace text[25:31] --> decoded_text[26:31] 'können' --> '[UNK]'",
+ "replace text[41:46] --> decoded_text[41:46] 'Email' --> '[UNK]'",
+ "insert text[62:62] --> decoded_text[62:63] '' --> ' '",
+ "replace text[64:66] --> decoded_text[65:71] 'En' --> '[UNK] '",
+ "insert text[67:67] --> decoded_text[72:76] '' --> ' [UN'",
+ "replace text[68:75] --> decoded_text[77:79] 'oelsche' --> '] '",
+ "replace text[76:84] --> decoded_text[80:89] 'Weihnach' --> ' [UNK] @ '",
+ "replace text[85:93] --> decoded_text[90:91] 'sfeier@t' --> ' '",
+ "insert text[94:94] --> decoded_text[92:93] '' --> ' '",
+ "insert text[101:101] --> decoded_text[100:101] '' --> ' '"
+ ],
+ "n_oov_chars": 7,
+ "oov_ratio": 0.06796116504854369,
+ "oov_charset": "[\"D\", \"K\", \"ö\", \"E\", \"W\"]"
+ },
+ {
+ "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] schon jetzt viel [UNK].",
+ "diff": [
+ "replace text[0:3] --> decoded_text[0:5] 'Der' --> '[UNK]'",
+ "replace text[4:8] --> decoded_text[6:11] 'Chor' --> '[UNK]'",
+ "replace text[9:16] --> decoded_text[12:17] 'wünscht' --> '[UNK]'",
+ "replace text[17:22] --> decoded_text[18:23] 'Ihnen' --> '[UNK]'",
+ "replace text[40:49] --> decoded_text[41:46] 'Vergnügen' --> '[UNK]'"
+ ],
+ "n_oov_chars": 6,
+ "oov_ratio": 0.12,
+ "oov_charset": "[\"D\", \"C\", \"ü\", \"I\", \"V\"]"
+ },
+ {
+ "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.",
+ "decoded_text": "[UNK] [UNK] kann auch auf elektronischem [UNK] erfolgen. [UNK] ist insbesondere dann der [UNK], wenn ein [UNK] entsprechende [UNK] auf dem elektronischen [UNK], beispielsweise per [UNK] - [UNK] oder [UNK] ein auf der [UNK] befindliches [UNK], an den [UNK] die [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] einen [UNK] in einem berufsorientierten sozialen [UNK] wie etwa [UNK] oder [UNK] [UNK], [UNK] wir die [UNK] auch von [UNK] [UNK] einsehbaren [UNK] erheben. [UNK] der [UNK] und [UNK] [UNK] verarbeiten [UNK] personenbezogenen [UNK] ausschließlich zum [UNK] der [UNK] des [UNK].",
+ "diff": [
+ "replace text[0:15] --> decoded_text[0:52] 'Die Verarbeitun' --> '[UNK] [UNK] kann auch auf elektronischem [UNK] erfol'",
+ "replace text[16:17] --> decoded_text[53:142] ' ' --> 'en. [UNK] ist insbesondere dann der [UNK], wenn ein [UNK] entsprechende [UNK] auf dem ele'",
+ "replace text[18:26] --> decoded_text[143:208] 'ann auch' --> 'tronischen [UNK], beispielsweise per [UNK] - [UNK] oder [UNK] ein'",
+ "replace text[31:43] --> decoded_text[213:315] 'elektronisch' --> 'der [UNK] befindliches [UNK], an den [UNK] die [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] einen [UNK] in ein'",
+ "replace text[46:48] --> decoded_text[318:515] 'We' --> 'berufsorientierten sozialen [UNK] wie etwa [UNK] oder [UNK] [UNK], [UNK] wir die [UNK] auch von [UNK] [UNK] einsehbaren [UNK] erheben. [UNK] der [UNK] und [UNK] [UNK] verarbeiten [UNK] personenbezo'",
+ "replace text[50:59] --> decoded_text[517:571] ' erfolgen' --> 'nen [UNK] ausschließlich zum [UNK] der [UNK] des [UNK]'",
+ "delete text[60:678] --> decoded_text[572:572] ' Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.' --> ''"
+ ],
+ "n_oov_chars": 41,
+ "oov_ratio": 0.06047197640117994,
+ "oov_charset": "[\"D\", \"V\", \"W\", \"F\", \"B\", \"E\", \"M\", \"ü\", \"I\", \"S\", \"A\", \"N\", \"X\", \"L\", \"ö\", \"P\", \"Z\", \"R\"]"
+ },
+ {
+ "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.",
+ "decoded_text": "[UNK] wir mit dem [UNK] einen [UNK] abschließen, werden die [UNK] [UNK] zum [UNK] der [UNK] des [UNK] unter [UNK] der gesetzlichen [UNK] gespeichert. [UNK] werden die personenbezogenen [UNK] sechs [UNK] nach [UNK] des [UNK] [UNK], sofern einer [UNK] keine sonstigen berechtigten [UNK] des [UNK] die [UNK] [UNK] entgegenstehen.",
+ "diff": [
+ "replace text[0:6] --> decoded_text[0:5] 'Sofern' --> '[UNK]'",
+ "replace text[19:52] --> decoded_text[18:35] 'Bewerber einen Anstellungsvertrag' --> '[UNK] einen [UNK]'",
+ "replace text[77:96] --> decoded_text[60:71] 'übermittelten Daten' --> '[UNK] [UNK]'",
+ "replace text[101:119] --> decoded_text[76:102] 'Zwecke der Abwickl' --> '[UNK] der [UNK] des [UNK] '",
+ "replace text[121:170] --> decoded_text[104:113] 'g des Beschäftigungsverhältnisses unter Beachtung' --> 'ter [UNK]'",
+ "replace text[188:200] --> decoded_text[131:136] 'Vorschriften' --> '[UNK]'",
+ "replace text[214:223] --> decoded_text[150:155] 'Ansonsten' --> '[UNK]'",
+ "replace text[253:254] --> decoded_text[185:204] 'D' --> '[UNK] sechs [UNK] n'",
+ "replace text[255:321] --> decoded_text[205:229] 'ten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht' --> 'ch [UNK] des [UNK] [UNK]'",
+ "replace text[336:344] --> decoded_text[244:249] 'Löschung' --> '[UNK]'",
+ "replace text[374:426] --> decoded_text[279:310] 'Interessen des für die Verarbeitung Verantwortlichen' --> '[UNK] des [UNK] die [UNK] [UNK]'"
+ ],
+ "n_oov_chars": 24,
+ "oov_ratio": 0.05429864253393665,
+ "oov_charset": "[\"S\", \"B\", \"A\", \"ü\", \"D\", \"Z\", \"ä\", \"V\", \"M\", \"ö\", \"L\", \"I\"]"
+ },
+ {
+ "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.",
+ "decoded_text": "[UNK] unseres [UNK] erhalten diejenigen internen [UNK] bzw. [UNK] [UNK] [UNK], die diese zur [UNK] unserer vertraglichen und gesetzlichen [UNK] ( wie [UNK] und [UNK], die einen neuen [UNK] suchen oder an der [UNK] [UNK] die [UNK] mitwirken, [UNK], [UNK], [UNK], ggf. [UNK] usw. ) oder im [UNK] der [UNK] und [UNK] unseres berechtigten [UNK] [UNK].",
+ "diff": [
+ "replace text[0:3] --> decoded_text[0:20] 'Inn' --> '[UNK] unseres [UNK] '",
+ "delete text[8:30] --> decoded_text[25:25] 'b unseres Hauses erhal' --> ''",
+ "replace text[54:61] --> decoded_text[49:54] 'Stellen' --> '[UNK]'",
+ "replace text[67:100] --> decoded_text[60:77] 'Organisationseinheiten Ihre Daten' --> '[UNK] [UNK] [UNK]'",
+ "replace text[116:125] --> decoded_text[93:98] 'Erfüllung' --> '[UNK]'",
+ "replace text[165:169] --> decoded_text[138:191] 'Pfli' --> '[UNK] ( wie [UNK] und [UNK], die einen neuen [UNK] su'",
+ "replace text[171:176] --> decoded_text[193:233] 'ten (' --> 'en oder an der [UNK] [UNK] die [UNK] mit'",
+ "replace text[178:188] --> decoded_text[235:236] 'e Führungs' --> 'r'",
+ "replace text[189:361] --> decoded_text[237:260] 'räfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit' --> 'en, [UNK], [UNK], [UNK]'",
+ "replace text[368:389] --> decoded_text[267:272] 'Mitarbeitervertretung' --> '[UNK]'",
+ "insert text[394:394] --> decoded_text[277:278] '' --> ' '",
+ "replace text[404:419] --> decoded_text[288:322] 'Rahmen der Bear' --> '[UNK] der [UNK] und [UNK] unseres '",
+ "delete text[421:451] --> decoded_text[324:324] 'itung und Umsetzung unseres be' --> ''",
+ "replace text[462:482] --> decoded_text[335:346] 'Interesses benötigen' --> '[UNK] [UNK]'"
+ ],
+ "n_oov_chars": 26,
+ "oov_ratio": 0.053830227743271224,
+ "oov_charset": "[\"I\", \"H\", \"S\", \"O\", \"D\", \"E\", \"ü\", \"P\", \"F\", \"ä\", \"M\", \"B\", \"A\", \"R\", \"U\", \"ö\"]"
+ },
+ {
+ "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] an externe [UNK] erfolgt ausschließlich zu [UNK],",
+ "diff": [
+ "replace text[0:4] --> decoded_text[0:5] 'Eine' --> '[UNK]'",
+ "replace text[5:15] --> decoded_text[6:11] 'Weitergabe' --> '[UNK]'",
+ "replace text[16:21] --> decoded_text[12:17] 'Ihrer' --> '[UNK]'",
+ "replace text[22:27] --> decoded_text[18:23] 'Daten' --> '[UNK]'",
+ "replace text[39:46] --> decoded_text[35:40] 'Stellen' --> '[UNK]'",
+ "replace text[73:80] --> decoded_text[67:72] 'Zwecken' --> '[UNK]'"
+ ],
+ "n_oov_chars": 6,
+ "oov_ratio": 0.07407407407407407,
+ "oov_charset": "[\"E\", \"W\", \"I\", \"D\", \"S\", \"Z\"]"
+ },
+ {
+ "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;",
+ "decoded_text": "bei denen wir zur [UNK] gesetzlicher [UNK] zur [UNK], [UNK] oder [UNK] von [UNK] verpflichtet oder berechtigt sind oder die [UNK] im [UNK] [UNK] liegt ;",
+ "diff": [
+ "replace text[18:27] --> decoded_text[18:23] 'Erfüllung' --> '[UNK]'",
+ "replace text[41:49] --> decoded_text[37:42] 'Vorgaben' --> '[UNK]'",
+ "replace text[54:62] --> decoded_text[47:52] 'Auskunft' --> '[UNK]'",
+ "replace text[64:71] --> decoded_text[54:59] 'Meldung' --> '[UNK]'",
+ "replace text[77:87] --> decoded_text[65:70] 'Weitergabe' --> '[UNK]'",
+ "replace text[92:97] --> decoded_text[75:80] 'Daten' --> '[UNK]'",
+ "replace text[141:156] --> decoded_text[124:129] 'Datenweitergabe' --> '[UNK]'",
+ "replace text[160:172] --> decoded_text[133:138] 'öffentlichen' --> '[UNK]'",
+ "replace text[173:182] --> decoded_text[139:144] 'Interesse' --> '[UNK]'",
+ "insert text[188:188] --> decoded_text[150:151] '' --> ' '"
+ ],
+ "n_oov_chars": 10,
+ "oov_ratio": 0.05291005291005291,
+ "oov_charset": "[\"E\", \"ü\", \"V\", \"A\", \"M\", \"W\", \"D\", \"ö\", \"I\"]"
+ },
+ {
+ "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);",
+ "decoded_text": "aufgrund unseres berechtigten [UNK] oder des berechtigten [UNK] des [UNK] ( z. [UNK]. an [UNK], [UNK], [UNK], [UNK], [UNK], und [UNK] und [UNK] ) ;",
+ "diff": [
+ "replace text[30:40] --> decoded_text[30:35] 'Interesses' --> '[UNK]'",
+ "replace text[63:73] --> decoded_text[58:63] 'Interesses' --> '[UNK]'",
+ "replace text[78:85] --> decoded_text[68:73] 'Dritten' --> '[UNK]'",
+ "insert text[87:87] --> decoded_text[75:76] '' --> ' '",
+ "replace text[89:90] --> decoded_text[78:84] 'B' --> ' [UNK]'",
+ "replace text[95:103] --> decoded_text[89:94] 'Behörden' --> '[UNK]'",
+ "replace text[105:117] --> decoded_text[96:101] 'Auskunfteien' --> '[UNK]'",
+ "replace text[119:132] --> decoded_text[103:108] 'Rechtsanwälte' --> '[UNK]'",
+ "replace text[134:142] --> decoded_text[110:115] 'Gerichte' --> '[UNK]'",
+ "replace text[144:153] --> decoded_text[117:122] 'Gutachter' --> '[UNK]'",
+ "replace text[159:166] --> decoded_text[128:133] 'Gremien' --> '[UNK]'",
+ "insert text[171:171] --> decoded_text[138:141] '' --> '[UN'",
+ "replace text[172:188] --> decoded_text[142:144] 'ontrollinstanzen' --> '] '",
+ "insert text[189:189] --> decoded_text[145:146] '' --> ' '"
+ ],
+ "n_oov_chars": 13,
+ "oov_ratio": 0.06842105263157895,
+ "oov_charset": "[\"I\", \"D\", \"B\", \"ö\", \"A\", \"R\", \"ä\", \"G\", \"K\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-bert.bert-base-chinese @ cc100.fa.diff.json b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.fa.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..72a5ade5a192c988ae7e82a1991412698ba236cb
--- /dev/null
+++ b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.fa.diff.json
@@ -0,0 +1,153 @@
+[
+ {
+ "text": "آشپزخانه کوچک من: February 2012",
+ "decoded_text": "[UNK] [UNK] من : [UNK] 2012",
+ "diff": [
+ "replace text[0:8] --> decoded_text[0:5] 'آشپزخانه' --> '[UNK]'",
+ "replace text[9:13] --> decoded_text[6:11] 'کوچک' --> '[UNK]'",
+ "insert text[16:16] --> decoded_text[14:15] '' --> ' '",
+ "replace text[18:26] --> decoded_text[17:22] 'February' --> '[UNK]'"
+ ],
+ "n_oov_chars": 9,
+ "oov_ratio": 0.2903225806451613,
+ "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ک\", \"چ\", \"F\"]"
+ },
+ {
+ "text": "آشپزخانه کوچک من",
+ "decoded_text": "[UNK] [UNK] من",
+ "diff": [
+ "replace text[0:8] --> decoded_text[0:5] 'آشپزخانه' --> '[UNK]'",
+ "replace text[9:13] --> decoded_text[6:11] 'کوچک' --> '[UNK]'"
+ ],
+ "n_oov_chars": 10,
+ "oov_ratio": 0.625,
+ "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \" \", \"ک\", \"چ\"]"
+ },
+ {
+ "text": "بکینگ پودر:2 قاشق چای خوری",
+ "decoded_text": "[UNK] [UNK] : 2 [UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:5] --> decoded_text[0:5] 'بکینگ' --> '[UNK]'",
+ "replace text[6:10] --> decoded_text[6:12] 'پودر' --> '[UNK] '",
+ "insert text[11:11] --> decoded_text[13:14] '' --> ' '",
+ "replace text[13:17] --> decoded_text[16:21] 'قاشق' --> '[UNK]'",
+ "replace text[18:21] --> decoded_text[22:27] 'چای' --> '[UNK]'",
+ "replace text[22:26] --> decoded_text[28:33] 'خوری' --> '[UNK]'"
+ ],
+ "n_oov_chars": 11,
+ "oov_ratio": 0.4230769230769231,
+ "oov_charset": "[\"ک\", \"ی\", \"گ\", \"پ\", \"ق\", \"ش\", \"چ\", \"خ\"]"
+ },
+ {
+ "text": "تخم مرغ:2 عدد بزرگ",
+ "decoded_text": "[UNK] [UNK] : 2 عدد [UNK]",
+ "diff": [
+ "replace text[0:3] --> decoded_text[0:5] 'تخم' --> '[UNK]'",
+ "replace text[4:7] --> decoded_text[6:12] 'مرغ' --> '[UNK] '",
+ "insert text[8:8] --> decoded_text[13:14] '' --> ' '",
+ "replace text[14:18] --> decoded_text[20:25] 'بزرگ' --> '[UNK]'"
+ ],
+ "n_oov_chars": 4,
+ "oov_ratio": 0.2222222222222222,
+ "oov_charset": "[\"خ\", \"غ\", \"ز\", \"گ\"]"
+ },
+ {
+ "text": "کره:225 گرم به دمای اتاق رسیده",
+ "decoded_text": "[UNK] : 225 [UNK] به [UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:3] --> decoded_text[0:6] 'کره' --> '[UNK] '",
+ "insert text[4:4] --> decoded_text[7:8] '' --> ' '",
+ "replace text[8:11] --> decoded_text[12:17] 'گرم' --> '[UNK]'",
+ "replace text[15:19] --> decoded_text[21:26] 'دمای' --> '[UNK]'",
+ "replace text[20:24] --> decoded_text[27:32] 'اتاق' --> '[UNK]'",
+ "replace text[25:30] --> decoded_text[33:38] 'رسیده' --> '[UNK]'"
+ ],
+ "n_oov_chars": 5,
+ "oov_ratio": 0.16666666666666666,
+ "oov_charset": "[\"ک\", \"گ\", \"ی\", \"ق\"]"
+ },
+ {
+ "text": "شکر:1و1/2 پیمانه+ 3 قاشق غذا خوری",
+ "decoded_text": "[UNK] : 1و1 / 2 [UNK] + 3 [UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:3] --> decoded_text[0:6] 'شکر' --> '[UNK] '",
+ "insert text[4:4] --> decoded_text[7:8] '' --> ' '",
+ "insert text[7:7] --> decoded_text[11:12] '' --> ' '",
+ "insert text[8:8] --> decoded_text[13:14] '' --> ' '",
+ "replace text[10:16] --> decoded_text[16:22] 'پیمانه' --> '[UNK] '",
+ "replace text[20:24] --> decoded_text[26:31] 'قاشق' --> '[UNK]'",
+ "replace text[25:28] --> decoded_text[32:37] 'غذا' --> '[UNK]'",
+ "replace text[29:33] --> decoded_text[38:43] 'خوری' --> '[UNK]'"
+ ],
+ "n_oov_chars": 11,
+ "oov_ratio": 0.3333333333333333,
+ "oov_charset": "[\"ش\", \"ک\", \"پ\", \"ی\", \"ق\", \"غ\", \"ذ\", \"خ\"]"
+ },
+ {
+ "text": "پودر دارچین:2 و1/2قاشق چای خوری",
+ "decoded_text": "[UNK] [UNK] : 2 و1 / [UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:4] --> decoded_text[0:5] 'پودر' --> '[UNK]'",
+ "replace text[5:11] --> decoded_text[6:12] 'دارچین' --> '[UNK] '",
+ "insert text[12:12] --> decoded_text[13:14] '' --> ' '",
+ "insert text[16:16] --> decoded_text[18:19] '' --> ' '",
+ "delete text[17:22] --> decoded_text[20:20] '2قاشق' --> ''",
+ "replace text[23:26] --> decoded_text[21:26] 'چای' --> '[UNK]'",
+ "replace text[27:31] --> decoded_text[27:38] 'خوری' --> '[UNK] [UNK]'"
+ ],
+ "n_oov_chars": 10,
+ "oov_ratio": 0.3225806451612903,
+ "oov_charset": "[\"پ\", \"چ\", \"ی\", \"ق\", \"ش\", \"خ\"]"
+ },
+ {
+ "text": "فر رو روی 350 درجه فارنهایت روشن کنید",
+ "decoded_text": "[UNK] رو [UNK] 350 [UNK] [UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:2] --> decoded_text[0:5] 'فر' --> '[UNK]'",
+ "replace text[6:9] --> decoded_text[9:14] 'روی' --> '[UNK]'",
+ "replace text[14:18] --> decoded_text[19:24] 'درجه' --> '[UNK]'",
+ "replace text[19:27] --> decoded_text[25:30] 'فارنهایت' --> '[UNK]'",
+ "replace text[28:32] --> decoded_text[31:36] 'روشن' --> '[UNK]'",
+ "replace text[33:37] --> decoded_text[37:42] 'کنید' --> '[UNK]'"
+ ],
+ "n_oov_chars": 8,
+ "oov_ratio": 0.21621621621621623,
+ "oov_charset": "[\"ف\", \"ی\", \"ج\", \"ش\", \"ک\"]"
+ },
+ {
+ "text": "کره رو با شکر هم بزنید تا یکدست و کرمی بشه تخم مرغها رو دونه دونه اضافه کنید و هم بزنید",
+ "decoded_text": "[UNK] رو با [UNK] هم [UNK] تا [UNK] و [UNK] [UNK] [UNK] [UNK] رو دونه دونه [UNK] [UNK] و هم [UNK]",
+ "diff": [
+ "replace text[0:3] --> decoded_text[0:5] 'کره' --> '[UNK]'",
+ "replace text[10:13] --> decoded_text[12:17] 'شکر' --> '[UNK]'",
+ "replace text[17:22] --> decoded_text[21:26] 'بزنید' --> '[UNK]'",
+ "replace text[26:31] --> decoded_text[30:35] 'یکدست' --> '[UNK]'",
+ "replace text[34:38] --> decoded_text[38:43] 'کرمی' --> '[UNK]'",
+ "replace text[39:42] --> decoded_text[44:49] 'بشه' --> '[UNK]'",
+ "replace text[43:46] --> decoded_text[50:55] 'تخم' --> '[UNK]'",
+ "replace text[47:52] --> decoded_text[56:61] 'مرغها' --> '[UNK]'",
+ "replace text[66:71] --> decoded_text[75:80] 'اضافه' --> '[UNK]'",
+ "replace text[72:76] --> decoded_text[81:86] 'کنید' --> '[UNK]'",
+ "replace text[82:87] --> decoded_text[92:97] 'بزنید' --> '[UNK]'"
+ ],
+ "n_oov_chars": 18,
+ "oov_ratio": 0.20689655172413793,
+ "oov_charset": "[\"ک\", \"ش\", \"ز\", \"ی\", \"خ\", \"غ\", \"ض\", \"ف\"]"
+ },
+ {
+ "text": "ارد و بکینگ پودر و نمک رو الک کنید و اضافه کنید",
+ "decoded_text": "ارد و [UNK] [UNK] و [UNK] رو [UNK] [UNK] و [UNK] [UNK]",
+ "diff": [
+ "replace text[6:11] --> decoded_text[6:11] 'بکینگ' --> '[UNK]'",
+ "replace text[12:16] --> decoded_text[12:17] 'پودر' --> '[UNK]'",
+ "replace text[19:22] --> decoded_text[20:25] 'نمک' --> '[UNK]'",
+ "replace text[26:29] --> decoded_text[29:34] 'الک' --> '[UNK]'",
+ "replace text[30:34] --> decoded_text[35:40] 'کنید' --> '[UNK]'",
+ "replace text[37:42] --> decoded_text[43:48] 'اضافه' --> '[UNK]'",
+ "replace text[43:47] --> decoded_text[49:54] 'کنید' --> '[UNK]'"
+ ],
+ "n_oov_chars": 12,
+ "oov_ratio": 0.2553191489361702,
+ "oov_charset": "[\"ک\", \"ی\", \"گ\", \"پ\", \"ض\", \"ف\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-bert.bert-base-chinese @ cc100.ja.diff.json b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.ja.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..47cdf3b53dee26046fe362f6c2cd2d27ff271dde
--- /dev/null
+++ b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.ja.diff.json
@@ -0,0 +1,274 @@
+[
+ {
+ "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!",
+ "decoded_text": "午 後 から 雨 [UNK] 心 配 [UNK] 遠 出 [UNK] 、 『 [UNK] 』 を 走 って 来 ました !",
+ "diff": [
+ "insert text[1:1] --> decoded_text[1:2] '' --> ' '",
+ "insert text[2:2] --> decoded_text[3:4] '' --> ' '",
+ "insert text[4:4] --> decoded_text[6:7] '' --> ' '",
+ "replace text[5:6] --> decoded_text[8:15] 'が' --> ' [UNK] '",
+ "insert text[7:7] --> decoded_text[16:17] '' --> ' '",
+ "replace text[8:13] --> decoded_text[18:25] 'だったので' --> ' [UNK] '",
+ "insert text[14:14] --> decoded_text[26:27] '' --> ' '",
+ "replace text[15:18] --> decoded_text[28:35] 'はせず' --> ' [UNK] '",
+ "insert text[19:19] --> decoded_text[36:37] '' --> ' '",
+ "replace text[20:27] --> decoded_text[38:45] 'ふれあいロード' --> ' [UNK] '",
+ "insert text[28:28] --> decoded_text[46:47] '' --> ' '",
+ "insert text[29:29] --> decoded_text[48:49] '' --> ' '",
+ "insert text[30:30] --> decoded_text[50:51] '' --> ' '",
+ "insert text[32:32] --> decoded_text[53:54] '' --> ' '",
+ "insert text[33:33] --> decoded_text[55:56] '' --> ' '",
+ "insert text[36:36] --> decoded_text[59:60] '' --> ' '"
+ ],
+ "n_oov_chars": 5,
+ "oov_ratio": 0.13513513513513514,
+ "oov_charset": "[\"が\", \"だ\", \"で\", \"ず\", \"ド\"]"
+ },
+ {
+ "text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。",
+ "decoded_text": "確 実 に 春 [UNK] 近 [UNK] 肌 [UNK] 感 [UNK] 出 来 ました 着 々と 整 備 されてる 圏 央 道 を 越 えるとお 世 話 [UNK] 場 [UNK] 見 えて 来 ました 。",
+ "diff": [
+ "insert text[1:1] --> decoded_text[1:2] '' --> ' '",
+ "insert text[2:2] --> decoded_text[3:4] '' --> ' '",
+ "insert text[3:3] --> decoded_text[5:6] '' --> ' '",
+ "replace text[4:5] --> decoded_text[7:14] 'が' --> ' [UNK] '",
+ "replace text[6:13] --> decoded_text[15:22] 'づいてることを' --> ' [UNK] '",
+ "replace text[14:15] --> decoded_text[23:30] 'で' --> ' [UNK] '",
+ "replace text[16:21] --> decoded_text[31:38] 'じることが' --> ' [UNK] '",
+ "insert text[22:22] --> decoded_text[39:40] '' --> ' '",
+ "insert text[23:23] --> decoded_text[41:42] '' --> ' '",
+ "insert text[28:28] --> decoded_text[47:48] '' --> ' '",
+ "insert text[30:30] --> decoded_text[50:51] '' --> ' '",
+ "insert text[31:31] --> decoded_text[52:53] '' --> ' '",
+ "insert text[32:32] --> decoded_text[54:55] '' --> ' '",
+ "insert text[36:36] --> decoded_text[59:60] '' --> ' '",
+ "insert text[37:37] --> decoded_text[61:62] '' --> ' '",
+ "insert text[38:38] --> decoded_text[63:64] '' --> ' '",
+ "insert text[39:39] --> decoded_text[65:66] '' --> ' '",
+ "insert text[40:40] --> decoded_text[67:68] '' --> ' '",
+ "insert text[41:41] --> decoded_text[69:70] '' --> ' '",
+ "insert text[45:45] --> decoded_text[74:75] '' --> ' '",
+ "insert text[46:46] --> decoded_text[76:77] '' --> ' '",
+ "replace text[47:57] --> decoded_text[78:85] 'になってるボウリング' --> ' [UNK] '",
+ "replace text[58:59] --> decoded_text[86:93] 'が' --> ' [UNK] '",
+ "insert text[60:60] --> decoded_text[94:95] '' --> ' '",
+ "insert text[62:62] --> decoded_text[97:98] '' --> ' '",
+ "insert text[63:63] --> decoded_text[99:100] '' --> ' '",
+ "insert text[66:66] --> decoded_text[103:104] '' --> ' '"
+ ],
+ "n_oov_chars": 8,
+ "oov_ratio": 0.11940298507462686,
+ "oov_charset": "[\"が\", \"づ\", \"で\", \"じ\", \"ボ\", \"グ\"]"
+ },
+ {
+ "text": "うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。",
+ "decoded_text": "[UNK] 〜 〜 、 私 [UNK] 途 中 [UNK] 行 きたくなってしまい 、 通 り 道 にあったケンタに 変 更 しちゃいました 。",
+ "diff": [
+ "replace text[0:2] --> decoded_text[0:6] 'うぅ' --> '[UNK] '",
+ "insert text[3:3] --> decoded_text[7:8] '' --> ' '",
+ "insert text[4:4] --> decoded_text[9:10] '' --> ' '",
+ "insert text[5:5] --> decoded_text[11:12] '' --> ' '",
+ "replace text[6:7] --> decoded_text[13:20] 'が' --> ' [UNK] '",
+ "insert text[8:8] --> decoded_text[21:22] '' --> ' '",
+ "replace text[9:14] --> decoded_text[23:30] 'でトイレに' --> ' [UNK] '",
+ "insert text[15:15] --> decoded_text[31:32] '' --> ' '",
+ "insert text[24:24] --> decoded_text[41:42] '' --> ' '",
+ "insert text[25:25] --> decoded_text[43:44] '' --> ' '",
+ "insert text[26:26] --> decoded_text[45:46] '' --> ' '",
+ "insert text[27:27] --> decoded_text[47:48] '' --> ' '",
+ "insert text[28:28] --> decoded_text[49:50] '' --> ' '",
+ "insert text[36:36] --> decoded_text[58:59] '' --> ' '",
+ "insert text[37:37] --> decoded_text[60:61] '' --> ' '",
+ "insert text[38:38] --> decoded_text[62:63] '' --> ' '",
+ "insert text[45:45] --> decoded_text[70:71] '' --> ' '"
+ ],
+ "n_oov_chars": 3,
+ "oov_ratio": 0.06521739130434782,
+ "oov_charset": "[\"ぅ\", \"が\", \"で\"]"
+ },
+ {
+ "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。",
+ "decoded_text": "実 は 、 1 年 程 前 にエルモサの 右 目 の 黒 目 の 端 によ 〜 く 見 ないと 分 からない 程 の 小 さな 斑 を 見 [UNK] 。",
+ "diff": [
+ "insert text[1:1] --> decoded_text[1:2] '' --> ' '",
+ "insert text[2:2] --> decoded_text[3:4] '' --> ' '",
+ "insert text[3:3] --> decoded_text[5:6] '' --> ' '",
+ "insert text[4:4] --> decoded_text[7:8] '' --> ' '",
+ "insert text[5:5] --> decoded_text[9:10] '' --> ' '",
+ "insert text[6:6] --> decoded_text[11:12] '' --> ' '",
+ "insert text[7:7] --> decoded_text[13:14] '' --> ' '",
+ "insert text[13:13] --> decoded_text[20:21] '' --> ' '",
+ "insert text[14:14] --> decoded_text[22:23] '' --> ' '",
+ "insert text[15:15] --> decoded_text[24:25] '' --> ' '",
+ "insert text[16:16] --> decoded_text[26:27] '' --> ' '",
+ "insert text[17:17] --> decoded_text[28:29] '' --> ' '",
+ "insert text[18:18] --> decoded_text[30:31] '' --> ' '",
+ "insert text[19:19] --> decoded_text[32:33] '' --> ' '",
+ "insert text[20:20] --> decoded_text[34:35] '' --> ' '",
+ "insert text[22:22] --> decoded_text[37:38] '' --> ' '",
+ "insert text[23:23] --> decoded_text[39:40] '' --> ' '",
+ "insert text[24:24] --> decoded_text[41:42] '' --> ' '",
+ "insert text[25:25] --> decoded_text[43:44] '' --> ' '",
+ "insert text[28:28] --> decoded_text[47:48] '' --> ' '",
+ "insert text[29:29] --> decoded_text[49:50] '' --> ' '",
+ "insert text[33:33] --> decoded_text[54:55] '' --> ' '",
+ "insert text[34:34] --> decoded_text[56:57] '' --> ' '",
+ "insert text[35:35] --> decoded_text[58:59] '' --> ' '",
+ "insert text[36:36] --> decoded_text[60:61] '' --> ' '",
+ "insert text[38:38] --> decoded_text[63:64] '' --> ' '",
+ "insert text[39:39] --> decoded_text[65:66] '' --> ' '",
+ "insert text[40:40] --> decoded_text[67:68] '' --> ' '",
+ "replace text[41:48] --> decoded_text[69:76] 'つけてたんです' --> ' [UNK] '"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.02040816326530612,
+ "oov_charset": "[\"で\"]"
+ },
+ {
+ "text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。",
+ "decoded_text": "その 時 点 [UNK] 先 生 からはおそらく 『 角 膜 [UNK] 』 [UNK] 診 断 をもらっていました 。",
+ "diff": [
+ "insert text[2:2] --> decoded_text[2:3] '' --> ' '",
+ "insert text[3:3] --> decoded_text[4:5] '' --> ' '",
+ "replace text[4:5] --> decoded_text[6:13] 'で' --> ' [UNK] '",
+ "insert text[6:6] --> decoded_text[14:15] '' --> ' '",
+ "insert text[7:7] --> decoded_text[16:17] '' --> ' '",
+ "insert text[14:14] --> decoded_text[24:25] '' --> ' '",
+ "insert text[15:15] --> decoded_text[26:27] '' --> ' '",
+ "insert text[16:16] --> decoded_text[28:29] '' --> ' '",
+ "replace text[17:24] --> decoded_text[30:37] 'ジストロフィー' --> ' [UNK] '",
+ "replace text[25:31] --> decoded_text[38:45] 'であろうとの' --> ' [UNK] '",
+ "insert text[32:32] --> decoded_text[46:47] '' --> ' '",
+ "insert text[33:33] --> decoded_text[48:49] '' --> ' '",
+ "insert text[42:42] --> decoded_text[58:59] '' --> ' '"
+ ],
+ "n_oov_chars": 3,
+ "oov_ratio": 0.06976744186046512,
+ "oov_charset": "[\"で\", \"ジ\"]"
+ },
+ {
+ "text": "エルモサの場合は1年程経過して徐々にではあるんですけど、少し大きくなってきちゃいました",
+ "decoded_text": "エルモサの 場 合 は1 年 程 経 過 して 徐 [UNK] 、 少 し 大 きくなってきちゃいました",
+ "diff": [
+ "insert text[5:5] --> decoded_text[5:6] '' --> ' '",
+ "insert text[6:6] --> decoded_text[7:8] '' --> ' '",
+ "insert text[7:7] --> decoded_text[9:10] '' --> ' '",
+ "insert text[9:9] --> decoded_text[12:13] '' --> ' '",
+ "insert text[10:10] --> decoded_text[14:15] '' --> ' '",
+ "insert text[11:11] --> decoded_text[16:17] '' --> ' '",
+ "insert text[12:12] --> decoded_text[18:19] '' --> ' '",
+ "insert text[13:13] --> decoded_text[20:21] '' --> ' '",
+ "insert text[15:15] --> decoded_text[23:24] '' --> ' '",
+ "replace text[16:27] --> decoded_text[25:32] '々にではあるんですけど' --> ' [UNK] '",
+ "insert text[28:28] --> decoded_text[33:34] '' --> ' '",
+ "insert text[29:29] --> decoded_text[35:36] '' --> ' '",
+ "insert text[30:30] --> decoded_text[37:38] '' --> ' '",
+ "insert text[31:31] --> decoded_text[39:40] '' --> ' '"
+ ],
+ "n_oov_chars": 3,
+ "oov_ratio": 0.06976744186046512,
+ "oov_charset": "[\"で\", \"ど\"]"
+ },
+ {
+ "text": "ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。",
+ "decoded_text": "[UNK] 、 [UNK] 散 歩 仲 間 からは 指 摘 [UNK] 、 こちらから 言 [UNK] 目 立 つ 程 [UNK] 。",
+ "diff": [
+ "replace text[0:2] --> decoded_text[0:6] 'ただ' --> '[UNK] '",
+ "replace text[3:8] --> decoded_text[7:14] 'これまでお' --> ' [UNK] '",
+ "insert text[9:9] --> decoded_text[15:16] '' --> ' '",
+ "insert text[10:10] --> decoded_text[17:18] '' --> ' '",
+ "insert text[11:11] --> decoded_text[19:20] '' --> ' '",
+ "insert text[12:12] --> decoded_text[21:22] '' --> ' '",
+ "insert text[15:15] --> decoded_text[25:26] '' --> ' '",
+ "insert text[16:16] --> decoded_text[27:28] '' --> ' '",
+ "replace text[17:29] --> decoded_text[29:36] 'とかされたことはないので' --> ' [UNK] '",
+ "insert text[30:30] --> decoded_text[37:38] '' --> ' '",
+ "insert text[35:35] --> decoded_text[43:44] '' --> ' '",
+ "replace text[36:45] --> decoded_text[45:52] 'わなければそんなに' --> ' [UNK] '",
+ "insert text[46:46] --> decoded_text[53:54] '' --> ' '",
+ "insert text[47:47] --> decoded_text[55:56] '' --> ' '",
+ "insert text[48:48] --> decoded_text[57:58] '' --> ' '",
+ "replace text[49:59] --> decoded_text[59:66] 'ではないんですけどね' --> ' [UNK] '"
+ ],
+ "n_oov_chars": 7,
+ "oov_ratio": 0.11666666666666667,
+ "oov_charset": "[\"だ\", \"で\", \"ば\", \"ど\"]"
+ },
+ {
+ "text": "昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。",
+ "decoded_text": "昔 はヒアルロン 酸 の 目 薬 [UNK] 処 方 [UNK] 、 [UNK] 効 く 事 [UNK] 。",
+ "diff": [
+ "insert text[1:1] --> decoded_text[1:2] '' --> ' '",
+ "insert text[7:7] --> decoded_text[8:9] '' --> ' '",
+ "insert text[8:8] --> decoded_text[10:11] '' --> ' '",
+ "insert text[9:9] --> decoded_text[12:13] '' --> ' '",
+ "insert text[10:10] --> decoded_text[14:15] '' --> ' '",
+ "replace text[11:14] --> decoded_text[16:23] 'なども' --> ' [UNK] '",
+ "insert text[15:15] --> decoded_text[24:25] '' --> ' '",
+ "replace text[16:25] --> decoded_text[26:33] 'されてたようですが' --> ' [UNK] '",
+ "replace text[26:29] --> decoded_text[34:41] 'これが' --> ' [UNK] '",
+ "insert text[30:30] --> decoded_text[42:43] '' --> ' '",
+ "insert text[31:31] --> decoded_text[44:45] '' --> ' '",
+ "replace text[32:39] --> decoded_text[46:53] 'はないそうです' --> ' [UNK] '"
+ ],
+ "n_oov_chars": 5,
+ "oov_ratio": 0.125,
+ "oov_charset": "[\"ど\", \"で\", \"が\"]"
+ },
+ {
+ "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。",
+ "decoded_text": "[UNK] 、 [UNK] 散 歩 [UNK] 訪 [UNK] 。 カタクリの 花 [UNK] 分 咲 きとの 情 報 から 今 回 コースの1つに 取 り 入 れてみました 。",
+ "diff": [
+ "replace text[0:3] --> decoded_text[0:6] 'なので' --> '[UNK] '",
+ "replace text[4:11] --> decoded_text[7:14] 'エルディとのお' --> ' [UNK] '",
+ "insert text[12:12] --> decoded_text[15:16] '' --> ' '",
+ "replace text[13:15] --> decoded_text[17:24] 'でも' --> ' [UNK] '",
+ "replace text[16:26] --> decoded_text[25:32] 'れたことがありません' --> ' [UNK] '",
+ "insert text[33:33] --> decoded_text[39:40] '' --> ' '",
+ "replace text[34:36] --> decoded_text[41:48] 'が5' --> ' [UNK] '",
+ "insert text[37:37] --> decoded_text[49:50] '' --> ' '",
+ "insert text[38:38] --> decoded_text[51:52] '' --> ' '",
+ "insert text[41:41] --> decoded_text[55:56] '' --> ' '",
+ "insert text[42:42] --> decoded_text[57:58] '' --> ' '",
+ "insert text[43:43] --> decoded_text[59:60] '' --> ' '",
+ "insert text[45:45] --> decoded_text[62:63] '' --> ' '",
+ "insert text[46:46] --> decoded_text[64:65] '' --> ' '",
+ "insert text[47:47] --> decoded_text[66:67] '' --> ' '",
+ "insert text[54:54] --> decoded_text[74:75] '' --> ' '",
+ "insert text[55:55] --> decoded_text[76:77] '' --> ' '",
+ "insert text[56:56] --> decoded_text[78:79] '' --> ' '",
+ "insert text[57:57] --> decoded_text[80:81] '' --> ' '",
+ "insert text[63:63] --> decoded_text[87:88] '' --> ' '"
+ ],
+ "n_oov_chars": 5,
+ "oov_ratio": 0.078125,
+ "oov_charset": "[\"で\", \"デ\", \"が\"]"
+ },
+ {
+ "text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました",
+ "decoded_text": "前 々から 走 [UNK] 、 いつも 陸 上 部 らしき 学 生 [UNK] 駆 け 抜 けていくのを 目 の 当 [UNK]",
+ "diff": [
+ "insert text[1:1] --> decoded_text[1:2] '' --> ' '",
+ "insert text[4:4] --> decoded_text[5:6] '' --> ' '",
+ "replace text[5:16] --> decoded_text[7:14] 'ってみたかったんだけど' --> ' [UNK] '",
+ "insert text[17:17] --> decoded_text[15:16] '' --> ' '",
+ "insert text[20:20] --> decoded_text[19:20] '' --> ' '",
+ "insert text[21:21] --> decoded_text[21:22] '' --> ' '",
+ "insert text[22:22] --> decoded_text[23:24] '' --> ' '",
+ "insert text[23:23] --> decoded_text[25:26] '' --> ' '",
+ "insert text[26:26] --> decoded_text[29:30] '' --> ' '",
+ "insert text[27:27] --> decoded_text[31:32] '' --> ' '",
+ "replace text[28:41] --> decoded_text[33:40] 'さんがものすごいスピードで' --> ' [UNK] '",
+ "insert text[42:42] --> decoded_text[41:42] '' --> ' '",
+ "insert text[43:43] --> decoded_text[43:44] '' --> ' '",
+ "insert text[44:44] --> decoded_text[45:46] '' --> ' '",
+ "insert text[50:50] --> decoded_text[52:53] '' --> ' '",
+ "insert text[51:51] --> decoded_text[54:55] '' --> ' '",
+ "insert text[52:52] --> decoded_text[56:57] '' --> ' '",
+ "replace text[53:71] --> decoded_text[58:64] 'たりにしてちょっとビビっておりました' --> ' [UNK]'"
+ ],
+ "n_oov_chars": 9,
+ "oov_ratio": 0.1267605633802817,
+ "oov_charset": "[\"だ\", \"ど\", \"が\", \"ご\", \"ピ\", \"ド\", \"で\", \"ビ\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-bert.bert-base-chinese @ cc100.ko.diff.json b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.ko.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..43bb7d484f2aaa5b0d060ff26a9fd94dc8985039
--- /dev/null
+++ b/stats/compression_rate/google-bert.bert-base-chinese @ cc100.ko.diff.json
@@ -0,0 +1,258 @@
+[
+ {
+ "text": "+ HOME > 라이브스코어",
+ "decoded_text": "+ [UNK] > [UNK]",
+ "diff": [
+ "replace text[2:6] --> decoded_text[2:7] 'HOME' --> '[UNK]'",
+ "replace text[9:15] --> decoded_text[10:15] '라이브스코어' --> '[UNK]'"
+ ],
+ "n_oov_chars": 10,
+ "oov_ratio": 0.6666666666666666,
+ "oov_charset": "[\"H\", \"O\", \"M\", \"E\", \"라\", \"이\", \"브\", \"스\", \"코\", \"어\"]"
+ },
+ {
+ "text": "특히 주소 15~17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.",
+ "decoded_text": "[UNK] [UNK] 15 ~ [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:2] --> decoded_text[0:5] '특히' --> '[UNK]'",
+ "replace text[3:5] --> decoded_text[6:11] '주소' --> '[UNK]'",
+ "insert text[8:8] --> decoded_text[14:15] '' --> ' '",
+ "delete text[9:12] --> decoded_text[16:16] '17번' --> ''",
+ "replace text[13:16] --> decoded_text[17:22] '홀에선' --> '[UNK]'",
+ "replace text[17:20] --> decoded_text[23:28] '3연속' --> '[UNK]'",
+ "replace text[21:24] --> decoded_text[29:34] '보기로' --> '[UNK]'",
+ "replace text[25:33] --> decoded_text[35:40] '황금의제국카지노' --> '[UNK]'",
+ "replace text[34:39] --> decoded_text[41:52] '홀아웃했다' --> '[UNK] [UNK]'"
+ ],
+ "n_oov_chars": 26,
+ "oov_ratio": 0.65,
+ "oov_charset": "[\"특\", \"히\", \"주\", \"소\", \"번\", \"홀\", \"에\", \"선\", \"연\", \"속\", \"보\", \"기\", \"로\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"아\", \"웃\", \"했\", \"다\"]"
+ },
+ {
+ "text": "1편인'신과함께-죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.",
+ "decoded_text": "[UNK]'[UNK] - [UNK] [UNK]'[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:3] --> decoded_text[0:5] '1편인' --> '[UNK]'",
+ "replace text[4:8] --> decoded_text[6:12] '신과함께' --> '[UNK] '",
+ "delete text[9:11] --> decoded_text[13:13] '죄와' --> ''",
+ "replace text[12:13] --> decoded_text[14:25] '벌' --> '[UNK] [UNK]'",
+ "replace text[14:15] --> decoded_text[26:31] '이' --> '[UNK]'",
+ "replace text[16:19] --> decoded_text[32:37] '천만을' --> '[UNK]'",
+ "replace text[20:22] --> decoded_text[38:43] '넘은' --> '[UNK]'",
+ "replace text[23:25] --> decoded_text[44:49] '만큼' --> '[UNK]'",
+ "replace text[26:29] --> decoded_text[50:55] '2편을' --> '[UNK]'",
+ "replace text[30:33] --> decoded_text[56:61] '기다린' --> '[UNK]'",
+ "replace text[34:42] --> decoded_text[62:67] '황금의제국카지노' --> '[UNK]'",
+ "replace text[43:47] --> decoded_text[68:73] '관객들의' --> '[UNK]'",
+ "replace text[48:51] --> decoded_text[74:79] '기대와' --> '[UNK]'",
+ "replace text[52:54] --> decoded_text[80:85] '주소' --> '[UNK]'",
+ "replace text[55:58] --> decoded_text[86:91] '관심은' --> '[UNK]'",
+ "replace text[59:64] --> decoded_text[92:97] '폭발적이다' --> '[UNK]'"
+ ],
+ "n_oov_chars": 47,
+ "oov_ratio": 0.7230769230769231,
+ "oov_charset": "[\"편\", \"인\", \"신\", \"과\", \"함\", \"께\", \"죄\", \"와\", \"벌\", \"이\", \"천\", \"만\", \"을\", \"넘\", \"은\", \"큼\", \"기\", \"다\", \"린\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"관\", \"객\", \"들\", \"대\", \"주\", \"소\", \"심\", \"폭\", \"발\", \"적\"]"
+ },
+ {
+ "text": "고려해서 주소 '대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.",
+ "decoded_text": "[UNK] [UNK]'[UNK] [UNK]'[UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:4] --> decoded_text[0:5] '고려해서' --> '[UNK]'",
+ "replace text[5:7] --> decoded_text[6:17] '주소' --> \"[UNK]'[UNK]\"",
+ "insert text[8:8] --> decoded_text[18:23] '' --> '[UNK]'",
+ "replace text[9:12] --> decoded_text[24:29] '대체재' --> '[UNK]'",
+ "replace text[13:17] --> decoded_text[30:35] \"일색'의\" --> '[UNK]'",
+ "replace text[18:21] --> decoded_text[36:41] '분재를' --> '[UNK]'",
+ "replace text[22:25] --> decoded_text[42:47] '내놓을' --> '[UNK]'",
+ "replace text[26:32] --> decoded_text[48:53] '위험이 있다' --> '[UNK]'",
+ "replace text[34:37] --> decoded_text[55:60] '문학의' --> '[UNK]'",
+ "replace text[38:41] --> decoded_text[61:66] '자유를' --> '[UNK]'",
+ "replace text[42:46] --> decoded_text[67:72] '소설가가' --> '[UNK]'",
+ "replace text[47:50] --> decoded_text[73:78] '스스로' --> '[UNK]'",
+ "replace text[51:59] --> decoded_text[79:84] '황금의제국카지노' --> '[UNK]'",
+ "replace text[60:64] --> decoded_text[85:90] '출판사에' --> '[UNK]'",
+ "replace text[65:69] --> decoded_text[91:96] '상납하는' --> '[UNK]'",
+ "replace text[70:73] --> decoded_text[97:102] '것이다' --> '[UNK]'"
+ ],
+ "n_oov_chars": 55,
+ "oov_ratio": 0.7432432432432432,
+ "oov_charset": "[\"고\", \"려\", \"해\", \"서\", \"주\", \"소\", \"대\", \"체\", \"재\", \"일\", \"색\", \"의\", \"분\", \"를\", \"내\", \"놓\", \"을\", \"위\", \"험\", \"이\", \"있\", \"다\", \"문\", \"학\", \"자\", \"유\", \"설\", \"가\", \"스\", \"로\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"출\", \"판\", \"사\", \"에\", \"상\", \"납\", \"하\", \"는\", \"것\"]"
+ },
+ {
+ "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] ( 22 ) [UNK] [UNK] [UNK] ( [UNK] [UNK] ) [UNK] (. 246. 270. 508 ). [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:6] --> decoded_text[0:5] '조시도널슨의' --> '[UNK]'",
+ "replace text[7:9] --> decoded_text[6:11] '유산' --> '[UNK]'",
+ "replace text[10:14] --> decoded_text[12:17] '프랭클린' --> '[UNK]'",
+ "replace text[15:17] --> decoded_text[18:23] '주소' --> '[UNK]'",
+ "replace text[18:21] --> decoded_text[24:30] '바레토' --> '[UNK] '",
+ "insert text[22:22] --> decoded_text[31:32] '' --> ' '",
+ "delete text[24:26] --> decoded_text[34:34] ')는' --> ''",
+ "delete text[27:49] --> decoded_text[35:35] '황금의제국카지노 4타수3안타(2루타 홈런' --> ''",
+ "replace text[51:54] --> decoded_text[37:77] '3타점' --> '[UNK] [UNK] [UNK] ( [UNK] [UNK] ) [UNK] '",
+ "insert text[56:56] --> decoded_text[79:80] '' --> ' '",
+ "insert text[59:59] --> decoded_text[83:84] '' --> '.'",
+ "delete text[60:61] --> decoded_text[85:85] '.' --> ''",
+ "insert text[64:64] --> decoded_text[88:89] '' --> '.'",
+ "delete text[65:66] --> decoded_text[90:90] '.' --> ''",
+ "insert text[69:69] --> decoded_text[93:94] '' --> ' '",
+ "replace text[72:75] --> decoded_text[97:102] '하지만' --> '[UNK]'",
+ "replace text[76:79] --> decoded_text[103:108] '아직은' --> '[UNK]'",
+ "replace text[80:84] --> decoded_text[109:114] '트레이드' --> '[UNK]'",
+ "replace text[85:88] --> decoded_text[115:120] '당시의' --> '[UNK]'",
+ "replace text[89:93] --> decoded_text[121:126] '기대치를' --> '[UNK]'",
+ "replace text[94:98] --> decoded_text[127:132] '보여주지' --> '[UNK]'",
+ "replace text[99:102] --> decoded_text[133:138] '못하고' --> '[UNK]'",
+ "replace text[103:105] --> decoded_text[139:144] '있다' --> '[UNK]'"
+ ],
+ "n_oov_chars": 62,
+ "oov_ratio": 0.5849056603773585,
+ "oov_charset": "[\"조\", \"시\", \"도\", \"널\", \"슨\", \"의\", \"유\", \"산\", \"프\", \"랭\", \"클\", \"린\", \"주\", \"소\", \"바\", \"레\", \"토\", \"는\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"타\", \"수\", \"안\", \"루\", \"홈\", \"런\", \"점\", \"하\", \"만\", \"아\", \"직\", \"은\", \"트\", \"이\", \"드\", \"당\", \"기\", \"대\", \"치\", \"를\", \"보\", \"여\", \"못\", \"고\", \"있\", \"다\"]"
+ },
+ {
+ "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK]. [UNK] [UNK], [UNK] [UNK] [UNK] - [UNK] - [UNK] [UNK] [UNK], [UNK], [UNK], [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] - [UNK] - [UNK] - [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:6] --> decoded_text[0:5] '여기서승리한' --> '[UNK]'",
+ "replace text[7:10] --> decoded_text[6:11] '2팀이' --> '[UNK]'",
+ "replace text[11:15] --> decoded_text[12:17] '준결승에' --> '[UNK]'",
+ "replace text[16:19] --> decoded_text[18:23] '오른다' --> '[UNK]'",
+ "replace text[21:23] --> decoded_text[25:30] '결국' --> '[UNK]'",
+ "replace text[24:25] --> decoded_text[31:36] 'A' --> '[UNK]'",
+ "replace text[27:29] --> decoded_text[38:43] 'B조' --> '[UNK]'",
+ "replace text[30:33] --> decoded_text[44:49] '1위는' --> '[UNK]'",
+ "replace text[34:37] --> decoded_text[50:56] '12강' --> '[UNK] '",
+ "replace text[38:40] --> decoded_text[57:64] '4강' --> ' [UNK] '",
+ "delete text[41:45] --> decoded_text[65:65] '결승으로' --> ''",
+ "replace text[46:50] --> decoded_text[66:71] '3경기를' --> '[UNK]'",
+ "replace text[51:55] --> decoded_text[72:83] '치르지만' --> '[UNK] [UNK]'",
+ "replace text[57:58] --> decoded_text[85:90] 'C' --> '[UNK]'",
+ "replace text[60:61] --> decoded_text[92:97] 'D' --> '[UNK]'",
+ "replace text[63:71] --> decoded_text[99:104] '황금의제국카지노' --> '[UNK]'",
+ "replace text[72:73] --> decoded_text[105:110] 'E' --> '[UNK]'",
+ "replace text[75:77] --> decoded_text[112:117] 'F조' --> '[UNK]'",
+ "replace text[78:81] --> decoded_text[118:123] '1위는' --> '[UNK]'",
+ "replace text[82:84] --> decoded_text[124:129] '주소' --> '[UNK]'",
+ "replace text[85:88] --> decoded_text[130:136] '12강' --> '[UNK] '",
+ "replace text[89:91] --> decoded_text[137:144] '6강' --> ' [UNK] '",
+ "replace text[92:94] --> decoded_text[145:152] '4강' --> ' [UNK] '",
+ "delete text[95:99] --> decoded_text[153:153] '결승으로' --> ''",
+ "replace text[100:104] --> decoded_text[154:159] '4경기를' --> '[UNK]'",
+ "replace text[105:107] --> decoded_text[160:165] '해야' --> '[UNK]'",
+ "replace text[108:110] --> decoded_text[166:177] '한다' --> '[UNK] [UNK]'"
+ ],
+ "n_oov_chars": 66,
+ "oov_ratio": 0.5945945945945946,
+ "oov_charset": "[\"여\", \"기\", \"서\", \"승\", \"리\", \"한\", \"팀\", \"이\", \"준\", \"결\", \"에\", \"오\", \"른\", \"다\", \"국\", \"A\", \"B\", \"조\", \"위\", \"는\", \"강\", \"으\", \"로\", \"경\", \"를\", \"치\", \"르\", \"지\", \"만\", \"C\", \"D\", \"황\", \"금\", \"의\", \"제\", \"카\", \"노\", \"E\", \"F\", \"주\", \"소\", \"해\", \"야\"]"
+ },
+ {
+ "text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 '실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'[UNK] [UNK] [UNK]'[UNK] [UNK], [UNK] [UNK].",
+ "diff": [
+ "replace text[0:4] --> decoded_text[0:5] '또한이날' --> '[UNK]'",
+ "replace text[5:8] --> decoded_text[6:11] '눈길을' --> '[UNK]'",
+ "replace text[9:11] --> decoded_text[12:17] '주소' --> '[UNK]'",
+ "replace text[12:13] --> decoded_text[18:23] '끈' --> '[UNK]'",
+ "replace text[14:16] --> decoded_text[24:29] '것은' --> '[UNK]'",
+ "replace text[17:18] --> decoded_text[30:35] '한' --> '[UNK]'",
+ "replace text[19:24] --> decoded_text[36:41] '신인배우의' --> '[UNK]'",
+ "replace text[25:30] --> decoded_text[42:47] '매니저였다' --> '[UNK]'",
+ "replace text[32:40] --> decoded_text[49:54] '황금의제국카지노' --> '[UNK]'",
+ "replace text[41:44] --> decoded_text[55:60] '배우의' --> '[UNK]'",
+ "replace text[45:48] --> decoded_text[61:66] '매니저' --> '[UNK]'",
+ "replace text[49:51] --> decoded_text[67:72] '일을' --> '[UNK]'",
+ "replace text[52:54] --> decoded_text[73:78] '하고' --> '[UNK]'",
+ "replace text[55:58] --> decoded_text[79:84] '있다는' --> '[UNK]'",
+ "replace text[59:60] --> decoded_text[85:90] '한' --> '[UNK]'",
+ "replace text[61:65] --> decoded_text[91:96] '청취자의' --> '[UNK]'",
+ "replace text[66:69] --> decoded_text[97:102] '사연에' --> '[UNK]'",
+ "replace text[70:74] --> decoded_text[103:114] '박명수는' --> \"[UNK]'[UNK]\"",
+ "insert text[75:75] --> decoded_text[115:126] '' --> '[UNK] [UNK]'",
+ "replace text[76:79] --> decoded_text[127:132] '실시간' --> '[UNK]'",
+ "replace text[80:96] --> decoded_text[133:138] \"검색어 1위'를 만들어주겠다며\" --> '[UNK]'",
+ "replace text[98:103] --> decoded_text[140:145] '통화연결을' --> '[UNK]'",
+ "replace text[104:106] --> decoded_text[146:151] '했다' --> '[UNK]'"
+ ],
+ "n_oov_chars": 101,
+ "oov_ratio": 0.9439252336448598,
+ "oov_charset": "[\"또\", \"한\", \"이\", \"날\", \" \", \"눈\", \"길\", \"을\", \"주\", \"소\", \"끈\", \"것\", \"은\", \"신\", \"인\", \"배\", \"우\", \"의\", \"매\", \"니\", \"저\", \"였\", \"다\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"일\", \"하\", \"고\", \"있\", \"는\", \"청\", \"취\", \"자\", \"사\", \"연\", \"에\", \"박\", \"명\", \"수\", \"실\", \"시\", \"간\", \"검\", \"색\", \"어\", \"위\", \"를\", \"만\", \"들\", \"겠\", \"며\", \"통\", \"화\", \"결\", \"했\"]"
+ },
+ {
+ "text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다.",
+ "decoded_text": "[UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:5] --> decoded_text[0:5] '하지만이번' --> '[UNK]'",
+ "replace text[6:14] --> decoded_text[6:11] '황금의제국카지노' --> '[UNK]'",
+ "replace text[15:17] --> decoded_text[12:17] '시즌' --> '[UNK]'",
+ "replace text[19:23] --> decoded_text[19:24] '호날두와' --> '[UNK]'",
+ "replace text[24:28] --> decoded_text[25:30] '이과인이' --> '[UNK]'",
+ "replace text[29:31] --> decoded_text[31:36] '다시' --> '[UNK]'",
+ "replace text[32:34] --> decoded_text[37:42] '주소' --> '[UNK]'",
+ "replace text[35:39] --> decoded_text[43:48] '한솥밥을' --> '[UNK]'",
+ "replace text[40:42] --> decoded_text[49:54] '먹는' --> '[UNK]'",
+ "replace text[43:45] --> decoded_text[55:60] '일이' --> '[UNK]'",
+ "replace text[46:50] --> decoded_text[61:66] '성사됐다' --> '[UNK]'",
+ "replace text[52:56] --> decoded_text[68:73] '호날두가' --> '[UNK]'",
+ "replace text[57:59] --> decoded_text[74:79] '‘빅' --> '[UNK]'",
+ "replace text[60:65] --> decoded_text[80:85] '사이닝’을' --> '[UNK]'",
+ "replace text[66:68] --> decoded_text[86:91] '통해' --> '[UNK]'",
+ "replace text[69:74] --> decoded_text[92:97] '유벤투스로' --> '[UNK]'",
+ "replace text[75:78] --> decoded_text[98:103] '옮겼기' --> '[UNK]'",
+ "replace text[79:83] --> decoded_text[104:127] '때문이다' --> '[UNK] [UNK] [UNK] [UNK]'"
+ ],
+ "n_oov_chars": 81,
+ "oov_ratio": 0.9642857142857143,
+ "oov_charset": "[\"하\", \"지\", \"만\", \"이\", \"번\", \" \", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"노\", \"시\", \"즌\", \"호\", \"날\", \"두\", \"와\", \"과\", \"인\", \"다\", \"주\", \"소\", \"한\", \"솥\", \"밥\", \"을\", \"먹\", \"는\", \"일\", \"성\", \"사\", \"됐\", \"가\", \"‘\", \"빅\", \"닝\", \"’\", \"통\", \"해\", \"유\", \"벤\", \"투\", \"스\", \"로\", \"옮\", \"겼\", \"기\", \"때\", \"문\"]"
+ },
+ {
+ "text": "현대캐피탈은삼성화재와 시범경기를 위해 홍천에 황금의제국카지노 주소 왔다.",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:11] --> decoded_text[0:5] '현대캐피탈은삼성화재와' --> '[UNK]'",
+ "replace text[12:17] --> decoded_text[6:11] '시범경기를' --> '[UNK]'",
+ "replace text[18:20] --> decoded_text[12:17] '위해' --> '[UNK]'",
+ "replace text[21:24] --> decoded_text[18:23] '홍천에' --> '[UNK]'",
+ "replace text[25:33] --> decoded_text[24:29] '황금의제국카지노' --> '[UNK]'",
+ "replace text[34:36] --> decoded_text[30:35] '주소' --> '[UNK]'",
+ "replace text[37:39] --> decoded_text[36:41] '왔다' --> '[UNK]'"
+ ],
+ "n_oov_chars": 39,
+ "oov_ratio": 0.975,
+ "oov_charset": "[\"현\", \"대\", \"캐\", \"피\", \"탈\", \"은\", \"삼\", \"성\", \"화\", \"재\", \"와\", \" \", \"시\", \"범\", \"경\", \"기\", \"를\", \"위\", \"해\", \"홍\", \"천\", \"에\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"주\", \"소\", \"왔\", \"다\"]"
+ },
+ {
+ "text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:5] --> decoded_text[0:5] '사실자매가' --> '[UNK]'",
+ "replace text[6:9] --> decoded_text[6:11] '나란히' --> '[UNK]'",
+ "replace text[10:12] --> decoded_text[12:17] '앉아' --> '[UNK]'",
+ "replace text[13:17] --> decoded_text[18:23] '인터뷰를' --> '[UNK]'",
+ "replace text[18:21] --> decoded_text[24:29] '한다는' --> '[UNK]'",
+ "replace text[22:23] --> decoded_text[30:35] '게' --> '[UNK]'",
+ "replace text[24:28] --> decoded_text[36:41] '쑥스러울' --> '[UNK]'",
+ "replace text[29:31] --> decoded_text[42:47] '법도' --> '[UNK]'",
+ "replace text[32:34] --> decoded_text[48:53] '한데' --> '[UNK]'",
+ "replace text[36:38] --> decoded_text[55:60] '주소' --> '[UNK]'",
+ "replace text[39:40] --> decoded_text[61:66] '둘' --> '[UNK]'",
+ "replace text[41:45] --> decoded_text[67:72] '사이에는' --> '[UNK]'",
+ "replace text[46:48] --> decoded_text[73:78] '어떤' --> '[UNK]'",
+ "replace text[49:53] --> decoded_text[79:84] '거리낌도' --> '[UNK]'",
+ "replace text[54:57] --> decoded_text[85:90] '없었다' --> '[UNK]'",
+ "replace text[59:61] --> decoded_text[92:97] '마치' --> '[UNK]'",
+ "replace text[62:65] --> decoded_text[98:103] '하루에' --> '[UNK]'",
+ "replace text[66:67] --> decoded_text[104:109] '한' --> '[UNK]'",
+ "replace text[68:70] --> decoded_text[110:115] '번씩' --> '[UNK]'",
+ "replace text[71:74] --> decoded_text[116:121] '만나는' --> '[UNK]'",
+ "replace text[75:77] --> decoded_text[122:127] '친구' --> '[UNK]'",
+ "replace text[78:80] --> decoded_text[128:133] '같은' --> '[UNK]'",
+ "replace text[81:84] --> decoded_text[134:139] '느낌이' --> '[UNK]'",
+ "replace text[85:93] --> decoded_text[140:145] '황금의제국카지노' --> '[UNK]'",
+ "replace text[94:97] --> decoded_text[146:151] '강했다' --> '[UNK]'"
+ ],
+ "n_oov_chars": 95,
+ "oov_ratio": 0.9693877551020408,
+ "oov_charset": "[\"사\", \"실\", \"자\", \"매\", \"가\", \" \", \"나\", \"란\", \"히\", \"앉\", \"아\", \"인\", \"터\", \"뷰\", \"를\", \"한\", \"다\", \"는\", \"게\", \"쑥\", \"스\", \"러\", \"울\", \"법\", \"도\", \"데\", \"주\", \"소\", \"둘\", \"이\", \"에\", \"어\", \"떤\", \"거\", \"리\", \"낌\", \"없\", \"었\", \"마\", \"치\", \"하\", \"루\", \"번\", \"씩\", \"만\", \"친\", \"구\", \"같\", \"은\", \"느\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"강\", \"했\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.ar.diff.json b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.ar.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..23cd05614681c98d4dd8d30c7134954ffe5acdf0
--- /dev/null
+++ b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.ar.diff.json
@@ -0,0 +1,232 @@
+[
+ {
+ "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)",
+ "decoded_text": "- [UNK] / [UNK] [UNK] [UNK] - [UNK] [UNK].. ( 1 )",
+ "diff": [
+ "replace text[2:8] --> decoded_text[2:7] 'اللواء' --> '[UNK]'",
+ "replace text[11:14] --> decoded_text[10:15] 'علي' --> '[UNK]'",
+ "replace text[15:19] --> decoded_text[16:21] 'محمد' --> '[UNK]'",
+ "replace text[20:28] --> decoded_text[22:27] 'الكحلاني' --> '[UNK]'",
+ "replace text[31:36] --> decoded_text[30:35] 'نصيحة' --> '[UNK]'",
+ "replace text[37:43] --> decoded_text[36:41] 'صادقة ' --> '[UNK]'",
+ "insert text[49:49] --> decoded_text[47:48] '' --> ' '"
+ ],
+ "n_oov_chars": 31,
+ "oov_ratio": 0.62,
+ "oov_charset": "[\"ا\", \"ل\", \"و\", \"ء\", \"ع\", \"ي\", \"م\", \"ح\", \"د\", \"ك\", \"ن\", \"ص\", \"ة\", \"ق\"]"
+ },
+ {
+ "text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..",
+ "decoded_text": "[UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] ( [UNK] ) [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..",
+ "diff": [
+ "replace text[0:97] --> decoded_text[0:91] 'اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي' --> '[UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[99:247] --> decoded_text[93:250] 'ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[249:279] --> decoded_text[252:281] 'ومن اضطراب في نسيجها الاجتماعي' --> '[UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[281:389] --> decoded_text[283:398] 'ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[391:525] --> decoded_text[400:537] 'ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[527:785] --> decoded_text[539:798] 'وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[787:884] --> decoded_text[800:897] 'عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي' --> '[UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[886:890] --> decoded_text[899:906] 'تردف' --> ' [UNK] '",
+ "replace text[892:966] --> decoded_text[908:987] 'كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..'"
+ ],
+ "n_oov_chars": 776,
+ "oov_ratio": 0.8033126293995859,
+ "oov_charset": "[\"ا\", \"ل\", \"ي\", \"م\", \"ن\", \"ج\", \"و\", \"ب\", \"ه\", \"ش\", \"ر\", \"ق\", \"غ\", \"ف\", \"ت\", \"ع\", \"ى\", \"ث\", \"س\", \"د\", \"ة\", \"ض\", \"ط\", \"ح\", \"ك\", \"أ\", \"ً\", \"ص\", \"إ\", \"ئ\", \"ء\", \"ذ\", \"ز\", \"ظ\", \"ٍ\", \"خ\"]"
+ },
+ {
+ "text": "واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية, أو انتماءاتهم المناطقية أو القبلية أو الجهوية, أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان..",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..",
+ "diff": [
+ "replace text[0:49] --> decoded_text[0:59] 'واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[51:81] --> decoded_text[61:96] 'وما شهدته البلد من مواقف عديدة' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[83:151] --> decoded_text[98:163] 'فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[153:198] --> decoded_text[165:206] 'أو انتماءاتهم المناطقية أو القبلية أو الجهوية' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[200:337] --> decoded_text[208:351] 'أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'"
+ ],
+ "n_oov_chars": 333,
+ "oov_ratio": 0.9823008849557522,
+ "oov_charset": "[\"و\", \"ا\", \"ل\", \"ي\", \"م\", \" \", \"ب\", \"ع\", \"د\", \"أ\", \"ن\", \"ج\", \"ر\", \"ت\", \"ه\", \"ك\", \"ث\", \"ة\", \"ف\", \"ق\", \"ح\", \"س\", \"ش\", \"إ\", \"ى\", \"ء\", \"ً\", \"ط\", \"ذ\", \"ص\", \"ض\", \"آ\", \"خ\"]"
+ },
+ {
+ "text": "وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..",
+ "diff": [
+ "replace text[0:5] --> decoded_text[0:5] 'وكلام' --> '[UNK]'",
+ "replace text[6:12] --> decoded_text[6:11] 'الرسول' --> '[UNK]'",
+ "replace text[13:21] --> decoded_text[12:17] 'وأحاديثه' --> '[UNK]'",
+ "replace text[22:24] --> decoded_text[18:23] 'ما' --> '[UNK]'",
+ "replace text[25:27] --> decoded_text[24:29] 'هي' --> '[UNK]'",
+ "replace text[28:31] --> decoded_text[30:35] 'إلا' --> '[UNK]'",
+ "replace text[32:35] --> decoded_text[36:41] 'وحي' --> '[UNK]'",
+ "replace text[36:38] --> decoded_text[42:47] 'من' --> '[UNK]'",
+ "replace text[39:43] --> decoded_text[48:53] 'الله' --> '[UNK]'",
+ "replace text[46:51] --> decoded_text[56:61] 'بمعنى' --> '[UNK]'",
+ "replace text[52:54] --> decoded_text[62:67] 'أن' --> '[UNK]'",
+ "replace text[55:60] --> decoded_text[68:73] 'العمل' --> '[UNK]'",
+ "replace text[61:64] --> decoded_text[74:79] 'بما' --> '[UNK]'",
+ "replace text[65:69] --> decoded_text[80:85] 'قاله' --> '[UNK]'",
+ "replace text[70:76] --> decoded_text[86:91] 'الرسول' --> '[UNK]'",
+ "replace text[77:83] --> decoded_text[92:97] 'الأعظم' --> '[UNK]'",
+ "replace text[84:86] --> decoded_text[98:103] 'هو' --> '[UNK]'",
+ "replace text[87:94] --> decoded_text[104:109] 'مسؤولية' --> '[UNK]'",
+ "replace text[95:102] --> decoded_text[110:115] 'أخلاقية' --> '[UNK]'",
+ "replace text[103:109] --> decoded_text[116:121] 'ودينية' --> '[UNK]'",
+ "replace text[110:118] --> decoded_text[122:127] 'ومسؤولية' --> '[UNK]'",
+ "replace text[119:125] --> decoded_text[128:133] 'سياسية' --> '[UNK]'"
+ ],
+ "n_oov_chars": 123,
+ "oov_ratio": 0.968503937007874,
+ "oov_charset": "[\"و\", \"ك\", \"ل\", \"ا\", \"م\", \" \", \"ر\", \"س\", \"أ\", \"ح\", \"د\", \"ي\", \"ث\", \"ه\", \"إ\", \"ن\", \"ب\", \"ع\", \"ى\", \"ق\", \"ظ\", \"ؤ\", \"ة\", \"خ\"]"
+ },
+ {
+ "text": "فهل أوضاع اليمنيين القائمة هي نتاج حكمة, وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم..",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..",
+ "diff": [
+ "replace text[0:3] --> decoded_text[0:5] 'فهل' --> '[UNK]'",
+ "replace text[4:9] --> decoded_text[6:11] 'أوضاع' --> '[UNK]'",
+ "replace text[10:18] --> decoded_text[12:17] 'اليمنيين' --> '[UNK]'",
+ "replace text[19:26] --> decoded_text[18:23] 'القائمة' --> '[UNK]'",
+ "replace text[27:29] --> decoded_text[24:29] 'هي' --> '[UNK]'",
+ "replace text[30:34] --> decoded_text[30:35] 'نتاج' --> '[UNK]'",
+ "replace text[35:39] --> decoded_text[36:41] 'حكمة' --> '[UNK]'",
+ "replace text[41:44] --> decoded_text[43:48] 'وهل' --> '[UNK]'",
+ "replace text[45:47] --> decoded_text[49:54] 'من' --> '[UNK]'",
+ "replace text[48:54] --> decoded_text[55:60] 'الحكمة' --> '[UNK]'",
+ "replace text[55:57] --> decoded_text[61:66] 'أن' --> '[UNK]'",
+ "replace text[58:61] --> decoded_text[67:72] 'تظل' --> '[UNK]'",
+ "replace text[62:70] --> decoded_text[73:78] 'البندقية' --> '[UNK]'",
+ "replace text[71:79] --> decoded_text[79:84] 'والقذيفة' --> '[UNK]'",
+ "replace text[80:82] --> decoded_text[85:90] 'هي' --> '[UNK]'",
+ "replace text[83:88] --> decoded_text[91:96] 'وسيلة' --> '[UNK]'",
+ "replace text[89:95] --> decoded_text[97:102] 'الخطاب' --> '[UNK]'",
+ "replace text[96:103] --> decoded_text[103:108] 'والحوار' --> '[UNK]'",
+ "replace text[104:108] --> decoded_text[109:114] 'فيما' --> '[UNK]'",
+ "replace text[109:114] --> decoded_text[115:120] 'بيننا' --> '[UNK]'",
+ "replace text[115:118] --> decoded_text[121:126] 'نحن' --> '[UNK]'",
+ "replace text[119:124] --> decoded_text[127:132] 'أبناء' --> '[UNK]'",
+ "replace text[125:128] --> decoded_text[133:138] 'هذا' --> '[UNK]'",
+ "replace text[129:134] --> decoded_text[139:144] 'البلد' --> '[UNK]'",
+ "replace text[135:141] --> decoded_text[145:150] 'العظيم' --> '[UNK]'"
+ ],
+ "n_oov_chars": 140,
+ "oov_ratio": 0.9790209790209791,
+ "oov_charset": "[\"ف\", \"ه\", \"ل\", \" \", \"أ\", \"و\", \"ض\", \"ا\", \"ع\", \"ي\", \"م\", \"ن\", \"ق\", \"ئ\", \"ة\", \"ت\", \"ج\", \"ح\", \"ك\", \"ظ\", \"ب\", \"د\", \"ذ\", \"س\", \"خ\", \"ط\", \"ر\", \"ء\"]"
+ },
+ {
+ "text": "وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان, ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله..",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..",
+ "diff": [
+ "replace text[0:3] --> decoded_text[0:5] 'وهل' --> '[UNK]'",
+ "replace text[4:12] --> decoded_text[6:11] 'الانسياق' --> '[UNK]'",
+ "replace text[13:16] --> decoded_text[12:17] 'نحو' --> '[UNK]'",
+ "replace text[17:22] --> decoded_text[18:23] 'مزيدٍ' --> '[UNK]'",
+ "replace text[23:25] --> decoded_text[24:29] 'من' --> '[UNK]'",
+ "replace text[26:32] --> decoded_text[30:35] 'العناد' --> '[UNK]'",
+ "replace text[33:39] --> decoded_text[36:41] 'ومزيدٍ' --> '[UNK]'",
+ "replace text[40:42] --> decoded_text[42:47] 'من' --> '[UNK]'",
+ "replace text[43:51] --> decoded_text[48:53] 'الاحتقان' --> '[UNK]'",
+ "replace text[53:59] --> decoded_text[55:60] 'ومزيدٍ' --> '[UNK]'",
+ "replace text[60:62] --> decoded_text[61:66] 'من' --> '[UNK]'",
+ "replace text[63:71] --> decoded_text[67:72] 'الاحتراب' --> '[UNK]'",
+ "replace text[72:75] --> decoded_text[73:78] 'بين' --> '[UNK]'",
+ "replace text[76:81] --> decoded_text[79:84] 'أبناء' --> '[UNK]'",
+ "replace text[82:85] --> decoded_text[85:90] 'بلد' --> '[UNK]'",
+ "replace text[86:90] --> decoded_text[91:96] 'واحد' --> '[UNK]'",
+ "replace text[91:95] --> decoded_text[97:102] 'وشعب' --> '[UNK]'",
+ "replace text[96:100] --> decoded_text[103:108] 'واحد' --> '[UNK]'",
+ "replace text[101:105] --> decoded_text[109:114] 'يرضى' --> '[UNK]'",
+ "replace text[106:110] --> decoded_text[115:120] 'الله' --> '[UNK]'",
+ "replace text[111:117] --> decoded_text[121:126] 'ورسوله' --> '[UNK]'",
+ "replace text[118:124] --> decoded_text[127:132] 'الكريم' --> '[UNK]'",
+ "replace text[125:129] --> decoded_text[133:138] 'عليه' --> '[UNK]'",
+ "replace text[130:134] --> decoded_text[139:144] 'صلاة' --> '[UNK]'",
+ "replace text[135:139] --> decoded_text[145:150] 'الله' --> '[UNK]'",
+ "replace text[140:146] --> decoded_text[151:156] 'وسلامه' --> '[UNK]'",
+ "replace text[147:151] --> decoded_text[157:162] 'وعلى' --> '[UNK]'",
+ "replace text[152:155] --> decoded_text[163:168] 'آله' --> '[UNK]'"
+ ],
+ "n_oov_chars": 154,
+ "oov_ratio": 0.9808917197452229,
+ "oov_charset": "[\"و\", \"ه\", \"ل\", \" \", \"ا\", \"ن\", \"س\", \"ي\", \"ق\", \"ح\", \"م\", \"ز\", \"د\", \"ٍ\", \"ع\", \"ت\", \"ر\", \"ب\", \"أ\", \"ء\", \"ش\", \"ض\", \"ى\", \"ك\", \"ص\", \"ة\", \"آ\"]"
+ },
+ {
+ "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] - [UNK] [UNK] [UNK] [UNK], [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..",
+ "diff": [
+ "replace text[0:84] --> decoded_text[0:110] 'أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] '",
+ "replace text[86:107] --> decoded_text[112:135] 'وهو بلد ولاَّد بالخير' --> '[UNK] [UNK] [UNK] [UNK]'",
+ "replace text[109:118] --> decoded_text[137:148] 'إلى أطلال' --> '[UNK] [UNK]'",
+ "replace text[120:175] --> decoded_text[150:209] 'وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[177:226] --> decoded_text[211:266] 'بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]..'"
+ ],
+ "n_oov_chars": 176,
+ "oov_ratio": 0.7787610619469026,
+ "oov_charset": "[\"أ\", \"ن\", \"ا\", \"ل\", \"ع\", \"ت\", \"ق\", \"د\", \"ً\", \"م\", \"ب\", \"ء\", \"ه\", \"ذ\", \"ي\", \"و\", \"س\", \"غ\", \"ج\", \"ر\", \"ف\", \"ح\", \"ّ\", \"َ\", \"خ\", \"إ\", \"ى\", \"ط\", \"ض\", \"ؤ\", \"ئ\", \"ش\", \"ك\", \"ة\"]"
+ },
+ {
+ "text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي..؟!",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK].. [UNK]!",
+ "diff": [
+ "replace text[0:96] --> decoded_text[0:95] 'اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[98:118] --> decoded_text[97:120] 'لم يسلموا ولن يسلموا' --> '[UNK] [UNK] [UNK] [UNK]'",
+ "replace text[121:150] --> decoded_text[123:146] 'والأعباء والمتاعب طالت الجميع' --> '[UNK] [UNK] [UNK] [UNK]'",
+ "replace text[152:280] --> decoded_text[148:279] 'وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[282:392] --> decoded_text[281:394] 'وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[394:403] --> decoded_text[396:407] 'أو أبوظبي' --> '[UNK] [UNK]'",
+ "replace text[405:406] --> decoded_text[409:415] '؟' --> ' [UNK]'"
+ ],
+ "n_oov_chars": 398,
+ "oov_ratio": 0.9778869778869779,
+ "oov_charset": "[\"ا\", \"ل\", \"ي\", \"م\", \"ن\", \" \", \"أ\", \"ه\", \"ك\", \"ع\", \"د\", \"و\", \"ح\", \"ص\", \"ر\", \"ت\", \"ى\", \"ئ\", \"ذ\", \"ظ\", \"ب\", \"ث\", \"ش\", \"ة\", \"س\", \"ء\", \"ط\", \"ج\", \"إ\", \"خ\", \"ف\", \"ق\", \"ً\", \"ض\", \"غ\", \"ز\", \"؟\"]"
+ },
+ {
+ "text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية.. أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب!!",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]!!",
+ "diff": [
+ "replace text[0:118] --> decoded_text[0:131] 'وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'",
+ "replace text[121:245] --> decoded_text[134:271] 'أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'"
+ ],
+ "n_oov_chars": 243,
+ "oov_ratio": 0.9838056680161943,
+ "oov_charset": "[\"و\", \"ه\", \"ل\", \" \", \"ا\", \"ن\", \"ع\", \"ك\", \"س\", \"ت\", \"م\", \"ف\", \"ي\", \"ح\", \"ق\", \"ب\", \"ى\", \"ص\", \"ة\", \"ر\", \"ز\", \"أ\", \"خ\", \"د\", \"ج\", \"غ\", \"إ\", \"ض\", \"ئ\", \"ء\", \"ش\", \"ط\"]"
+ },
+ {
+ "text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي, وصوب الرياض, وصوب واشنطن..",
+ "decoded_text": "[UNK].. [UNK] [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK], [UNK], [UNK] [UNK] [UNK].. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK], [UNK] [UNK]..",
+ "diff": [
+ "replace text[0:5] --> decoded_text[0:5] 'اليمن' --> '[UNK]'",
+ "replace text[8:10] --> decoded_text[8:13] 'في' --> '[UNK]'",
+ "replace text[11:14] --> decoded_text[14:19] 'هذه' --> '[UNK]'",
+ "replace text[15:21] --> decoded_text[20:25] 'اللحظة' --> '[UNK]'",
+ "replace text[22:29] --> decoded_text[26:31] 'الفارقة' --> '[UNK]'",
+ "replace text[32:34] --> decoded_text[34:39] 'في' --> '[UNK]'",
+ "replace text[35:38] --> decoded_text[40:45] 'هذه' --> '[UNK]'",
+ "replace text[39:46] --> decoded_text[46:51] 'المرحلة' --> '[UNK]'",
+ "replace text[47:54] --> decoded_text[52:57] 'الخطيرة' --> '[UNK]'",
+ "replace text[55:60] --> decoded_text[58:63] 'مدمرة' --> '[UNK]'",
+ "replace text[62:69] --> decoded_text[65:70] 'ومحاصرة' --> '[UNK]'",
+ "replace text[71:76] --> decoded_text[72:77] 'ويباد' --> '[UNK]'",
+ "replace text[77:82] --> decoded_text[78:83] 'أهلها' --> '[UNK]'",
+ "replace text[83:91] --> decoded_text[84:89] 'وساكنوها' --> '[UNK]'",
+ "replace text[94:99] --> decoded_text[92:97] 'اليمن' --> '[UNK]'",
+ "replace text[100:107] --> decoded_text[98:103] 'أصابتها' --> '[UNK]'",
+ "replace text[108:112] --> decoded_text[104:109] 'لعنة' --> '[UNK]'",
+ "replace text[113:121] --> decoded_text[110:115] 'الارتزاق' --> '[UNK]'",
+ "replace text[122:130] --> decoded_text[116:121] 'وابتلاها' --> '[UNK]'",
+ "replace text[131:135] --> decoded_text[122:127] 'الله' --> '[UNK]'",
+ "replace text[136:143] --> decoded_text[128:133] 'بقيادات' --> '[UNK]'",
+ "replace text[144:148] --> decoded_text[134:139] 'يممت' --> '[UNK]'",
+ "replace text[149:154] --> decoded_text[140:145] 'وجهها' --> '[UNK]'",
+ "replace text[155:158] --> decoded_text[146:151] 'صوب' --> '[UNK]'",
+ "replace text[159:162] --> decoded_text[152:157] 'أبو' --> '[UNK]'",
+ "replace text[163:166] --> decoded_text[158:163] 'ظبي' --> '[UNK]'",
+ "replace text[168:172] --> decoded_text[165:170] 'وصوب' --> '[UNK]'",
+ "replace text[173:179] --> decoded_text[171:176] 'الرياض' --> '[UNK]'",
+ "replace text[181:185] --> decoded_text[178:183] 'وصوب' --> '[UNK]'",
+ "replace text[186:192] --> decoded_text[184:189] 'واشنطن' --> '[UNK]'"
+ ],
+ "n_oov_chars": 182,
+ "oov_ratio": 0.9381443298969072,
+ "oov_charset": "[\"ا\", \"ل\", \"ي\", \"م\", \"ن\", \" \", \"ف\", \"ه\", \"ذ\", \"ح\", \"ظ\", \"ة\", \"ر\", \"ق\", \"خ\", \"ط\", \"د\", \"و\", \"ص\", \"ب\", \"أ\", \"س\", \"ك\", \"ت\", \"ع\", \"ز\", \"ج\", \"ض\", \"ش\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.de.diff.json b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.de.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..fc2f6feade95e5ff46c91383d3fb67e4d739ff3a
--- /dev/null
+++ b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.de.diff.json
@@ -0,0 +1,133 @@
+[
+ {
+ "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.",
+ "decoded_text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die [UNK] Püngel - Weihnacht [UNK] in Siegburg - Kaldauen um 18 Uhr ( Einlass 17. 30 Uhr ) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18, 50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.",
+ "diff": [
+ "replace text[58:59] --> decoded_text[58:64] '„' --> '[UNK] '",
+ "insert text[65:65] --> decoded_text[70:71] '' --> ' '",
+ "insert text[66:66] --> decoded_text[72:73] '' --> ' '",
+ "replace text[75:76] --> decoded_text[82:88] '“' --> ' [UNK]'",
+ "insert text[88:88] --> decoded_text[100:101] '' --> ' '",
+ "insert text[89:89] --> decoded_text[102:103] '' --> ' '",
+ "insert text[109:109] --> decoded_text[123:124] '' --> ' '",
+ "insert text[120:120] --> decoded_text[135:136] '' --> ' '",
+ "insert text[126:126] --> decoded_text[142:143] '' --> ' '",
+ "insert text[199:199] --> decoded_text[216:217] '' --> ' '"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.007142857142857143,
+ "oov_charset": "[\"„\", \"“\"]"
+ },
+ {
+ "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.",
+ "decoded_text": "Der Chor bietet noch einen weiteren Termin im Rahmen der [UNK] Püngel - Weihnacht [UNK] an.",
+ "diff": [
+ "replace text[57:58] --> decoded_text[57:63] '„' --> '[UNK] '",
+ "insert text[64:64] --> decoded_text[69:70] '' --> ' '",
+ "insert text[65:65] --> decoded_text[71:72] '' --> ' '",
+ "replace text[74:75] --> decoded_text[81:87] '“' --> ' [UNK]'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.02531645569620253,
+ "oov_charset": "[\"„\", \"“\"]"
+ },
+ {
+ "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de",
+ "decoded_text": "02683 967019. Die Karten können auch per Email bestellt werden : En - Koelsche - Weihnachtsfeier @ t - online. de",
+ "diff": [
+ "insert text[62:62] --> decoded_text[62:63] '' --> ' '",
+ "insert text[66:66] --> decoded_text[67:68] '' --> ' '",
+ "insert text[67:67] --> decoded_text[69:70] '' --> ' '",
+ "insert text[75:75] --> decoded_text[78:79] '' --> ' '",
+ "insert text[76:76] --> decoded_text[80:81] '' --> ' '",
+ "insert text[91:91] --> decoded_text[96:97] '' --> ' '",
+ "insert text[92:92] --> decoded_text[98:99] '' --> ' '",
+ "insert text[93:93] --> decoded_text[100:101] '' --> ' '",
+ "insert text[94:94] --> decoded_text[102:103] '' --> ' '",
+ "insert text[101:101] --> decoded_text[110:111] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.",
+ "decoded_text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E - Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.",
+ "diff": [
+ "insert text[200:200] --> decoded_text[200:201] '' --> ' '",
+ "insert text[201:201] --> decoded_text[202:203] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.",
+ "decoded_text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten ( wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw. ) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.",
+ "diff": [
+ "insert text[176:176] --> decoded_text[176:177] '' --> ' '",
+ "insert text[394:394] --> decoded_text[395:396] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;",
+ "decoded_text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt ;",
+ "diff": [
+ "insert text[188:188] --> decoded_text[188:189] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);",
+ "decoded_text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten ( z. B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen ) ;",
+ "diff": [
+ "insert text[87:87] --> decoded_text[87:88] '' --> ' '",
+ "insert text[89:89] --> decoded_text[90:91] '' --> ' '",
+ "insert text[188:188] --> decoded_text[190:191] '' --> ' '",
+ "insert text[189:189] --> decoded_text[192:193] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Darüber hinaus unterliegen wir verschiedenen Aufbewahrungs- und Dokumentationspflichten, die sich unter anderem aus dem Handelsgesetzbuch (HGB) und der Abgabenordnung (AO), ergeben. Die dort vorgegebenen Fristen zur Aufbewahrung bzw. Dokumentation betragen bis zehn Jahre über das Ende der Vertragsbeziehung oder des vorvertraglichen Rechtsverhältnisses hinaus.",
+ "decoded_text": "Darüber hinaus unterliegen wir verschiedenen Aufbewahrungs - und Dokumentationspflichten, die sich unter anderem aus dem Handelsgesetzbuch ( HGB ) und der Abgabenordnung ( AO ), ergeben. Die dort vorgegebenen Fristen zur Aufbewahrung bzw. Dokumentation betragen bis zehn Jahre über das Ende der Vertragsbeziehung oder des vorvertraglichen Rechtsverhältnisses hinaus.",
+ "diff": [
+ "insert text[58:58] --> decoded_text[58:59] '' --> ' '",
+ "insert text[139:139] --> decoded_text[140:141] '' --> ' '",
+ "insert text[142:142] --> decoded_text[144:145] '' --> ' '",
+ "insert text[168:168] --> decoded_text[171:172] '' --> ' '",
+ "insert text[170:170] --> decoded_text[174:175] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Ihre Bewerbungsunterlagen werden Ihnen bei Nicht-Einstellung nach Ablauf von sechs Monaten im Original zurückgegeben. Elektronische Daten werden nach sechs Monaten entsprechend gelöscht.",
+ "decoded_text": "Ihre Bewerbungsunterlagen werden Ihnen bei Nicht - Einstellung nach Ablauf von sechs Monaten im Original zurückgegeben. Elektronische Daten werden nach sechs Monaten entsprechend gelöscht.",
+ "diff": [
+ "insert text[48:48] --> decoded_text[48:49] '' --> ' '",
+ "insert text[49:49] --> decoded_text[50:51] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Sollten wir Ihre Daten für spätere Vakanzen länger speichern wollen oder Sie Ihre Daten in einen Bewerberpool eingestellt haben, werden die Daten zu späteren Zeitpunkten gelöscht; Einzelheiten dazu werden Ihnen im Zusammenhang mit dem jeweiligen Prozess mitgeteilt.",
+ "decoded_text": "Sollten wir Ihre Daten für spätere Vakanzen länger speichern wollen oder Sie Ihre Daten in einen Bewerberpool eingestellt haben, werden die Daten zu späteren Zeitpunkten gelöscht ; Einzelheiten dazu werden Ihnen im Zusammenhang mit dem jeweiligen Prozess mitgeteilt.",
+ "diff": [
+ "insert text[178:178] --> decoded_text[178:179] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.fa.diff.json b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.fa.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..a9948a35b4f2d9e02f9360531a2fad61710862be
--- /dev/null
+++ b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.fa.diff.json
@@ -0,0 +1,170 @@
+[
+ {
+ "text": "آشپزخانه کوچک من: February 2012",
+ "decoded_text": "[UNK] [UNK] [UNK] : February 2012",
+ "diff": [
+ "replace text[0:8] --> decoded_text[0:5] 'آشپزخانه' --> '[UNK]'",
+ "replace text[9:13] --> decoded_text[6:11] 'کوچک' --> '[UNK]'",
+ "replace text[14:16] --> decoded_text[12:18] 'من' --> '[UNK] '"
+ ],
+ "n_oov_chars": 14,
+ "oov_ratio": 0.45161290322580644,
+ "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ا\", \"ن\", \"ه\", \"ک\", \"و\", \"چ\", \"م\"]"
+ },
+ {
+ "text": "آشپزخانه کوچک من",
+ "decoded_text": "[UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:8] --> decoded_text[0:5] 'آشپزخانه' --> '[UNK]'",
+ "replace text[9:13] --> decoded_text[6:11] 'کوچک' --> '[UNK]'",
+ "replace text[14:16] --> decoded_text[12:17] 'من' --> '[UNK]'"
+ ],
+ "n_oov_chars": 16,
+ "oov_ratio": 1.0,
+ "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ا\", \"ن\", \"ه\", \" \", \"ک\", \"و\", \"چ\", \"م\"]"
+ },
+ {
+ "text": "بکینگ پودر:2 قاشق چای خوری",
+ "decoded_text": "[UNK] [UNK] : 2 [UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:5] --> decoded_text[0:5] 'بکینگ' --> '[UNK]'",
+ "replace text[6:10] --> decoded_text[6:12] 'پودر' --> '[UNK] '",
+ "insert text[11:11] --> decoded_text[13:14] '' --> ' '",
+ "replace text[13:17] --> decoded_text[16:21] 'قاشق' --> '[UNK]'",
+ "replace text[18:21] --> decoded_text[22:27] 'چای' --> '[UNK]'",
+ "replace text[22:26] --> decoded_text[28:33] 'خوری' --> '[UNK]'"
+ ],
+ "n_oov_chars": 20,
+ "oov_ratio": 0.7692307692307693,
+ "oov_charset": "[\"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"و\", \"د\", \"ر\", \"ق\", \"ا\", \"ش\", \"چ\", \"خ\"]"
+ },
+ {
+ "text": "تخم مرغ:2 عدد بزرگ",
+ "decoded_text": "[UNK] [UNK] : 2 [UNK] [UNK]",
+ "diff": [
+ "replace text[0:3] --> decoded_text[0:5] 'تخم' --> '[UNK]'",
+ "replace text[4:7] --> decoded_text[6:12] 'مرغ' --> '[UNK] '",
+ "insert text[8:8] --> decoded_text[13:14] '' --> ' '",
+ "replace text[10:13] --> decoded_text[16:21] 'عدد' --> '[UNK]'",
+ "replace text[14:18] --> decoded_text[22:27] 'بزرگ' --> '[UNK]'"
+ ],
+ "n_oov_chars": 13,
+ "oov_ratio": 0.7222222222222222,
+ "oov_charset": "[\"ت\", \"خ\", \"م\", \"ر\", \"غ\", \"ع\", \"د\", \"ب\", \"ز\", \"گ\"]"
+ },
+ {
+ "text": "کره:225 گرم به دمای اتاق رسیده",
+ "decoded_text": "[UNK] : 225 [UNK] [UNK] [UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:3] --> decoded_text[0:6] 'کره' --> '[UNK] '",
+ "insert text[4:4] --> decoded_text[7:8] '' --> ' '",
+ "replace text[8:11] --> decoded_text[12:17] 'گرم' --> '[UNK]'",
+ "replace text[12:14] --> decoded_text[18:23] 'به' --> '[UNK]'",
+ "replace text[15:19] --> decoded_text[24:29] 'دمای' --> '[UNK]'",
+ "replace text[20:24] --> decoded_text[30:35] 'اتاق' --> '[UNK]'",
+ "replace text[25:30] --> decoded_text[36:41] 'رسیده' --> '[UNK]'"
+ ],
+ "n_oov_chars": 21,
+ "oov_ratio": 0.7,
+ "oov_charset": "[\"ک\", \"ر\", \"ه\", \"گ\", \"م\", \"ب\", \"د\", \"ا\", \"ی\", \"ت\", \"ق\", \"س\"]"
+ },
+ {
+ "text": "شکر:1و1/2 پیمانه+ 3 قاشق غذا خوری",
+ "decoded_text": "[UNK] : [UNK] / 2 [UNK] + 3 [UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:3] --> decoded_text[0:6] 'شکر' --> '[UNK] '",
+ "replace text[4:7] --> decoded_text[7:14] '1و1' --> ' [UNK] '",
+ "insert text[8:8] --> decoded_text[15:16] '' --> ' '",
+ "replace text[10:16] --> decoded_text[18:24] 'پیمانه' --> '[UNK] '",
+ "replace text[20:24] --> decoded_text[28:33] 'قاشق' --> '[UNK]'",
+ "replace text[25:28] --> decoded_text[34:39] 'غذا' --> '[UNK]'",
+ "replace text[29:33] --> decoded_text[40:45] 'خوری' --> '[UNK]'"
+ ],
+ "n_oov_chars": 21,
+ "oov_ratio": 0.6363636363636364,
+ "oov_charset": "[\"ش\", \"ک\", \"ر\", \"و\", \"پ\", \"ی\", \"م\", \"ا\", \"ن\", \"ه\", \"ق\", \"غ\", \"ذ\", \"خ\"]"
+ },
+ {
+ "text": "پودر دارچین:2 و1/2قاشق چای خوری",
+ "decoded_text": "[UNK] [UNK] : 2 [UNK] / [UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:4] --> decoded_text[0:5] 'پودر' --> '[UNK]'",
+ "replace text[5:11] --> decoded_text[6:12] 'دارچین' --> '[UNK] '",
+ "insert text[12:12] --> decoded_text[13:14] '' --> ' '",
+ "replace text[14:16] --> decoded_text[16:22] 'و1' --> '[UNK] '",
+ "delete text[17:22] --> decoded_text[23:23] '2قاشق' --> ''",
+ "replace text[23:26] --> decoded_text[24:29] 'چای' --> '[UNK]'",
+ "replace text[27:31] --> decoded_text[30:41] 'خوری' --> '[UNK] [UNK]'"
+ ],
+ "n_oov_chars": 22,
+ "oov_ratio": 0.7096774193548387,
+ "oov_charset": "[\"پ\", \"و\", \"د\", \"ر\", \"ا\", \"چ\", \"ی\", \"ن\", \"ق\", \"ش\", \"خ\"]"
+ },
+ {
+ "text": "فر رو روی 350 درجه فارنهایت روشن کنید",
+ "decoded_text": "[UNK] [UNK] [UNK] 350 [UNK] [UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:2] --> decoded_text[0:5] 'فر' --> '[UNK]'",
+ "replace text[3:5] --> decoded_text[6:11] 'رو' --> '[UNK]'",
+ "replace text[6:9] --> decoded_text[12:17] 'روی' --> '[UNK]'",
+ "replace text[14:18] --> decoded_text[22:27] 'درجه' --> '[UNK]'",
+ "replace text[19:27] --> decoded_text[28:33] 'فارنهایت' --> '[UNK]'",
+ "replace text[28:32] --> decoded_text[34:39] 'روشن' --> '[UNK]'",
+ "replace text[33:37] --> decoded_text[40:45] 'کنید' --> '[UNK]'"
+ ],
+ "n_oov_chars": 34,
+ "oov_ratio": 0.918918918918919,
+ "oov_charset": "[\"ف\", \"ر\", \" \", \"و\", \"ی\", \"د\", \"ج\", \"ه\", \"ا\", \"ن\", \"ت\", \"ش\", \"ک\"]"
+ },
+ {
+ "text": "کره رو با شکر هم بزنید تا یکدست و کرمی بشه تخم مرغها رو دونه دونه اضافه کنید و هم بزنید",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:3] --> decoded_text[0:5] 'کره' --> '[UNK]'",
+ "replace text[4:6] --> decoded_text[6:11] 'رو' --> '[UNK]'",
+ "replace text[7:9] --> decoded_text[12:17] 'با' --> '[UNK]'",
+ "replace text[10:13] --> decoded_text[18:23] 'شکر' --> '[UNK]'",
+ "replace text[14:16] --> decoded_text[24:29] 'هم' --> '[UNK]'",
+ "replace text[17:22] --> decoded_text[30:35] 'بزنید' --> '[UNK]'",
+ "replace text[23:25] --> decoded_text[36:41] 'تا' --> '[UNK]'",
+ "replace text[26:31] --> decoded_text[42:47] 'یکدست' --> '[UNK]'",
+ "replace text[32:33] --> decoded_text[48:53] 'و' --> '[UNK]'",
+ "replace text[34:38] --> decoded_text[54:59] 'کرمی' --> '[UNK]'",
+ "replace text[39:42] --> decoded_text[60:65] 'بشه' --> '[UNK]'",
+ "replace text[43:46] --> decoded_text[66:71] 'تخم' --> '[UNK]'",
+ "replace text[47:52] --> decoded_text[72:77] 'مرغها' --> '[UNK]'",
+ "replace text[53:55] --> decoded_text[78:83] 'رو' --> '[UNK]'",
+ "replace text[56:60] --> decoded_text[84:89] 'دونه' --> '[UNK]'",
+ "replace text[61:65] --> decoded_text[90:95] 'دونه' --> '[UNK]'",
+ "replace text[66:71] --> decoded_text[96:101] 'اضافه' --> '[UNK]'",
+ "replace text[72:76] --> decoded_text[102:107] 'کنید' --> '[UNK]'",
+ "replace text[77:78] --> decoded_text[108:113] 'و' --> '[UNK]'",
+ "replace text[79:81] --> decoded_text[114:119] 'هم' --> '[UNK]'",
+ "replace text[82:87] --> decoded_text[120:125] 'بزنید' --> '[UNK]'"
+ ],
+ "n_oov_chars": 87,
+ "oov_ratio": 1.0,
+ "oov_charset": "[\"ک\", \"ر\", \"ه\", \" \", \"و\", \"ب\", \"ا\", \"ش\", \"م\", \"ز\", \"ن\", \"ی\", \"د\", \"ت\", \"س\", \"خ\", \"غ\", \"ض\", \"ف\"]"
+ },
+ {
+ "text": "ارد و بکینگ پودر و نمک رو الک کنید و اضافه کنید",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:3] --> decoded_text[0:5] 'ارد' --> '[UNK]'",
+ "replace text[4:5] --> decoded_text[6:11] 'و' --> '[UNK]'",
+ "replace text[6:11] --> decoded_text[12:17] 'بکینگ' --> '[UNK]'",
+ "replace text[12:16] --> decoded_text[18:23] 'پودر' --> '[UNK]'",
+ "replace text[17:18] --> decoded_text[24:29] 'و' --> '[UNK]'",
+ "replace text[19:22] --> decoded_text[30:35] 'نمک' --> '[UNK]'",
+ "replace text[23:25] --> decoded_text[36:41] 'رو' --> '[UNK]'",
+ "replace text[26:29] --> decoded_text[42:47] 'الک' --> '[UNK]'",
+ "replace text[30:34] --> decoded_text[48:53] 'کنید' --> '[UNK]'",
+ "replace text[35:36] --> decoded_text[54:59] 'و' --> '[UNK]'",
+ "replace text[37:42] --> decoded_text[60:65] 'اضافه' --> '[UNK]'",
+ "replace text[43:47] --> decoded_text[66:71] 'کنید' --> '[UNK]'"
+ ],
+ "n_oov_chars": 47,
+ "oov_ratio": 1.0,
+ "oov_charset": "[\"ا\", \"ر\", \"د\", \" \", \"و\", \"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"م\", \"ل\", \"ض\", \"ف\", \"ه\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.ja.diff.json b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.ja.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..c1d159743f25004a25caf86585e30e1f13054cc7
--- /dev/null
+++ b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.ja.diff.json
@@ -0,0 +1,103 @@
+[
+ {
+ "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:37] --> decoded_text[0:125] '午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'"
+ ],
+ "n_oov_chars": 37,
+ "oov_ratio": 1.0,
+ "oov_charset": "[\"午\", \"後\", \"か\", \"ら\", \"雨\", \"が\", \"心\", \"配\", \"だ\", \"っ\", \"た\", \"の\", \"で\", \"遠\", \"出\", \"は\", \"せ\", \"ず\", \"、\", \"『\", \"ふ\", \"れ\", \"あ\", \"い\", \"ロ\", \"ー\", \"ド\", \"』\", \"を\", \"走\", \"て\", \"来\", \"ま\", \"し\", \"!\"]"
+ },
+ {
+ "text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:67] --> decoded_text[0:209] '確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'"
+ ],
+ "n_oov_chars": 67,
+ "oov_ratio": 1.0,
+ "oov_charset": "[\"確\", \"実\", \"に\", \"春\", \"が\", \"近\", \"づ\", \"い\", \"て\", \"る\", \"こ\", \"と\", \"を\", \"肌\", \"で\", \"感\", \"じ\", \"出\", \"来\", \"ま\", \"し\", \"た\", \" \", \"着\", \"々\", \"整\", \"備\", \"さ\", \"れ\", \"圏\", \"央\", \"道\", \"越\", \"え\", \"お\", \"世\", \"話\", \"な\", \"っ\", \"ボ\", \"ウ\", \"リ\", \"ン\", \"グ\", \"場\", \"見\", \"。\"]"
+ },
+ {
+ "text": "うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:46] --> decoded_text[0:119] 'うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'"
+ ],
+ "n_oov_chars": 46,
+ "oov_ratio": 1.0,
+ "oov_charset": "[\"う\", \"ぅ\", \"〜\", \"、\", \"私\", \"が\", \"途\", \"中\", \"で\", \"ト\", \"イ\", \"レ\", \"に\", \"行\", \"き\", \"た\", \"く\", \"な\", \"っ\", \"て\", \"し\", \"ま\", \"い\", \"通\", \"り\", \"道\", \"あ\", \"ケ\", \"ン\", \"タ\", \"変\", \"更\", \"ち\", \"ゃ\", \"。\"]"
+ },
+ {
+ "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:49] --> decoded_text[0:185] '実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'"
+ ],
+ "n_oov_chars": 49,
+ "oov_ratio": 1.0,
+ "oov_charset": "[\"実\", \"は\", \"、\", \"1\", \"年\", \"程\", \"前\", \"に\", \"エ\", \"ル\", \"モ\", \"サ\", \"の\", \"右\", \"目\", \"黒\", \"端\", \"よ\", \"〜\", \"く\", \"見\", \"な\", \"い\", \"と\", \"分\", \"か\", \"ら\", \"小\", \"さ\", \"斑\", \"を\", \"つ\", \"け\", \"て\", \"た\", \"ん\", \"で\", \"す\", \"。\"]"
+ },
+ {
+ "text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:43] --> decoded_text[0:101] 'その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'"
+ ],
+ "n_oov_chars": 43,
+ "oov_ratio": 1.0,
+ "oov_charset": "[\"そ\", \"の\", \"時\", \"点\", \"で\", \"先\", \"生\", \"か\", \"ら\", \"は\", \"お\", \"く\", \"『\", \"角\", \"膜\", \"ジ\", \"ス\", \"ト\", \"ロ\", \"フ\", \"ィ\", \"ー\", \"』\", \"あ\", \"ろ\", \"う\", \"と\", \"診\", \"断\", \"を\", \"も\", \"っ\", \"て\", \"い\", \"ま\", \"し\", \"た\", \"。\"]"
+ },
+ {
+ "text": "エルモサの場合は1年程経過して徐々にではあるんですけど、少し大きくなってきちゃいました",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:43] --> decoded_text[0:95] 'エルモサの場合は1年程経過して徐々にではあるんですけど、少し大きくなってきちゃいました' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'"
+ ],
+ "n_oov_chars": 42,
+ "oov_ratio": 0.9767441860465116,
+ "oov_charset": "[\"エ\", \"ル\", \"モ\", \"サ\", \"の\", \"場\", \"合\", \"は\", \"年\", \"程\", \"経\", \"過\", \"し\", \"て\", \"徐\", \"々\", \"に\", \"で\", \"あ\", \"る\", \"ん\", \"す\", \"け\", \"ど\", \"、\", \"少\", \"大\", \"き\", \"く\", \"な\", \"っ\", \"ち\", \"ゃ\", \"い\", \"ま\", \"た\"]"
+ },
+ {
+ "text": "ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:60] --> decoded_text[0:125] 'ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'"
+ ],
+ "n_oov_chars": 60,
+ "oov_ratio": 1.0,
+ "oov_charset": "[\"た\", \"だ\", \"、\", \"こ\", \"れ\", \"ま\", \"で\", \"お\", \"散\", \"歩\", \"仲\", \"間\", \"か\", \"ら\", \"は\", \"指\", \"摘\", \"と\", \"さ\", \"な\", \"い\", \"の\", \"ち\", \"言\", \"わ\", \"け\", \"ば\", \"そ\", \"ん\", \"に\", \"目\", \"立\", \"つ\", \"程\", \"す\", \"ど\", \"ね\", \"。\"]"
+ },
+ {
+ "text": "昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:40] --> decoded_text[0:101] '昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'"
+ ],
+ "n_oov_chars": 40,
+ "oov_ratio": 1.0,
+ "oov_charset": "[\"昔\", \"は\", \"ヒ\", \"ア\", \"ル\", \"ロ\", \"ン\", \"酸\", \"の\", \"目\", \"薬\", \"な\", \"ど\", \"も\", \"処\", \"方\", \"さ\", \"れ\", \"て\", \"た\", \"よ\", \"う\", \"で\", \"す\", \"が\", \"、\", \"こ\", \"効\", \"く\", \"事\", \"い\", \"そ\", \"。\"]"
+ },
+ {
+ "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:27] --> decoded_text[0:5] 'なので、エルディとのお散歩でも訪れたことがありません。' --> '[UNK]'",
+ "replace text[28:64] --> decoded_text[6:155] 'カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'"
+ ],
+ "n_oov_chars": 64,
+ "oov_ratio": 1.0,
+ "oov_charset": "[\"な\", \"の\", \"で\", \"、\", \"エ\", \"ル\", \"デ\", \"ィ\", \"と\", \"お\", \"散\", \"歩\", \"も\", \"訪\", \"れ\", \"た\", \"こ\", \"が\", \"あ\", \"り\", \"ま\", \"せ\", \"ん\", \"。\", \" \", \"カ\", \"タ\", \"ク\", \"リ\", \"花\", \"5\", \"分\", \"咲\", \"き\", \"情\", \"報\", \"か\", \"ら\", \"今\", \"回\", \"コ\", \"ー\", \"ス\", \"1\", \"つ\", \"に\", \"取\", \"入\", \"て\", \"み\", \"し\"]"
+ },
+ {
+ "text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]",
+ "diff": [
+ "replace text[0:71] --> decoded_text[0:125] '前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました' --> '[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'"
+ ],
+ "n_oov_chars": 71,
+ "oov_ratio": 1.0,
+ "oov_charset": "[\"前\", \"々\", \"か\", \"ら\", \"走\", \"っ\", \"て\", \"み\", \"た\", \"ん\", \"だ\", \"け\", \"ど\", \"、\", \"い\", \"つ\", \"も\", \"陸\", \"上\", \"部\", \"し\", \"き\", \"学\", \"生\", \"さ\", \"が\", \"の\", \"す\", \"ご\", \"ス\", \"ピ\", \"ー\", \"ド\", \"で\", \"駆\", \"抜\", \"く\", \"を\", \"目\", \"当\", \"り\", \"に\", \"ち\", \"ょ\", \"と\", \"ビ\", \"お\", \"ま\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.ko.diff.json b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.ko.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..62d24f91184ca5abc393ef686d98591c730d658b
--- /dev/null
+++ b/stats/compression_rate/google-bert.bert-base-german-cased @ cc100.ko.diff.json
@@ -0,0 +1,253 @@
+[
+ {
+ "text": "+ HOME > 라이브스코어",
+ "decoded_text": "+ HOME > [UNK]",
+ "diff": [
+ "replace text[9:15] --> decoded_text[9:14] '라이브스코어' --> '[UNK]'"
+ ],
+ "n_oov_chars": 6,
+ "oov_ratio": 0.4,
+ "oov_charset": "[\"라\", \"이\", \"브\", \"스\", \"코\", \"어\"]"
+ },
+ {
+ "text": "특히 주소 15~17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.",
+ "decoded_text": "[UNK] [UNK] 15 ~ [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:2] --> decoded_text[0:5] '특히' --> '[UNK]'",
+ "replace text[3:5] --> decoded_text[6:11] '주소' --> '[UNK]'",
+ "insert text[8:8] --> decoded_text[14:15] '' --> ' '",
+ "delete text[9:12] --> decoded_text[16:16] '17번' --> ''",
+ "replace text[13:16] --> decoded_text[17:22] '홀에선' --> '[UNK]'",
+ "replace text[17:20] --> decoded_text[23:28] '3연속' --> '[UNK]'",
+ "replace text[21:24] --> decoded_text[29:34] '보기로' --> '[UNK]'",
+ "replace text[25:33] --> decoded_text[35:40] '황금의제국카지노' --> '[UNK]'",
+ "replace text[34:39] --> decoded_text[41:52] '홀아웃했다' --> '[UNK] [UNK]'"
+ ],
+ "n_oov_chars": 26,
+ "oov_ratio": 0.65,
+ "oov_charset": "[\"특\", \"히\", \"주\", \"소\", \"번\", \"홀\", \"에\", \"선\", \"연\", \"속\", \"보\", \"기\", \"로\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"아\", \"웃\", \"했\", \"다\"]"
+ },
+ {
+ "text": "1편인'신과함께-죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.",
+ "decoded_text": "[UNK]'[UNK] - [UNK] [UNK]'[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:3] --> decoded_text[0:5] '1편인' --> '[UNK]'",
+ "replace text[4:8] --> decoded_text[6:12] '신과함께' --> '[UNK] '",
+ "delete text[9:11] --> decoded_text[13:13] '죄와' --> ''",
+ "replace text[12:13] --> decoded_text[14:25] '벌' --> '[UNK] [UNK]'",
+ "replace text[14:15] --> decoded_text[26:31] '이' --> '[UNK]'",
+ "replace text[16:19] --> decoded_text[32:37] '천만을' --> '[UNK]'",
+ "replace text[20:22] --> decoded_text[38:43] '넘은' --> '[UNK]'",
+ "replace text[23:25] --> decoded_text[44:49] '만큼' --> '[UNK]'",
+ "replace text[26:29] --> decoded_text[50:55] '2편을' --> '[UNK]'",
+ "replace text[30:33] --> decoded_text[56:61] '기다린' --> '[UNK]'",
+ "replace text[34:42] --> decoded_text[62:67] '황금의제국카지노' --> '[UNK]'",
+ "replace text[43:47] --> decoded_text[68:73] '관객들의' --> '[UNK]'",
+ "replace text[48:51] --> decoded_text[74:79] '기대와' --> '[UNK]'",
+ "replace text[52:54] --> decoded_text[80:85] '주소' --> '[UNK]'",
+ "replace text[55:58] --> decoded_text[86:91] '관심은' --> '[UNK]'",
+ "replace text[59:64] --> decoded_text[92:97] '폭발적이다' --> '[UNK]'"
+ ],
+ "n_oov_chars": 47,
+ "oov_ratio": 0.7230769230769231,
+ "oov_charset": "[\"편\", \"인\", \"신\", \"과\", \"함\", \"께\", \"죄\", \"와\", \"벌\", \"이\", \"천\", \"만\", \"을\", \"넘\", \"은\", \"큼\", \"기\", \"다\", \"린\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"관\", \"객\", \"들\", \"대\", \"주\", \"소\", \"심\", \"폭\", \"발\", \"적\"]"
+ },
+ {
+ "text": "고려해서 주소 '대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.",
+ "decoded_text": "[UNK] [UNK]'[UNK] [UNK]'[UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:4] --> decoded_text[0:5] '고려해서' --> '[UNK]'",
+ "replace text[5:7] --> decoded_text[6:17] '주소' --> \"[UNK]'[UNK]\"",
+ "insert text[8:8] --> decoded_text[18:23] '' --> '[UNK]'",
+ "replace text[9:12] --> decoded_text[24:29] '대체재' --> '[UNK]'",
+ "replace text[13:17] --> decoded_text[30:35] \"일색'의\" --> '[UNK]'",
+ "replace text[18:21] --> decoded_text[36:41] '분재를' --> '[UNK]'",
+ "replace text[22:25] --> decoded_text[42:47] '내놓을' --> '[UNK]'",
+ "replace text[26:32] --> decoded_text[48:53] '위험이 있다' --> '[UNK]'",
+ "replace text[34:37] --> decoded_text[55:60] '문학의' --> '[UNK]'",
+ "replace text[38:41] --> decoded_text[61:66] '자유를' --> '[UNK]'",
+ "replace text[42:46] --> decoded_text[67:72] '소설가가' --> '[UNK]'",
+ "replace text[47:50] --> decoded_text[73:78] '스스로' --> '[UNK]'",
+ "replace text[51:59] --> decoded_text[79:84] '황금의제국카지노' --> '[UNK]'",
+ "replace text[60:64] --> decoded_text[85:90] '출판사에' --> '[UNK]'",
+ "replace text[65:69] --> decoded_text[91:96] '상납하는' --> '[UNK]'",
+ "replace text[70:73] --> decoded_text[97:102] '것이다' --> '[UNK]'"
+ ],
+ "n_oov_chars": 55,
+ "oov_ratio": 0.7432432432432432,
+ "oov_charset": "[\"고\", \"려\", \"해\", \"서\", \"주\", \"소\", \"대\", \"체\", \"재\", \"일\", \"색\", \"의\", \"분\", \"를\", \"내\", \"놓\", \"을\", \"위\", \"험\", \"이\", \"있\", \"다\", \"문\", \"학\", \"자\", \"유\", \"설\", \"가\", \"스\", \"로\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"출\", \"판\", \"사\", \"에\", \"상\", \"납\", \"하\", \"는\", \"것\"]"
+ },
+ {
+ "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] ( 22 ) [UNK] [UNK] [UNK] ( [UNK] [UNK] ) [UNK] (. 246. 270. 508 ). [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:6] --> decoded_text[0:5] '조시도널슨의' --> '[UNK]'",
+ "replace text[7:9] --> decoded_text[6:11] '유산' --> '[UNK]'",
+ "replace text[10:14] --> decoded_text[12:17] '프랭클린' --> '[UNK]'",
+ "replace text[15:17] --> decoded_text[18:23] '주소' --> '[UNK]'",
+ "replace text[18:21] --> decoded_text[24:30] '바레토' --> '[UNK] '",
+ "insert text[22:22] --> decoded_text[31:32] '' --> ' '",
+ "delete text[24:26] --> decoded_text[34:34] ')는' --> ''",
+ "delete text[27:49] --> decoded_text[35:35] '황금의제국카지노 4타수3안타(2루타 홈런' --> ''",
+ "replace text[51:54] --> decoded_text[37:77] '3타점' --> '[UNK] [UNK] [UNK] ( [UNK] [UNK] ) [UNK] '",
+ "insert text[56:56] --> decoded_text[79:80] '' --> ' '",
+ "insert text[59:59] --> decoded_text[83:84] '' --> '.'",
+ "delete text[60:61] --> decoded_text[85:85] '.' --> ''",
+ "insert text[64:64] --> decoded_text[88:89] '' --> '.'",
+ "delete text[65:66] --> decoded_text[90:90] '.' --> ''",
+ "insert text[69:69] --> decoded_text[93:94] '' --> ' '",
+ "replace text[72:75] --> decoded_text[97:102] '하지만' --> '[UNK]'",
+ "replace text[76:79] --> decoded_text[103:108] '아직은' --> '[UNK]'",
+ "replace text[80:84] --> decoded_text[109:114] '트레이드' --> '[UNK]'",
+ "replace text[85:88] --> decoded_text[115:120] '당시의' --> '[UNK]'",
+ "replace text[89:93] --> decoded_text[121:126] '기대치를' --> '[UNK]'",
+ "replace text[94:98] --> decoded_text[127:132] '보여주지' --> '[UNK]'",
+ "replace text[99:102] --> decoded_text[133:138] '못하고' --> '[UNK]'",
+ "replace text[103:105] --> decoded_text[139:144] '있다' --> '[UNK]'"
+ ],
+ "n_oov_chars": 62,
+ "oov_ratio": 0.5849056603773585,
+ "oov_charset": "[\"조\", \"시\", \"도\", \"널\", \"슨\", \"의\", \"유\", \"산\", \"프\", \"랭\", \"클\", \"린\", \"주\", \"소\", \"바\", \"레\", \"토\", \"는\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"타\", \"수\", \"안\", \"루\", \"홈\", \"런\", \"점\", \"하\", \"만\", \"아\", \"직\", \"은\", \"트\", \"이\", \"드\", \"당\", \"기\", \"대\", \"치\", \"를\", \"보\", \"여\", \"못\", \"고\", \"있\", \"다\"]"
+ },
+ {
+ "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK]. [UNK] A, [UNK] [UNK] [UNK] - [UNK] - [UNK] [UNK] [UNK], C, D, [UNK] E, [UNK] [UNK] [UNK] [UNK] - [UNK] - [UNK] - [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:6] --> decoded_text[0:5] '여기서승리한' --> '[UNK]'",
+ "replace text[7:10] --> decoded_text[6:11] '2팀이' --> '[UNK]'",
+ "replace text[11:15] --> decoded_text[12:17] '준결승에' --> '[UNK]'",
+ "replace text[16:19] --> decoded_text[18:23] '오른다' --> '[UNK]'",
+ "replace text[21:23] --> decoded_text[25:30] '결국' --> '[UNK]'",
+ "replace text[27:29] --> decoded_text[34:39] 'B조' --> '[UNK]'",
+ "replace text[30:33] --> decoded_text[40:45] '1위는' --> '[UNK]'",
+ "replace text[34:37] --> decoded_text[46:52] '12강' --> '[UNK] '",
+ "replace text[38:40] --> decoded_text[53:60] '4강' --> ' [UNK] '",
+ "delete text[41:45] --> decoded_text[61:61] '결승으로' --> ''",
+ "replace text[46:50] --> decoded_text[62:67] '3경기를' --> '[UNK]'",
+ "replace text[51:55] --> decoded_text[68:79] '치르지만' --> '[UNK] [UNK]'",
+ "replace text[63:71] --> decoded_text[87:92] '황금의제국카지노' --> '[UNK]'",
+ "replace text[75:77] --> decoded_text[96:101] 'F조' --> '[UNK]'",
+ "replace text[78:81] --> decoded_text[102:107] '1위는' --> '[UNK]'",
+ "replace text[82:84] --> decoded_text[108:113] '주소' --> '[UNK]'",
+ "replace text[85:88] --> decoded_text[114:120] '12강' --> '[UNK] '",
+ "replace text[89:91] --> decoded_text[121:128] '6강' --> ' [UNK] '",
+ "replace text[92:94] --> decoded_text[129:136] '4강' --> ' [UNK] '",
+ "delete text[95:99] --> decoded_text[137:137] '결승으로' --> ''",
+ "replace text[100:104] --> decoded_text[138:143] '4경기를' --> '[UNK]'",
+ "replace text[105:107] --> decoded_text[144:149] '해야' --> '[UNK]'",
+ "replace text[108:110] --> decoded_text[150:161] '한다' --> '[UNK] [UNK]'"
+ ],
+ "n_oov_chars": 60,
+ "oov_ratio": 0.5405405405405406,
+ "oov_charset": "[\"여\", \"기\", \"서\", \"승\", \"리\", \"한\", \"팀\", \"이\", \"준\", \"결\", \"에\", \"오\", \"른\", \"다\", \"국\", \"조\", \"위\", \"는\", \"강\", \"으\", \"로\", \"경\", \"를\", \"치\", \"르\", \"지\", \"만\", \"황\", \"금\", \"의\", \"제\", \"카\", \"노\", \"주\", \"소\", \"해\", \"야\"]"
+ },
+ {
+ "text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 '실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]'[UNK] [UNK] [UNK]'[UNK] [UNK], [UNK] [UNK].",
+ "diff": [
+ "replace text[0:4] --> decoded_text[0:5] '또한이날' --> '[UNK]'",
+ "replace text[5:8] --> decoded_text[6:11] '눈길을' --> '[UNK]'",
+ "replace text[9:11] --> decoded_text[12:17] '주소' --> '[UNK]'",
+ "replace text[12:13] --> decoded_text[18:23] '끈' --> '[UNK]'",
+ "replace text[14:16] --> decoded_text[24:29] '것은' --> '[UNK]'",
+ "replace text[17:18] --> decoded_text[30:35] '한' --> '[UNK]'",
+ "replace text[19:24] --> decoded_text[36:41] '신인배우의' --> '[UNK]'",
+ "replace text[25:30] --> decoded_text[42:47] '매니저였다' --> '[UNK]'",
+ "replace text[32:40] --> decoded_text[49:54] '황금의제국카지노' --> '[UNK]'",
+ "replace text[41:44] --> decoded_text[55:60] '배우의' --> '[UNK]'",
+ "replace text[45:48] --> decoded_text[61:66] '매니저' --> '[UNK]'",
+ "replace text[49:51] --> decoded_text[67:72] '일을' --> '[UNK]'",
+ "replace text[52:54] --> decoded_text[73:78] '하고' --> '[UNK]'",
+ "replace text[55:58] --> decoded_text[79:84] '있다는' --> '[UNK]'",
+ "replace text[59:60] --> decoded_text[85:90] '한' --> '[UNK]'",
+ "replace text[61:65] --> decoded_text[91:96] '청취자의' --> '[UNK]'",
+ "replace text[66:69] --> decoded_text[97:102] '사연에' --> '[UNK]'",
+ "replace text[70:74] --> decoded_text[103:114] '박명수는' --> \"[UNK]'[UNK]\"",
+ "insert text[75:75] --> decoded_text[115:126] '' --> '[UNK] [UNK]'",
+ "replace text[76:79] --> decoded_text[127:132] '실시간' --> '[UNK]'",
+ "replace text[80:96] --> decoded_text[133:138] \"검색어 1위'를 만들어주겠다며\" --> '[UNK]'",
+ "replace text[98:103] --> decoded_text[140:145] '통화연결을' --> '[UNK]'",
+ "replace text[104:106] --> decoded_text[146:151] '했다' --> '[UNK]'"
+ ],
+ "n_oov_chars": 101,
+ "oov_ratio": 0.9439252336448598,
+ "oov_charset": "[\"또\", \"한\", \"이\", \"날\", \" \", \"눈\", \"길\", \"을\", \"주\", \"소\", \"끈\", \"것\", \"은\", \"신\", \"인\", \"배\", \"우\", \"의\", \"매\", \"니\", \"저\", \"였\", \"다\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"일\", \"하\", \"고\", \"있\", \"는\", \"청\", \"취\", \"자\", \"사\", \"연\", \"에\", \"박\", \"명\", \"수\", \"실\", \"시\", \"간\", \"검\", \"색\", \"어\", \"위\", \"를\", \"만\", \"들\", \"겠\", \"며\", \"통\", \"화\", \"결\", \"했\"]"
+ },
+ {
+ "text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다.",
+ "decoded_text": "[UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:5] --> decoded_text[0:5] '하지만이번' --> '[UNK]'",
+ "replace text[6:14] --> decoded_text[6:11] '황금의제국카지노' --> '[UNK]'",
+ "replace text[15:17] --> decoded_text[12:17] '시즌' --> '[UNK]'",
+ "replace text[19:23] --> decoded_text[19:24] '호날두와' --> '[UNK]'",
+ "replace text[24:28] --> decoded_text[25:30] '이과인이' --> '[UNK]'",
+ "replace text[29:31] --> decoded_text[31:36] '다시' --> '[UNK]'",
+ "replace text[32:34] --> decoded_text[37:42] '주소' --> '[UNK]'",
+ "replace text[35:39] --> decoded_text[43:48] '한솥밥을' --> '[UNK]'",
+ "replace text[40:42] --> decoded_text[49:54] '먹는' --> '[UNK]'",
+ "replace text[43:45] --> decoded_text[55:60] '일이' --> '[UNK]'",
+ "replace text[46:50] --> decoded_text[61:66] '성사됐다' --> '[UNK]'",
+ "replace text[52:56] --> decoded_text[68:73] '호날두가' --> '[UNK]'",
+ "replace text[57:59] --> decoded_text[74:79] '‘빅' --> '[UNK]'",
+ "replace text[60:65] --> decoded_text[80:85] '사이닝’을' --> '[UNK]'",
+ "replace text[66:68] --> decoded_text[86:91] '통해' --> '[UNK]'",
+ "replace text[69:74] --> decoded_text[92:97] '유벤투스로' --> '[UNK]'",
+ "replace text[75:78] --> decoded_text[98:103] '옮겼기' --> '[UNK]'",
+ "replace text[79:83] --> decoded_text[104:127] '때문이다' --> '[UNK] [UNK] [UNK] [UNK]'"
+ ],
+ "n_oov_chars": 81,
+ "oov_ratio": 0.9642857142857143,
+ "oov_charset": "[\"하\", \"지\", \"만\", \"이\", \"번\", \" \", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"노\", \"시\", \"즌\", \"호\", \"날\", \"두\", \"와\", \"과\", \"인\", \"다\", \"주\", \"소\", \"한\", \"솥\", \"밥\", \"을\", \"먹\", \"는\", \"일\", \"성\", \"사\", \"됐\", \"가\", \"‘\", \"빅\", \"닝\", \"’\", \"통\", \"해\", \"유\", \"벤\", \"투\", \"스\", \"로\", \"옮\", \"겼\", \"기\", \"때\", \"문\"]"
+ },
+ {
+ "text": "현대캐피탈은삼성화재와 시범경기를 위해 홍천에 황금의제국카지노 주소 왔다.",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:11] --> decoded_text[0:5] '현대캐피탈은삼성화재와' --> '[UNK]'",
+ "replace text[12:17] --> decoded_text[6:11] '시범경기를' --> '[UNK]'",
+ "replace text[18:20] --> decoded_text[12:17] '위해' --> '[UNK]'",
+ "replace text[21:24] --> decoded_text[18:23] '홍천에' --> '[UNK]'",
+ "replace text[25:33] --> decoded_text[24:29] '황금의제국카지노' --> '[UNK]'",
+ "replace text[34:36] --> decoded_text[30:35] '주소' --> '[UNK]'",
+ "replace text[37:39] --> decoded_text[36:41] '왔다' --> '[UNK]'"
+ ],
+ "n_oov_chars": 39,
+ "oov_ratio": 0.975,
+ "oov_charset": "[\"현\", \"대\", \"캐\", \"피\", \"탈\", \"은\", \"삼\", \"성\", \"화\", \"재\", \"와\", \" \", \"시\", \"범\", \"경\", \"기\", \"를\", \"위\", \"해\", \"홍\", \"천\", \"에\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"주\", \"소\", \"왔\", \"다\"]"
+ },
+ {
+ "text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.",
+ "decoded_text": "[UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK], [UNK] [UNK] [UNK] [UNK] [UNK] [UNK]. [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK] [UNK].",
+ "diff": [
+ "replace text[0:5] --> decoded_text[0:5] '사실자매가' --> '[UNK]'",
+ "replace text[6:9] --> decoded_text[6:11] '나란히' --> '[UNK]'",
+ "replace text[10:12] --> decoded_text[12:17] '앉아' --> '[UNK]'",
+ "replace text[13:17] --> decoded_text[18:23] '인터뷰를' --> '[UNK]'",
+ "replace text[18:21] --> decoded_text[24:29] '한다는' --> '[UNK]'",
+ "replace text[22:23] --> decoded_text[30:35] '게' --> '[UNK]'",
+ "replace text[24:28] --> decoded_text[36:41] '쑥스러울' --> '[UNK]'",
+ "replace text[29:31] --> decoded_text[42:47] '법도' --> '[UNK]'",
+ "replace text[32:34] --> decoded_text[48:53] '한데' --> '[UNK]'",
+ "replace text[36:38] --> decoded_text[55:60] '주소' --> '[UNK]'",
+ "replace text[39:40] --> decoded_text[61:66] '둘' --> '[UNK]'",
+ "replace text[41:45] --> decoded_text[67:72] '사이에는' --> '[UNK]'",
+ "replace text[46:48] --> decoded_text[73:78] '어떤' --> '[UNK]'",
+ "replace text[49:53] --> decoded_text[79:84] '거리낌도' --> '[UNK]'",
+ "replace text[54:57] --> decoded_text[85:90] '없었다' --> '[UNK]'",
+ "replace text[59:61] --> decoded_text[92:97] '마치' --> '[UNK]'",
+ "replace text[62:65] --> decoded_text[98:103] '하루에' --> '[UNK]'",
+ "replace text[66:67] --> decoded_text[104:109] '한' --> '[UNK]'",
+ "replace text[68:70] --> decoded_text[110:115] '번씩' --> '[UNK]'",
+ "replace text[71:74] --> decoded_text[116:121] '만나는' --> '[UNK]'",
+ "replace text[75:77] --> decoded_text[122:127] '친구' --> '[UNK]'",
+ "replace text[78:80] --> decoded_text[128:133] '같은' --> '[UNK]'",
+ "replace text[81:84] --> decoded_text[134:139] '느낌이' --> '[UNK]'",
+ "replace text[85:93] --> decoded_text[140:145] '황금의제국카지노' --> '[UNK]'",
+ "replace text[94:97] --> decoded_text[146:151] '강했다' --> '[UNK]'"
+ ],
+ "n_oov_chars": 95,
+ "oov_ratio": 0.9693877551020408,
+ "oov_charset": "[\"사\", \"실\", \"자\", \"매\", \"가\", \" \", \"나\", \"란\", \"히\", \"앉\", \"아\", \"인\", \"터\", \"뷰\", \"를\", \"한\", \"다\", \"는\", \"게\", \"쑥\", \"스\", \"러\", \"울\", \"법\", \"도\", \"데\", \"주\", \"소\", \"둘\", \"이\", \"에\", \"어\", \"떤\", \"거\", \"리\", \"낌\", \"없\", \"었\", \"마\", \"치\", \"하\", \"루\", \"번\", \"씩\", \"만\", \"친\", \"구\", \"같\", \"은\", \"느\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"강\", \"했\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.ar.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.ar.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..bfaee4fc1423507789b97a664221eb50dc98187d
--- /dev/null
+++ b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.ar.diff.json
@@ -0,0 +1,109 @@
+[
+ {
+ "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)",
+ "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1 )",
+ "diff": [
+ "delete text[42:43] --> decoded_text[42:42] ' ' --> ''",
+ "insert text[49:49] --> decoded_text[48:49] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..",
+ "decoded_text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي ( تردف ) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..",
+ "diff": [
+ "replace text[886:890] --> decoded_text[886:892] 'تردف' --> ' تردف '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
+ "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن - وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
+ "diff": [
+ "insert text[84:84] --> decoded_text[84:85] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي..؟!",
+ "decoded_text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي.. ؟!",
+ "diff": [
+ "insert text[405:405] --> decoded_text[405:406] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "هل ينفض الذين يمموا صوب الرياض غبار الاستكانة والارتهان وقرارات الغير, وهل يفيق المتعامون من نومهم المغناطيسي في أبو ظبي, لأن لا سبيل لهم إلا العودة إلى حضن الوطن إلى صنعاء إلى عدن..؟!",
+ "decoded_text": "هل ينفض الذين يمموا صوب الرياض غبار الاستكانة والارتهان وقرارات الغير, وهل يفيق المتعامون من نومهم المغناطيسي في أبو ظبي, لأن لا سبيل لهم إلا العودة إلى حضن الوطن إلى صنعاء إلى عدن.. ؟!",
+ "diff": [
+ "insert text[182:182] --> decoded_text[182:183] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "ويبقى أمام ضمائر أولئك الذين ذهبوا في عمرة طويلة إلى الرياض وإلى أبو ظبي وإلى الدوحة وإلى اسطنبول.. هل يرضيهم أن يروا الوطن يعيش كل هذه المتاعب والمشاكل والتدمير؟!",
+ "decoded_text": "ويبقى أمام ضمائر أولئك الذين ذهبوا في عمرة طويلة إلى الرياض وإلى أبو ظبي وإلى الدوحة وإلى اسطنبول.. هل يرضيهم أن يروا الوطن يعيش كل هذه المتاعب والمشاكل والتدمير ؟!",
+ "diff": [
+ "insert text[161:161] --> decoded_text[161:162] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "هل من الإنصاف أن يروا أبناء وطنهم وشعبهم يعانون من حصار أربع سنوات عجاف.. أين ذهبت كل تلك المواعظ والوطنية والكلام الكبير الذي كانوا ينهالون به علينا صباحاً ومساءً.. هل كانوا \"كذبة كبيرة\" وافتراء تماهت مع \"شيكات\" الدفع المسبق!!",
+ "decoded_text": "هل من الإنصاف أن يروا أبناء وطنهم وشعبهم يعانون من حصار أربع سنوات عجاف.. أين ذهبت كل تلك المواعظ والوطنية والكلام الكبير الذي كانوا ينهالون به علينا صباحاً ومساءً.. هل كانوا \" كذبة كبيرة \" وافتراء تماهت مع \" شيكات \" الدفع المسبق!!",
+ "diff": [
+ "insert text[176:176] --> decoded_text[176:177] '' --> ' '",
+ "insert text[186:186] --> decoded_text[187:188] '' --> ' '",
+ "insert text[206:206] --> decoded_text[208:209] '' --> ' '",
+ "insert text[211:211] --> decoded_text[214:215] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "موضوع: الاسئلة والاجوبة الجمعة سبتمبر 24, 2010 3:08 am",
+ "decoded_text": "موضوع : الاسئلة والاجوبة الجمعة سبتمبر 24, 2010 3 : 08 am",
+ "diff": [
+ "insert text[5:5] --> decoded_text[5:6] '' --> ' '",
+ "insert text[48:48] --> decoded_text[49:50] '' --> ' '",
+ "insert text[49:49] --> decoded_text[51:52] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "سـ3:ما الهدف من دراسة التاريخ ؟",
+ "decoded_text": "سـ3 : ما الهدف من دراسة التاريخ ؟",
+ "diff": [
+ "insert text[3:3] --> decoded_text[3:4] '' --> ' '",
+ "insert text[4:4] --> decoded_text[5:6] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.",
+ "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.",
+ "diff": [
+ "delete text[45:46] --> decoded_text[45:45] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.de.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.de.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..f4ed543c7d0627f7c53e35fe71bea23b976851f0
--- /dev/null
+++ b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.de.diff.json
@@ -0,0 +1,133 @@
+[
+ {
+ "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.",
+ "decoded_text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „ Püngel - Weihnacht [UNK] in Siegburg - Kaldauen um 18 Uhr ( Einlass 17. 30 Uhr ) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18, 50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.",
+ "diff": [
+ "insert text[59:59] --> decoded_text[59:60] '' --> ' '",
+ "insert text[65:65] --> decoded_text[66:67] '' --> ' '",
+ "insert text[66:66] --> decoded_text[68:69] '' --> ' '",
+ "replace text[75:76] --> decoded_text[78:84] '“' --> ' [UNK]'",
+ "insert text[88:88] --> decoded_text[96:97] '' --> ' '",
+ "insert text[89:89] --> decoded_text[98:99] '' --> ' '",
+ "insert text[109:109] --> decoded_text[119:120] '' --> ' '",
+ "insert text[120:120] --> decoded_text[131:132] '' --> ' '",
+ "insert text[126:126] --> decoded_text[138:139] '' --> ' '",
+ "insert text[199:199] --> decoded_text[212:213] '' --> ' '"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.0035714285714285713,
+ "oov_charset": "[\"“\"]"
+ },
+ {
+ "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.",
+ "decoded_text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „ Püngel - Weihnacht [UNK] an.",
+ "diff": [
+ "insert text[58:58] --> decoded_text[58:59] '' --> ' '",
+ "insert text[64:64] --> decoded_text[65:66] '' --> ' '",
+ "insert text[65:65] --> decoded_text[67:68] '' --> ' '",
+ "replace text[74:75] --> decoded_text[77:83] '“' --> ' [UNK]'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.012658227848101266,
+ "oov_charset": "[\"“\"]"
+ },
+ {
+ "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de",
+ "decoded_text": "02683 967019. Die Karten können auch per Email bestellt werden : En - Koelsche - Weihnachtsfeier @ t - online. de",
+ "diff": [
+ "insert text[62:62] --> decoded_text[62:63] '' --> ' '",
+ "insert text[66:66] --> decoded_text[67:68] '' --> ' '",
+ "insert text[67:67] --> decoded_text[69:70] '' --> ' '",
+ "insert text[75:75] --> decoded_text[78:79] '' --> ' '",
+ "insert text[76:76] --> decoded_text[80:81] '' --> ' '",
+ "insert text[91:91] --> decoded_text[96:97] '' --> ' '",
+ "insert text[92:92] --> decoded_text[98:99] '' --> ' '",
+ "insert text[93:93] --> decoded_text[100:101] '' --> ' '",
+ "insert text[94:94] --> decoded_text[102:103] '' --> ' '",
+ "insert text[101:101] --> decoded_text[110:111] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.",
+ "decoded_text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E - Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.",
+ "diff": [
+ "insert text[200:200] --> decoded_text[200:201] '' --> ' '",
+ "insert text[201:201] --> decoded_text[202:203] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.",
+ "decoded_text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten ( wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw. ) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.",
+ "diff": [
+ "insert text[176:176] --> decoded_text[176:177] '' --> ' '",
+ "insert text[394:394] --> decoded_text[395:396] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;",
+ "decoded_text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt ;",
+ "diff": [
+ "insert text[188:188] --> decoded_text[188:189] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);",
+ "decoded_text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten ( z. B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen ) ;",
+ "diff": [
+ "insert text[87:87] --> decoded_text[87:88] '' --> ' '",
+ "insert text[89:89] --> decoded_text[90:91] '' --> ' '",
+ "insert text[188:188] --> decoded_text[190:191] '' --> ' '",
+ "insert text[189:189] --> decoded_text[192:193] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Darüber hinaus unterliegen wir verschiedenen Aufbewahrungs- und Dokumentationspflichten, die sich unter anderem aus dem Handelsgesetzbuch (HGB) und der Abgabenordnung (AO), ergeben. Die dort vorgegebenen Fristen zur Aufbewahrung bzw. Dokumentation betragen bis zehn Jahre über das Ende der Vertragsbeziehung oder des vorvertraglichen Rechtsverhältnisses hinaus.",
+ "decoded_text": "Darüber hinaus unterliegen wir verschiedenen Aufbewahrungs - und Dokumentationspflichten, die sich unter anderem aus dem Handelsgesetzbuch ( HGB ) und der Abgabenordnung ( AO ), ergeben. Die dort vorgegebenen Fristen zur Aufbewahrung bzw. Dokumentation betragen bis zehn Jahre über das Ende der Vertragsbeziehung oder des vorvertraglichen Rechtsverhältnisses hinaus.",
+ "diff": [
+ "insert text[58:58] --> decoded_text[58:59] '' --> ' '",
+ "insert text[139:139] --> decoded_text[140:141] '' --> ' '",
+ "insert text[142:142] --> decoded_text[144:145] '' --> ' '",
+ "insert text[168:168] --> decoded_text[171:172] '' --> ' '",
+ "insert text[170:170] --> decoded_text[174:175] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Ihre Bewerbungsunterlagen werden Ihnen bei Nicht-Einstellung nach Ablauf von sechs Monaten im Original zurückgegeben. Elektronische Daten werden nach sechs Monaten entsprechend gelöscht.",
+ "decoded_text": "Ihre Bewerbungsunterlagen werden Ihnen bei Nicht - Einstellung nach Ablauf von sechs Monaten im Original zurückgegeben. Elektronische Daten werden nach sechs Monaten entsprechend gelöscht.",
+ "diff": [
+ "insert text[48:48] --> decoded_text[48:49] '' --> ' '",
+ "insert text[49:49] --> decoded_text[50:51] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "Sollten wir Ihre Daten für spätere Vakanzen länger speichern wollen oder Sie Ihre Daten in einen Bewerberpool eingestellt haben, werden die Daten zu späteren Zeitpunkten gelöscht; Einzelheiten dazu werden Ihnen im Zusammenhang mit dem jeweiligen Prozess mitgeteilt.",
+ "decoded_text": "Sollten wir Ihre Daten für spätere Vakanzen länger speichern wollen oder Sie Ihre Daten in einen Bewerberpool eingestellt haben, werden die Daten zu späteren Zeitpunkten gelöscht ; Einzelheiten dazu werden Ihnen im Zusammenhang mit dem jeweiligen Prozess mitgeteilt.",
+ "diff": [
+ "insert text[178:178] --> decoded_text[178:179] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.fa.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.fa.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..dd88b7d3f054e7e9f34a4de9dce90808997a2ff2
--- /dev/null
+++ b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.fa.diff.json
@@ -0,0 +1,120 @@
+[
+ {
+ "text": "آشپزخانه کوچک من: February 2012",
+ "decoded_text": "آشپزخانه کوچک من : February 2012",
+ "diff": [
+ "insert text[16:16] --> decoded_text[16:17] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "بکینگ پودر:2 قاشق چای خوری",
+ "decoded_text": "بکینگ پودر : 2 قاشق چای خوری",
+ "diff": [
+ "insert text[10:10] --> decoded_text[10:11] '' --> ' '",
+ "insert text[11:11] --> decoded_text[12:13] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "تخم مرغ:2 عدد بزرگ",
+ "decoded_text": "تخم مرغ : 2 عدد بزرگ",
+ "diff": [
+ "insert text[7:7] --> decoded_text[7:8] '' --> ' '",
+ "insert text[8:8] --> decoded_text[9:10] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "کره:225 گرم به دمای اتاق رسیده",
+ "decoded_text": "کره : 225 گرم به دمای اتاق رسیده",
+ "diff": [
+ "insert text[3:3] --> decoded_text[3:4] '' --> ' '",
+ "insert text[4:4] --> decoded_text[5:6] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "شکر:1و1/2 پیمانه+ 3 قاشق غذا خوری",
+ "decoded_text": "شکر : 1و1 / 2 پیمانه + 3 قاشق غذا خوری",
+ "diff": [
+ "insert text[3:3] --> decoded_text[3:4] '' --> ' '",
+ "insert text[4:4] --> decoded_text[5:6] '' --> ' '",
+ "insert text[7:7] --> decoded_text[9:10] '' --> ' '",
+ "insert text[8:8] --> decoded_text[11:12] '' --> ' '",
+ "insert text[16:16] --> decoded_text[20:21] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "پودر دارچین:2 و1/2قاشق چای خوری",
+ "decoded_text": "پودر دارچین : 2 و1 / 2قاشق چای خوری",
+ "diff": [
+ "insert text[11:11] --> decoded_text[11:12] '' --> ' '",
+ "insert text[12:12] --> decoded_text[13:14] '' --> ' '",
+ "insert text[16:16] --> decoded_text[18:19] '' --> ' '",
+ "insert text[17:17] --> decoded_text[20:21] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!در Twitter به اشتراک بگذاریددر Facebook به اشتراک بگذاریداشتراکگذاری در Pinterest",
+ "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید! در Twitter به اشتراک بگذاریددر Facebook به اشتراک بگذاریداشتراکگذاری در Pinterest",
+ "diff": [
+ "replace text[46:47] --> decoded_text[46:47] '\\u200f' --> ' '",
+ "delete text[75:76] --> decoded_text[75:75] '\\u200f' --> ''",
+ "delete text[105:106] --> decoded_text[104:104] '\\u200f' --> ''",
+ "delete text[112:113] --> decoded_text[110:110] '\\u200c' --> ''"
+ ],
+ "n_oov_chars": 4,
+ "oov_ratio": 0.030534351145038167,
+ "oov_charset": "[\"\", \"\"]"
+ },
+ {
+ "text": "برچسبها: شیرینی ها",
+ "decoded_text": "برچسبها : شیرینی ها",
+ "diff": [
+ "delete text[5:6] --> decoded_text[5:5] '\\u200c' --> ''",
+ "insert text[8:8] --> decoded_text[7:8] '' --> ' '"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.05263157894736842,
+ "oov_charset": "[\"\"]"
+ },
+ {
+ "text": "ارد:1 و 1/2 پیمانه + 1 قاشق غذا خوری سر صاف سبوس گندم",
+ "decoded_text": "ارد : 1 و 1 / 2 پیمانه + 1 قاشق غذا خوری سر صاف سبوس گندم",
+ "diff": [
+ "insert text[3:3] --> decoded_text[3:4] '' --> ' '",
+ "insert text[4:4] --> decoded_text[5:6] '' --> ' '",
+ "insert text[9:9] --> decoded_text[11:12] '' --> ' '",
+ "insert text[10:10] --> decoded_text[13:14] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "رنده پوست پرتقال:1 قاشق چای خوری",
+ "decoded_text": "رنده پوست پرتقال : 1 قاشق چای خوری",
+ "diff": [
+ "insert text[16:16] --> decoded_text[16:17] '' --> ' '",
+ "insert text[17:17] --> decoded_text[18:19] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.ja.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.ja.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..e685fcad58c472111dc527bb196fe1fe9269787a
--- /dev/null
+++ b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.ja.diff.json
@@ -0,0 +1,305 @@
+[
+ {
+ "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!",
+ "decoded_text": "午 後 から 雨 が 心 配 だったので 遠 出 はせず 、 『 ふれあいロード 』 を 走 って 来 ました !",
+ "diff": [
+ "insert text[1:1] --> decoded_text[1:2] '' --> ' '",
+ "insert text[2:2] --> decoded_text[3:4] '' --> ' '",
+ "insert text[4:4] --> decoded_text[6:7] '' --> ' '",
+ "insert text[5:5] --> decoded_text[8:9] '' --> ' '",
+ "insert text[6:6] --> decoded_text[10:11] '' --> ' '",
+ "insert text[7:7] --> decoded_text[12:13] '' --> ' '",
+ "insert text[8:8] --> decoded_text[14:15] '' --> ' '",
+ "insert text[13:13] --> decoded_text[20:21] '' --> ' '",
+ "insert text[14:14] --> decoded_text[22:23] '' --> ' '",
+ "insert text[15:15] --> decoded_text[24:25] '' --> ' '",
+ "insert text[18:18] --> decoded_text[28:29] '' --> ' '",
+ "insert text[19:19] --> decoded_text[30:31] '' --> ' '",
+ "insert text[20:20] --> decoded_text[32:33] '' --> ' '",
+ "insert text[27:27] --> decoded_text[40:41] '' --> ' '",
+ "insert text[28:28] --> decoded_text[42:43] '' --> ' '",
+ "insert text[29:29] --> decoded_text[44:45] '' --> ' '",
+ "insert text[30:30] --> decoded_text[46:47] '' --> ' '",
+ "insert text[32:32] --> decoded_text[49:50] '' --> ' '",
+ "insert text[33:33] --> decoded_text[51:52] '' --> ' '",
+ "insert text[36:36] --> decoded_text[55:56] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。",
+ "decoded_text": "確 実 に 春 が 近 づいてることを 肌 で 感 じることが 出 来 ました 着 々と 整 備 されてる 圏 央 道 を 越 えるとお 世 話 になってるボウリング 場 が 見 えて 来 ました 。",
+ "diff": [
+ "insert text[1:1] --> decoded_text[1:2] '' --> ' '",
+ "insert text[2:2] --> decoded_text[3:4] '' --> ' '",
+ "insert text[3:3] --> decoded_text[5:6] '' --> ' '",
+ "insert text[4:4] --> decoded_text[7:8] '' --> ' '",
+ "insert text[5:5] --> decoded_text[9:10] '' --> ' '",
+ "insert text[6:6] --> decoded_text[11:12] '' --> ' '",
+ "insert text[13:13] --> decoded_text[19:20] '' --> ' '",
+ "insert text[14:14] --> decoded_text[21:22] '' --> ' '",
+ "insert text[15:15] --> decoded_text[23:24] '' --> ' '",
+ "insert text[16:16] --> decoded_text[25:26] '' --> ' '",
+ "insert text[21:21] --> decoded_text[31:32] '' --> ' '",
+ "insert text[22:22] --> decoded_text[33:34] '' --> ' '",
+ "insert text[23:23] --> decoded_text[35:36] '' --> ' '",
+ "insert text[28:28] --> decoded_text[41:42] '' --> ' '",
+ "insert text[30:30] --> decoded_text[44:45] '' --> ' '",
+ "insert text[31:31] --> decoded_text[46:47] '' --> ' '",
+ "insert text[32:32] --> decoded_text[48:49] '' --> ' '",
+ "insert text[36:36] --> decoded_text[53:54] '' --> ' '",
+ "insert text[37:37] --> decoded_text[55:56] '' --> ' '",
+ "insert text[38:38] --> decoded_text[57:58] '' --> ' '",
+ "insert text[39:39] --> decoded_text[59:60] '' --> ' '",
+ "insert text[40:40] --> decoded_text[61:62] '' --> ' '",
+ "insert text[41:41] --> decoded_text[63:64] '' --> ' '",
+ "insert text[45:45] --> decoded_text[68:69] '' --> ' '",
+ "insert text[46:46] --> decoded_text[70:71] '' --> ' '",
+ "insert text[47:47] --> decoded_text[72:73] '' --> ' '",
+ "insert text[57:57] --> decoded_text[83:84] '' --> ' '",
+ "insert text[58:58] --> decoded_text[85:86] '' --> ' '",
+ "insert text[59:59] --> decoded_text[87:88] '' --> ' '",
+ "insert text[60:60] --> decoded_text[89:90] '' --> ' '",
+ "insert text[62:62] --> decoded_text[92:93] '' --> ' '",
+ "insert text[63:63] --> decoded_text[94:95] '' --> ' '",
+ "insert text[66:66] --> decoded_text[98:99] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。",
+ "decoded_text": "[UNK] 〜 〜 、 私 が 途 中 でトイレに 行 きたくなってしまい 、 通 り 道 にあったケンタに 変 更 しちゃいました 。",
+ "diff": [
+ "replace text[0:2] --> decoded_text[0:6] 'うぅ' --> '[UNK] '",
+ "insert text[3:3] --> decoded_text[7:8] '' --> ' '",
+ "insert text[4:4] --> decoded_text[9:10] '' --> ' '",
+ "insert text[5:5] --> decoded_text[11:12] '' --> ' '",
+ "insert text[6:6] --> decoded_text[13:14] '' --> ' '",
+ "insert text[7:7] --> decoded_text[15:16] '' --> ' '",
+ "insert text[8:8] --> decoded_text[17:18] '' --> ' '",
+ "insert text[9:9] --> decoded_text[19:20] '' --> ' '",
+ "insert text[14:14] --> decoded_text[25:26] '' --> ' '",
+ "insert text[15:15] --> decoded_text[27:28] '' --> ' '",
+ "insert text[24:24] --> decoded_text[37:38] '' --> ' '",
+ "insert text[25:25] --> decoded_text[39:40] '' --> ' '",
+ "insert text[26:26] --> decoded_text[41:42] '' --> ' '",
+ "insert text[27:27] --> decoded_text[43:44] '' --> ' '",
+ "insert text[28:28] --> decoded_text[45:46] '' --> ' '",
+ "insert text[36:36] --> decoded_text[54:55] '' --> ' '",
+ "insert text[37:37] --> decoded_text[56:57] '' --> ' '",
+ "insert text[38:38] --> decoded_text[58:59] '' --> ' '",
+ "insert text[45:45] --> decoded_text[66:67] '' --> ' '"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.021739130434782608,
+ "oov_charset": "[\"ぅ\"]"
+ },
+ {
+ "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。",
+ "decoded_text": "実 は 、 1 年 程 前 にエルモサの 右 目 の 黒 目 の 端 によ 〜 く 見 ないと 分 からない 程 の 小 さな 斑 を 見 つけてたんです 。",
+ "diff": [
+ "insert text[1:1] --> decoded_text[1:2] '' --> ' '",
+ "insert text[2:2] --> decoded_text[3:4] '' --> ' '",
+ "insert text[3:3] --> decoded_text[5:6] '' --> ' '",
+ "insert text[4:4] --> decoded_text[7:8] '' --> ' '",
+ "insert text[5:5] --> decoded_text[9:10] '' --> ' '",
+ "insert text[6:6] --> decoded_text[11:12] '' --> ' '",
+ "insert text[7:7] --> decoded_text[13:14] '' --> ' '",
+ "insert text[13:13] --> decoded_text[20:21] '' --> ' '",
+ "insert text[14:14] --> decoded_text[22:23] '' --> ' '",
+ "insert text[15:15] --> decoded_text[24:25] '' --> ' '",
+ "insert text[16:16] --> decoded_text[26:27] '' --> ' '",
+ "insert text[17:17] --> decoded_text[28:29] '' --> ' '",
+ "insert text[18:18] --> decoded_text[30:31] '' --> ' '",
+ "insert text[19:19] --> decoded_text[32:33] '' --> ' '",
+ "insert text[20:20] --> decoded_text[34:35] '' --> ' '",
+ "insert text[22:22] --> decoded_text[37:38] '' --> ' '",
+ "insert text[23:23] --> decoded_text[39:40] '' --> ' '",
+ "insert text[24:24] --> decoded_text[41:42] '' --> ' '",
+ "insert text[25:25] --> decoded_text[43:44] '' --> ' '",
+ "insert text[28:28] --> decoded_text[47:48] '' --> ' '",
+ "insert text[29:29] --> decoded_text[49:50] '' --> ' '",
+ "insert text[33:33] --> decoded_text[54:55] '' --> ' '",
+ "insert text[34:34] --> decoded_text[56:57] '' --> ' '",
+ "insert text[35:35] --> decoded_text[58:59] '' --> ' '",
+ "insert text[36:36] --> decoded_text[60:61] '' --> ' '",
+ "insert text[38:38] --> decoded_text[63:64] '' --> ' '",
+ "insert text[39:39] --> decoded_text[65:66] '' --> ' '",
+ "insert text[40:40] --> decoded_text[67:68] '' --> ' '",
+ "insert text[41:41] --> decoded_text[69:70] '' --> ' '",
+ "insert text[48:48] --> decoded_text[77:78] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。",
+ "decoded_text": "その 時 点 で 先 生 からはおそらく 『 角 膜 ジストロフィー 』 であろうとの 診 断 をもらっていました 。",
+ "diff": [
+ "insert text[2:2] --> decoded_text[2:3] '' --> ' '",
+ "insert text[3:3] --> decoded_text[4:5] '' --> ' '",
+ "insert text[4:4] --> decoded_text[6:7] '' --> ' '",
+ "insert text[5:5] --> decoded_text[8:9] '' --> ' '",
+ "insert text[6:6] --> decoded_text[10:11] '' --> ' '",
+ "insert text[7:7] --> decoded_text[12:13] '' --> ' '",
+ "insert text[14:14] --> decoded_text[20:21] '' --> ' '",
+ "insert text[15:15] --> decoded_text[22:23] '' --> ' '",
+ "insert text[16:16] --> decoded_text[24:25] '' --> ' '",
+ "insert text[17:17] --> decoded_text[26:27] '' --> ' '",
+ "insert text[24:24] --> decoded_text[34:35] '' --> ' '",
+ "insert text[25:25] --> decoded_text[36:37] '' --> ' '",
+ "insert text[31:31] --> decoded_text[43:44] '' --> ' '",
+ "insert text[32:32] --> decoded_text[45:46] '' --> ' '",
+ "insert text[33:33] --> decoded_text[47:48] '' --> ' '",
+ "insert text[42:42] --> decoded_text[57:58] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "エルモサの場合は1年程経過して徐々にではあるんですけど、少し大きくなってきちゃいました",
+ "decoded_text": "エルモサの 場 合 は1 年 程 経 過 して 徐 々にではあるんですけど 、 少 し 大 きくなってきちゃいました",
+ "diff": [
+ "insert text[5:5] --> decoded_text[5:6] '' --> ' '",
+ "insert text[6:6] --> decoded_text[7:8] '' --> ' '",
+ "insert text[7:7] --> decoded_text[9:10] '' --> ' '",
+ "insert text[9:9] --> decoded_text[12:13] '' --> ' '",
+ "insert text[10:10] --> decoded_text[14:15] '' --> ' '",
+ "insert text[11:11] --> decoded_text[16:17] '' --> ' '",
+ "insert text[12:12] --> decoded_text[18:19] '' --> ' '",
+ "insert text[13:13] --> decoded_text[20:21] '' --> ' '",
+ "insert text[15:15] --> decoded_text[23:24] '' --> ' '",
+ "insert text[16:16] --> decoded_text[25:26] '' --> ' '",
+ "insert text[27:27] --> decoded_text[37:38] '' --> ' '",
+ "insert text[28:28] --> decoded_text[39:40] '' --> ' '",
+ "insert text[29:29] --> decoded_text[41:42] '' --> ' '",
+ "insert text[30:30] --> decoded_text[43:44] '' --> ' '",
+ "insert text[31:31] --> decoded_text[45:46] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。",
+ "decoded_text": "ただ 、 これまでお 散 歩 仲 間 からは 指 摘 とかされたことはないので 、 こちらから 言 わなければそんなに 目 立 つ 程 ではないんですけどね 。",
+ "diff": [
+ "insert text[2:2] --> decoded_text[2:3] '' --> ' '",
+ "insert text[3:3] --> decoded_text[4:5] '' --> ' '",
+ "insert text[8:8] --> decoded_text[10:11] '' --> ' '",
+ "insert text[9:9] --> decoded_text[12:13] '' --> ' '",
+ "insert text[10:10] --> decoded_text[14:15] '' --> ' '",
+ "insert text[11:11] --> decoded_text[16:17] '' --> ' '",
+ "insert text[12:12] --> decoded_text[18:19] '' --> ' '",
+ "insert text[15:15] --> decoded_text[22:23] '' --> ' '",
+ "insert text[16:16] --> decoded_text[24:25] '' --> ' '",
+ "insert text[17:17] --> decoded_text[26:27] '' --> ' '",
+ "insert text[29:29] --> decoded_text[39:40] '' --> ' '",
+ "insert text[30:30] --> decoded_text[41:42] '' --> ' '",
+ "insert text[35:35] --> decoded_text[47:48] '' --> ' '",
+ "insert text[36:36] --> decoded_text[49:50] '' --> ' '",
+ "insert text[45:45] --> decoded_text[59:60] '' --> ' '",
+ "insert text[46:46] --> decoded_text[61:62] '' --> ' '",
+ "insert text[47:47] --> decoded_text[63:64] '' --> ' '",
+ "insert text[48:48] --> decoded_text[65:66] '' --> ' '",
+ "insert text[49:49] --> decoded_text[67:68] '' --> ' '",
+ "insert text[59:59] --> decoded_text[78:79] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。",
+ "decoded_text": "昔 はヒアルロン 酸 の 目 薬 なども 処 方 されてたようですが 、 これが 効 く 事 はないそうです 。",
+ "diff": [
+ "insert text[1:1] --> decoded_text[1:2] '' --> ' '",
+ "insert text[7:7] --> decoded_text[8:9] '' --> ' '",
+ "insert text[8:8] --> decoded_text[10:11] '' --> ' '",
+ "insert text[9:9] --> decoded_text[12:13] '' --> ' '",
+ "insert text[10:10] --> decoded_text[14:15] '' --> ' '",
+ "insert text[11:11] --> decoded_text[16:17] '' --> ' '",
+ "insert text[14:14] --> decoded_text[20:21] '' --> ' '",
+ "insert text[15:15] --> decoded_text[22:23] '' --> ' '",
+ "insert text[16:16] --> decoded_text[24:25] '' --> ' '",
+ "insert text[25:25] --> decoded_text[34:35] '' --> ' '",
+ "insert text[26:26] --> decoded_text[36:37] '' --> ' '",
+ "insert text[29:29] --> decoded_text[40:41] '' --> ' '",
+ "insert text[30:30] --> decoded_text[42:43] '' --> ' '",
+ "insert text[31:31] --> decoded_text[44:45] '' --> ' '",
+ "insert text[32:32] --> decoded_text[46:47] '' --> ' '",
+ "insert text[39:39] --> decoded_text[54:55] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。",
+ "decoded_text": "なので 、 エルディとのお 散 歩 でも 訪 れたことがありません 。 カタクリの 花 が5 分 咲 きとの 情 報 から 今 回 コースの1つに 取 り 入 れてみました 。",
+ "diff": [
+ "insert text[3:3] --> decoded_text[3:4] '' --> ' '",
+ "insert text[4:4] --> decoded_text[5:6] '' --> ' '",
+ "insert text[11:11] --> decoded_text[13:14] '' --> ' '",
+ "insert text[12:12] --> decoded_text[15:16] '' --> ' '",
+ "insert text[13:13] --> decoded_text[17:18] '' --> ' '",
+ "insert text[15:15] --> decoded_text[20:21] '' --> ' '",
+ "insert text[16:16] --> decoded_text[22:23] '' --> ' '",
+ "insert text[26:26] --> decoded_text[33:34] '' --> ' '",
+ "insert text[33:33] --> decoded_text[41:42] '' --> ' '",
+ "insert text[34:34] --> decoded_text[43:44] '' --> ' '",
+ "insert text[36:36] --> decoded_text[46:47] '' --> ' '",
+ "insert text[37:37] --> decoded_text[48:49] '' --> ' '",
+ "insert text[38:38] --> decoded_text[50:51] '' --> ' '",
+ "insert text[41:41] --> decoded_text[54:55] '' --> ' '",
+ "insert text[42:42] --> decoded_text[56:57] '' --> ' '",
+ "insert text[43:43] --> decoded_text[58:59] '' --> ' '",
+ "insert text[45:45] --> decoded_text[61:62] '' --> ' '",
+ "insert text[46:46] --> decoded_text[63:64] '' --> ' '",
+ "insert text[47:47] --> decoded_text[65:66] '' --> ' '",
+ "insert text[54:54] --> decoded_text[73:74] '' --> ' '",
+ "insert text[55:55] --> decoded_text[75:76] '' --> ' '",
+ "insert text[56:56] --> decoded_text[77:78] '' --> ' '",
+ "insert text[57:57] --> decoded_text[79:80] '' --> ' '",
+ "insert text[63:63] --> decoded_text[86:87] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました",
+ "decoded_text": "前 々から 走 ってみたかったんだけど 、 いつも 陸 上 部 らしき 学 生 さんがものすごいスピードで 駆 け 抜 けていくのを 目 の 当 たりにしてちょっとビビっておりました",
+ "diff": [
+ "insert text[1:1] --> decoded_text[1:2] '' --> ' '",
+ "insert text[4:4] --> decoded_text[5:6] '' --> ' '",
+ "insert text[5:5] --> decoded_text[7:8] '' --> ' '",
+ "insert text[16:16] --> decoded_text[19:20] '' --> ' '",
+ "insert text[17:17] --> decoded_text[21:22] '' --> ' '",
+ "insert text[20:20] --> decoded_text[25:26] '' --> ' '",
+ "insert text[21:21] --> decoded_text[27:28] '' --> ' '",
+ "insert text[22:22] --> decoded_text[29:30] '' --> ' '",
+ "insert text[23:23] --> decoded_text[31:32] '' --> ' '",
+ "insert text[26:26] --> decoded_text[35:36] '' --> ' '",
+ "insert text[27:27] --> decoded_text[37:38] '' --> ' '",
+ "insert text[28:28] --> decoded_text[39:40] '' --> ' '",
+ "insert text[41:41] --> decoded_text[53:54] '' --> ' '",
+ "insert text[42:42] --> decoded_text[55:56] '' --> ' '",
+ "insert text[43:43] --> decoded_text[57:58] '' --> ' '",
+ "insert text[44:44] --> decoded_text[59:60] '' --> ' '",
+ "insert text[50:50] --> decoded_text[66:67] '' --> ' '",
+ "insert text[51:51] --> decoded_text[68:69] '' --> ' '",
+ "insert text[52:52] --> decoded_text[70:71] '' --> ' '",
+ "insert text[53:53] --> decoded_text[72:73] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.ko.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.ko.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..24b6a0b15ef077ad2b74c069888ae31e2c9835fa
--- /dev/null
+++ b/stats/compression_rate/google-bert.bert-base-multilingual-cased @ cc100.ko.diff.json
@@ -0,0 +1,136 @@
+[
+ {
+ "text": "특히 주소 15~17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.",
+ "decoded_text": "특히 주소 15 ~ 17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.",
+ "diff": [
+ "insert text[8:8] --> decoded_text[8:9] '' --> ' '",
+ "insert text[9:9] --> decoded_text[10:11] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "1편인'신과함께-죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.",
+ "decoded_text": "1편인'신과함께 - 죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.",
+ "diff": [
+ "insert text[8:8] --> decoded_text[8:9] '' --> ' '",
+ "insert text[9:9] --> decoded_text[10:11] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "고려해서 주소 '대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.",
+ "decoded_text": "고려해서 주소'대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.",
+ "diff": [
+ "delete text[7:8] --> decoded_text[7:7] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
+ "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토 ( 22 ) 는 황금의제국카지노 4타수3안타 ( 2루타 홈런 ) 3타점 (. 246. 270. 508 ). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
+ "diff": [
+ "insert text[21:21] --> decoded_text[21:22] '' --> ' '",
+ "insert text[22:22] --> decoded_text[23:24] '' --> ' '",
+ "insert text[24:24] --> decoded_text[26:27] '' --> ' '",
+ "insert text[25:25] --> decoded_text[28:29] '' --> ' '",
+ "insert text[42:42] --> decoded_text[46:47] '' --> ' '",
+ "insert text[43:43] --> decoded_text[48:49] '' --> ' '",
+ "insert text[49:49] --> decoded_text[55:56] '' --> ' '",
+ "insert text[54:54] --> decoded_text[61:62] '' --> ' '",
+ "insert text[56:56] --> decoded_text[64:65] '' --> ' '",
+ "insert text[59:59] --> decoded_text[68:69] '' --> '.'",
+ "delete text[60:61] --> decoded_text[70:70] '.' --> ''",
+ "insert text[64:64] --> decoded_text[73:74] '' --> '.'",
+ "delete text[65:66] --> decoded_text[75:75] '.' --> ''",
+ "insert text[69:69] --> decoded_text[78:79] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.",
+ "decoded_text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강 - 4강 - 결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강 - 6강 - 4강 - 결승으로 4경기를 해야 한다.",
+ "diff": [
+ "insert text[37:37] --> decoded_text[37:38] '' --> ' '",
+ "insert text[38:38] --> decoded_text[39:40] '' --> ' '",
+ "insert text[40:40] --> decoded_text[42:43] '' --> ' '",
+ "insert text[41:41] --> decoded_text[44:45] '' --> ' '",
+ "insert text[88:88] --> decoded_text[92:93] '' --> ' '",
+ "insert text[89:89] --> decoded_text[94:95] '' --> ' '",
+ "insert text[91:91] --> decoded_text[97:98] '' --> ' '",
+ "insert text[92:92] --> decoded_text[99:100] '' --> ' '",
+ "insert text[94:94] --> decoded_text[102:103] '' --> ' '",
+ "insert text[95:95] --> decoded_text[104:105] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 '실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.",
+ "decoded_text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는'실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.",
+ "diff": [
+ "delete text[74:75] --> decoded_text[74:74] ' ' --> ''"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다.",
+ "decoded_text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 [UNK] 먹는 일이 성사됐다. 호날두가 [UNK] 빅 사이닝 [UNK] 을 통해 유벤투스로 옮겼기 때문이다.",
+ "diff": [
+ "replace text[35:39] --> decoded_text[35:40] '한솥밥을' --> '[UNK]'",
+ "replace text[57:58] --> decoded_text[58:64] '‘' --> '[UNK] '",
+ "replace text[63:64] --> decoded_text[69:76] '’' --> ' [UNK] '"
+ ],
+ "n_oov_chars": 3,
+ "oov_ratio": 0.03571428571428571,
+ "oov_charset": "[\"솥\", \"‘\", \"’\"]"
+ },
+ {
+ "text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.",
+ "decoded_text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 [UNK] 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.",
+ "diff": [
+ "replace text[24:28] --> decoded_text[24:29] '쑥스러울' --> '[UNK]'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.01020408163265306,
+ "oov_charset": "[\"쑥\"]"
+ },
+ {
+ "text": "이어\"알렉시스 (산체스)와 (후안) 마타가 매 경기 모든 시간을 뛰고 있다. 이젠 레알 마드리드전, 그 황금의제국카지노 후엔 바이에른 뮌헨전이 남아 있다\"면서 마시알 부재로 미치는 영향들을 주소 언급했다.",
+ "decoded_text": "이어 \" 알렉시스 ( 산체스 ) 와 ( 후안 ) 마타가 매 경기 모든 시간을 뛰고 있다. 이젠 레알 마드리드전, 그 황금의제국카지노 후엔 바이에른 뮌헨전이 남아 있다 \" 면서 마시알 부재로 미치는 영향들을 주소 언급했다.",
+ "diff": [
+ "insert text[2:2] --> decoded_text[2:3] '' --> ' '",
+ "insert text[3:3] --> decoded_text[4:5] '' --> ' '",
+ "insert text[9:9] --> decoded_text[11:12] '' --> ' '",
+ "insert text[12:12] --> decoded_text[15:16] '' --> ' '",
+ "insert text[13:13] --> decoded_text[17:18] '' --> ' '",
+ "insert text[16:16] --> decoded_text[21:22] '' --> ' '",
+ "insert text[18:18] --> decoded_text[24:25] '' --> ' '",
+ "insert text[85:85] --> decoded_text[92:93] '' --> ' '",
+ "insert text[86:86] --> decoded_text[94:95] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "주소 강경헌은방송 이후 관심이 쏟아진 구본승과의 핑크빛 기류에 대해 “구본승 오빠는 예전에도, 지금도 너무 멋있는 황금의제국카지노 사람이다.",
+ "decoded_text": "주소 강경헌은방송 이후 관심이 쏟아진 구본승과의 핑크빛 기류에 대해 [UNK] 구본승 오빠는 예전에도, 지금도 너무 멋있는 황금의제국카지노 사람이다.",
+ "diff": [
+ "replace text[38:39] --> decoded_text[38:44] '“' --> '[UNK] '"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.01282051282051282,
+ "oov_charset": "[\"“\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.ar.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.ar.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..306785bc1b771d57fec9d54114563cb943aa4a42
--- /dev/null
+++ b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.ar.diff.json
@@ -0,0 +1,190 @@
+[
+ {
+ "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)",
+ "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1 )",
+ "diff": [
+ "delete text[42:43] --> decoded_text[42:42] ' ' --> ''",
+ "insert text[49:49] --> decoded_text[48:49] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..",
+ "decoded_text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تاكيد قد تنهدت من اعماق اعماقها الما واسى لما وصل اليه حال ابنايها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض ابنايها لاملاءات الغير ولحساباتهم.. ووسط هذه الماساة لم تعدم هذه الارض الطيبة من بقايا امل, ومن بقايا حكمة مازالت تميز ابناء هذا الشعب الطيب لان اليمانيين في العام 1990م فاجاوا العالم بوحدتهم حين كان العالم منغمسا في الانقسام, وحينما كانت الانظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنايية.. وكان اندفاع اليمنيين شمالا وجنوبا نحو الوحدة طوعيا وبمستوى عال من الحكمة ونكران الذات وتغليب المصلحة العليا عن اية مصالح اخرى سواء كانت ذاتية او حسابات جهوية او اية مصالح اخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الايثار ونحن نعتقد ان مرحلة التسعينات من القرن العشرين التي ( تردف ) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..",
+ "diff": [
+ "replace text[159:198] --> decoded_text[159:197] 'أكيد قد تنهدت من أعماق أعماقها ألماً وأ' --> 'اكيد قد تنهدت من اعماق اعماقها الما وا'",
+ "delete text[200:201] --> decoded_text[199:199] 'ً' --> ''",
+ "replace text[210:224] --> decoded_text[208:222] 'إليه حال أبنائ' --> 'اليه حال ابناي'",
+ "replace text[299:309] --> decoded_text[297:307] 'أبنائها لإ' --> 'ابنايها لا'",
+ "replace text[347:348] --> decoded_text[345:346] 'أ' --> 'ا'",
+ "replace text[366:367] --> decoded_text[364:365] 'أ' --> 'ا'",
+ "replace text[386:387] --> decoded_text[384:385] 'أ' --> 'ا'",
+ "replace text[418:419] --> decoded_text[416:417] 'أ' --> 'ا'",
+ "replace text[441:442] --> decoded_text[439:440] 'أ' --> 'ا'",
+ "replace text[472:473] --> decoded_text[470:471] 'أ' --> 'ا'",
+ "delete text[512:513] --> decoded_text[510:510] 'ً' --> ''",
+ "replace text[541:542] --> decoded_text[538:539] 'أ' --> 'ا'",
+ "replace text[599:600] --> decoded_text[596:597] 'ئ' --> 'ي'",
+ "delete text[631:632] --> decoded_text[628:628] 'ً' --> ''",
+ "delete text[639:640] --> decoded_text[635:635] 'ً' --> ''",
+ "delete text[657:658] --> decoded_text[652:652] 'ً' --> ''",
+ "delete text[670:671] --> decoded_text[664:664] 'ٍ' --> ''",
+ "replace text[720:721] --> decoded_text[713:714] 'أ' --> 'ا'",
+ "replace text[730:731] --> decoded_text[723:724] 'أ' --> 'ا'",
+ "delete text[739:740] --> decoded_text[732:732] 'ً' --> ''",
+ "replace text[752:753] --> decoded_text[744:745] 'أ' --> 'ا'",
+ "replace text[768:772] --> decoded_text[760:764] 'أو أ' --> 'او ا'",
+ "replace text[781:782] --> decoded_text[773:774] 'أ' --> 'ا'",
+ "replace text[827:828] --> decoded_text[819:820] 'إ' --> 'ا'",
+ "replace text[844:845] --> decoded_text[836:837] 'أ' --> 'ا'",
+ "replace text[886:890] --> decoded_text[878:884] 'تردف' --> ' تردف '"
+ ],
+ "n_oov_chars": 35,
+ "oov_ratio": 0.036231884057971016,
+ "oov_charset": "[\"أ\", \"ً\", \"إ\", \"ئ\", \"ٍ\"]"
+ },
+ {
+ "text": "واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية, أو انتماءاتهم المناطقية أو القبلية أو الجهوية, أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان..",
+ "decoded_text": "واليوم وبعد ان جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فان الحكمة اليمانية توجب على ابناء اليمن ايا كانت تياراتهم السياسية, او انتماءاتهم المناطقية او القبلية او الجهوية, ان يستذكروا جيدا ما وصفهم به رسول العالمين محمد بن عبدالله عليه افضل الصلوات والتسليم وعلى اله الاخيار الاطهار بانهم اهل حكمة واهل ايمان..",
+ "diff": [
+ "replace text[12:13] --> decoded_text[12:13] 'أ' --> 'ا'",
+ "replace text[84:85] --> decoded_text[84:85] 'إ' --> 'ا'",
+ "replace text[112:113] --> decoded_text[112:113] 'أ' --> 'ا'",
+ "replace text[124:128] --> decoded_text[124:127] 'أياً' --> 'ايا'",
+ "replace text[153:154] --> decoded_text[152:153] 'أ' --> 'ا'",
+ "replace text[177:178] --> decoded_text[176:177] 'أ' --> 'ا'",
+ "replace text[188:189] --> decoded_text[187:188] 'أ' --> 'ا'",
+ "replace text[200:201] --> decoded_text[199:200] 'أ' --> 'ا'",
+ "delete text[216:217] --> decoded_text[215:215] 'ً' --> ''",
+ "replace text[265:266] --> decoded_text[263:264] 'أ' --> 'ا'",
+ "replace text[292:299] --> decoded_text[290:297] 'آله الأ' --> 'اله الا'",
+ "replace text[306:307] --> decoded_text[304:305] 'أ' --> 'ا'",
+ "replace text[313:319] --> decoded_text[311:317] 'أنهم أ' --> 'انهم ا'",
+ "replace text[328:333] --> decoded_text[326:331] 'أهل إ' --> 'اهل ا'"
+ ],
+ "n_oov_chars": 18,
+ "oov_ratio": 0.05309734513274336,
+ "oov_charset": "[\"أ\", \"إ\", \"ً\", \"آ\"]"
+ },
+ {
+ "text": "وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..",
+ "decoded_text": "وكلام الرسول واحاديثه ما هي الا وحي من الله.. بمعنى ان العمل بما قاله الرسول الاعظم هو مسوولية اخلاقية ودينية ومسوولية سياسية..",
+ "diff": [
+ "replace text[14:15] --> decoded_text[14:15] 'أ' --> 'ا'",
+ "replace text[28:29] --> decoded_text[28:29] 'إ' --> 'ا'",
+ "replace text[52:53] --> decoded_text[52:53] 'أ' --> 'ا'",
+ "replace text[79:80] --> decoded_text[79:80] 'أ' --> 'ا'",
+ "replace text[89:90] --> decoded_text[89:90] 'ؤ' --> 'و'",
+ "replace text[95:96] --> decoded_text[95:96] 'أ' --> 'ا'",
+ "replace text[113:114] --> decoded_text[113:114] 'ؤ' --> 'و'"
+ ],
+ "n_oov_chars": 7,
+ "oov_ratio": 0.05511811023622047,
+ "oov_charset": "[\"أ\", \"إ\", \"ؤ\"]"
+ },
+ {
+ "text": "فهل أوضاع اليمنيين القائمة هي نتاج حكمة, وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم..",
+ "decoded_text": "فهل اوضاع اليمنيين القايمة هي نتاج حكمة, وهل من الحكمة ان تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن ابناء هذا البلد العظيم..",
+ "diff": [
+ "replace text[4:5] --> decoded_text[4:5] 'أ' --> 'ا'",
+ "replace text[23:24] --> decoded_text[23:24] 'ئ' --> 'ي'",
+ "replace text[55:56] --> decoded_text[55:56] 'أ' --> 'ا'",
+ "replace text[119:120] --> decoded_text[119:120] 'أ' --> 'ا'"
+ ],
+ "n_oov_chars": 4,
+ "oov_ratio": 0.027972027972027972,
+ "oov_charset": "[\"أ\", \"ئ\"]"
+ },
+ {
+ "text": "وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان, ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله..",
+ "decoded_text": "وهل الانسياق نحو مزيد من العناد ومزيد من الاحتقان, ومزيد من الاحتراب بين ابناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى اله..",
+ "diff": [
+ "delete text[21:22] --> decoded_text[21:21] 'ٍ' --> ''",
+ "delete text[38:39] --> decoded_text[37:37] 'ٍ' --> ''",
+ "delete text[58:59] --> decoded_text[56:56] 'ٍ' --> ''",
+ "replace text[76:77] --> decoded_text[73:74] 'أ' --> 'ا'",
+ "replace text[152:153] --> decoded_text[149:150] 'آ' --> 'ا'"
+ ],
+ "n_oov_chars": 5,
+ "oov_ratio": 0.03184713375796178,
+ "oov_charset": "[\"ٍ\", \"أ\", \"آ\"]"
+ },
+ {
+ "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
+ "decoded_text": "انا لا اعتقد ان عاقلا من بناء هذا البلد يقبل او يستسيغ ما يجري فيه.. ان يتحول اليمن - وهو بلد ولاد بالخير, الى اطلال, وان يتعرض ابناوه الاحرار الى قطيع من الذياب تنهش ببعضها, بل والاشد نكاية والما ان يكون ذلك خدمة لاعدايه..",
+ "diff": [
+ "replace text[0:22] --> decoded_text[0:21] 'أنا لا اعتقد أن عاقلاً' --> 'انا لا اعتقد ان عاقلا'",
+ "replace text[46:47] --> decoded_text[45:46] 'أ' --> 'ا'",
+ "replace text[70:71] --> decoded_text[69:70] 'أ' --> 'ا'",
+ "insert text[84:84] --> decoded_text[83:84] '' --> ' '",
+ "delete text[97:99] --> decoded_text[97:97] 'َّ' --> ''",
+ "replace text[109:110] --> decoded_text[107:108] 'إ' --> 'ا'",
+ "replace text[113:114] --> decoded_text[111:112] 'أ' --> 'ا'",
+ "replace text[121:122] --> decoded_text[119:120] 'أ' --> 'ا'",
+ "replace text[130:140] --> decoded_text[128:138] 'أبناؤه الأ' --> 'ابناوه الا'",
+ "replace text[145:146] --> decoded_text[143:144] 'إ' --> 'ا'",
+ "replace text[160:161] --> decoded_text[158:159] 'ئ' --> 'ي'",
+ "replace text[183:184] --> decoded_text[181:182] 'أ' --> 'ا'",
+ "replace text[194:201] --> decoded_text[192:198] 'ألماً أ' --> 'الما ا'",
+ "replace text[218:226] --> decoded_text[215:223] 'أعدائه..' --> 'اعدايه..'"
+ ],
+ "n_oov_chars": 21,
+ "oov_ratio": 0.09292035398230089,
+ "oov_charset": "[\"أ\", \"ً\", \"ّ\", \"َ\", \"إ\", \"ؤ\", \"ئ\"]"
+ },
+ {
+ "text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي..؟!",
+ "decoded_text": "اليمن انهك من العدوان ومن الحصار حتى اوليك الذين يظنون انهم بعيدون عن التاثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والاعباء والمتاعب طالت الجميع, وان ظل الصمت والانجرار خلف مواقف تخدم اعداء هذا الشعب فان المستقبل سيكون قاتما واضراره ستظل تلاحق الاجيال اليمنية جيلا بعد جيل, وسيكون اعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون ادوات بايدي الرياض او الدوحة, او ابوظبي.. ؟!",
+ "diff": [
+ "replace text[6:7] --> decoded_text[6:7] 'أ' --> 'ا'",
+ "replace text[37:41] --> decoded_text[37:41] 'أولئ' --> 'اولي'",
+ "replace text[55:74] --> decoded_text[55:74] 'أنهم بعيدون عن التأ' --> 'انهم بعيدون عن التا'",
+ "replace text[124:125] --> decoded_text[124:125] 'أ' --> 'ا'",
+ "replace text[153:154] --> decoded_text[153:154] 'إ' --> 'ا'",
+ "replace text[190:191] --> decoded_text[190:191] 'أ' --> 'ا'",
+ "replace text[207:208] --> decoded_text[207:208] 'إ' --> 'ا'",
+ "replace text[230:234] --> decoded_text[230:233] 'ً وأ' --> ' وا'",
+ "replace text[253:254] --> decoded_text[252:253] 'أ' --> 'ا'",
+ "delete text[271:272] --> decoded_text[270:270] 'ً' --> ''",
+ "replace text[289:290] --> decoded_text[287:288] 'أ' --> 'ا'",
+ "replace text[364:372] --> decoded_text[362:370] 'أدوات بأ' --> 'ادوات با'",
+ "replace text[383:384] --> decoded_text[381:382] 'أ' --> 'ا'",
+ "replace text[394:398] --> decoded_text[392:396] 'أو أ' --> 'او ا'",
+ "insert text[405:405] --> decoded_text[403:404] '' --> ' '"
+ ],
+ "n_oov_chars": 19,
+ "oov_ratio": 0.04668304668304668,
+ "oov_charset": "[\"أ\", \"ئ\", \"إ\", \"ً\"]"
+ },
+ {
+ "text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية.. أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب!!",
+ "decoded_text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت ان تكون خادمة لاجندة غير عربية وغير اسلامية.. اجندة تباع فيها الضماير وتباع فيها المواقف من اجل عين اصحاب البقرة الصفراء ومن اجل رضا اجهزة المخابرات في واشنطن وفي تل ابيب!!",
+ "diff": [
+ "replace text[75:76] --> decoded_text[75:76] 'أ' --> 'ا'",
+ "replace text[90:91] --> decoded_text[90:91] 'أ' --> 'ا'",
+ "replace text[111:112] --> decoded_text[111:112] 'إ' --> 'ا'",
+ "replace text[121:122] --> decoded_text[121:122] 'أ' --> 'ا'",
+ "replace text[142:176] --> decoded_text[142:176] 'ئر وتباع فيها المواقف من أجل عين أ' --> 'ير وتباع فيها المواقف من اجل عين ا'",
+ "replace text[200:201] --> decoded_text[200:201] 'أ' --> 'ا'",
+ "replace text[208:209] --> decoded_text[208:209] 'أ' --> 'ا'",
+ "replace text[241:242] --> decoded_text[241:242] 'أ' --> 'ا'"
+ ],
+ "n_oov_chars": 10,
+ "oov_ratio": 0.04048582995951417,
+ "oov_charset": "[\"أ\", \"إ\", \"ئ\"]"
+ },
+ {
+ "text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي, وصوب الرياض, وصوب واشنطن..",
+ "decoded_text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد اهلها وساكنوها.. اليمن اصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب ابو ظبي, وصوب الرياض, وصوب واشنطن..",
+ "diff": [
+ "replace text[77:78] --> decoded_text[77:78] 'أ' --> 'ا'",
+ "replace text[100:101] --> decoded_text[100:101] 'أ' --> 'ا'",
+ "replace text[159:160] --> decoded_text[159:160] 'أ' --> 'ا'"
+ ],
+ "n_oov_chars": 3,
+ "oov_ratio": 0.015463917525773196,
+ "oov_charset": "[\"أ\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.de.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.de.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..b90e48ed8f6e539f679cc949cccd9a4dcd945a97
--- /dev/null
+++ b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.de.diff.json
@@ -0,0 +1,212 @@
+[
+ {
+ "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.",
+ "decoded_text": "bereits eine woche vorher am samstag, 2. dezember ist die „ pungel - weihnacht [UNK] in siegburg - kaldauen um 18 uhr ( einlass 17. 30 uhr ) im restaurant kaldauer hof zu horen. hier ist im eintrittspreis von 18, 50 € ein abendessen enthalten. auch hier gibt es einen mitsingteil fur die gaste.",
+ "diff": [
+ "replace text[0:14] --> decoded_text[0:14] 'Bereits eine W' --> 'bereits eine w'",
+ "replace text[29:30] --> decoded_text[29:30] 'S' --> 's'",
+ "replace text[41:42] --> decoded_text[41:42] 'D' --> 'd'",
+ "replace text[59:65] --> decoded_text[59:67] 'Püngel' --> ' pungel '",
+ "replace text[66:67] --> decoded_text[68:70] 'W' --> ' w'",
+ "replace text[75:88] --> decoded_text[78:97] '“ in Siegburg' --> ' [UNK] in siegburg '",
+ "replace text[89:90] --> decoded_text[98:100] 'K' --> ' k'",
+ "replace text[104:105] --> decoded_text[114:115] 'U' --> 'u'",
+ "replace text[109:110] --> decoded_text[119:121] 'E' --> ' e'",
+ "insert text[120:120] --> decoded_text[131:132] '' --> ' '",
+ "replace text[123:126] --> decoded_text[135:139] 'Uhr' --> 'uhr '",
+ "replace text[131:152] --> decoded_text[144:165] 'Restaurant Kaldauer H' --> 'restaurant kaldauer h'",
+ "replace text[159:178] --> decoded_text[172:191] 'ören. Hier ist im E' --> 'oren. hier ist im e'",
+ "insert text[199:199] --> decoded_text[212:213] '' --> ' '",
+ "replace text[208:231] --> decoded_text[222:245] 'Abendessen enthalten. A' --> 'abendessen enthalten. a'",
+ "replace text[254:255] --> decoded_text[268:269] 'M' --> 'm'",
+ "replace text[267:280] --> decoded_text[281:294] 'ür die Gäste.' --> 'ur die gaste.'"
+ ],
+ "n_oov_chars": 25,
+ "oov_ratio": 0.08928571428571429,
+ "oov_charset": "[\"B\", \"W\", \"S\", \"D\", \"P\", \"ü\", \"“\", \"K\", \"U\", \"E\", \"R\", \"H\", \"ö\", \"A\", \"M\", \"G\", \"ä\"]"
+ },
+ {
+ "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.",
+ "decoded_text": "der chor bietet noch einen weiteren termin im rahmen der „ pungel - weihnacht [UNK] an.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'",
+ "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'",
+ "replace text[36:37] --> decoded_text[36:37] 'T' --> 't'",
+ "replace text[46:47] --> decoded_text[46:47] 'R' --> 'r'",
+ "replace text[58:60] --> decoded_text[58:61] 'Pü' --> ' pu'",
+ "insert text[64:64] --> decoded_text[65:66] '' --> ' '",
+ "replace text[65:66] --> decoded_text[67:69] 'W' --> ' w'",
+ "replace text[74:75] --> decoded_text[77:83] '“' --> ' [UNK]'"
+ ],
+ "n_oov_chars": 8,
+ "oov_ratio": 0.10126582278481013,
+ "oov_charset": "[\"D\", \"C\", \"T\", \"R\", \"P\", \"ü\", \"W\", \"“\"]"
+ },
+ {
+ "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de",
+ "decoded_text": "02683 967019. die karten konnen auch per email bestellt werden : en - koelsche - weihnachtsfeier @ t - online. de",
+ "diff": [
+ "replace text[14:15] --> decoded_text[14:15] 'D' --> 'd'",
+ "replace text[18:19] --> decoded_text[18:19] 'K' --> 'k'",
+ "replace text[26:27] --> decoded_text[26:27] 'ö' --> 'o'",
+ "replace text[41:42] --> decoded_text[41:42] 'E' --> 'e'",
+ "insert text[62:62] --> decoded_text[62:63] '' --> ' '",
+ "replace text[64:65] --> decoded_text[65:66] 'E' --> 'e'",
+ "insert text[66:66] --> decoded_text[67:68] '' --> ' '",
+ "replace text[67:68] --> decoded_text[69:71] 'K' --> ' k'",
+ "insert text[75:75] --> decoded_text[78:79] '' --> ' '",
+ "replace text[76:77] --> decoded_text[80:82] 'W' --> ' w'",
+ "insert text[91:91] --> decoded_text[96:97] '' --> ' '",
+ "insert text[92:92] --> decoded_text[98:99] '' --> ' '",
+ "insert text[93:93] --> decoded_text[100:101] '' --> ' '",
+ "insert text[94:94] --> decoded_text[102:103] '' --> ' '",
+ "insert text[101:101] --> decoded_text[110:111] '' --> ' '"
+ ],
+ "n_oov_chars": 7,
+ "oov_ratio": 0.06796116504854369,
+ "oov_charset": "[\"D\", \"K\", \"ö\", \"E\", \"W\"]"
+ },
+ {
+ "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.",
+ "decoded_text": "der chor wunscht ihnen schon jetzt viel vergnugen.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'",
+ "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'",
+ "replace text[10:11] --> decoded_text[10:11] 'ü' --> 'u'",
+ "replace text[17:18] --> decoded_text[17:18] 'I' --> 'i'",
+ "replace text[40:41] --> decoded_text[40:41] 'V' --> 'v'",
+ "replace text[45:46] --> decoded_text[45:46] 'ü' --> 'u'"
+ ],
+ "n_oov_chars": 6,
+ "oov_ratio": 0.12,
+ "oov_charset": "[\"D\", \"C\", \"ü\", \"I\", \"V\"]"
+ },
+ {
+ "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.",
+ "decoded_text": "die verarbeitung kann auch auf elektronischem wege erfolgen. dies ist insbesondere dann der fall, wenn ein bewerber entsprechende bewerbungsunterlagen auf dem elektronischen wege, beispielsweise per e - mail oder uber ein auf der internetseite befindliches webformular, an den fur die verarbeitung verantwortlichen ubermittelt. sollten sie uber einen account in einem berufsorientierten sozialen netzwerk wie etwa xing oder linkedin verfugen, konnen wir die daten auch von ihrer offentlich einsehbaren profilseite erheben. zwecke der verarbeitung und rechtsgrundlage wir verarbeiten ihre personenbezogenen daten ausschließlich zum zwecke der durchfuhrung des bewerbungsverfahrens.",
+ "diff": [
+ "replace text[0:5] --> decoded_text[0:5] 'Die V' --> 'die v'",
+ "replace text[46:47] --> decoded_text[46:47] 'W' --> 'w'",
+ "replace text[61:93] --> decoded_text[61:93] 'Dies ist insbesondere dann der F' --> 'dies ist insbesondere dann der f'",
+ "replace text[107:108] --> decoded_text[107:108] 'B' --> 'b'",
+ "replace text[130:131] --> decoded_text[130:131] 'B' --> 'b'",
+ "replace text[174:175] --> decoded_text[174:175] 'W' --> 'w'",
+ "replace text[199:200] --> decoded_text[199:201] 'E' --> 'e '",
+ "replace text[201:261] --> decoded_text[202:203] 'Mail oder über ein auf der Internetseite befindliches Webfor' --> ' '",
+ "insert text[262:262] --> decoded_text[204:264] '' --> 'ail oder uber ein auf der internetseite befindliches webform'",
+ "replace text[276:314] --> decoded_text[278:316] 'ür die Verarbeitung Verantwortlichen ü' --> 'ur die verarbeitung verantwortlichen u'",
+ "replace text[326:350] --> decoded_text[328:352] 'Sollten Sie über einen A' --> 'sollten sie uber einen a'",
+ "replace text[394:395] --> decoded_text[396:397] 'N' --> 'n'",
+ "replace text[412:436] --> decoded_text[414:438] 'Xing oder LinkedIn verfü' --> 'xing oder linkedin verfu'",
+ "replace text[442:501] --> decoded_text[444:503] 'önnen wir die Daten auch von Ihrer öffentlich einsehbaren P' --> 'onnen wir die daten auch von ihrer offentlich einsehbaren p'",
+ "replace text[521:582] --> decoded_text[523:584] 'Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten I' --> 'zwecke der verarbeitung und rechtsgrundlage wir verarbeiten i'",
+ "replace text[604:605] --> decoded_text[606:607] 'D' --> 'd'",
+ "replace text[629:658] --> decoded_text[631:660] 'Zwecke der Durchführung des B' --> 'zwecke der durchfuhrung des b'"
+ ],
+ "n_oov_chars": 41,
+ "oov_ratio": 0.06047197640117994,
+ "oov_charset": "[\"D\", \"V\", \"W\", \"F\", \"B\", \"E\", \"M\", \"ü\", \"I\", \"S\", \"A\", \"N\", \"X\", \"L\", \"ö\", \"P\", \"Z\", \"R\"]"
+ },
+ {
+ "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.",
+ "decoded_text": "sofern wir mit dem bewerber einen anstellungsvertrag abschließen, werden die ubermittelten daten zum zwecke der abwicklung des beschaftigungsverhaltnisses unter beachtung der gesetzlichen vorschriften gespeichert. ansonsten werden die personenbezogenen daten sechs monate nach beendigung des bewerbungsverfahrens geloscht, sofern einer loschung keine sonstigen berechtigten interessen des fur die verarbeitung verantwortlichen entgegenstehen.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'",
+ "replace text[19:35] --> decoded_text[19:35] 'Bewerber einen A' --> 'bewerber einen a'",
+ "replace text[77:78] --> decoded_text[77:78] 'ü' --> 'u'",
+ "replace text[91:92] --> decoded_text[91:92] 'D' --> 'd'",
+ "replace text[101:102] --> decoded_text[101:102] 'Z' --> 'z'",
+ "replace text[112:113] --> decoded_text[112:113] 'A' --> 'a'",
+ "replace text[127:162] --> decoded_text[127:162] 'Beschäftigungsverhältnisses unter B' --> 'beschaftigungsverhaltnisses unter b'",
+ "replace text[188:189] --> decoded_text[188:189] 'V' --> 'v'",
+ "replace text[214:215] --> decoded_text[214:215] 'A' --> 'a'",
+ "replace text[253:317] --> decoded_text[253:317] 'Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelö' --> 'daten sechs monate nach beendigung des bewerbungsverfahrens gelo'",
+ "replace text[336:338] --> decoded_text[336:338] 'Lö' --> 'lo'",
+ "replace text[374:411] --> decoded_text[374:411] 'Interessen des für die Verarbeitung V' --> 'interessen des fur die verarbeitung v'"
+ ],
+ "n_oov_chars": 24,
+ "oov_ratio": 0.05429864253393665,
+ "oov_charset": "[\"S\", \"B\", \"A\", \"ü\", \"D\", \"Z\", \"ä\", \"V\", \"M\", \"ö\", \"L\", \"I\"]"
+ },
+ {
+ "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.",
+ "decoded_text": "innerhalb unseres hauses erhalten diejenigen internen stellen bzw. organisationseinheiten ihre daten, die diese zur erfullung unserer vertraglichen und gesetzlichen pflichten ( wie fuhrungskrafte und fachverantwortliche, die einen neuen mitarbeiter suchen oder an der entscheidung uber die stellenbesetzung mitwirken, buchhaltung, betriebsarzt, arbeitssicherheit, ggf. mitarbeitervertretung usw. ) oder im rahmen der bearbeitung und umsetzung unseres berechtigten interesses benotigen.",
+ "diff": [
+ "replace text[0:19] --> decoded_text[0:19] 'Innerhalb unseres H' --> 'innerhalb unseres h'",
+ "replace text[54:55] --> decoded_text[54:55] 'S' --> 's'",
+ "replace text[67:120] --> decoded_text[67:120] 'Organisationseinheiten Ihre Daten, die diese zur Erfü' --> 'organisationseinheiten ihre daten, die diese zur erfu'",
+ "replace text[165:166] --> decoded_text[165:166] 'P' --> 'p'",
+ "insert text[176:176] --> decoded_text[176:177] '' --> ' '",
+ "replace text[180:182] --> decoded_text[181:183] 'Fü' --> 'fu'",
+ "replace text[190:200] --> decoded_text[191:201] 'äfte und F' --> 'afte und f'",
+ "replace text[236:290] --> decoded_text[237:291] 'Mitarbeiter suchen oder an der Entscheidung über die S' --> 'mitarbeiter suchen oder an der entscheidung uber die s'",
+ "replace text[317:345] --> decoded_text[318:346] 'Buchhaltung, Betriebsarzt, A' --> 'buchhaltung, betriebsarzt, a'",
+ "replace text[368:369] --> decoded_text[369:370] 'M' --> 'm'",
+ "insert text[394:394] --> decoded_text[395:396] '' --> ' '",
+ "replace text[404:477] --> decoded_text[406:479] 'Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benö' --> 'rahmen der bearbeitung und umsetzung unseres berechtigten interesses beno'"
+ ],
+ "n_oov_chars": 26,
+ "oov_ratio": 0.053830227743271224,
+ "oov_charset": "[\"I\", \"H\", \"S\", \"O\", \"D\", \"E\", \"ü\", \"P\", \"F\", \"ä\", \"M\", \"B\", \"A\", \"R\", \"U\", \"ö\"]"
+ },
+ {
+ "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,",
+ "decoded_text": "eine weitergabe ihrer daten an externe stellen erfolgt ausschließlich zu zwecken,",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'",
+ "replace text[5:6] --> decoded_text[5:6] 'W' --> 'w'",
+ "replace text[16:17] --> decoded_text[16:17] 'I' --> 'i'",
+ "replace text[22:23] --> decoded_text[22:23] 'D' --> 'd'",
+ "replace text[39:40] --> decoded_text[39:40] 'S' --> 's'",
+ "replace text[73:74] --> decoded_text[73:74] 'Z' --> 'z'"
+ ],
+ "n_oov_chars": 6,
+ "oov_ratio": 0.07407407407407407,
+ "oov_charset": "[\"E\", \"W\", \"I\", \"D\", \"S\", \"Z\"]"
+ },
+ {
+ "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;",
+ "decoded_text": "bei denen wir zur erfullung gesetzlicher vorgaben zur auskunft, meldung oder weitergabe von daten verpflichtet oder berechtigt sind oder die datenweitergabe im offentlichen interesse liegt ;",
+ "diff": [
+ "replace text[18:19] --> decoded_text[18:19] 'E' --> 'e'",
+ "replace text[21:22] --> decoded_text[21:22] 'ü' --> 'u'",
+ "replace text[41:42] --> decoded_text[41:42] 'V' --> 'v'",
+ "replace text[54:55] --> decoded_text[54:55] 'A' --> 'a'",
+ "replace text[64:65] --> decoded_text[64:65] 'M' --> 'm'",
+ "replace text[77:78] --> decoded_text[77:78] 'W' --> 'w'",
+ "replace text[92:93] --> decoded_text[92:93] 'D' --> 'd'",
+ "replace text[141:142] --> decoded_text[141:142] 'D' --> 'd'",
+ "replace text[160:161] --> decoded_text[160:161] 'ö' --> 'o'",
+ "replace text[173:174] --> decoded_text[173:174] 'I' --> 'i'",
+ "insert text[188:188] --> decoded_text[188:189] '' --> ' '"
+ ],
+ "n_oov_chars": 10,
+ "oov_ratio": 0.05291005291005291,
+ "oov_charset": "[\"E\", \"ü\", \"V\", \"A\", \"M\", \"W\", \"D\", \"ö\", \"I\"]"
+ },
+ {
+ "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);",
+ "decoded_text": "aufgrund unseres berechtigten interesses oder des berechtigten interesses des dritten ( z. b. an behorden, auskunfteien, rechtsanwalte, gerichte, gutachter, und gremien und kontrollinstanzen ) ;",
+ "diff": [
+ "replace text[30:31] --> decoded_text[30:31] 'I' --> 'i'",
+ "replace text[63:64] --> decoded_text[63:64] 'I' --> 'i'",
+ "replace text[78:79] --> decoded_text[78:79] 'D' --> 'd'",
+ "insert text[87:87] --> decoded_text[87:88] '' --> ' '",
+ "replace text[89:90] --> decoded_text[90:92] 'B' --> ' b'",
+ "replace text[95:96] --> decoded_text[97:98] 'B' --> 'b'",
+ "replace text[98:99] --> decoded_text[100:101] 'ö' --> 'o'",
+ "replace text[105:106] --> decoded_text[107:108] 'A' --> 'a'",
+ "replace text[119:120] --> decoded_text[121:122] 'R' --> 'r'",
+ "replace text[128:129] --> decoded_text[130:131] 'ä' --> 'a'",
+ "replace text[134:135] --> decoded_text[136:137] 'G' --> 'g'",
+ "replace text[144:145] --> decoded_text[146:147] 'G' --> 'g'",
+ "replace text[159:160] --> decoded_text[161:162] 'G' --> 'g'",
+ "replace text[171:172] --> decoded_text[173:174] 'K' --> 'k'",
+ "insert text[188:188] --> decoded_text[190:191] '' --> ' '",
+ "insert text[189:189] --> decoded_text[192:193] '' --> ' '"
+ ],
+ "n_oov_chars": 13,
+ "oov_ratio": 0.06842105263157895,
+ "oov_charset": "[\"I\", \"D\", \"B\", \"ö\", \"A\", \"R\", \"ä\", \"G\", \"K\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.fa.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.fa.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..af525f86d6ac7b0a75d19e1c97965ec854a7b123
--- /dev/null
+++ b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.fa.diff.json
@@ -0,0 +1,124 @@
+[
+ {
+ "text": "آشپزخانه کوچک من: February 2012",
+ "decoded_text": "اشپزخانه کوچک من : february 2012",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'آ' --> 'ا'",
+ "insert text[16:16] --> decoded_text[16:17] '' --> ' '",
+ "replace text[18:19] --> decoded_text[19:20] 'F' --> 'f'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.06451612903225806,
+ "oov_charset": "[\"آ\", \"F\"]"
+ },
+ {
+ "text": "آشپزخانه کوچک من",
+ "decoded_text": "اشپزخانه کوچک من",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'آ' --> 'ا'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.0625,
+ "oov_charset": "[\"آ\"]"
+ },
+ {
+ "text": "بکینگ پودر:2 قاشق چای خوری",
+ "decoded_text": "بکینگ پودر : 2 قاشق چای خوری",
+ "diff": [
+ "insert text[10:10] --> decoded_text[10:11] '' --> ' '",
+ "insert text[11:11] --> decoded_text[12:13] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "تخم مرغ:2 عدد بزرگ",
+ "decoded_text": "تخم مرغ : 2 عدد بزرگ",
+ "diff": [
+ "insert text[7:7] --> decoded_text[7:8] '' --> ' '",
+ "insert text[8:8] --> decoded_text[9:10] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "کره:225 گرم به دمای اتاق رسیده",
+ "decoded_text": "کره : 225 گرم به دمای اتاق رسیده",
+ "diff": [
+ "insert text[3:3] --> decoded_text[3:4] '' --> ' '",
+ "insert text[4:4] --> decoded_text[5:6] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "شکر:1و1/2 پیمانه+ 3 قاشق غذا خوری",
+ "decoded_text": "شکر : 1و1 / 2 پیمانه + 3 قاشق غذا خوری",
+ "diff": [
+ "insert text[3:3] --> decoded_text[3:4] '' --> ' '",
+ "insert text[4:4] --> decoded_text[5:6] '' --> ' '",
+ "insert text[7:7] --> decoded_text[9:10] '' --> ' '",
+ "insert text[8:8] --> decoded_text[11:12] '' --> ' '",
+ "insert text[16:16] --> decoded_text[20:21] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "پودر دارچین:2 و1/2قاشق چای خوری",
+ "decoded_text": "پودر دارچین : 2 و1 / 2قاشق چای خوری",
+ "diff": [
+ "insert text[11:11] --> decoded_text[11:12] '' --> ' '",
+ "insert text[12:12] --> decoded_text[13:14] '' --> ' '",
+ "insert text[16:16] --> decoded_text[18:19] '' --> ' '",
+ "insert text[17:17] --> decoded_text[20:21] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!در Twitter به اشتراک بگذاریددر Facebook به اشتراک بگذاریداشتراکگذاری در Pinterest",
+ "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید! در twitter به اشتراک بگذاریددر facebook به اشتراک بگذاریداشتراکگذاری در pinterest",
+ "diff": [
+ "replace text[46:47] --> decoded_text[46:47] '\\u200f' --> ' '",
+ "replace text[50:51] --> decoded_text[50:51] 'T' --> 't'",
+ "delete text[75:76] --> decoded_text[75:75] '\\u200f' --> ''",
+ "replace text[79:80] --> decoded_text[78:79] 'F' --> 'f'",
+ "delete text[105:106] --> decoded_text[104:104] '\\u200f' --> ''",
+ "delete text[112:113] --> decoded_text[110:110] '\\u200c' --> ''",
+ "replace text[122:123] --> decoded_text[119:120] 'P' --> 'p'"
+ ],
+ "n_oov_chars": 7,
+ "oov_ratio": 0.05343511450381679,
+ "oov_charset": "[\"\", \"T\", \"F\", \"\", \"P\"]"
+ },
+ {
+ "text": "برچسبها: شیرینی ها",
+ "decoded_text": "برچسبها : شیرینی ها",
+ "diff": [
+ "delete text[5:6] --> decoded_text[5:5] '\\u200c' --> ''",
+ "insert text[8:8] --> decoded_text[7:8] '' --> ' '"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.05263157894736842,
+ "oov_charset": "[\"\"]"
+ },
+ {
+ "text": "ارد:1 و 1/2 پیمانه + 1 قاشق غذا خوری سر صاف سبوس گندم",
+ "decoded_text": "ارد : 1 و 1 / 2 پیمانه + 1 قاشق غذا خوری سر صاف سبوس گندم",
+ "diff": [
+ "insert text[3:3] --> decoded_text[3:4] '' --> ' '",
+ "insert text[4:4] --> decoded_text[5:6] '' --> ' '",
+ "insert text[9:9] --> decoded_text[11:12] '' --> ' '",
+ "insert text[10:10] --> decoded_text[13:14] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.ja.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.ja.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..8d88ff3a81db6d18444410b1a7d84e842b674f70
--- /dev/null
+++ b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.ja.diff.json
@@ -0,0 +1,317 @@
+[
+ {
+ "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!",
+ "decoded_text": "午 後 から 雨 か 心 配 たったのて 遠 出 はせす 、 『 ふれあいロート 』 を 走 って 来 ました !",
+ "diff": [
+ "insert text[1:1] --> decoded_text[1:2] '' --> ' '",
+ "insert text[2:2] --> decoded_text[3:4] '' --> ' '",
+ "insert text[4:4] --> decoded_text[6:7] '' --> ' '",
+ "replace text[5:6] --> decoded_text[8:11] 'が' --> ' か '",
+ "insert text[7:7] --> decoded_text[12:13] '' --> ' '",
+ "replace text[8:9] --> decoded_text[14:16] 'だ' --> ' た'",
+ "replace text[12:13] --> decoded_text[19:21] 'で' --> 'て '",
+ "insert text[14:14] --> decoded_text[22:23] '' --> ' '",
+ "insert text[15:15] --> decoded_text[24:25] '' --> ' '",
+ "replace text[17:18] --> decoded_text[27:29] 'ず' --> 'す '",
+ "insert text[19:19] --> decoded_text[30:31] '' --> ' '",
+ "insert text[20:20] --> decoded_text[32:33] '' --> ' '",
+ "replace text[26:27] --> decoded_text[39:41] 'ド' --> 'ト '",
+ "insert text[28:28] --> decoded_text[42:43] '' --> ' '",
+ "insert text[29:29] --> decoded_text[44:45] '' --> ' '",
+ "insert text[30:30] --> decoded_text[46:47] '' --> ' '",
+ "insert text[32:32] --> decoded_text[49:50] '' --> ' '",
+ "insert text[33:33] --> decoded_text[51:52] '' --> ' '",
+ "insert text[36:36] --> decoded_text[55:56] '' --> ' '"
+ ],
+ "n_oov_chars": 5,
+ "oov_ratio": 0.13513513513513514,
+ "oov_charset": "[\"が\", \"だ\", \"で\", \"ず\", \"ド\"]"
+ },
+ {
+ "text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。",
+ "decoded_text": "確 実 に 春 か 近 ついてることを 肌 て 感 しることか 出 来 ました 着 々と 整 備 されてる 圏 央 道 を 越 えるとお 世 話 になってるホウリンク 場 か 見 えて 来 ました 。",
+ "diff": [
+ "insert text[1:1] --> decoded_text[1:2] '' --> ' '",
+ "insert text[2:2] --> decoded_text[3:4] '' --> ' '",
+ "insert text[3:3] --> decoded_text[5:6] '' --> ' '",
+ "replace text[4:5] --> decoded_text[7:10] 'が' --> ' か '",
+ "replace text[6:7] --> decoded_text[11:13] 'づ' --> ' つ'",
+ "insert text[13:13] --> decoded_text[19:20] '' --> ' '",
+ "replace text[14:15] --> decoded_text[21:24] 'で' --> ' て '",
+ "replace text[16:17] --> decoded_text[25:27] 'じ' --> ' し'",
+ "replace text[20:21] --> decoded_text[30:32] 'が' --> 'か '",
+ "insert text[22:22] --> decoded_text[33:34] '' --> ' '",
+ "insert text[23:23] --> decoded_text[35:36] '' --> ' '",
+ "insert text[28:28] --> decoded_text[41:42] '' --> ' '",
+ "insert text[30:30] --> decoded_text[44:45] '' --> ' '",
+ "insert text[31:31] --> decoded_text[46:47] '' --> ' '",
+ "insert text[32:32] --> decoded_text[48:49] '' --> ' '",
+ "insert text[36:36] --> decoded_text[53:54] '' --> ' '",
+ "insert text[37:37] --> decoded_text[55:56] '' --> ' '",
+ "insert text[38:38] --> decoded_text[57:58] '' --> ' '",
+ "insert text[39:39] --> decoded_text[59:60] '' --> ' '",
+ "insert text[40:40] --> decoded_text[61:62] '' --> ' '",
+ "insert text[41:41] --> decoded_text[63:64] '' --> ' '",
+ "insert text[45:45] --> decoded_text[68:69] '' --> ' '",
+ "insert text[46:46] --> decoded_text[70:71] '' --> ' '",
+ "insert text[47:47] --> decoded_text[72:73] '' --> ' '",
+ "replace text[52:53] --> decoded_text[78:79] 'ボ' --> 'ホ'",
+ "replace text[56:57] --> decoded_text[82:84] 'グ' --> 'ク '",
+ "replace text[58:59] --> decoded_text[85:88] 'が' --> ' か '",
+ "insert text[60:60] --> decoded_text[89:90] '' --> ' '",
+ "insert text[62:62] --> decoded_text[92:93] '' --> ' '",
+ "insert text[63:63] --> decoded_text[94:95] '' --> ' '",
+ "insert text[66:66] --> decoded_text[98:99] '' --> ' '"
+ ],
+ "n_oov_chars": 8,
+ "oov_ratio": 0.11940298507462686,
+ "oov_charset": "[\"が\", \"づ\", \"で\", \"じ\", \"ボ\", \"グ\"]"
+ },
+ {
+ "text": "うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。",
+ "decoded_text": "うぅ 〜 〜 、 私 か 途 中 てトイレに 行 きたくなってしまい 、 通 り 道 にあったケンタに 変 更 しちゃいました 。",
+ "diff": [
+ "insert text[2:2] --> decoded_text[2:3] '' --> ' '",
+ "insert text[3:3] --> decoded_text[4:5] '' --> ' '",
+ "insert text[4:4] --> decoded_text[6:7] '' --> ' '",
+ "insert text[5:5] --> decoded_text[8:9] '' --> ' '",
+ "replace text[6:7] --> decoded_text[10:13] 'が' --> ' か '",
+ "insert text[8:8] --> decoded_text[14:15] '' --> ' '",
+ "replace text[9:10] --> decoded_text[16:18] 'で' --> ' て'",
+ "insert text[14:14] --> decoded_text[22:23] '' --> ' '",
+ "insert text[15:15] --> decoded_text[24:25] '' --> ' '",
+ "insert text[24:24] --> decoded_text[34:35] '' --> ' '",
+ "insert text[25:25] --> decoded_text[36:37] '' --> ' '",
+ "insert text[26:26] --> decoded_text[38:39] '' --> ' '",
+ "insert text[27:27] --> decoded_text[40:41] '' --> ' '",
+ "insert text[28:28] --> decoded_text[42:43] '' --> ' '",
+ "insert text[36:36] --> decoded_text[51:52] '' --> ' '",
+ "insert text[37:37] --> decoded_text[53:54] '' --> ' '",
+ "insert text[38:38] --> decoded_text[55:56] '' --> ' '",
+ "insert text[45:45] --> decoded_text[63:64] '' --> ' '"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.043478260869565216,
+ "oov_charset": "[\"が\", \"で\"]"
+ },
+ {
+ "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。",
+ "decoded_text": "実 は 、 1 年 程 前 にエルモサの 右 目 の 黒 目 の 端 によ 〜 く 見 ないと 分 からない 程 の 小 さな 斑 を 見 つけてたんてす 。",
+ "diff": [
+ "insert text[1:1] --> decoded_text[1:2] '' --> ' '",
+ "insert text[2:2] --> decoded_text[3:4] '' --> ' '",
+ "insert text[3:3] --> decoded_text[5:6] '' --> ' '",
+ "insert text[4:4] --> decoded_text[7:8] '' --> ' '",
+ "insert text[5:5] --> decoded_text[9:10] '' --> ' '",
+ "insert text[6:6] --> decoded_text[11:12] '' --> ' '",
+ "insert text[7:7] --> decoded_text[13:14] '' --> ' '",
+ "insert text[13:13] --> decoded_text[20:21] '' --> ' '",
+ "insert text[14:14] --> decoded_text[22:23] '' --> ' '",
+ "insert text[15:15] --> decoded_text[24:25] '' --> ' '",
+ "insert text[16:16] --> decoded_text[26:27] '' --> ' '",
+ "insert text[17:17] --> decoded_text[28:29] '' --> ' '",
+ "insert text[18:18] --> decoded_text[30:31] '' --> ' '",
+ "insert text[19:19] --> decoded_text[32:33] '' --> ' '",
+ "insert text[20:20] --> decoded_text[34:35] '' --> ' '",
+ "insert text[22:22] --> decoded_text[37:38] '' --> ' '",
+ "insert text[23:23] --> decoded_text[39:40] '' --> ' '",
+ "insert text[24:24] --> decoded_text[41:42] '' --> ' '",
+ "insert text[25:25] --> decoded_text[43:44] '' --> ' '",
+ "insert text[28:28] --> decoded_text[47:48] '' --> ' '",
+ "insert text[29:29] --> decoded_text[49:50] '' --> ' '",
+ "insert text[33:33] --> decoded_text[54:55] '' --> ' '",
+ "insert text[34:34] --> decoded_text[56:57] '' --> ' '",
+ "insert text[35:35] --> decoded_text[58:59] '' --> ' '",
+ "insert text[36:36] --> decoded_text[60:61] '' --> ' '",
+ "insert text[38:38] --> decoded_text[63:64] '' --> ' '",
+ "insert text[39:39] --> decoded_text[65:66] '' --> ' '",
+ "insert text[40:40] --> decoded_text[67:68] '' --> ' '",
+ "insert text[41:41] --> decoded_text[69:70] '' --> ' '",
+ "replace text[46:47] --> decoded_text[75:76] 'で' --> 'て'",
+ "insert text[48:48] --> decoded_text[77:78] '' --> ' '"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.02040816326530612,
+ "oov_charset": "[\"で\"]"
+ },
+ {
+ "text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。",
+ "decoded_text": "その 時 点 て 先 生 からはおそらく 『 角 膜 シストロフィー 』 てあろうとの 診 断 をもらっていました 。",
+ "diff": [
+ "insert text[2:2] --> decoded_text[2:3] '' --> ' '",
+ "insert text[3:3] --> decoded_text[4:5] '' --> ' '",
+ "replace text[4:5] --> decoded_text[6:9] 'で' --> ' て '",
+ "insert text[6:6] --> decoded_text[10:11] '' --> ' '",
+ "insert text[7:7] --> decoded_text[12:13] '' --> ' '",
+ "insert text[14:14] --> decoded_text[20:21] '' --> ' '",
+ "insert text[15:15] --> decoded_text[22:23] '' --> ' '",
+ "insert text[16:16] --> decoded_text[24:25] '' --> ' '",
+ "replace text[17:18] --> decoded_text[26:28] 'ジ' --> ' シ'",
+ "insert text[24:24] --> decoded_text[34:35] '' --> ' '",
+ "replace text[25:26] --> decoded_text[36:38] 'で' --> ' て'",
+ "insert text[31:31] --> decoded_text[43:44] '' --> ' '",
+ "insert text[32:32] --> decoded_text[45:46] '' --> ' '",
+ "insert text[33:33] --> decoded_text[47:48] '' --> ' '",
+ "insert text[42:42] --> decoded_text[57:58] '' --> ' '"
+ ],
+ "n_oov_chars": 3,
+ "oov_ratio": 0.06976744186046512,
+ "oov_charset": "[\"で\", \"ジ\"]"
+ },
+ {
+ "text": "エルモサの場合は1年程経過して徐々にではあるんですけど、少し大きくなってきちゃいました",
+ "decoded_text": "エルモサの 場 合 は1 年 程 経 過 して 徐 々にてはあるんてすけと 、 少 し 大 きくなってきちゃいました",
+ "diff": [
+ "insert text[5:5] --> decoded_text[5:6] '' --> ' '",
+ "insert text[6:6] --> decoded_text[7:8] '' --> ' '",
+ "insert text[7:7] --> decoded_text[9:10] '' --> ' '",
+ "insert text[9:9] --> decoded_text[12:13] '' --> ' '",
+ "insert text[10:10] --> decoded_text[14:15] '' --> ' '",
+ "insert text[11:11] --> decoded_text[16:17] '' --> ' '",
+ "insert text[12:12] --> decoded_text[18:19] '' --> ' '",
+ "insert text[13:13] --> decoded_text[20:21] '' --> ' '",
+ "insert text[15:15] --> decoded_text[23:24] '' --> ' '",
+ "insert text[16:16] --> decoded_text[25:26] '' --> ' '",
+ "replace text[18:19] --> decoded_text[28:29] 'で' --> 'て'",
+ "replace text[23:24] --> decoded_text[33:34] 'で' --> 'て'",
+ "replace text[26:27] --> decoded_text[36:38] 'ど' --> 'と '",
+ "insert text[28:28] --> decoded_text[39:40] '' --> ' '",
+ "insert text[29:29] --> decoded_text[41:42] '' --> ' '",
+ "insert text[30:30] --> decoded_text[43:44] '' --> ' '",
+ "insert text[31:31] --> decoded_text[45:46] '' --> ' '"
+ ],
+ "n_oov_chars": 3,
+ "oov_ratio": 0.06976744186046512,
+ "oov_charset": "[\"で\", \"ど\"]"
+ },
+ {
+ "text": "ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。",
+ "decoded_text": "たた 、 これまてお 散 歩 仲 間 からは 指 摘 とかされたことはないのて 、 こちらから 言 わなけれはそんなに 目 立 つ 程 てはないんてすけとね 。",
+ "diff": [
+ "replace text[1:2] --> decoded_text[1:3] 'だ' --> 'た '",
+ "insert text[3:3] --> decoded_text[4:5] '' --> ' '",
+ "replace text[6:7] --> decoded_text[8:9] 'で' --> 'て'",
+ "insert text[8:8] --> decoded_text[10:11] '' --> ' '",
+ "insert text[9:9] --> decoded_text[12:13] '' --> ' '",
+ "insert text[10:10] --> decoded_text[14:15] '' --> ' '",
+ "insert text[11:11] --> decoded_text[16:17] '' --> ' '",
+ "insert text[12:12] --> decoded_text[18:19] '' --> ' '",
+ "insert text[15:15] --> decoded_text[22:23] '' --> ' '",
+ "insert text[16:16] --> decoded_text[24:25] '' --> ' '",
+ "insert text[17:17] --> decoded_text[26:27] '' --> ' '",
+ "replace text[28:29] --> decoded_text[38:40] 'で' --> 'て '",
+ "insert text[30:30] --> decoded_text[41:42] '' --> ' '",
+ "insert text[35:35] --> decoded_text[47:48] '' --> ' '",
+ "insert text[36:36] --> decoded_text[49:50] '' --> ' '",
+ "replace text[40:41] --> decoded_text[54:55] 'ば' --> 'は'",
+ "insert text[45:45] --> decoded_text[59:60] '' --> ' '",
+ "insert text[46:46] --> decoded_text[61:62] '' --> ' '",
+ "insert text[47:47] --> decoded_text[63:64] '' --> ' '",
+ "insert text[48:48] --> decoded_text[65:66] '' --> ' '",
+ "replace text[49:50] --> decoded_text[67:69] 'で' --> ' て'",
+ "replace text[54:55] --> decoded_text[73:74] 'で' --> 'て'",
+ "replace text[57:58] --> decoded_text[76:77] 'ど' --> 'と'",
+ "insert text[59:59] --> decoded_text[78:79] '' --> ' '"
+ ],
+ "n_oov_chars": 7,
+ "oov_ratio": 0.11666666666666667,
+ "oov_charset": "[\"だ\", \"で\", \"ば\", \"ど\"]"
+ },
+ {
+ "text": "昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。",
+ "decoded_text": "昔 はヒアルロン 酸 の 目 薬 なとも 処 方 されてたようてすか 、 これか 効 く 事 はないそうてす 。",
+ "diff": [
+ "insert text[1:1] --> decoded_text[1:2] '' --> ' '",
+ "insert text[7:7] --> decoded_text[8:9] '' --> ' '",
+ "insert text[8:8] --> decoded_text[10:11] '' --> ' '",
+ "insert text[9:9] --> decoded_text[12:13] '' --> ' '",
+ "insert text[10:10] --> decoded_text[14:15] '' --> ' '",
+ "insert text[11:11] --> decoded_text[16:17] '' --> ' '",
+ "replace text[12:13] --> decoded_text[18:19] 'ど' --> 'と'",
+ "insert text[14:14] --> decoded_text[20:21] '' --> ' '",
+ "insert text[15:15] --> decoded_text[22:23] '' --> ' '",
+ "insert text[16:16] --> decoded_text[24:25] '' --> ' '",
+ "replace text[22:23] --> decoded_text[31:32] 'で' --> 'て'",
+ "replace text[24:25] --> decoded_text[33:35] 'が' --> 'か '",
+ "insert text[26:26] --> decoded_text[36:37] '' --> ' '",
+ "replace text[28:29] --> decoded_text[39:41] 'が' --> 'か '",
+ "insert text[30:30] --> decoded_text[42:43] '' --> ' '",
+ "insert text[31:31] --> decoded_text[44:45] '' --> ' '",
+ "insert text[32:32] --> decoded_text[46:47] '' --> ' '",
+ "replace text[37:38] --> decoded_text[52:53] 'で' --> 'て'",
+ "insert text[39:39] --> decoded_text[54:55] '' --> ' '"
+ ],
+ "n_oov_chars": 5,
+ "oov_ratio": 0.125,
+ "oov_charset": "[\"ど\", \"で\", \"が\"]"
+ },
+ {
+ "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。",
+ "decoded_text": "なのて 、 エルティとのお 散 歩 ても 訪 れたことかありません 。 カタクリの 花 か5 分 咲 きとの 情 報 から 今 回 コースの1つに 取 り 入 れてみました 。",
+ "diff": [
+ "replace text[2:3] --> decoded_text[2:4] 'で' --> 'て '",
+ "insert text[4:4] --> decoded_text[5:6] '' --> ' '",
+ "replace text[6:7] --> decoded_text[8:9] 'デ' --> 'テ'",
+ "insert text[11:11] --> decoded_text[13:14] '' --> ' '",
+ "insert text[12:12] --> decoded_text[15:16] '' --> ' '",
+ "replace text[13:14] --> decoded_text[17:19] 'で' --> ' て'",
+ "insert text[15:15] --> decoded_text[20:21] '' --> ' '",
+ "insert text[16:16] --> decoded_text[22:23] '' --> ' '",
+ "replace text[20:21] --> decoded_text[27:28] 'が' --> 'か'",
+ "insert text[26:26] --> decoded_text[33:34] '' --> ' '",
+ "insert text[33:33] --> decoded_text[41:42] '' --> ' '",
+ "replace text[34:35] --> decoded_text[43:45] 'が' --> ' か'",
+ "insert text[36:36] --> decoded_text[46:47] '' --> ' '",
+ "insert text[37:37] --> decoded_text[48:49] '' --> ' '",
+ "insert text[38:38] --> decoded_text[50:51] '' --> ' '",
+ "insert text[41:41] --> decoded_text[54:55] '' --> ' '",
+ "insert text[42:42] --> decoded_text[56:57] '' --> ' '",
+ "insert text[43:43] --> decoded_text[58:59] '' --> ' '",
+ "insert text[45:45] --> decoded_text[61:62] '' --> ' '",
+ "insert text[46:46] --> decoded_text[63:64] '' --> ' '",
+ "insert text[47:47] --> decoded_text[65:66] '' --> ' '",
+ "insert text[54:54] --> decoded_text[73:74] '' --> ' '",
+ "insert text[55:55] --> decoded_text[75:76] '' --> ' '",
+ "insert text[56:56] --> decoded_text[77:78] '' --> ' '",
+ "insert text[57:57] --> decoded_text[79:80] '' --> ' '",
+ "insert text[63:63] --> decoded_text[86:87] '' --> ' '"
+ ],
+ "n_oov_chars": 5,
+ "oov_ratio": 0.078125,
+ "oov_charset": "[\"で\", \"デ\", \"が\"]"
+ },
+ {
+ "text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました",
+ "decoded_text": "前 々から 走 ってみたかったんたけと 、 いつも 陸 上 部 らしき 学 生 さんかものすこいスヒートて 駆 け 抜 けていくのを 目 の 当 たりにしてちょっとヒヒっておりました",
+ "diff": [
+ "insert text[1:1] --> decoded_text[1:2] '' --> ' '",
+ "insert text[4:4] --> decoded_text[5:6] '' --> ' '",
+ "insert text[5:5] --> decoded_text[7:8] '' --> ' '",
+ "replace text[13:14] --> decoded_text[16:17] 'だ' --> 'た'",
+ "replace text[15:16] --> decoded_text[18:20] 'ど' --> 'と '",
+ "insert text[17:17] --> decoded_text[21:22] '' --> ' '",
+ "insert text[20:20] --> decoded_text[25:26] '' --> ' '",
+ "insert text[21:21] --> decoded_text[27:28] '' --> ' '",
+ "insert text[22:22] --> decoded_text[29:30] '' --> ' '",
+ "insert text[23:23] --> decoded_text[31:32] '' --> ' '",
+ "insert text[26:26] --> decoded_text[35:36] '' --> ' '",
+ "insert text[27:27] --> decoded_text[37:38] '' --> ' '",
+ "insert text[28:28] --> decoded_text[39:40] '' --> ' '",
+ "replace text[30:31] --> decoded_text[42:43] 'が' --> 'か'",
+ "replace text[34:35] --> decoded_text[46:47] 'ご' --> 'こ'",
+ "replace text[37:38] --> decoded_text[49:50] 'ピ' --> 'ヒ'",
+ "replace text[39:41] --> decoded_text[51:54] 'ドで' --> 'トて '",
+ "insert text[42:42] --> decoded_text[55:56] '' --> ' '",
+ "insert text[43:43] --> decoded_text[57:58] '' --> ' '",
+ "insert text[44:44] --> decoded_text[59:60] '' --> ' '",
+ "insert text[50:50] --> decoded_text[66:67] '' --> ' '",
+ "insert text[51:51] --> decoded_text[68:69] '' --> ' '",
+ "insert text[52:52] --> decoded_text[70:71] '' --> ' '",
+ "insert text[53:53] --> decoded_text[72:73] '' --> ' '",
+ "replace text[62:64] --> decoded_text[82:84] 'ビビ' --> 'ヒヒ'"
+ ],
+ "n_oov_chars": 9,
+ "oov_ratio": 0.1267605633802817,
+ "oov_charset": "[\"だ\", \"ど\", \"が\", \"ご\", \"ピ\", \"ド\", \"で\", \"ビ\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.ko.diff.json b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.ko.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..69f2f46124d7cec2310cb8205eeb34f48abd592d
--- /dev/null
+++ b/stats/compression_rate/google-bert.bert-base-multilingual-uncased @ cc100.ko.diff.json
@@ -0,0 +1,209 @@
+[
+ {
+ "text": "+ HOME > 라이브스코어",
+ "decoded_text": "+ home > 라이브스코어",
+ "diff": [
+ "replace text[2:6] --> decoded_text[2:6] 'HOME' --> 'home'",
+ "replace text[9:15] --> decoded_text[9:21] '라이브스코어' --> '라이브스코어'"
+ ],
+ "n_oov_chars": 10,
+ "oov_ratio": 0.6666666666666666,
+ "oov_charset": "[\"H\", \"O\", \"M\", \"E\", \"라\", \"이\", \"브\", \"스\", \"코\", \"어\"]"
+ },
+ {
+ "text": "특히 주소 15~17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.",
+ "decoded_text": "특히 주소 15 ~ 17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.",
+ "diff": [
+ "replace text[0:2] --> decoded_text[0:5] '특히' --> '특히'",
+ "replace text[3:5] --> decoded_text[6:10] '주소' --> '주소'",
+ "insert text[8:8] --> decoded_text[13:14] '' --> ' '",
+ "insert text[9:9] --> decoded_text[15:16] '' --> ' '",
+ "replace text[11:12] --> decoded_text[18:21] '번' --> '번'",
+ "replace text[13:16] --> decoded_text[22:30] '홀에선' --> '홀에선'",
+ "replace text[18:20] --> decoded_text[32:38] '연속' --> '연속'",
+ "replace text[21:24] --> decoded_text[39:45] '보기로' --> '보기로'",
+ "replace text[25:33] --> decoded_text[46:65] '황금의제국카지노' --> '황금의제국카지노'",
+ "replace text[34:39] --> decoded_text[66:79] '홀아웃했다' --> '홀아웃했다'"
+ ],
+ "n_oov_chars": 26,
+ "oov_ratio": 0.65,
+ "oov_charset": "[\"특\", \"히\", \"주\", \"소\", \"번\", \"홀\", \"에\", \"선\", \"연\", \"속\", \"보\", \"기\", \"로\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"아\", \"웃\", \"했\", \"다\"]"
+ },
+ {
+ "text": "1편인'신과함께-죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.",
+ "decoded_text": "1편인'신과함께 - 죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.",
+ "diff": [
+ "replace text[1:3] --> decoded_text[1:7] '편인' --> '편인'",
+ "replace text[4:8] --> decoded_text[8:19] '신과함께' --> '신과함께 '",
+ "delete text[9:11] --> decoded_text[20:20] '죄와' --> ''",
+ "replace text[12:13] --> decoded_text[21:29] '벌' --> '죄와 벌'",
+ "replace text[14:15] --> decoded_text[30:32] '이' --> '이'",
+ "replace text[16:19] --> decoded_text[33:42] '천만을' --> '천만을'",
+ "replace text[20:22] --> decoded_text[43:49] '넘은' --> '넘은'",
+ "replace text[23:25] --> decoded_text[50:56] '만큼' --> '만큼'",
+ "replace text[27:29] --> decoded_text[58:64] '편을' --> '편을'",
+ "replace text[30:33] --> decoded_text[65:72] '기다린' --> '기다린'",
+ "replace text[34:42] --> decoded_text[73:92] '황금의제국카지노' --> '황금의제국카지노'",
+ "replace text[43:47] --> decoded_text[93:104] '관객들의' --> '관객들의'",
+ "replace text[48:51] --> decoded_text[105:111] '기대와' --> '기대와'",
+ "replace text[52:54] --> decoded_text[112:116] '주소' --> '주소'",
+ "replace text[55:58] --> decoded_text[117:126] '관심은' --> '관심은'",
+ "replace text[59:64] --> decoded_text[127:140] '폭발적이다' --> '폭발적이다'"
+ ],
+ "n_oov_chars": 47,
+ "oov_ratio": 0.7230769230769231,
+ "oov_charset": "[\"편\", \"인\", \"신\", \"과\", \"함\", \"께\", \"죄\", \"와\", \"벌\", \"이\", \"천\", \"만\", \"을\", \"넘\", \"은\", \"큼\", \"기\", \"다\", \"린\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"관\", \"객\", \"들\", \"대\", \"주\", \"소\", \"심\", \"폭\", \"발\", \"적\"]"
+ },
+ {
+ "text": "고려해서 주소 '대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.",
+ "decoded_text": "고려해서 주소'대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.",
+ "diff": [
+ "replace text[0:4] --> decoded_text[0:8] '고려해서' --> '고려해서'",
+ "replace text[5:7] --> decoded_text[9:20] '주소' --> \"주소'대체재\"",
+ "insert text[8:8] --> decoded_text[21:27] '' --> '일색'",
+ "replace text[9:12] --> decoded_text[28:30] '대체재' --> '의'",
+ "replace text[13:17] --> decoded_text[31:39] \"일색'의\" --> '분재를'",
+ "replace text[18:21] --> decoded_text[40:48] '분재를' --> '내놓을'",
+ "replace text[22:25] --> decoded_text[49:56] '내놓을' --> '위험이'",
+ "replace text[26:32] --> decoded_text[57:62] '위험이 있다' --> '있다'",
+ "replace text[34:37] --> decoded_text[64:72] '문학의' --> '문학의'",
+ "replace text[38:41] --> decoded_text[73:80] '자유를' --> '자유를'",
+ "replace text[42:46] --> decoded_text[81:90] '소설가가' --> '소설가가'",
+ "replace text[47:50] --> decoded_text[91:97] '스스로' --> '스스로'",
+ "replace text[51:59] --> decoded_text[98:117] '황금의제국카지노' --> '황금의제국카지노'",
+ "replace text[60:64] --> decoded_text[118:128] '출판사에' --> '출판사에'",
+ "replace text[65:69] --> decoded_text[129:140] '상납하는' --> '상납하는'",
+ "replace text[70:73] --> decoded_text[141:148] '것이다' --> '것이다'"
+ ],
+ "n_oov_chars": 55,
+ "oov_ratio": 0.7432432432432432,
+ "oov_charset": "[\"고\", \"려\", \"해\", \"서\", \"주\", \"소\", \"대\", \"체\", \"재\", \"일\", \"색\", \"의\", \"분\", \"를\", \"내\", \"놓\", \"을\", \"위\", \"험\", \"이\", \"있\", \"다\", \"문\", \"학\", \"자\", \"유\", \"설\", \"가\", \"스\", \"로\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"출\", \"판\", \"사\", \"에\", \"상\", \"납\", \"하\", \"는\", \"것\"]"
+ },
+ {
+ "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
+ "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토 ( 22 ) 는 황금의제국카지노 4타수3안타 ( 2루타 홈런 ) 3타점 (. 246. 270. 508 ). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
+ "diff": [
+ "replace text[0:6] --> decoded_text[0:14] '조시도널슨의' --> '조시도널슨의'",
+ "replace text[7:9] --> decoded_text[15:20] '유산' --> '유산'",
+ "replace text[10:14] --> decoded_text[21:32] '프랭클린' --> '프랭클린'",
+ "replace text[15:17] --> decoded_text[33:37] '주소' --> '주소'",
+ "replace text[18:21] --> decoded_text[38:45] '바레토' --> '바레토 '",
+ "insert text[22:22] --> decoded_text[46:47] '' --> ' '",
+ "insert text[24:24] --> decoded_text[49:50] '' --> ' '",
+ "delete text[25:26] --> decoded_text[51:51] '는' --> ''",
+ "replace text[27:35] --> decoded_text[52:75] '황금의제국카지노' --> '는 황금의제국카지노'",
+ "replace text[37:39] --> decoded_text[77:81] '타수' --> '타수'",
+ "replace text[40:42] --> decoded_text[82:88] '안타' --> '안타 '",
+ "insert text[43:43] --> decoded_text[89:90] '' --> ' '",
+ "replace text[44:46] --> decoded_text[91:95] '루타' --> '루타'",
+ "replace text[47:49] --> decoded_text[96:103] '홈런' --> '홈런 '",
+ "replace text[52:54] --> decoded_text[106:112] '타점' --> '타점 '",
+ "insert text[56:56] --> decoded_text[114:115] '' --> ' '",
+ "insert text[59:59] --> decoded_text[118:119] '' --> '.'",
+ "delete text[60:61] --> decoded_text[120:120] '.' --> ''",
+ "insert text[64:64] --> decoded_text[123:124] '' --> '.'",
+ "delete text[65:66] --> decoded_text[125:125] '.' --> ''",
+ "insert text[69:69] --> decoded_text[128:129] '' --> ' '",
+ "replace text[72:75] --> decoded_text[132:139] '하지만' --> '하지만'",
+ "replace text[76:79] --> decoded_text[140:148] '아직은' --> '아직은'",
+ "replace text[80:84] --> decoded_text[149:157] '트레이드' --> '트레이드'",
+ "replace text[85:88] --> decoded_text[158:165] '당시의' --> '당시의'",
+ "replace text[89:93] --> decoded_text[166:175] '기대치를' --> '기대치를'",
+ "replace text[94:98] --> decoded_text[176:184] '보여주지' --> '보여주지'",
+ "replace text[99:102] --> decoded_text[185:192] '못하고' --> '못하고'",
+ "replace text[103:105] --> decoded_text[193:198] '있다' --> '있다'"
+ ],
+ "n_oov_chars": 62,
+ "oov_ratio": 0.5849056603773585,
+ "oov_charset": "[\"조\", \"시\", \"도\", \"널\", \"슨\", \"의\", \"유\", \"산\", \"프\", \"랭\", \"클\", \"린\", \"주\", \"소\", \"바\", \"레\", \"토\", \"는\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"타\", \"수\", \"안\", \"루\", \"홈\", \"런\", \"점\", \"하\", \"만\", \"아\", \"직\", \"은\", \"트\", \"이\", \"드\", \"당\", \"기\", \"대\", \"치\", \"를\", \"보\", \"여\", \"못\", \"고\", \"있\", \"다\"]"
+ },
+ {
+ "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.",
+ "decoded_text": "여기서승리한 2팀이 준결승에 오른다. 결국 a, b조 1위는 12강 - 4강 - 결승으로 3경기를 치르지만, c, d, 황금의제국카지노 e, f조 1위는 주소 12강 - 6강 - 4강 - 결승으로 4경기를 해야 한다.",
+ "diff": [
+ "replace text[0:6] --> decoded_text[0:14] '여기서승리한' --> '여기서승리한'",
+ "replace text[8:19] --> decoded_text[16:41] '팀이 준결승에 오른다' --> '팀이 준결승에 오른다'",
+ "replace text[21:33] --> decoded_text[43:63] '결국 A, B조 1위는' --> '결국 a, b조 1위는'",
+ "replace text[36:38] --> decoded_text[66:72] '강-' --> '강 - '",
+ "replace text[39:45] --> decoded_text[73:89] '강-결승으로' --> '강 - 결승으로'",
+ "replace text[47:84] --> decoded_text[91:155] '경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소' --> '경기를 치르지만, c, d, 황금의제국카지노 e, f조 1위는 주소'",
+ "replace text[87:89] --> decoded_text[158:164] '강-' --> '강 - '",
+ "replace text[90:92] --> decoded_text[165:171] '강-' --> '강 - '",
+ "replace text[93:99] --> decoded_text[172:188] '강-결승으로' --> '강 - 결승으로'",
+ "replace text[101:110] --> decoded_text[190:209] '경기를 해야 한다' --> '경기를 해야 한다'"
+ ],
+ "n_oov_chars": 66,
+ "oov_ratio": 0.5945945945945946,
+ "oov_charset": "[\"여\", \"기\", \"서\", \"승\", \"리\", \"한\", \"팀\", \"이\", \"준\", \"결\", \"에\", \"오\", \"른\", \"다\", \"국\", \"A\", \"B\", \"조\", \"위\", \"는\", \"강\", \"으\", \"로\", \"경\", \"를\", \"치\", \"르\", \"지\", \"만\", \"C\", \"D\", \"황\", \"금\", \"의\", \"제\", \"카\", \"노\", \"E\", \"F\", \"주\", \"소\", \"해\", \"야\"]"
+ },
+ {
+ "text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 '실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.",
+ "decoded_text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는'실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.",
+ "diff": [
+ "replace text[0:30] --> decoded_text[0:65] '또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다' --> '또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다'",
+ "replace text[32:75] --> decoded_text[67:155] '황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 ' --> '황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는'",
+ "replace text[76:83] --> decoded_text[156:173] '실시간 검색어' --> '실시간 검색어'",
+ "replace text[85:86] --> decoded_text[175:177] '위' --> '위'",
+ "replace text[87:96] --> decoded_text[178:199] '를 만들어주겠다며' --> '를 만들어주겠다며'",
+ "replace text[98:106] --> decoded_text[201:221] '통화연결을 했다' --> '통화연결을 했다'"
+ ],
+ "n_oov_chars": 78,
+ "oov_ratio": 0.7289719626168224,
+ "oov_charset": "[\"또\", \"한\", \"이\", \"날\", \"눈\", \"길\", \"을\", \"주\", \"소\", \"끈\", \"것\", \"은\", \"신\", \"인\", \"배\", \"우\", \"의\", \"매\", \"니\", \"저\", \"였\", \"다\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"일\", \"하\", \"고\", \"있\", \"는\", \"청\", \"취\", \"자\", \"사\", \"연\", \"에\", \"박\", \"명\", \"수\", \"실\", \"시\", \"간\", \"검\", \"색\", \"어\", \"위\", \"를\", \"만\", \"들\", \"겠\", \"며\", \"통\", \"화\", \"결\", \"했\"]"
+ },
+ {
+ "text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다.",
+ "decoded_text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 [UNK] 빅 사이닝 [UNK] 을 통해 유벤투스로 옮겼기 때문이다.",
+ "diff": [
+ "replace text[0:5] --> decoded_text[0:12] '하지만이번' --> '하지만이번'",
+ "replace text[6:14] --> decoded_text[13:32] '황금의제국카지노' --> '황금의제국카지노'",
+ "replace text[15:17] --> decoded_text[33:38] '시즌' --> '시즌'",
+ "replace text[19:23] --> decoded_text[40:49] '호날두와' --> '호날두와'",
+ "replace text[24:28] --> decoded_text[50:59] '이과인이' --> '이과인이'",
+ "replace text[29:31] --> decoded_text[60:64] '다시' --> '다시'",
+ "replace text[32:34] --> decoded_text[65:69] '주소' --> '주소'",
+ "replace text[35:39] --> decoded_text[70:82] '한솥밥을' --> '한솥밥을'",
+ "replace text[40:42] --> decoded_text[83:89] '먹는' --> '먹는'",
+ "replace text[43:45] --> decoded_text[90:95] '일이' --> '일이'",
+ "replace text[46:50] --> decoded_text[96:106] '성사됐다' --> '성사됐다'",
+ "replace text[52:56] --> decoded_text[108:117] '호날두가' --> '호날두가'",
+ "replace text[57:59] --> decoded_text[118:123] '‘빅' --> '[UNK]'",
+ "replace text[60:65] --> decoded_text[124:127] '사이닝’을' --> '빅'",
+ "replace text[66:68] --> decoded_text[128:135] '통해' --> '사이닝'",
+ "replace text[69:74] --> decoded_text[136:141] '유벤투스로' --> '[UNK]'",
+ "replace text[75:78] --> decoded_text[142:145] '옮겼기' --> '을'",
+ "replace text[79:83] --> decoded_text[146:182] '때문이다' --> '통해 유벤투스로 옮겼기 때문이다'"
+ ],
+ "n_oov_chars": 64,
+ "oov_ratio": 0.7619047619047619,
+ "oov_charset": "[\"하\", \"지\", \"만\", \"이\", \"번\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"노\", \"시\", \"즌\", \"호\", \"날\", \"두\", \"와\", \"과\", \"인\", \"다\", \"주\", \"소\", \"한\", \"솥\", \"밥\", \"을\", \"먹\", \"는\", \"일\", \"성\", \"사\", \"됐\", \"가\", \"‘\", \"빅\", \"닝\", \"’\", \"통\", \"해\", \"유\", \"벤\", \"투\", \"스\", \"로\", \"옮\", \"겼\", \"기\", \"때\", \"문\"]"
+ },
+ {
+ "text": "현대캐피탈은삼성화재와 시범경기를 위해 홍천에 황금의제국카지노 주소 왔다.",
+ "decoded_text": "현대캐피탈은삼성화재와 시범경기를 위해 홍천에 황금의제국카지노 주소 왔다.",
+ "diff": [
+ "replace text[0:11] --> decoded_text[0:27] '현대캐피탈은삼성화재와' --> '현대캐피탈은삼성화재와'",
+ "replace text[12:17] --> decoded_text[28:41] '시범경기를' --> '시범경기를'",
+ "replace text[18:20] --> decoded_text[42:46] '위해' --> '위해'",
+ "replace text[21:24] --> decoded_text[47:55] '홍천에' --> '홍천에'",
+ "replace text[25:33] --> decoded_text[56:75] '황금의제국카지노' --> '황금의제국카지노'",
+ "replace text[34:36] --> decoded_text[76:80] '주소' --> '주소'",
+ "replace text[37:39] --> decoded_text[81:86] '왔다' --> '왔다'"
+ ],
+ "n_oov_chars": 33,
+ "oov_ratio": 0.825,
+ "oov_charset": "[\"현\", \"대\", \"캐\", \"피\", \"탈\", \"은\", \"삼\", \"성\", \"화\", \"재\", \"와\", \"시\", \"범\", \"경\", \"기\", \"를\", \"위\", \"해\", \"홍\", \"천\", \"에\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"주\", \"소\", \"왔\", \"다\"]"
+ },
+ {
+ "text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.",
+ "decoded_text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.",
+ "diff": [
+ "replace text[0:34] --> decoded_text[0:71] '사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데' --> '사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데'",
+ "replace text[36:57] --> decoded_text[73:116] '주소 둘 사이에는 어떤 거리낌도 없었다' --> '주소 둘 사이에는 어떤 거리낌도 없었다'",
+ "replace text[59:97] --> decoded_text[118:199] '마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다' --> '마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다'"
+ ],
+ "n_oov_chars": 71,
+ "oov_ratio": 0.7244897959183674,
+ "oov_charset": "[\"사\", \"실\", \"자\", \"매\", \"가\", \"나\", \"란\", \"히\", \"앉\", \"아\", \"인\", \"터\", \"뷰\", \"를\", \"한\", \"다\", \"는\", \"게\", \"쑥\", \"스\", \"러\", \"울\", \"법\", \"도\", \"데\", \"주\", \"소\", \"둘\", \"이\", \"에\", \"어\", \"떤\", \"거\", \"리\", \"낌\", \"없\", \"었\", \"마\", \"치\", \"하\", \"루\", \"번\", \"씩\", \"만\", \"친\", \"구\", \"같\", \"은\", \"느\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"강\", \"했\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-bert.bert-base-uncased @ cc100.ar.diff.json b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.ar.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..581c90b20beec0fbfad26ca4cfeef42077cc3a91
--- /dev/null
+++ b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.ar.diff.json
@@ -0,0 +1,190 @@
+[
+ {
+ "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)",
+ "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1 )",
+ "diff": [
+ "delete text[42:43] --> decoded_text[42:42] ' ' --> ''",
+ "insert text[49:49] --> decoded_text[48:49] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..",
+ "decoded_text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تاكيد قد تنهدت من اعماق اعماقها الما واسى لما وصل اليه حال ابنايها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض ابنايها لاملاءات الغير ولحساباتهم.. ووسط هذه الماساة لم تعدم هذه الارض الطيبة من بقايا امل, ومن بقايا حكمة مازالت تميز ابناء هذا الشعب الطيب لان اليمانيين في العام 1990م فاجاوا العالم بوحدتهم حين كان العالم منغمسا في الانقسام, وحينما كانت الانظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنايية.. وكان اندفاع اليمنيين شمالا وجنوبا نحو الوحدة طوعيا وبمستوى عال من الحكمة ونكران الذات وتغليب المصلحة العليا عن اية مصالح اخرى سواء كانت ذاتية او حسابات جهوية او اية مصالح اخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الايثار ونحن نعتقد ان مرحلة التسعينات من القرن العشرين التي ( تردف ) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..",
+ "diff": [
+ "replace text[159:198] --> decoded_text[159:197] 'أكيد قد تنهدت من أعماق أعماقها ألماً وأ' --> 'اكيد قد تنهدت من اعماق اعماقها الما وا'",
+ "delete text[200:201] --> decoded_text[199:199] 'ً' --> ''",
+ "replace text[210:224] --> decoded_text[208:222] 'إليه حال أبنائ' --> 'اليه حال ابناي'",
+ "replace text[299:309] --> decoded_text[297:307] 'أبنائها لإ' --> 'ابنايها لا'",
+ "replace text[347:348] --> decoded_text[345:346] 'أ' --> 'ا'",
+ "replace text[366:367] --> decoded_text[364:365] 'أ' --> 'ا'",
+ "replace text[386:387] --> decoded_text[384:385] 'أ' --> 'ا'",
+ "replace text[418:419] --> decoded_text[416:417] 'أ' --> 'ا'",
+ "replace text[441:442] --> decoded_text[439:440] 'أ' --> 'ا'",
+ "replace text[472:473] --> decoded_text[470:471] 'أ' --> 'ا'",
+ "delete text[512:513] --> decoded_text[510:510] 'ً' --> ''",
+ "replace text[541:542] --> decoded_text[538:539] 'أ' --> 'ا'",
+ "replace text[599:600] --> decoded_text[596:597] 'ئ' --> 'ي'",
+ "delete text[631:632] --> decoded_text[628:628] 'ً' --> ''",
+ "delete text[639:640] --> decoded_text[635:635] 'ً' --> ''",
+ "delete text[657:658] --> decoded_text[652:652] 'ً' --> ''",
+ "delete text[670:671] --> decoded_text[664:664] 'ٍ' --> ''",
+ "replace text[720:721] --> decoded_text[713:714] 'أ' --> 'ا'",
+ "replace text[730:731] --> decoded_text[723:724] 'أ' --> 'ا'",
+ "delete text[739:740] --> decoded_text[732:732] 'ً' --> ''",
+ "replace text[752:753] --> decoded_text[744:745] 'أ' --> 'ا'",
+ "replace text[768:772] --> decoded_text[760:764] 'أو أ' --> 'او ا'",
+ "replace text[781:782] --> decoded_text[773:774] 'أ' --> 'ا'",
+ "replace text[827:828] --> decoded_text[819:820] 'إ' --> 'ا'",
+ "replace text[844:845] --> decoded_text[836:837] 'أ' --> 'ا'",
+ "replace text[886:890] --> decoded_text[878:884] 'تردف' --> ' تردف '"
+ ],
+ "n_oov_chars": 35,
+ "oov_ratio": 0.036231884057971016,
+ "oov_charset": "[\"أ\", \"ً\", \"إ\", \"ئ\", \"ٍ\"]"
+ },
+ {
+ "text": "واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية, أو انتماءاتهم المناطقية أو القبلية أو الجهوية, أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان..",
+ "decoded_text": "واليوم وبعد ان جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فان الحكمة اليمانية توجب على ابناء اليمن ايا كانت تياراتهم السياسية, او انتماءاتهم المناطقية او القبلية او الجهوية, ان يستذكروا جيدا ما وصفهم به رسول العالمين محمد بن عبدالله عليه افضل الصلوات والتسليم وعلى اله الاخيار الاطهار بانهم اهل حكمة واهل ايمان..",
+ "diff": [
+ "replace text[12:13] --> decoded_text[12:13] 'أ' --> 'ا'",
+ "replace text[84:85] --> decoded_text[84:85] 'إ' --> 'ا'",
+ "replace text[112:113] --> decoded_text[112:113] 'أ' --> 'ا'",
+ "replace text[124:128] --> decoded_text[124:127] 'أياً' --> 'ايا'",
+ "replace text[153:154] --> decoded_text[152:153] 'أ' --> 'ا'",
+ "replace text[177:178] --> decoded_text[176:177] 'أ' --> 'ا'",
+ "replace text[188:189] --> decoded_text[187:188] 'أ' --> 'ا'",
+ "replace text[200:201] --> decoded_text[199:200] 'أ' --> 'ا'",
+ "delete text[216:217] --> decoded_text[215:215] 'ً' --> ''",
+ "replace text[265:266] --> decoded_text[263:264] 'أ' --> 'ا'",
+ "replace text[292:299] --> decoded_text[290:297] 'آله الأ' --> 'اله الا'",
+ "replace text[306:307] --> decoded_text[304:305] 'أ' --> 'ا'",
+ "replace text[313:319] --> decoded_text[311:317] 'أنهم أ' --> 'انهم ا'",
+ "replace text[328:333] --> decoded_text[326:331] 'أهل إ' --> 'اهل ا'"
+ ],
+ "n_oov_chars": 18,
+ "oov_ratio": 0.05309734513274336,
+ "oov_charset": "[\"أ\", \"إ\", \"ً\", \"آ\"]"
+ },
+ {
+ "text": "وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..",
+ "decoded_text": "وكلام الرسول واحاديثه ما هي الا وحي من الله.. بمعنى ان العمل بما قاله الرسول الاعظم هو مسوولية اخلاقية ودينية ومسوولية سياسية..",
+ "diff": [
+ "replace text[14:15] --> decoded_text[14:15] 'أ' --> 'ا'",
+ "replace text[28:29] --> decoded_text[28:29] 'إ' --> 'ا'",
+ "replace text[52:53] --> decoded_text[52:53] 'أ' --> 'ا'",
+ "replace text[79:80] --> decoded_text[79:80] 'أ' --> 'ا'",
+ "replace text[89:90] --> decoded_text[89:90] 'ؤ' --> 'و'",
+ "replace text[95:96] --> decoded_text[95:96] 'أ' --> 'ا'",
+ "replace text[113:114] --> decoded_text[113:114] 'ؤ' --> 'و'"
+ ],
+ "n_oov_chars": 7,
+ "oov_ratio": 0.05511811023622047,
+ "oov_charset": "[\"أ\", \"إ\", \"ؤ\"]"
+ },
+ {
+ "text": "فهل أوضاع اليمنيين القائمة هي نتاج حكمة, وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم..",
+ "decoded_text": "فهل اوضاع اليمنيين القايمة هي نتاج حكمة, وهل من الحكمة ان تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن ابناء هذا البلد العظيم..",
+ "diff": [
+ "replace text[4:5] --> decoded_text[4:5] 'أ' --> 'ا'",
+ "replace text[23:24] --> decoded_text[23:24] 'ئ' --> 'ي'",
+ "replace text[55:56] --> decoded_text[55:56] 'أ' --> 'ا'",
+ "replace text[119:120] --> decoded_text[119:120] 'أ' --> 'ا'"
+ ],
+ "n_oov_chars": 4,
+ "oov_ratio": 0.027972027972027972,
+ "oov_charset": "[\"أ\", \"ئ\"]"
+ },
+ {
+ "text": "وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان, ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله..",
+ "decoded_text": "وهل الانسياق نحو مزيد من العناد ومزيد من الاحتقان, ومزيد من الاحتراب بين ابناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى اله..",
+ "diff": [
+ "delete text[21:22] --> decoded_text[21:21] 'ٍ' --> ''",
+ "delete text[38:39] --> decoded_text[37:37] 'ٍ' --> ''",
+ "delete text[58:59] --> decoded_text[56:56] 'ٍ' --> ''",
+ "replace text[76:77] --> decoded_text[73:74] 'أ' --> 'ا'",
+ "replace text[152:153] --> decoded_text[149:150] 'آ' --> 'ا'"
+ ],
+ "n_oov_chars": 5,
+ "oov_ratio": 0.03184713375796178,
+ "oov_charset": "[\"ٍ\", \"أ\", \"آ\"]"
+ },
+ {
+ "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
+ "decoded_text": "انا لا اعتقد ان عاقلا من بناء هذا البلد يقبل او يستسيغ ما يجري فيه.. ان يتحول اليمن - وهو بلد ولاد بالخير, الى اطلال, وان يتعرض ابناوه الاحرار الى قطيع من الذياب تنهش ببعضها, بل والاشد نكاية والما ان يكون ذلك خدمة لاعدايه..",
+ "diff": [
+ "replace text[0:22] --> decoded_text[0:21] 'أنا لا اعتقد أن عاقلاً' --> 'انا لا اعتقد ان عاقلا'",
+ "replace text[46:47] --> decoded_text[45:46] 'أ' --> 'ا'",
+ "replace text[70:71] --> decoded_text[69:70] 'أ' --> 'ا'",
+ "insert text[84:84] --> decoded_text[83:84] '' --> ' '",
+ "delete text[97:99] --> decoded_text[97:97] 'َّ' --> ''",
+ "replace text[109:110] --> decoded_text[107:108] 'إ' --> 'ا'",
+ "replace text[113:114] --> decoded_text[111:112] 'أ' --> 'ا'",
+ "replace text[121:122] --> decoded_text[119:120] 'أ' --> 'ا'",
+ "replace text[130:140] --> decoded_text[128:138] 'أبناؤه الأ' --> 'ابناوه الا'",
+ "replace text[145:146] --> decoded_text[143:144] 'إ' --> 'ا'",
+ "replace text[160:161] --> decoded_text[158:159] 'ئ' --> 'ي'",
+ "replace text[183:184] --> decoded_text[181:182] 'أ' --> 'ا'",
+ "replace text[194:201] --> decoded_text[192:198] 'ألماً أ' --> 'الما ا'",
+ "replace text[218:226] --> decoded_text[215:223] 'أعدائه..' --> 'اعدايه..'"
+ ],
+ "n_oov_chars": 21,
+ "oov_ratio": 0.09292035398230089,
+ "oov_charset": "[\"أ\", \"ً\", \"ّ\", \"َ\", \"إ\", \"ؤ\", \"ئ\"]"
+ },
+ {
+ "text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي..؟!",
+ "decoded_text": "اليمن انهك من العدوان ومن الحصار حتى اوليك الذين يظنون انهم بعيدون عن التاثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والاعباء والمتاعب طالت الجميع, وان ظل الصمت والانجرار خلف مواقف تخدم اعداء هذا الشعب فان المستقبل سيكون قاتما واضراره ستظل تلاحق الاجيال اليمنية جيلا بعد جيل, وسيكون اعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون ادوات بايدي الرياض او الدوحة, او ابوظبي.. [UNK]!",
+ "diff": [
+ "replace text[6:7] --> decoded_text[6:7] 'أ' --> 'ا'",
+ "replace text[37:41] --> decoded_text[37:41] 'أولئ' --> 'اولي'",
+ "replace text[55:74] --> decoded_text[55:74] 'أنهم بعيدون عن التأ' --> 'انهم بعيدون عن التا'",
+ "replace text[124:125] --> decoded_text[124:125] 'أ' --> 'ا'",
+ "replace text[153:154] --> decoded_text[153:154] 'إ' --> 'ا'",
+ "replace text[190:191] --> decoded_text[190:191] 'أ' --> 'ا'",
+ "replace text[207:208] --> decoded_text[207:208] 'إ' --> 'ا'",
+ "replace text[230:234] --> decoded_text[230:233] 'ً وأ' --> ' وا'",
+ "replace text[253:254] --> decoded_text[252:253] 'أ' --> 'ا'",
+ "delete text[271:272] --> decoded_text[270:270] 'ً' --> ''",
+ "replace text[289:290] --> decoded_text[287:288] 'أ' --> 'ا'",
+ "replace text[364:372] --> decoded_text[362:370] 'أدوات بأ' --> 'ادوات با'",
+ "replace text[383:384] --> decoded_text[381:382] 'أ' --> 'ا'",
+ "replace text[394:398] --> decoded_text[392:396] 'أو أ' --> 'او ا'",
+ "replace text[405:406] --> decoded_text[403:409] '؟' --> ' [UNK]'"
+ ],
+ "n_oov_chars": 20,
+ "oov_ratio": 0.04914004914004914,
+ "oov_charset": "[\"أ\", \"ئ\", \"إ\", \"ً\", \"؟\"]"
+ },
+ {
+ "text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية.. أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب!!",
+ "decoded_text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت ان تكون خادمة لاجندة غير عربية وغير اسلامية.. اجندة تباع فيها الضماير وتباع فيها المواقف من اجل عين اصحاب البقرة الصفراء ومن اجل رضا اجهزة المخابرات في واشنطن وفي تل ابيب!!",
+ "diff": [
+ "replace text[75:76] --> decoded_text[75:76] 'أ' --> 'ا'",
+ "replace text[90:91] --> decoded_text[90:91] 'أ' --> 'ا'",
+ "replace text[111:112] --> decoded_text[111:112] 'إ' --> 'ا'",
+ "replace text[121:122] --> decoded_text[121:122] 'أ' --> 'ا'",
+ "replace text[142:176] --> decoded_text[142:176] 'ئر وتباع فيها المواقف من أجل عين أ' --> 'ير وتباع فيها المواقف من اجل عين ا'",
+ "replace text[200:201] --> decoded_text[200:201] 'أ' --> 'ا'",
+ "replace text[208:209] --> decoded_text[208:209] 'أ' --> 'ا'",
+ "replace text[241:242] --> decoded_text[241:242] 'أ' --> 'ا'"
+ ],
+ "n_oov_chars": 10,
+ "oov_ratio": 0.04048582995951417,
+ "oov_charset": "[\"أ\", \"إ\", \"ئ\"]"
+ },
+ {
+ "text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي, وصوب الرياض, وصوب واشنطن..",
+ "decoded_text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد اهلها وساكنوها.. اليمن اصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب ابو ظبي, وصوب الرياض, وصوب واشنطن..",
+ "diff": [
+ "replace text[77:78] --> decoded_text[77:78] 'أ' --> 'ا'",
+ "replace text[100:101] --> decoded_text[100:101] 'أ' --> 'ا'",
+ "replace text[159:160] --> decoded_text[159:160] 'أ' --> 'ا'"
+ ],
+ "n_oov_chars": 3,
+ "oov_ratio": 0.015463917525773196,
+ "oov_charset": "[\"أ\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-bert.bert-base-uncased @ cc100.de.diff.json b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.de.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..23d1eef70b0f3097d6da175953e465393b412d14
--- /dev/null
+++ b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.de.diff.json
@@ -0,0 +1,213 @@
+[
+ {
+ "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.",
+ "decoded_text": "bereits eine woche vorher am samstag, 2. dezember ist die „ pungel - weihnacht “ in siegburg - kaldauen um 18 uhr ( einlass 17. 30 uhr ) im restaurant kaldauer hof zu horen. hier ist im eintrittspreis von 18, 50 € ein abendessen enthalten. auch hier gibt es einen mitsingteil fur die gaste.",
+ "diff": [
+ "replace text[0:14] --> decoded_text[0:14] 'Bereits eine W' --> 'bereits eine w'",
+ "replace text[29:30] --> decoded_text[29:30] 'S' --> 's'",
+ "replace text[41:42] --> decoded_text[41:42] 'D' --> 'd'",
+ "replace text[59:65] --> decoded_text[59:67] 'Püngel' --> ' pungel '",
+ "replace text[66:67] --> decoded_text[68:70] 'W' --> ' w'",
+ "insert text[75:75] --> decoded_text[78:79] '' --> ' '",
+ "replace text[80:88] --> decoded_text[84:93] 'Siegburg' --> 'siegburg '",
+ "replace text[89:90] --> decoded_text[94:96] 'K' --> ' k'",
+ "replace text[104:105] --> decoded_text[110:111] 'U' --> 'u'",
+ "replace text[109:110] --> decoded_text[115:117] 'E' --> ' e'",
+ "insert text[120:120] --> decoded_text[127:128] '' --> ' '",
+ "replace text[123:126] --> decoded_text[131:135] 'Uhr' --> 'uhr '",
+ "replace text[131:152] --> decoded_text[140:161] 'Restaurant Kaldauer H' --> 'restaurant kaldauer h'",
+ "replace text[159:178] --> decoded_text[168:187] 'ören. Hier ist im E' --> 'oren. hier ist im e'",
+ "insert text[199:199] --> decoded_text[208:209] '' --> ' '",
+ "replace text[208:231] --> decoded_text[218:241] 'Abendessen enthalten. A' --> 'abendessen enthalten. a'",
+ "replace text[254:255] --> decoded_text[264:265] 'M' --> 'm'",
+ "replace text[267:280] --> decoded_text[277:290] 'ür die Gäste.' --> 'ur die gaste.'"
+ ],
+ "n_oov_chars": 24,
+ "oov_ratio": 0.08571428571428572,
+ "oov_charset": "[\"B\", \"W\", \"S\", \"D\", \"P\", \"ü\", \"K\", \"U\", \"E\", \"R\", \"H\", \"ö\", \"A\", \"M\", \"G\", \"ä\"]"
+ },
+ {
+ "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.",
+ "decoded_text": "der chor bietet noch einen weiteren termin im rahmen der „ pungel - weihnacht “ an.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'",
+ "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'",
+ "replace text[36:37] --> decoded_text[36:37] 'T' --> 't'",
+ "replace text[46:47] --> decoded_text[46:47] 'R' --> 'r'",
+ "replace text[58:60] --> decoded_text[58:61] 'Pü' --> ' pu'",
+ "insert text[64:64] --> decoded_text[65:66] '' --> ' '",
+ "replace text[65:66] --> decoded_text[67:69] 'W' --> ' w'",
+ "insert text[74:74] --> decoded_text[77:78] '' --> ' '"
+ ],
+ "n_oov_chars": 7,
+ "oov_ratio": 0.08860759493670886,
+ "oov_charset": "[\"D\", \"C\", \"T\", \"R\", \"P\", \"ü\", \"W\"]"
+ },
+ {
+ "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de",
+ "decoded_text": "02683 967019. die karten konnen auch per email bestellt werden : en - koelsche - weihnachtsfeier @ t - online. de",
+ "diff": [
+ "replace text[14:15] --> decoded_text[14:15] 'D' --> 'd'",
+ "replace text[18:19] --> decoded_text[18:19] 'K' --> 'k'",
+ "replace text[26:27] --> decoded_text[26:27] 'ö' --> 'o'",
+ "replace text[41:42] --> decoded_text[41:42] 'E' --> 'e'",
+ "insert text[62:62] --> decoded_text[62:63] '' --> ' '",
+ "replace text[64:65] --> decoded_text[65:66] 'E' --> 'e'",
+ "insert text[66:66] --> decoded_text[67:68] '' --> ' '",
+ "replace text[67:68] --> decoded_text[69:71] 'K' --> ' k'",
+ "insert text[75:75] --> decoded_text[78:79] '' --> ' '",
+ "replace text[76:77] --> decoded_text[80:82] 'W' --> ' w'",
+ "insert text[91:91] --> decoded_text[96:97] '' --> ' '",
+ "insert text[92:92] --> decoded_text[98:99] '' --> ' '",
+ "insert text[93:93] --> decoded_text[100:101] '' --> ' '",
+ "insert text[94:94] --> decoded_text[102:103] '' --> ' '",
+ "insert text[101:101] --> decoded_text[110:111] '' --> ' '"
+ ],
+ "n_oov_chars": 7,
+ "oov_ratio": 0.06796116504854369,
+ "oov_charset": "[\"D\", \"K\", \"ö\", \"E\", \"W\"]"
+ },
+ {
+ "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.",
+ "decoded_text": "der chor wunscht ihnen schon jetzt viel vergnugen.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'",
+ "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'",
+ "replace text[10:11] --> decoded_text[10:11] 'ü' --> 'u'",
+ "replace text[17:18] --> decoded_text[17:18] 'I' --> 'i'",
+ "replace text[40:41] --> decoded_text[40:41] 'V' --> 'v'",
+ "replace text[45:46] --> decoded_text[45:46] 'ü' --> 'u'"
+ ],
+ "n_oov_chars": 6,
+ "oov_ratio": 0.12,
+ "oov_charset": "[\"D\", \"C\", \"ü\", \"I\", \"V\"]"
+ },
+ {
+ "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.",
+ "decoded_text": "die verarbeitung kann auch auf elektronischem wege erfolgen. dies ist insbesondere dann der fall, wenn ein bewerber entsprechende bewerbungsunterlagen auf dem elektronischen wege, beispielsweise per e - mail oder uber ein auf der internetseite befindliches webformular, an den fur die verarbeitung verantwortlichen ubermittelt. sollten sie uber einen account in einem berufsorientierten sozialen netzwerk wie etwa xing oder linkedin verfugen, konnen wir die daten auch von ihrer offentlich einsehbaren profilseite erheben. zwecke der verarbeitung und rechtsgrundlage wir verarbeiten ihre personenbezogenen daten ausschließlich zum zwecke der durchfuhrung des bewerbungsverfahrens.",
+ "diff": [
+ "replace text[0:5] --> decoded_text[0:5] 'Die V' --> 'die v'",
+ "replace text[46:47] --> decoded_text[46:47] 'W' --> 'w'",
+ "replace text[61:93] --> decoded_text[61:93] 'Dies ist insbesondere dann der F' --> 'dies ist insbesondere dann der f'",
+ "replace text[107:108] --> decoded_text[107:108] 'B' --> 'b'",
+ "replace text[130:131] --> decoded_text[130:131] 'B' --> 'b'",
+ "replace text[174:175] --> decoded_text[174:175] 'W' --> 'w'",
+ "replace text[199:200] --> decoded_text[199:201] 'E' --> 'e '",
+ "replace text[201:261] --> decoded_text[202:203] 'Mail oder über ein auf der Internetseite befindliches Webfor' --> ' '",
+ "insert text[262:262] --> decoded_text[204:264] '' --> 'ail oder uber ein auf der internetseite befindliches webform'",
+ "replace text[276:314] --> decoded_text[278:316] 'ür die Verarbeitung Verantwortlichen ü' --> 'ur die verarbeitung verantwortlichen u'",
+ "replace text[326:350] --> decoded_text[328:352] 'Sollten Sie über einen A' --> 'sollten sie uber einen a'",
+ "replace text[394:395] --> decoded_text[396:397] 'N' --> 'n'",
+ "replace text[412:436] --> decoded_text[414:438] 'Xing oder LinkedIn verfü' --> 'xing oder linkedin verfu'",
+ "replace text[442:501] --> decoded_text[444:503] 'önnen wir die Daten auch von Ihrer öffentlich einsehbaren P' --> 'onnen wir die daten auch von ihrer offentlich einsehbaren p'",
+ "replace text[521:582] --> decoded_text[523:584] 'Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten I' --> 'zwecke der verarbeitung und rechtsgrundlage wir verarbeiten i'",
+ "replace text[604:605] --> decoded_text[606:607] 'D' --> 'd'",
+ "replace text[629:658] --> decoded_text[631:660] 'Zwecke der Durchführung des B' --> 'zwecke der durchfuhrung des b'"
+ ],
+ "n_oov_chars": 41,
+ "oov_ratio": 0.06047197640117994,
+ "oov_charset": "[\"D\", \"V\", \"W\", \"F\", \"B\", \"E\", \"M\", \"ü\", \"I\", \"S\", \"A\", \"N\", \"X\", \"L\", \"ö\", \"P\", \"Z\", \"R\"]"
+ },
+ {
+ "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.",
+ "decoded_text": "sofern wir mit dem bewerber einen anstellungsvertrag abschließen, werden die ubermittelten daten zum zwecke der abwicklung des beschaftigungsverhaltnisses unter beachtung der gesetzlichen vorschriften gespeichert. ansonsten werden die personenbezogenen daten sechs monate nach beendigung des bewerbungsverfahrens geloscht, sofern einer loschung keine sonstigen berechtigten interessen des fur die verarbeitung verantwortlichen entgegenstehen.",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'",
+ "replace text[19:35] --> decoded_text[19:35] 'Bewerber einen A' --> 'bewerber einen a'",
+ "replace text[77:78] --> decoded_text[77:78] 'ü' --> 'u'",
+ "replace text[91:92] --> decoded_text[91:92] 'D' --> 'd'",
+ "replace text[101:102] --> decoded_text[101:102] 'Z' --> 'z'",
+ "replace text[112:113] --> decoded_text[112:113] 'A' --> 'a'",
+ "replace text[127:162] --> decoded_text[127:162] 'Beschäftigungsverhältnisses unter B' --> 'beschaftigungsverhaltnisses unter b'",
+ "replace text[188:189] --> decoded_text[188:189] 'V' --> 'v'",
+ "replace text[214:215] --> decoded_text[214:215] 'A' --> 'a'",
+ "replace text[253:317] --> decoded_text[253:317] 'Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelö' --> 'daten sechs monate nach beendigung des bewerbungsverfahrens gelo'",
+ "replace text[336:338] --> decoded_text[336:338] 'Lö' --> 'lo'",
+ "replace text[374:411] --> decoded_text[374:411] 'Interessen des für die Verarbeitung V' --> 'interessen des fur die verarbeitung v'"
+ ],
+ "n_oov_chars": 24,
+ "oov_ratio": 0.05429864253393665,
+ "oov_charset": "[\"S\", \"B\", \"A\", \"ü\", \"D\", \"Z\", \"ä\", \"V\", \"M\", \"ö\", \"L\", \"I\"]"
+ },
+ {
+ "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.",
+ "decoded_text": "innerhalb unseres hauses erhalten diejenigen internen stellen bzw. organisationseinheiten ihre daten, die diese zur erfullung unserer vertraglichen und gesetzlichen pflichten ( wie fuhrungskrafte und fachverantwortliche, die einen neuen mitarbeiter suchen oder an der entscheidung uber die stellenbesetzung mitwirken, buchhaltung, betriebsarzt, arbeitssicherheit, ggf. mitarbeitervertretung usw. ) oder im rahmen der bearbeitung und umsetzung unseres berechtigten interesses benotigen.",
+ "diff": [
+ "replace text[0:19] --> decoded_text[0:19] 'Innerhalb unseres H' --> 'innerhalb unseres h'",
+ "replace text[54:55] --> decoded_text[54:55] 'S' --> 's'",
+ "replace text[67:120] --> decoded_text[67:120] 'Organisationseinheiten Ihre Daten, die diese zur Erfü' --> 'organisationseinheiten ihre daten, die diese zur erfu'",
+ "replace text[165:166] --> decoded_text[165:166] 'P' --> 'p'",
+ "insert text[176:176] --> decoded_text[176:177] '' --> ' '",
+ "replace text[180:182] --> decoded_text[181:183] 'Fü' --> 'fu'",
+ "replace text[190:200] --> decoded_text[191:201] 'äfte und F' --> 'afte und f'",
+ "replace text[236:290] --> decoded_text[237:291] 'Mitarbeiter suchen oder an der Entscheidung über die S' --> 'mitarbeiter suchen oder an der entscheidung uber die s'",
+ "replace text[317:345] --> decoded_text[318:346] 'Buchhaltung, Betriebsarzt, A' --> 'buchhaltung, betriebsarzt, a'",
+ "replace text[368:369] --> decoded_text[369:370] 'M' --> 'm'",
+ "insert text[394:394] --> decoded_text[395:396] '' --> ' '",
+ "replace text[404:477] --> decoded_text[406:479] 'Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benö' --> 'rahmen der bearbeitung und umsetzung unseres berechtigten interesses beno'"
+ ],
+ "n_oov_chars": 26,
+ "oov_ratio": 0.053830227743271224,
+ "oov_charset": "[\"I\", \"H\", \"S\", \"O\", \"D\", \"E\", \"ü\", \"P\", \"F\", \"ä\", \"M\", \"B\", \"A\", \"R\", \"U\", \"ö\"]"
+ },
+ {
+ "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,",
+ "decoded_text": "eine weitergabe ihrer daten an externe stellen erfolgt ausschließlich zu zwecken,",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'",
+ "replace text[5:6] --> decoded_text[5:6] 'W' --> 'w'",
+ "replace text[16:17] --> decoded_text[16:17] 'I' --> 'i'",
+ "replace text[22:23] --> decoded_text[22:23] 'D' --> 'd'",
+ "replace text[39:40] --> decoded_text[39:40] 'S' --> 's'",
+ "replace text[73:74] --> decoded_text[73:74] 'Z' --> 'z'"
+ ],
+ "n_oov_chars": 6,
+ "oov_ratio": 0.07407407407407407,
+ "oov_charset": "[\"E\", \"W\", \"I\", \"D\", \"S\", \"Z\"]"
+ },
+ {
+ "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;",
+ "decoded_text": "bei denen wir zur erfullung gesetzlicher vorgaben zur auskunft, meldung oder weitergabe von daten verpflichtet oder berechtigt sind oder die datenweitergabe im offentlichen interesse liegt ;",
+ "diff": [
+ "replace text[18:19] --> decoded_text[18:19] 'E' --> 'e'",
+ "replace text[21:22] --> decoded_text[21:22] 'ü' --> 'u'",
+ "replace text[41:42] --> decoded_text[41:42] 'V' --> 'v'",
+ "replace text[54:55] --> decoded_text[54:55] 'A' --> 'a'",
+ "replace text[64:65] --> decoded_text[64:65] 'M' --> 'm'",
+ "replace text[77:78] --> decoded_text[77:78] 'W' --> 'w'",
+ "replace text[92:93] --> decoded_text[92:93] 'D' --> 'd'",
+ "replace text[141:142] --> decoded_text[141:142] 'D' --> 'd'",
+ "replace text[160:161] --> decoded_text[160:161] 'ö' --> 'o'",
+ "replace text[173:174] --> decoded_text[173:174] 'I' --> 'i'",
+ "insert text[188:188] --> decoded_text[188:189] '' --> ' '"
+ ],
+ "n_oov_chars": 10,
+ "oov_ratio": 0.05291005291005291,
+ "oov_charset": "[\"E\", \"ü\", \"V\", \"A\", \"M\", \"W\", \"D\", \"ö\", \"I\"]"
+ },
+ {
+ "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);",
+ "decoded_text": "aufgrund unseres berechtigten interesses oder des berechtigten interesses des dritten ( z. b. an behorden, auskunfteien, rechtsanwalte, gerichte, gutachter, und gremien und kontrollinstanzen ) ;",
+ "diff": [
+ "replace text[30:31] --> decoded_text[30:31] 'I' --> 'i'",
+ "replace text[63:64] --> decoded_text[63:64] 'I' --> 'i'",
+ "replace text[78:79] --> decoded_text[78:79] 'D' --> 'd'",
+ "insert text[87:87] --> decoded_text[87:88] '' --> ' '",
+ "replace text[89:90] --> decoded_text[90:92] 'B' --> ' b'",
+ "replace text[95:96] --> decoded_text[97:98] 'B' --> 'b'",
+ "replace text[98:99] --> decoded_text[100:101] 'ö' --> 'o'",
+ "replace text[105:106] --> decoded_text[107:108] 'A' --> 'a'",
+ "replace text[119:120] --> decoded_text[121:122] 'R' --> 'r'",
+ "replace text[128:129] --> decoded_text[130:131] 'ä' --> 'a'",
+ "replace text[134:135] --> decoded_text[136:137] 'G' --> 'g'",
+ "replace text[144:145] --> decoded_text[146:147] 'G' --> 'g'",
+ "replace text[159:160] --> decoded_text[161:162] 'G' --> 'g'",
+ "replace text[171:172] --> decoded_text[173:174] 'K' --> 'k'",
+ "insert text[188:188] --> decoded_text[190:191] '' --> ' '",
+ "insert text[189:189] --> decoded_text[192:193] '' --> ' '"
+ ],
+ "n_oov_chars": 13,
+ "oov_ratio": 0.06842105263157895,
+ "oov_charset": "[\"I\", \"D\", \"B\", \"ö\", \"A\", \"R\", \"ä\", \"G\", \"K\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-bert.bert-base-uncased @ cc100.fa.diff.json b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.fa.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..af525f86d6ac7b0a75d19e1c97965ec854a7b123
--- /dev/null
+++ b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.fa.diff.json
@@ -0,0 +1,124 @@
+[
+ {
+ "text": "آشپزخانه کوچک من: February 2012",
+ "decoded_text": "اشپزخانه کوچک من : february 2012",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'آ' --> 'ا'",
+ "insert text[16:16] --> decoded_text[16:17] '' --> ' '",
+ "replace text[18:19] --> decoded_text[19:20] 'F' --> 'f'"
+ ],
+ "n_oov_chars": 2,
+ "oov_ratio": 0.06451612903225806,
+ "oov_charset": "[\"آ\", \"F\"]"
+ },
+ {
+ "text": "آشپزخانه کوچک من",
+ "decoded_text": "اشپزخانه کوچک من",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:1] 'آ' --> 'ا'"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.0625,
+ "oov_charset": "[\"آ\"]"
+ },
+ {
+ "text": "بکینگ پودر:2 قاشق چای خوری",
+ "decoded_text": "بکینگ پودر : 2 قاشق چای خوری",
+ "diff": [
+ "insert text[10:10] --> decoded_text[10:11] '' --> ' '",
+ "insert text[11:11] --> decoded_text[12:13] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "تخم مرغ:2 عدد بزرگ",
+ "decoded_text": "تخم مرغ : 2 عدد بزرگ",
+ "diff": [
+ "insert text[7:7] --> decoded_text[7:8] '' --> ' '",
+ "insert text[8:8] --> decoded_text[9:10] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "کره:225 گرم به دمای اتاق رسیده",
+ "decoded_text": "کره : 225 گرم به دمای اتاق رسیده",
+ "diff": [
+ "insert text[3:3] --> decoded_text[3:4] '' --> ' '",
+ "insert text[4:4] --> decoded_text[5:6] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "شکر:1و1/2 پیمانه+ 3 قاشق غذا خوری",
+ "decoded_text": "شکر : 1و1 / 2 پیمانه + 3 قاشق غذا خوری",
+ "diff": [
+ "insert text[3:3] --> decoded_text[3:4] '' --> ' '",
+ "insert text[4:4] --> decoded_text[5:6] '' --> ' '",
+ "insert text[7:7] --> decoded_text[9:10] '' --> ' '",
+ "insert text[8:8] --> decoded_text[11:12] '' --> ' '",
+ "insert text[16:16] --> decoded_text[20:21] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "پودر دارچین:2 و1/2قاشق چای خوری",
+ "decoded_text": "پودر دارچین : 2 و1 / 2قاشق چای خوری",
+ "diff": [
+ "insert text[11:11] --> decoded_text[11:12] '' --> ' '",
+ "insert text[12:12] --> decoded_text[13:14] '' --> ' '",
+ "insert text[16:16] --> decoded_text[18:19] '' --> ' '",
+ "insert text[17:17] --> decoded_text[20:21] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ },
+ {
+ "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!در Twitter به اشتراک بگذاریددر Facebook به اشتراک بگذاریداشتراکگذاری در Pinterest",
+ "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید! در twitter به اشتراک بگذاریددر facebook به اشتراک بگذاریداشتراکگذاری در pinterest",
+ "diff": [
+ "replace text[46:47] --> decoded_text[46:47] '\\u200f' --> ' '",
+ "replace text[50:51] --> decoded_text[50:51] 'T' --> 't'",
+ "delete text[75:76] --> decoded_text[75:75] '\\u200f' --> ''",
+ "replace text[79:80] --> decoded_text[78:79] 'F' --> 'f'",
+ "delete text[105:106] --> decoded_text[104:104] '\\u200f' --> ''",
+ "delete text[112:113] --> decoded_text[110:110] '\\u200c' --> ''",
+ "replace text[122:123] --> decoded_text[119:120] 'P' --> 'p'"
+ ],
+ "n_oov_chars": 7,
+ "oov_ratio": 0.05343511450381679,
+ "oov_charset": "[\"\", \"T\", \"F\", \"\", \"P\"]"
+ },
+ {
+ "text": "برچسبها: شیرینی ها",
+ "decoded_text": "برچسبها : شیرینی ها",
+ "diff": [
+ "delete text[5:6] --> decoded_text[5:5] '\\u200c' --> ''",
+ "insert text[8:8] --> decoded_text[7:8] '' --> ' '"
+ ],
+ "n_oov_chars": 1,
+ "oov_ratio": 0.05263157894736842,
+ "oov_charset": "[\"\"]"
+ },
+ {
+ "text": "ارد:1 و 1/2 پیمانه + 1 قاشق غذا خوری سر صاف سبوس گندم",
+ "decoded_text": "ارد : 1 و 1 / 2 پیمانه + 1 قاشق غذا خوری سر صاف سبوس گندم",
+ "diff": [
+ "insert text[3:3] --> decoded_text[3:4] '' --> ' '",
+ "insert text[4:4] --> decoded_text[5:6] '' --> ' '",
+ "insert text[9:9] --> decoded_text[11:12] '' --> ' '",
+ "insert text[10:10] --> decoded_text[13:14] '' --> ' '"
+ ],
+ "n_oov_chars": 0,
+ "oov_ratio": 0.0,
+ "oov_charset": "[]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-bert.bert-base-uncased @ cc100.ja.diff.json b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.ja.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..de40f5a9e7f03a2818ac5cb03628f412daac5def
--- /dev/null
+++ b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.ja.diff.json
@@ -0,0 +1,239 @@
+[
+ {
+ "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!",
+ "decoded_text": "[UNK] 後 から [UNK] か 心 [UNK] たったのて [UNK] 出 はせす 、 『 ふれあいロート 』 を [UNK] って [UNK] ました !",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:6] '午' --> '[UNK] '",
+ "insert text[2:2] --> decoded_text[7:8] '' --> ' '",
+ "replace text[4:6] --> decoded_text[10:19] '雨が' --> ' [UNK] か '",
+ "replace text[7:9] --> decoded_text[20:28] '配だ' --> ' [UNK] た'",
+ "replace text[12:14] --> decoded_text[31:39] 'で遠' --> 'て [UNK] '",
+ "insert text[15:15] --> decoded_text[40:41] '' --> ' '",
+ "replace text[17:18] --> decoded_text[43:45] 'ず' --> 'す '",
+ "insert text[19:19] --> decoded_text[46:47] '' --> ' '",
+ "insert text[20:20] --> decoded_text[48:49] '' --> ' '",
+ "replace text[26:27] --> decoded_text[55:57] 'ド' --> 'ト '",
+ "insert text[28:28] --> decoded_text[58:59] '' --> ' '",
+ "replace text[29:30] --> decoded_text[60:67] '走' --> ' [UNK] '",
+ "replace text[32:33] --> decoded_text[69:76] '来' --> ' [UNK] '",
+ "insert text[36:36] --> decoded_text[79:80] '' --> ' '"
+ ],
+ "n_oov_chars": 11,
+ "oov_ratio": 0.2972972972972973,
+ "oov_charset": "[\"午\", \"雨\", \"が\", \"配\", \"だ\", \"で\", \"遠\", \"ず\", \"ド\", \"走\", \"来\"]"
+ },
+ {
+ "text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。",
+ "decoded_text": "[UNK] [UNK] に 春 か [UNK] ついてることを [UNK] て [UNK] しることか 出 [UNK] ました [UNK] [UNK] [UNK] [UNK] されてる [UNK] [UNK] 道 を [UNK] えるとお 世 [UNK] になってるホウリンク 場 か 見 えて [UNK] ました 。",
+ "diff": [
+ "replace text[0:2] --> decoded_text[0:12] '確実' --> '[UNK] [UNK] '",
+ "insert text[3:3] --> decoded_text[13:14] '' --> ' '",
+ "replace text[4:7] --> decoded_text[15:25] 'が近づ' --> ' か [UNK] つ'",
+ "replace text[13:17] --> decoded_text[31:47] '肌で感じ' --> ' [UNK] て [UNK] し'",
+ "replace text[20:21] --> decoded_text[50:52] 'が' --> 'か '",
+ "replace text[22:23] --> decoded_text[53:60] '来' --> ' [UNK] '",
+ "replace text[27:32] --> decoded_text[64:88] '着々と整備' --> '[UNK] [UNK] [UNK] [UNK] '",
+ "replace text[36:38] --> decoded_text[92:105] '圏央' --> ' [UNK] [UNK] '",
+ "insert text[39:39] --> decoded_text[106:107] '' --> ' '",
+ "replace text[40:41] --> decoded_text[108:115] '越' --> ' [UNK] '",
+ "insert text[45:45] --> decoded_text[119:120] '' --> ' '",
+ "replace text[46:47] --> decoded_text[121:128] '話' --> ' [UNK] '",
+ "replace text[52:53] --> decoded_text[133:134] 'ボ' --> 'ホ'",
+ "replace text[56:57] --> decoded_text[137:139] 'グ' --> 'ク '",
+ "replace text[58:59] --> decoded_text[140:143] 'が' --> ' か '",
+ "insert text[60:60] --> decoded_text[144:145] '' --> ' '",
+ "replace text[62:63] --> decoded_text[147:154] '来' --> ' [UNK] '",
+ "insert text[66:66] --> decoded_text[157:158] '' --> ' '"
+ ],
+ "n_oov_chars": 23,
+ "oov_ratio": 0.34328358208955223,
+ "oov_charset": "[\"確\", \"実\", \"が\", \"近\", \"づ\", \"肌\", \"で\", \"感\", \"じ\", \"来\", \"着\", \"々\", \"整\", \"備\", \"圏\", \"央\", \"越\", \"話\", \"ボ\", \"グ\"]"
+ },
+ {
+ "text": "うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。",
+ "decoded_text": "[UNK] 〜 〜 、 [UNK] か [UNK] 中 てトイレに 行 きたくなってしまい 、 [UNK] り 道 にあったケンタに [UNK] [UNK] [UNK] 。",
+ "diff": [
+ "replace text[0:2] --> decoded_text[0:6] 'うぅ' --> '[UNK] '",
+ "insert text[3:3] --> decoded_text[7:8] '' --> ' '",
+ "insert text[4:4] --> decoded_text[9:10] '' --> ' '",
+ "replace text[5:8] --> decoded_text[11:26] '私が途' --> ' [UNK] か [UNK] '",
+ "replace text[9:10] --> decoded_text[27:29] 'で' --> ' て'",
+ "insert text[14:14] --> decoded_text[33:34] '' --> ' '",
+ "insert text[15:15] --> decoded_text[35:36] '' --> ' '",
+ "insert text[24:24] --> decoded_text[45:46] '' --> ' '",
+ "replace text[25:26] --> decoded_text[47:54] '通' --> ' [UNK] '",
+ "insert text[27:27] --> decoded_text[55:56] '' --> ' '",
+ "insert text[28:28] --> decoded_text[57:58] '' --> ' '",
+ "replace text[36:45] --> decoded_text[66:85] '変更しちゃいました' --> ' [UNK] [UNK] [UNK] '"
+ ],
+ "n_oov_chars": 9,
+ "oov_ratio": 0.1956521739130435,
+ "oov_charset": "[\"ぅ\", \"私\", \"が\", \"途\", \"で\", \"通\", \"変\", \"更\", \"ゃ\"]"
+ },
+ {
+ "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。",
+ "decoded_text": "[UNK] は 、 [UNK] 年 [UNK] 前 にエルモサの [UNK] 目 の [UNK] 目 の [UNK] によ 〜 く 見 ないと 分 からない [UNK] の 小 さな [UNK] を 見 つけてたんてす 。",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:6] '実' --> '[UNK] '",
+ "insert text[2:2] --> decoded_text[7:8] '' --> ' '",
+ "replace text[3:4] --> decoded_text[9:16] '1' --> ' [UNK] '",
+ "replace text[5:6] --> decoded_text[17:24] '程' --> ' [UNK] '",
+ "insert text[7:7] --> decoded_text[25:26] '' --> ' '",
+ "replace text[13:14] --> decoded_text[32:39] '右' --> ' [UNK] '",
+ "insert text[15:15] --> decoded_text[40:41] '' --> ' '",
+ "replace text[16:17] --> decoded_text[42:49] '黒' --> ' [UNK] '",
+ "insert text[18:18] --> decoded_text[50:51] '' --> ' '",
+ "replace text[19:20] --> decoded_text[52:59] '端' --> ' [UNK] '",
+ "insert text[22:22] --> decoded_text[61:62] '' --> ' '",
+ "insert text[23:23] --> decoded_text[63:64] '' --> ' '",
+ "insert text[24:24] --> decoded_text[65:66] '' --> ' '",
+ "insert text[25:25] --> decoded_text[67:68] '' --> ' '",
+ "insert text[28:28] --> decoded_text[71:72] '' --> ' '",
+ "insert text[29:29] --> decoded_text[73:74] '' --> ' '",
+ "replace text[33:34] --> decoded_text[78:85] '程' --> ' [UNK] '",
+ "insert text[35:35] --> decoded_text[86:87] '' --> ' '",
+ "insert text[36:36] --> decoded_text[88:89] '' --> ' '",
+ "replace text[38:39] --> decoded_text[91:98] '斑' --> ' [UNK] '",
+ "insert text[40:40] --> decoded_text[99:100] '' --> ' '",
+ "insert text[41:41] --> decoded_text[101:102] '' --> ' '",
+ "replace text[46:47] --> decoded_text[107:108] 'で' --> 'て'",
+ "insert text[48:48] --> decoded_text[109:110] '' --> ' '"
+ ],
+ "n_oov_chars": 9,
+ "oov_ratio": 0.1836734693877551,
+ "oov_charset": "[\"実\", \"1\", \"程\", \"右\", \"黒\", \"端\", \"斑\", \"で\"]"
+ },
+ {
+ "text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。",
+ "decoded_text": "その [UNK] [UNK] て [UNK] 生 からはおそらく 『 [UNK] [UNK] シストロフィー 』 てあろうとの [UNK] [UNK] をもらっていました 。",
+ "diff": [
+ "replace text[2:6] --> decoded_text[2:23] '時点で先' --> ' [UNK] [UNK] て [UNK] '",
+ "insert text[7:7] --> decoded_text[24:25] '' --> ' '",
+ "insert text[14:14] --> decoded_text[32:33] '' --> ' '",
+ "replace text[15:18] --> decoded_text[34:48] '角膜ジ' --> ' [UNK] [UNK] シ'",
+ "insert text[24:24] --> decoded_text[54:55] '' --> ' '",
+ "replace text[25:26] --> decoded_text[56:58] 'で' --> ' て'",
+ "replace text[31:33] --> decoded_text[63:76] '診断' --> ' [UNK] [UNK] '",
+ "insert text[42:42] --> decoded_text[85:86] '' --> ' '"
+ ],
+ "n_oov_chars": 10,
+ "oov_ratio": 0.23255813953488372,
+ "oov_charset": "[\"時\", \"点\", \"で\", \"先\", \"角\", \"膜\", \"ジ\", \"診\", \"断\"]"
+ },
+ {
+ "text": "エルモサの場合は1年程経過して徐々にではあるんですけど、少し大きくなってきちゃいました",
+ "decoded_text": "エルモサの 場 合 は1 年 [UNK] [UNK] [UNK] して [UNK] [UNK] 、 [UNK] し 大 [UNK]",
+ "diff": [
+ "insert text[5:5] --> decoded_text[5:6] '' --> ' '",
+ "insert text[6:6] --> decoded_text[7:8] '' --> ' '",
+ "insert text[7:7] --> decoded_text[9:10] '' --> ' '",
+ "insert text[9:9] --> decoded_text[12:13] '' --> ' '",
+ "replace text[10:13] --> decoded_text[14:33] '程経過' --> ' [UNK] [UNK] [UNK] '",
+ "replace text[15:27] --> decoded_text[35:48] '徐々にではあるんですけど' --> ' [UNK] [UNK] '",
+ "replace text[28:29] --> decoded_text[49:56] '少' --> ' [UNK] '",
+ "insert text[30:30] --> decoded_text[57:58] '' --> ' '",
+ "replace text[31:43] --> decoded_text[59:65] 'きくなってきちゃいました' --> ' [UNK]'"
+ ],
+ "n_oov_chars": 10,
+ "oov_ratio": 0.23255813953488372,
+ "oov_charset": "[\"程\", \"経\", \"過\", \"徐\", \"々\", \"で\", \"ど\", \"少\", \"ゃ\"]"
+ },
+ {
+ "text": "ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。",
+ "decoded_text": "たた 、 これまてお [UNK] [UNK] [UNK] 間 からは [UNK] [UNK] とかされたことはないのて 、 こちらから [UNK] [UNK] 目 立 つ [UNK] てはないんてすけとね 。",
+ "diff": [
+ "replace text[1:2] --> decoded_text[1:3] 'だ' --> 'た '",
+ "insert text[3:3] --> decoded_text[4:5] '' --> ' '",
+ "replace text[6:7] --> decoded_text[8:9] 'で' --> 'て'",
+ "replace text[8:11] --> decoded_text[10:29] '散歩仲' --> ' [UNK] [UNK] [UNK] '",
+ "insert text[12:12] --> decoded_text[30:31] '' --> ' '",
+ "replace text[15:17] --> decoded_text[34:47] '指摘' --> ' [UNK] [UNK] '",
+ "replace text[28:29] --> decoded_text[58:60] 'で' --> 'て '",
+ "insert text[30:30] --> decoded_text[61:62] '' --> ' '",
+ "replace text[35:45] --> decoded_text[67:80] '言わなければそんなに' --> ' [UNK] [UNK] '",
+ "insert text[46:46] --> decoded_text[81:82] '' --> ' '",
+ "insert text[47:47] --> decoded_text[83:84] '' --> ' '",
+ "replace text[48:50] --> decoded_text[85:93] '程で' --> ' [UNK] て'",
+ "replace text[54:55] --> decoded_text[97:98] 'で' --> 'て'",
+ "replace text[57:58] --> decoded_text[100:101] 'ど' --> 'と'",
+ "insert text[59:59] --> decoded_text[102:103] '' --> ' '"
+ ],
+ "n_oov_chars": 15,
+ "oov_ratio": 0.25,
+ "oov_charset": "[\"だ\", \"で\", \"散\", \"歩\", \"仲\", \"指\", \"摘\", \"言\", \"わ\", \"ば\", \"程\", \"ど\"]"
+ },
+ {
+ "text": "昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。",
+ "decoded_text": "[UNK] はヒアルロン [UNK] の 目 [UNK] なとも [UNK] 方 されてたようてすか 、 これか [UNK] く 事 はないそうてす 。",
+ "diff": [
+ "replace text[0:1] --> decoded_text[0:6] '昔' --> '[UNK] '",
+ "replace text[7:8] --> decoded_text[12:19] '酸' --> ' [UNK] '",
+ "insert text[9:9] --> decoded_text[20:21] '' --> ' '",
+ "replace text[10:11] --> decoded_text[22:29] '薬' --> ' [UNK] '",
+ "replace text[12:13] --> decoded_text[30:31] 'ど' --> 'と'",
+ "replace text[14:15] --> decoded_text[32:39] '処' --> ' [UNK] '",
+ "insert text[16:16] --> decoded_text[40:41] '' --> ' '",
+ "replace text[22:23] --> decoded_text[47:48] 'で' --> 'て'",
+ "replace text[24:25] --> decoded_text[49:51] 'が' --> 'か '",
+ "insert text[26:26] --> decoded_text[52:53] '' --> ' '",
+ "replace text[28:30] --> decoded_text[55:63] 'が効' --> 'か [UNK] '",
+ "insert text[31:31] --> decoded_text[64:65] '' --> ' '",
+ "insert text[32:32] --> decoded_text[66:67] '' --> ' '",
+ "replace text[37:38] --> decoded_text[72:73] 'で' --> 'て'",
+ "insert text[39:39] --> decoded_text[74:75] '' --> ' '"
+ ],
+ "n_oov_chars": 10,
+ "oov_ratio": 0.25,
+ "oov_charset": "[\"昔\", \"酸\", \"薬\", \"ど\", \"処\", \"で\", \"が\", \"効\"]"
+ },
+ {
+ "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。",
+ "decoded_text": "なのて 、 エルティとのお [UNK] [UNK] ても [UNK] れたことかありません 。 カタクリの 花 [UNK] 分 [UNK] きとの [UNK] [UNK] から [UNK] [UNK] [UNK] [UNK] り [UNK] れてみました 。",
+ "diff": [
+ "replace text[2:3] --> decoded_text[2:4] 'で' --> 'て '",
+ "insert text[4:4] --> decoded_text[5:6] '' --> ' '",
+ "replace text[6:7] --> decoded_text[8:9] 'デ' --> 'テ'",
+ "replace text[11:14] --> decoded_text[13:27] '散歩で' --> ' [UNK] [UNK] て'",
+ "replace text[15:16] --> decoded_text[28:35] '訪' --> ' [UNK] '",
+ "replace text[20:21] --> decoded_text[39:40] 'が' --> 'か'",
+ "insert text[26:26] --> decoded_text[45:46] '' --> ' '",
+ "insert text[33:33] --> decoded_text[53:54] '' --> ' '",
+ "replace text[34:36] --> decoded_text[55:62] 'が5' --> ' [UNK] '",
+ "replace text[37:38] --> decoded_text[63:70] '咲' --> ' [UNK] '",
+ "replace text[41:43] --> decoded_text[73:86] '情報' --> ' [UNK] [UNK] '",
+ "replace text[45:55] --> decoded_text[88:113] '今回コースの1つに取' --> ' [UNK] [UNK] [UNK] [UNK] '",
+ "replace text[56:57] --> decoded_text[114:121] '入' --> ' [UNK] '",
+ "insert text[63:63] --> decoded_text[127:128] '' --> ' '"
+ ],
+ "n_oov_chars": 17,
+ "oov_ratio": 0.265625,
+ "oov_charset": "[\"で\", \"デ\", \"散\", \"歩\", \"訪\", \"が\", \"5\", \"咲\", \"情\", \"報\", \"今\", \"回\", \"1\", \"取\", \"入\"]"
+ },
+ {
+ "text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました",
+ "decoded_text": "前 [UNK] [UNK] ってみたかったんたけと 、 いつも [UNK] 上 部 らしき 学 生 さんかものすこいスヒートて [UNK] け [UNK] けていくのを 目 の [UNK] [UNK]",
+ "diff": [
+ "replace text[1:5] --> decoded_text[1:14] '々から走' --> ' [UNK] [UNK] '",
+ "replace text[13:14] --> decoded_text[22:23] 'だ' --> 'た'",
+ "replace text[15:16] --> decoded_text[24:26] 'ど' --> 'と '",
+ "insert text[17:17] --> decoded_text[27:28] '' --> ' '",
+ "replace text[20:21] --> decoded_text[31:38] '陸' --> ' [UNK] '",
+ "insert text[22:22] --> decoded_text[39:40] '' --> ' '",
+ "insert text[23:23] --> decoded_text[41:42] '' --> ' '",
+ "insert text[26:26] --> decoded_text[45:46] '' --> ' '",
+ "insert text[27:27] --> decoded_text[47:48] '' --> ' '",
+ "insert text[28:28] --> decoded_text[49:50] '' --> ' '",
+ "replace text[30:31] --> decoded_text[52:53] 'が' --> 'か'",
+ "replace text[34:35] --> decoded_text[56:57] 'ご' --> 'こ'",
+ "replace text[37:38] --> decoded_text[59:60] 'ピ' --> 'ヒ'",
+ "replace text[39:42] --> decoded_text[61:70] 'ドで駆' --> 'トて [UNK] '",
+ "replace text[43:44] --> decoded_text[71:78] '抜' --> ' [UNK] '",
+ "insert text[50:50] --> decoded_text[84:85] '' --> ' '",
+ "insert text[51:51] --> decoded_text[86:87] '' --> ' '",
+ "replace text[52:71] --> decoded_text[88:100] '当たりにしてちょっとビビっておりました' --> ' [UNK] [UNK]'"
+ ],
+ "n_oov_chars": 16,
+ "oov_ratio": 0.22535211267605634,
+ "oov_charset": "[\"々\", \"走\", \"だ\", \"ど\", \"陸\", \"が\", \"ご\", \"ピ\", \"ド\", \"で\", \"駆\", \"抜\", \"当\", \"ょ\", \"ビ\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-bert.bert-base-uncased @ cc100.ko.diff.json b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.ko.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..0b3157c8153ab127d7616f23d18e155702120b32
--- /dev/null
+++ b/stats/compression_rate/google-bert.bert-base-uncased @ cc100.ko.diff.json
@@ -0,0 +1,249 @@
+[
+ {
+ "text": "+ HOME > 라이브스코어",
+ "decoded_text": "+ home > 라이브스코어",
+ "diff": [
+ "replace text[2:6] --> decoded_text[2:6] 'HOME' --> 'home'",
+ "replace text[9:15] --> decoded_text[9:21] '라이브스코어' --> '라이브스코어'"
+ ],
+ "n_oov_chars": 10,
+ "oov_ratio": 0.6666666666666666,
+ "oov_charset": "[\"H\", \"O\", \"M\", \"E\", \"라\", \"이\", \"브\", \"스\", \"코\", \"어\"]"
+ },
+ {
+ "text": "특히 주소 15~17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.",
+ "decoded_text": "특히 주소 15 ~ 17번 홀에선 3연속 보기로 황금의제국카지노 [UNK].",
+ "diff": [
+ "replace text[0:2] --> decoded_text[0:5] '특히' --> '특히'",
+ "replace text[3:5] --> decoded_text[6:10] '주소' --> '주소'",
+ "insert text[8:8] --> decoded_text[13:14] '' --> ' '",
+ "insert text[9:9] --> decoded_text[15:16] '' --> ' '",
+ "replace text[11:12] --> decoded_text[18:21] '번' --> '번'",
+ "replace text[13:16] --> decoded_text[22:30] '홀에선' --> '홀에선'",
+ "replace text[18:20] --> decoded_text[32:38] '연속' --> '연속'",
+ "replace text[21:24] --> decoded_text[39:45] '보기로' --> '보기로'",
+ "replace text[25:33] --> decoded_text[46:65] '황금의제국카지노' --> '황금의제국카지노'",
+ "replace text[34:39] --> decoded_text[66:71] '홀아웃했다' --> '[UNK]'"
+ ],
+ "n_oov_chars": 26,
+ "oov_ratio": 0.65,
+ "oov_charset": "[\"특\", \"히\", \"주\", \"소\", \"번\", \"홀\", \"에\", \"선\", \"연\", \"속\", \"보\", \"기\", \"로\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"아\", \"웃\", \"했\", \"다\"]"
+ },
+ {
+ "text": "1편인'신과함께-죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.",
+ "decoded_text": "1편인'[UNK] - [UNK] 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.",
+ "diff": [
+ "replace text[1:3] --> decoded_text[1:7] '편인' --> '편인'",
+ "replace text[4:8] --> decoded_text[8:14] '신과함께' --> '[UNK] '",
+ "delete text[9:11] --> decoded_text[15:15] '죄와' --> ''",
+ "replace text[12:13] --> decoded_text[16:25] '벌' --> '[UNK] 벌'",
+ "replace text[14:15] --> decoded_text[26:28] '이' --> '이'",
+ "replace text[16:19] --> decoded_text[29:38] '천만을' --> '천만을'",
+ "replace text[20:22] --> decoded_text[39:45] '넘은' --> '넘은'",
+ "replace text[23:25] --> decoded_text[46:52] '만큼' --> '만큼'",
+ "replace text[27:29] --> decoded_text[54:60] '편을' --> '편을'",
+ "replace text[30:33] --> decoded_text[61:68] '기다린' --> '기다린'",
+ "replace text[34:42] --> decoded_text[69:88] '황금의제국카지노' --> '황금의제국카지노'",
+ "replace text[43:47] --> decoded_text[89:100] '관객들의' --> '관객들의'",
+ "replace text[48:51] --> decoded_text[101:107] '기대와' --> '기대와'",
+ "replace text[52:54] --> decoded_text[108:112] '주소' --> '주소'",
+ "replace text[55:58] --> decoded_text[113:122] '관심은' --> '관심은'",
+ "replace text[59:64] --> decoded_text[123:136] '폭발적이다' --> '폭발적이다'"
+ ],
+ "n_oov_chars": 47,
+ "oov_ratio": 0.7230769230769231,
+ "oov_charset": "[\"편\", \"인\", \"신\", \"과\", \"함\", \"께\", \"죄\", \"와\", \"벌\", \"이\", \"천\", \"만\", \"을\", \"넘\", \"은\", \"큼\", \"기\", \"다\", \"린\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"관\", \"객\", \"들\", \"대\", \"주\", \"소\", \"심\", \"폭\", \"발\", \"적\"]"
+ },
+ {
+ "text": "고려해서 주소 '대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.",
+ "decoded_text": "고려해서 주소'대체재 일색'의 분재를 [UNK] [UNK] [UNK]. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 [UNK].",
+ "diff": [
+ "replace text[0:4] --> decoded_text[0:8] '고려해서' --> '고려해서'",
+ "replace text[5:7] --> decoded_text[9:20] '주소' --> \"주소'대체재\"",
+ "insert text[8:8] --> decoded_text[21:27] '' --> '일색'",
+ "replace text[9:12] --> decoded_text[28:30] '대체재' --> '의'",
+ "replace text[13:17] --> decoded_text[31:39] \"일색'의\" --> '분재를'",
+ "replace text[18:21] --> decoded_text[40:45] '분재를' --> '[UNK]'",
+ "replace text[22:25] --> decoded_text[46:51] '내놓을' --> '[UNK]'",
+ "replace text[26:32] --> decoded_text[52:57] '위험이 있다' --> '[UNK]'",
+ "replace text[34:37] --> decoded_text[59:67] '문학의' --> '문학의'",
+ "replace text[38:41] --> decoded_text[68:75] '자유를' --> '자유를'",
+ "replace text[42:46] --> decoded_text[76:85] '소설가가' --> '소설가가'",
+ "replace text[47:50] --> decoded_text[86:92] '스스로' --> '스스로'",
+ "replace text[51:59] --> decoded_text[93:112] '황금의제국카지노' --> '황금의제국카지노'",
+ "replace text[60:64] --> decoded_text[113:123] '출판사에' --> '출판사에'",
+ "replace text[65:69] --> decoded_text[124:135] '상납하는' --> '상납하는'",
+ "replace text[70:73] --> decoded_text[136:141] '것이다' --> '[UNK]'"
+ ],
+ "n_oov_chars": 55,
+ "oov_ratio": 0.7432432432432432,
+ "oov_charset": "[\"고\", \"려\", \"해\", \"서\", \"주\", \"소\", \"대\", \"체\", \"재\", \"일\", \"색\", \"의\", \"분\", \"를\", \"내\", \"놓\", \"을\", \"위\", \"험\", \"이\", \"있\", \"다\", \"문\", \"학\", \"자\", \"유\", \"설\", \"가\", \"스\", \"로\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"출\", \"판\", \"사\", \"에\", \"상\", \"납\", \"하\", \"는\", \"것\"]"
+ },
+ {
+ "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
+ "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토 ( 22 ) 는 황금의제국카지노 4타수3안타 ( 2루타 홈런 ) 3타점 (. 246. 270. 508 ). 하지만 아직은 트레이드 당시의 기대치를 보여주지 [UNK] [UNK].",
+ "diff": [
+ "replace text[0:6] --> decoded_text[0:14] '조시도널슨의' --> '조시도널슨의'",
+ "replace text[7:9] --> decoded_text[15:20] '유산' --> '유산'",
+ "replace text[10:14] --> decoded_text[21:32] '프랭클린' --> '프랭클린'",
+ "replace text[15:17] --> decoded_text[33:37] '주소' --> '주소'",
+ "replace text[18:21] --> decoded_text[38:45] '바레토' --> '바레토 '",
+ "insert text[22:22] --> decoded_text[46:47] '' --> ' '",
+ "insert text[24:24] --> decoded_text[49:50] '' --> ' '",
+ "delete text[25:26] --> decoded_text[51:51] '는' --> ''",
+ "replace text[27:35] --> decoded_text[52:75] '황금의제국카지노' --> '는 황금의제국카지노'",
+ "replace text[37:39] --> decoded_text[77:81] '타수' --> '타수'",
+ "replace text[40:42] --> decoded_text[82:88] '안타' --> '안타 '",
+ "insert text[43:43] --> decoded_text[89:90] '' --> ' '",
+ "replace text[44:46] --> decoded_text[91:95] '루타' --> '루타'",
+ "replace text[47:49] --> decoded_text[96:103] '홈런' --> '홈런 '",
+ "replace text[52:54] --> decoded_text[106:112] '타점' --> '타점 '",
+ "insert text[56:56] --> decoded_text[114:115] '' --> ' '",
+ "insert text[59:59] --> decoded_text[118:119] '' --> '.'",
+ "delete text[60:61] --> decoded_text[120:120] '.' --> ''",
+ "insert text[64:64] --> decoded_text[123:124] '' --> '.'",
+ "delete text[65:66] --> decoded_text[125:125] '.' --> ''",
+ "insert text[69:69] --> decoded_text[128:129] '' --> ' '",
+ "replace text[72:75] --> decoded_text[132:139] '하지만' --> '하지만'",
+ "replace text[76:79] --> decoded_text[140:148] '아직은' --> '아직은'",
+ "replace text[80:84] --> decoded_text[149:157] '트레이드' --> '트레이드'",
+ "replace text[85:88] --> decoded_text[158:165] '당시의' --> '당시의'",
+ "replace text[89:93] --> decoded_text[166:175] '기대치를' --> '기대치를'",
+ "replace text[94:98] --> decoded_text[176:184] '보여주지' --> '보여주지'",
+ "replace text[99:102] --> decoded_text[185:190] '못하고' --> '[UNK]'",
+ "replace text[103:105] --> decoded_text[191:196] '있다' --> '[UNK]'"
+ ],
+ "n_oov_chars": 62,
+ "oov_ratio": 0.5849056603773585,
+ "oov_charset": "[\"조\", \"시\", \"도\", \"널\", \"슨\", \"의\", \"유\", \"산\", \"프\", \"랭\", \"클\", \"린\", \"주\", \"소\", \"바\", \"레\", \"토\", \"는\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"타\", \"수\", \"안\", \"루\", \"홈\", \"런\", \"점\", \"하\", \"만\", \"아\", \"직\", \"은\", \"트\", \"이\", \"드\", \"당\", \"기\", \"대\", \"치\", \"를\", \"보\", \"여\", \"못\", \"고\", \"있\", \"다\"]"
+ },
+ {
+ "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.",
+ "decoded_text": "여기서승리한 2팀이 준결승에 오른다. 결국 a, b조 [UNK] 12강 - 4강 - 결승으로 3경기를 치르지만, c, d, 황금의제국카지노 e, f조 [UNK] 주소 12강 - 6강 - 4강 - 결승으로 4경기를 [UNK] 한다.",
+ "diff": [
+ "replace text[0:6] --> decoded_text[0:14] '여기서승리한' --> '여기서승리한'",
+ "replace text[8:19] --> decoded_text[16:41] '팀이 준결승에 오른다' --> '팀이 준결승에 오른다'",
+ "replace text[21:33] --> decoded_text[43:62] '결국 A, B조 1위는' --> '결국 a, b조 [UNK]'",
+ "replace text[36:38] --> decoded_text[65:71] '강-' --> '강 - '",
+ "replace text[39:45] --> decoded_text[72:88] '강-결승으로' --> '강 - 결승으로'",
+ "replace text[47:84] --> decoded_text[90:153] '경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소' --> '경기를 치르지만, c, d, 황금의제국카지노 e, f조 [UNK] 주소'",
+ "replace text[87:89] --> decoded_text[156:162] '강-' --> '강 - '",
+ "replace text[90:92] --> decoded_text[163:169] '강-' --> '강 - '",
+ "replace text[93:99] --> decoded_text[170:186] '강-결승으로' --> '강 - 결승으로'",
+ "replace text[101:110] --> decoded_text[188:208] '경기를 해야 한다' --> '경기를 [UNK] 한다'"
+ ],
+ "n_oov_chars": 66,
+ "oov_ratio": 0.5945945945945946,
+ "oov_charset": "[\"여\", \"기\", \"서\", \"승\", \"리\", \"한\", \"팀\", \"이\", \"준\", \"결\", \"에\", \"오\", \"른\", \"다\", \"국\", \"A\", \"B\", \"조\", \"위\", \"는\", \"강\", \"으\", \"로\", \"경\", \"를\", \"치\", \"르\", \"지\", \"만\", \"C\", \"D\", \"황\", \"금\", \"의\", \"제\", \"카\", \"노\", \"E\", \"F\", \"주\", \"소\", \"해\", \"야\"]"
+ },
+ {
+ "text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 '실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.",
+ "decoded_text": "[UNK] 눈길을 주소 [UNK] [UNK] 한 신인배우의 [UNK]. 황금의제국카지노 배우의 매니저 일을 하고 [UNK] 한 [UNK] 사연에 박명수는'실시간 검색어 [UNK]'를 [UNK], 통화연결을 [UNK].",
+ "diff": [
+ "replace text[0:4] --> decoded_text[0:5] '또한이날' --> '[UNK]'",
+ "replace text[5:8] --> decoded_text[6:15] '눈길을' --> '눈길을'",
+ "replace text[9:11] --> decoded_text[16:20] '주소' --> '주소'",
+ "replace text[12:13] --> decoded_text[21:26] '끈' --> '[UNK]'",
+ "replace text[14:16] --> decoded_text[27:32] '것은' --> '[UNK]'",
+ "replace text[17:18] --> decoded_text[33:36] '한' --> '한'",
+ "replace text[19:24] --> decoded_text[37:49] '신인배우의' --> '신인배우의'",
+ "replace text[25:30] --> decoded_text[50:55] '매니저였다' --> '[UNK]'",
+ "replace text[32:40] --> decoded_text[57:76] '황금의제국카지노' --> '황금의제국카지노'",
+ "replace text[41:44] --> decoded_text[77:83] '배우의' --> '배우의'",
+ "replace text[45:48] --> decoded_text[84:90] '매니저' --> '매니저'",
+ "replace text[49:51] --> decoded_text[91:97] '일을' --> '일을'",
+ "replace text[52:54] --> decoded_text[98:102] '하고' --> '하고'",
+ "replace text[55:58] --> decoded_text[103:108] '있다는' --> '[UNK]'",
+ "replace text[59:60] --> decoded_text[109:112] '한' --> '한'",
+ "replace text[61:65] --> decoded_text[113:118] '청취자의' --> '[UNK]'",
+ "replace text[66:69] --> decoded_text[119:126] '사연에' --> '사연에'",
+ "replace text[70:74] --> decoded_text[127:147] '박명수는' --> \"박명수는'실시간\"",
+ "insert text[75:75] --> decoded_text[148:162] '' --> '검색어 [UNK]'",
+ "replace text[76:79] --> decoded_text[163:166] '실시간' --> '를'",
+ "replace text[80:96] --> decoded_text[167:172] \"검색어 1위'를 만들어주겠다며\" --> '[UNK]'",
+ "replace text[98:103] --> decoded_text[174:188] '통화연결을' --> '통화연결을'",
+ "replace text[104:106] --> decoded_text[189:194] '했다' --> '[UNK]'"
+ ],
+ "n_oov_chars": 78,
+ "oov_ratio": 0.7289719626168224,
+ "oov_charset": "[\"또\", \"한\", \"이\", \"날\", \"눈\", \"길\", \"을\", \"주\", \"소\", \"끈\", \"것\", \"은\", \"신\", \"인\", \"배\", \"우\", \"의\", \"매\", \"니\", \"저\", \"였\", \"다\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"일\", \"하\", \"고\", \"있\", \"는\", \"청\", \"취\", \"자\", \"사\", \"연\", \"에\", \"박\", \"명\", \"수\", \"실\", \"시\", \"간\", \"검\", \"색\", \"어\", \"위\", \"를\", \"만\", \"들\", \"겠\", \"며\", \"통\", \"화\", \"결\", \"했\"]"
+ },
+ {
+ "text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다.",
+ "decoded_text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 [UNK] 먹는 일이 [UNK]. 호날두가 ‘ 빅 사이닝 ’ 을 통해 유벤투스로 [UNK] [UNK].",
+ "diff": [
+ "replace text[0:5] --> decoded_text[0:12] '하지만이번' --> '하지만이번'",
+ "replace text[6:14] --> decoded_text[13:32] '황금의제국카지노' --> '황금의제국카지노'",
+ "replace text[15:17] --> decoded_text[33:38] '시즌' --> '시즌'",
+ "replace text[19:23] --> decoded_text[40:49] '호날두와' --> '호날두와'",
+ "replace text[24:28] --> decoded_text[50:59] '이과인이' --> '이과인이'",
+ "replace text[29:31] --> decoded_text[60:64] '다시' --> '다시'",
+ "replace text[32:34] --> decoded_text[65:69] '주소' --> '주소'",
+ "replace text[35:39] --> decoded_text[70:75] '한솥밥을' --> '[UNK]'",
+ "replace text[40:42] --> decoded_text[76:82] '먹는' --> '먹는'",
+ "replace text[43:45] --> decoded_text[83:88] '일이' --> '일이'",
+ "replace text[46:50] --> decoded_text[89:94] '성사됐다' --> '[UNK]'",
+ "replace text[52:56] --> decoded_text[96:105] '호날두가' --> '호날두가'",
+ "delete text[58:59] --> decoded_text[107:107] '빅' --> ''",
+ "replace text[60:63] --> decoded_text[108:120] '사이닝' --> '빅 사이닝 '",
+ "delete text[64:65] --> decoded_text[121:121] '을' --> ''",
+ "replace text[66:68] --> decoded_text[122:125] '통해' --> '을'",
+ "replace text[69:74] --> decoded_text[126:131] '유벤투스로' --> '통해'",
+ "replace text[75:78] --> decoded_text[132:143] '옮겼기' --> '유벤투스로'",
+ "replace text[79:83] --> decoded_text[144:155] '때문이다' --> '[UNK] [UNK]'"
+ ],
+ "n_oov_chars": 62,
+ "oov_ratio": 0.7380952380952381,
+ "oov_charset": "[\"하\", \"지\", \"만\", \"이\", \"번\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"노\", \"시\", \"즌\", \"호\", \"날\", \"두\", \"와\", \"과\", \"인\", \"다\", \"주\", \"소\", \"한\", \"솥\", \"밥\", \"을\", \"먹\", \"는\", \"일\", \"성\", \"사\", \"됐\", \"가\", \"빅\", \"닝\", \"통\", \"해\", \"유\", \"벤\", \"투\", \"스\", \"로\", \"옮\", \"겼\", \"기\", \"때\", \"문\"]"
+ },
+ {
+ "text": "현대캐피탈은삼성화재와 시범경기를 위해 홍천에 황금의제국카지노 주소 왔다.",
+ "decoded_text": "현대캐피탈은삼성화재와 시범경기를 [UNK] 홍천에 황금의제국카지노 주소 [UNK].",
+ "diff": [
+ "replace text[0:11] --> decoded_text[0:27] '현대캐피탈은삼성화재와' --> '현대캐피탈은삼성화재와'",
+ "replace text[12:17] --> decoded_text[28:41] '시범경기를' --> '시범경기를'",
+ "replace text[18:20] --> decoded_text[42:47] '위해' --> '[UNK]'",
+ "replace text[21:24] --> decoded_text[48:56] '홍천에' --> '홍천에'",
+ "replace text[25:33] --> decoded_text[57:76] '황금의제국카지노' --> '황금의제국카지노'",
+ "replace text[34:36] --> decoded_text[77:81] '주소' --> '주소'",
+ "replace text[37:39] --> decoded_text[82:87] '왔다' --> '[UNK]'"
+ ],
+ "n_oov_chars": 33,
+ "oov_ratio": 0.825,
+ "oov_charset": "[\"현\", \"대\", \"캐\", \"피\", \"탈\", \"은\", \"삼\", \"성\", \"화\", \"재\", \"와\", \"시\", \"범\", \"경\", \"기\", \"를\", \"위\", \"해\", \"홍\", \"천\", \"에\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"주\", \"소\", \"왔\", \"다\"]"
+ },
+ {
+ "text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.",
+ "decoded_text": "사실자매가 나란히 [UNK] 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 [UNK] [UNK] [UNK]. 마치 하루에 한 번씩 만나는 친구 [UNK] [UNK] 황금의제국카지노 [UNK].",
+ "diff": [
+ "replace text[0:5] --> decoded_text[0:11] '사실자매가' --> '사실자매가'",
+ "replace text[6:9] --> decoded_text[12:19] '나란히' --> '나란히'",
+ "replace text[10:12] --> decoded_text[20:25] '앉아' --> '[UNK]'",
+ "replace text[13:17] --> decoded_text[26:36] '인터뷰를' --> '인터뷰를'",
+ "replace text[18:21] --> decoded_text[37:45] '한다는' --> '한다는'",
+ "replace text[22:23] --> decoded_text[46:48] '게' --> '게'",
+ "replace text[24:28] --> decoded_text[49:59] '쑥스러울' --> '쑥스러울'",
+ "replace text[29:31] --> decoded_text[60:65] '법도' --> '법도'",
+ "replace text[32:34] --> decoded_text[66:71] '한데' --> '한데'",
+ "replace text[36:38] --> decoded_text[73:77] '주소' --> '주소'",
+ "replace text[39:40] --> decoded_text[78:81] '둘' --> '둘'",
+ "replace text[41:45] --> decoded_text[82:91] '사이에는' --> '사이에는'",
+ "replace text[46:48] --> decoded_text[92:97] '어떤' --> '[UNK]'",
+ "replace text[49:53] --> decoded_text[98:103] '거리낌도' --> '[UNK]'",
+ "replace text[54:57] --> decoded_text[104:109] '없었다' --> '[UNK]'",
+ "replace text[59:61] --> decoded_text[111:115] '마치' --> '마치'",
+ "replace text[62:65] --> decoded_text[116:122] '하루에' --> '하루에'",
+ "replace text[66:67] --> decoded_text[123:126] '한' --> '한'",
+ "replace text[68:70] --> decoded_text[127:133] '번씩' --> '번씩'",
+ "replace text[71:74] --> decoded_text[134:142] '만나는' --> '만나는'",
+ "replace text[75:77] --> decoded_text[143:148] '친구' --> '친구'",
+ "replace text[78:80] --> decoded_text[149:154] '같은' --> '[UNK]'",
+ "replace text[81:84] --> decoded_text[155:160] '느낌이' --> '[UNK]'",
+ "replace text[85:93] --> decoded_text[161:180] '황금의제국카지노' --> '황금의제국카지노'",
+ "replace text[94:97] --> decoded_text[181:186] '강했다' --> '[UNK]'"
+ ],
+ "n_oov_chars": 71,
+ "oov_ratio": 0.7244897959183674,
+ "oov_charset": "[\"사\", \"실\", \"자\", \"매\", \"가\", \"나\", \"란\", \"히\", \"앉\", \"아\", \"인\", \"터\", \"뷰\", \"를\", \"한\", \"다\", \"는\", \"게\", \"쑥\", \"스\", \"러\", \"울\", \"법\", \"도\", \"데\", \"주\", \"소\", \"둘\", \"이\", \"에\", \"어\", \"떤\", \"거\", \"리\", \"낌\", \"없\", \"었\", \"마\", \"치\", \"하\", \"루\", \"번\", \"씩\", \"만\", \"친\", \"구\", \"같\", \"은\", \"느\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"강\", \"했\"]"
+ }
+]
\ No newline at end of file
diff --git a/stats/compression_rate/google-t5.t5-large @ cc100.ar.diff.json b/stats/compression_rate/google-t5.t5-large @ cc100.ar.diff.json
new file mode 100644
index 0000000000000000000000000000000000000000..165f606b948abb6fb6bba1e44e383abcde2e0706
--- /dev/null
+++ b/stats/compression_rate/google-t5.t5-large @ cc100.ar.diff.json
@@ -0,0 +1,234 @@
+[
+ {
+ "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)",
+ "decoded_text": "- / - .. ( 1)",
+ "diff": [
+ "replace text[2:8] --> decoded_text[2:7] 'اللواء' --> ''",
+ "replace text[11:14] --> decoded_text[10:15] 'علي' --> ''",
+ "replace text[15:19] --> decoded_text[16:21] 'محمد' --> ''",
+ "replace text[20:28] --> decoded_text[22:27] 'الكحلاني' --> ''",
+ "replace text[31:36] --> decoded_text[30:35] 'نصيحة' --> ''",
+ "replace text[37:43] --> decoded_text[36:41] 'صادقة ' --> ''"
+ ],
+ "n_oov_chars": 31,
+ "oov_ratio": 0.62,
+ "oov_charset": "[\"ا\", \"ل\", \"و\", \"ء\", \"ع\", \"ي\", \"م\", \"ح\", \"د\", \"ك\", \"ن\", \"ص\", \"ة\", \"ق\"]"
+ },
+ {
+ "text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..",
+ "decoded_text": " .. , 22 1990.. , , .. , 1990 , .. , .. () ..",
+ "diff": [
+ "replace text[0:97] --> decoded_text[0:91] 'اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي' --> ' .. '",
+ "replace text[99:132] --> decoded_text[93:122] 'ومن حياتها الاعتيادية الطبيعية في' --> ' '",
+ "replace text[135:145] --> decoded_text[125:136] 'مايو العام' --> ' '",
+ "replace text[150:247] --> decoded_text[141:256] 'م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب' --> '.. '",
+ "replace text[249:279] --> decoded_text[258:287] 'ومن اضطراب في نسيجها الاجتماعي' --> ' '",
+ "replace text[281:389] --> decoded_text[289:404] 'ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل' --> ' .. '",
+ "replace text[391:462] --> decoded_text[406:483] 'ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام' --> ' '",
+ "replace text[467:525] --> decoded_text[488:547] 'م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام' --> '