xu-song commited on
Commit
6ef6bf4
1 Parent(s): f2cec45
README.md CHANGED
@@ -28,5 +28,11 @@ python app.py
28
 
29
 
30
 
31
- ## ss
 
 
 
 
 
 
32
 
 
28
 
29
 
30
 
31
+ ## Deploy to Huggingface
32
+
33
+ ```sh
34
+ python compression_util.py # cache compression
35
+ python character_util.py # cache character
36
+ python stats/sample.py # ss
37
+ ```
38
 
character_app.py CHANGED
@@ -65,18 +65,21 @@ with gr.Blocks() as demo:
65
  columns.change(
66
  get_character_table,
67
  inputs=[search_bar, columns],
68
- outputs=compress_rate_table
 
69
  )
70
  columns.change(
71
  get_column_info,
72
  inputs=[columns],
73
- outputs=column_info
 
74
  )
75
 
76
  demo.load(
77
  get_character_table,
78
  inputs=[search_bar, columns],
79
- outputs=compress_rate_table
 
80
  )
81
 
82
  if __name__ == "__main__":
 
65
  columns.change(
66
  get_character_table,
67
  inputs=[search_bar, columns],
68
+ outputs=compress_rate_table,
69
+ show_api=False
70
  )
71
  columns.change(
72
  get_column_info,
73
  inputs=[columns],
74
+ outputs=column_info,
75
+ show_api=False
76
  )
77
 
78
  demo.load(
79
  get_character_table,
80
  inputs=[search_bar, columns],
81
+ outputs=compress_rate_table,
82
+ show_api=False
83
  )
84
 
85
  if __name__ == "__main__":
compression_app.py CHANGED
@@ -170,7 +170,8 @@ with gr.Blocks(theme=theme) as demo:
170
  compress_rate_unit.change(
171
  get_compression_leaderboard,
172
  inputs=[compress_rate_corpus, compress_rate_unit, search_bar],
173
- outputs=compress_rate_table
 
174
  )
175
  # file_size.change(
176
  # get_all_compress_rate,
@@ -184,13 +185,15 @@ with gr.Blocks(theme=theme) as demo:
184
  compress_rate_unit,
185
  search_bar,
186
  ],
187
- outputs=compress_rate_table
 
188
  )
189
 
190
  demo.load(
191
  get_compression_leaderboard,
192
  inputs=[compress_rate_corpus, compress_rate_unit],
193
- outputs=compress_rate_table
 
194
  )
195
 
196
  if __name__ == "__main__":
 
170
  compress_rate_unit.change(
171
  get_compression_leaderboard,
172
  inputs=[compress_rate_corpus, compress_rate_unit, search_bar],
173
+ outputs=compress_rate_table,
174
+ show_api=False
175
  )
176
  # file_size.change(
177
  # get_all_compress_rate,
 
185
  compress_rate_unit,
186
  search_bar,
187
  ],
188
+ outputs=compress_rate_table,
189
+ show_api=False
190
  )
191
 
192
  demo.load(
193
  get_compression_leaderboard,
194
  inputs=[compress_rate_corpus, compress_rate_unit],
195
+ outputs=compress_rate_table,
196
+ show_api=False
197
  )
198
 
199
  if __name__ == "__main__":
playground_app.py CHANGED
@@ -7,8 +7,7 @@ from vocab import tokenizer_factory
7
  from playground_examples import example_types, example_fn
8
  from playground_util import (tokenize,
9
  tokenize_pair, basic_count,
10
- get_overlap_token_size, on_load,
11
- default_user_input, default_tokenizer_name_1, default_tokenizer_name_2)
12
 
13
  get_window_url_params = """
14
  function(url_params) {
@@ -192,13 +191,13 @@ with gr.Blocks() as demo:
192
  # TODO: every=3
193
  user_input.change(tokenize_pair,
194
  [user_input, tokenizer_name_1, tokenizer_name_2],
195
- [output_text_1, output_table_1, output_text_2, output_table_2]) # , pass_request=1
196
 
197
  tokenizer_name_2.change(tokenize, [user_input, tokenizer_name_2],
198
- [output_text_2, output_table_2])
199
- tokenizer_name_2.change(basic_count, [tokenizer_name_2], [stats_vocab_size_2, organization_2])
200
  tokenizer_name_2.change(get_overlap_token_size, [tokenizer_name_1, tokenizer_name_2],
201
- [stats_overlap_token_size_1, stats_overlap_token_size_2])
202
  # tokenizer_type_2.change(get_compress_rate,
203
  # [tokenizer_type_2, compress_rate_corpus, compress_rate_unit],
204
  # [stats_compress_rate_2])
@@ -219,14 +218,16 @@ with gr.Blocks() as demo:
219
  dropdown_examples.change(
220
  example_fn,
221
  dropdown_examples,
222
- [user_input, tokenizer_name_1, tokenizer_name_2]
 
223
  )
224
 
225
  demo.load(
226
  fn=on_load,
227
  inputs=[user_input], # 这里只需要传个空object即可。
228
  outputs=[user_input, tokenizer_name_1, tokenizer_name_2],
229
- js=get_window_url_params
 
230
  )
231
 
232
  if __name__ == "__main__":
 
7
  from playground_examples import example_types, example_fn
8
  from playground_util import (tokenize,
9
  tokenize_pair, basic_count,
10
+ get_overlap_token_size, on_load)
 
11
 
12
  get_window_url_params = """
13
  function(url_params) {
 
191
  # TODO: every=3
192
  user_input.change(tokenize_pair,
193
  [user_input, tokenizer_name_1, tokenizer_name_2],
194
+ [output_text_1, output_table_1, output_text_2, output_table_2], show_api=False) # , pass_request=1
195
 
196
  tokenizer_name_2.change(tokenize, [user_input, tokenizer_name_2],
197
+ [output_text_2, output_table_2], show_api=False)
198
+ tokenizer_name_2.change(basic_count, [tokenizer_name_2], [stats_vocab_size_2, organization_2], show_api=False)
199
  tokenizer_name_2.change(get_overlap_token_size, [tokenizer_name_1, tokenizer_name_2],
200
+ [stats_overlap_token_size_1, stats_overlap_token_size_2], show_api=False)
201
  # tokenizer_type_2.change(get_compress_rate,
202
  # [tokenizer_type_2, compress_rate_corpus, compress_rate_unit],
203
  # [stats_compress_rate_2])
 
218
  dropdown_examples.change(
219
  example_fn,
220
  dropdown_examples,
221
+ [user_input, tokenizer_name_1, tokenizer_name_2],
222
+ show_api=False
223
  )
224
 
225
  demo.load(
226
  fn=on_load,
227
  inputs=[user_input], # 这里只需要传个空object即可。
228
  outputs=[user_input, tokenizer_name_1, tokenizer_name_2],
229
+ js=get_window_url_params,
230
+ show_api=False
231
  )
232
 
233
  if __name__ == "__main__":
playground_examples.py CHANGED
@@ -16,6 +16,35 @@
16
 
17
  https://www.computerhope.com/jargon/s/specchar.htm
18
  """
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
19
 
20
  examples = {
21
  "en": [
@@ -35,6 +64,8 @@ examples = {
35
  ]
36
  }
37
 
 
 
38
  more_examples = [
39
  # bert系列
40
  ("google-bert/bert-base-cased", "google-bert/bert-base-uncased", "", ""), # # clue VS kplug, bert VS clue
 
16
 
17
  https://www.computerhope.com/jargon/s/specchar.htm
18
  """
19
+ import random
20
+ from datasets import load_dataset
21
+
22
+ default_user_input = """\
23
+ Replace this text in the input field to see how tokenization works.
24
+ Buenos días!
25
+ 华为发布Mate60手机。
26
+ ラグビーワールドカップ2023フランス"""
27
+ # default_tokenizer_name_1 = "Meta/llama3"
28
+ default_tokenizer_name_1 = "gradientai/Llama-3-8B-Instruct-Gradient-1048k"
29
+ default_tokenizer_name_2 = "openai/gpt-4o"
30
+
31
+
32
+
33
+ def get_sample_input():
34
+ default_inputs = {
35
+ "en": "Replace this text in the input field to see how tokenization works.",
36
+ "zh-Hans": "",
37
+ "es": "",
38
+ "de": "",
39
+ }
40
+ random.seed(10) # For reproducibility
41
+ lines = []
42
+ for lang in default_inputs.keys():
43
+ dataset = load_dataset("eson/cc100-samples", lang, split="train")
44
+ print(dataset)
45
+ print(1)
46
+ return default_inputs
47
+
48
 
49
  examples = {
50
  "en": [
 
64
  ]
65
  }
66
 
67
+
68
+
69
  more_examples = [
70
  # bert系列
71
  ("google-bert/bert-base-cased", "google-bert/bert-base-uncased", "", ""), # # clue VS kplug, bert VS clue
playground_util.py CHANGED
@@ -5,17 +5,10 @@ import pandas as pd
5
  from vocab import tokenizer_factory
6
  from character_util import iter_vocab
7
  from utils.log_util import logger
 
 
8
  from functools import lru_cache
9
 
10
- default_user_input = """\
11
- Replace this text in the input field to see how tokenization works.
12
- Buenos días!
13
- 华为发布Mate60手机。
14
- ラグビーワールドカップ2023フランス"""
15
- # default_tokenizer_name_1 = "Meta/llama3"
16
- default_tokenizer_name_1 = "gradientai/Llama-3-8B-Instruct-Gradient-1048k"
17
- default_tokenizer_name_2 = "openai/gpt-4o"
18
-
19
 
20
  @lru_cache
21
  def _tokenize(
@@ -150,6 +143,7 @@ def on_load(url_params, request: gr.Request):
150
  except:
151
  url_params = {}
152
  if request:
 
153
  logger.info(str(request.headers))
154
  client_ip = request.client.host
155
  # local_ip = socket.gethostbyname(socket.gethostbyname(""))
@@ -163,7 +157,7 @@ def on_load(url_params, request: gr.Request):
163
  tokenizer_type_1 = url_params.get("tokenizer1", default_tokenizer_name_1)
164
  tokenizer_type_2 = url_params.get("tokenizer2", default_tokenizer_name_2)
165
  text = url_params.get("text", default_user_input)
166
- logger.info(f"client_ip: {client_ip}; params: {url_params}")
167
  return text, tokenizer_type_1, tokenizer_type_2
168
 
169
 
 
5
  from vocab import tokenizer_factory
6
  from character_util import iter_vocab
7
  from utils.log_util import logger
8
+ from utils.i18n_util import get_lang
9
+ from playground_examples import default_tokenizer_name_1, default_tokenizer_name_2, default_user_input
10
  from functools import lru_cache
11
 
 
 
 
 
 
 
 
 
 
12
 
13
  @lru_cache
14
  def _tokenize(
 
143
  except:
144
  url_params = {}
145
  if request:
146
+ lang, lang_code = get_lang(request)
147
  logger.info(str(request.headers))
148
  client_ip = request.client.host
149
  # local_ip = socket.gethostbyname(socket.gethostbyname(""))
 
157
  tokenizer_type_1 = url_params.get("tokenizer1", default_tokenizer_name_1)
158
  tokenizer_type_2 = url_params.get("tokenizer2", default_tokenizer_name_2)
159
  text = url_params.get("text", default_user_input)
160
+ logger.info(f"client_ip: {client_ip}; lang: {lang} params: {url_params}")
161
  return text, tokenizer_type_1, tokenizer_type_2
162
 
163
 
stats/character_stats.json CHANGED
@@ -1957,5 +1957,43 @@
1957
  "len(ko)": "1,1,2",
1958
  "num(la)": 48651,
1959
  "len(la)": "1,6,512"
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1960
  }
1961
  }
 
1957
  "len(ko)": "1,1,2",
1958
  "num(la)": 48651,
1959
  "len(la)": "1,6,512"
1960
+ },
1961
+ "Qwen/Qwen2-0.5B": {
1962
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen2-0.5B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen2-0.5B</a>",
1963
+ "organization": "Alibaba",
1964
+ "vocab_size": 151646,
1965
+ "num(digit)": 10,
1966
+ "len(digit)": "1,1,1",
1967
+ "num(space)": 55883,
1968
+ "len(space)": "1,6,128",
1969
+ "num(ar)": 4018,
1970
+ "len(ar)": "1,3,12",
1971
+ "num(zh)": 25557,
1972
+ "len(zh)": "1,2,7",
1973
+ "num(ja)": 27206,
1974
+ "len(ja)": "1,2,11",
1975
+ "num(ja-kana)": 2089,
1976
+ "len(ja-kana)": "1,3,11",
1977
+ "num(ko)": 3495,
1978
+ "len(ko)": "1,1,5"
1979
+ },
1980
+ "NousResearch/Hermes-3-Llama-3.1-405B": {
1981
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/NousResearch/Hermes-3-Llama-3.1-405B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Hermes-3-Llama-3.1-405B</a>",
1982
+ "organization": "NousResearch",
1983
+ "vocab_size": 128256,
1984
+ "num(digit)": 1110,
1985
+ "len(digit)": "1,3,3",
1986
+ "num(space)": 60860,
1987
+ "len(space)": "1,6,128",
1988
+ "num(ar)": 3810,
1989
+ "len(ar)": "1,4,11",
1990
+ "num(zh)": 4424,
1991
+ "len(zh)": "1,1,7",
1992
+ "num(ja)": 5387,
1993
+ "len(ja)": "1,2,8",
1994
+ "num(ja-kana)": 1086,
1995
+ "len(ja-kana)": "1,2,8",
1996
+ "num(ko)": 2281,
1997
+ "len(ko)": "1,2,6"
1998
  }
1999
  }
stats/compression_rate.json CHANGED
@@ -10354,5 +10354,341 @@
10354
  "oov_ratio": 0.0,
10355
  "_oov_charset": "[]",
10356
  "lossless": false
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
10357
  }
10358
  }
 
10354
  "oov_ratio": 0.0,
10355
  "_oov_charset": "[]",
10356
  "lossless": false
10357
+ },
10358
+ "Qwen/Qwen2-0.5B @ cc100/ar": {
10359
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen2-0.5B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen2-0.5B</a>",
10360
+ "organization": "Alibaba",
10361
+ "vocab_size": 151646,
10362
+ "_n_bytes": 2813283,
10363
+ "_n_tokens": 614959,
10364
+ "_n_chars": 1560987,
10365
+ "_n_oov_chars": 0,
10366
+ "oov_ratio": 0.0,
10367
+ "_oov_charset": "[]",
10368
+ "lossless": false
10369
+ },
10370
+ "Qwen/Qwen2-0.5B @ cc100/de": {
10371
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen2-0.5B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen2-0.5B</a>",
10372
+ "organization": "Alibaba",
10373
+ "vocab_size": 151646,
10374
+ "_n_bytes": 1814876,
10375
+ "_n_tokens": 503561,
10376
+ "_n_chars": 1784021,
10377
+ "_n_oov_chars": 0,
10378
+ "oov_ratio": 0.0,
10379
+ "_oov_charset": "[]",
10380
+ "lossless": false
10381
+ },
10382
+ "Qwen/Qwen2-0.5B @ cc100/en": {
10383
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen2-0.5B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen2-0.5B</a>",
10384
+ "organization": "Alibaba",
10385
+ "vocab_size": 151646,
10386
+ "_n_bytes": 1124813,
10387
+ "_n_tokens": 257983,
10388
+ "_n_chars": 1121360,
10389
+ "_n_oov_chars": 0,
10390
+ "oov_ratio": 0.0,
10391
+ "_oov_charset": "[]",
10392
+ "lossless": true
10393
+ },
10394
+ "Qwen/Qwen2-0.5B @ cc100/es": {
10395
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen2-0.5B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen2-0.5B</a>",
10396
+ "organization": "Alibaba",
10397
+ "vocab_size": 151646,
10398
+ "_n_bytes": 1664455,
10399
+ "_n_tokens": 434264,
10400
+ "_n_chars": 1630297,
10401
+ "_n_oov_chars": 0,
10402
+ "oov_ratio": 0.0,
10403
+ "_oov_charset": "[]",
10404
+ "lossless": true
10405
+ },
10406
+ "Qwen/Qwen2-0.5B @ cc100/fa": {
10407
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen2-0.5B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen2-0.5B</a>",
10408
+ "organization": "Alibaba",
10409
+ "vocab_size": 151646,
10410
+ "_n_bytes": 2054052,
10411
+ "_n_tokens": 643421,
10412
+ "_n_chars": 1145876,
10413
+ "_n_oov_chars": 0,
10414
+ "oov_ratio": 0.0,
10415
+ "_oov_charset": "[]",
10416
+ "lossless": false
10417
+ },
10418
+ "Qwen/Qwen2-0.5B @ cc100/fr": {
10419
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen2-0.5B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen2-0.5B</a>",
10420
+ "organization": "Alibaba",
10421
+ "vocab_size": 151646,
10422
+ "_n_bytes": 1540504,
10423
+ "_n_tokens": 413637,
10424
+ "_n_chars": 1484970,
10425
+ "_n_oov_chars": 0,
10426
+ "oov_ratio": 0.0,
10427
+ "_oov_charset": "[]",
10428
+ "lossless": false
10429
+ },
10430
+ "Qwen/Qwen2-0.5B @ cc100/ja": {
10431
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen2-0.5B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen2-0.5B</a>",
10432
+ "organization": "Alibaba",
10433
+ "vocab_size": 151646,
10434
+ "_n_bytes": 1774770,
10435
+ "_n_tokens": 377144,
10436
+ "_n_chars": 603065,
10437
+ "_n_oov_chars": 0,
10438
+ "oov_ratio": 0.0,
10439
+ "_oov_charset": "[]",
10440
+ "lossless": false
10441
+ },
10442
+ "Qwen/Qwen2-0.5B @ cc100/ko": {
10443
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen2-0.5B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen2-0.5B</a>",
10444
+ "organization": "Alibaba",
10445
+ "vocab_size": 151646,
10446
+ "_n_bytes": 1524839,
10447
+ "_n_tokens": 457492,
10448
+ "_n_chars": 655190,
10449
+ "_n_oov_chars": 25,
10450
+ "oov_ratio": 3.815687052610693e-05,
10451
+ "_oov_charset": "[\"理\", \"女\", \"流\", \"陸\", \"良\", \"梁\", \"不\", \"龍\", \"識\", \"累\", \"樂\", \"立\", \"樂\", \"金\", \"靈\"]",
10452
+ "lossless": false
10453
+ },
10454
+ "Qwen/Qwen2-0.5B @ cc100/zh-Hans": {
10455
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen2-0.5B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen2-0.5B</a>",
10456
+ "organization": "Alibaba",
10457
+ "vocab_size": 151646,
10458
+ "_n_bytes": 2633047,
10459
+ "_n_tokens": 589211,
10460
+ "_n_chars": 927311,
10461
+ "_n_oov_chars": 0,
10462
+ "oov_ratio": 0.0,
10463
+ "_oov_charset": "[]",
10464
+ "lossless": true
10465
+ },
10466
+ "allenai/OLMo-7B-hf @ cc100/ar": {
10467
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/allenai/OLMo-7B-hf\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">OLMo-7B-hf</a>",
10468
+ "organization": "Allen AI",
10469
+ "vocab_size": 50280,
10470
+ "_n_bytes": 2813283,
10471
+ "_n_tokens": 1106277,
10472
+ "_n_chars": 1560987,
10473
+ "_n_oov_chars": 0,
10474
+ "oov_ratio": 0.0,
10475
+ "_oov_charset": "[]",
10476
+ "lossless": false
10477
+ },
10478
+ "allenai/OLMo-7B-hf @ cc100/de": {
10479
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/allenai/OLMo-7B-hf\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">OLMo-7B-hf</a>",
10480
+ "organization": "Allen AI",
10481
+ "vocab_size": 50280,
10482
+ "_n_bytes": 1814876,
10483
+ "_n_tokens": 583628,
10484
+ "_n_chars": 1784021,
10485
+ "_n_oov_chars": 0,
10486
+ "oov_ratio": 0.0,
10487
+ "_oov_charset": "[]",
10488
+ "lossless": false
10489
+ },
10490
+ "allenai/OLMo-7B-hf @ cc100/fa": {
10491
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/allenai/OLMo-7B-hf\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">OLMo-7B-hf</a>",
10492
+ "organization": "Allen AI",
10493
+ "vocab_size": 50280,
10494
+ "_n_bytes": 2054052,
10495
+ "_n_tokens": 866434,
10496
+ "_n_chars": 1145876,
10497
+ "_n_oov_chars": 0,
10498
+ "oov_ratio": 0.0,
10499
+ "_oov_charset": "[]",
10500
+ "lossless": false
10501
+ },
10502
+ "allenai/OLMo-7B-hf @ cc100/ja": {
10503
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/allenai/OLMo-7B-hf\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">OLMo-7B-hf</a>",
10504
+ "organization": "Allen AI",
10505
+ "vocab_size": 50280,
10506
+ "_n_bytes": 1774770,
10507
+ "_n_tokens": 605168,
10508
+ "_n_chars": 603065,
10509
+ "_n_oov_chars": 0,
10510
+ "oov_ratio": 0.0,
10511
+ "_oov_charset": "[]",
10512
+ "lossless": false
10513
+ },
10514
+ "allenai/OLMo-7B-hf @ cc100/ko": {
10515
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/allenai/OLMo-7B-hf\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">OLMo-7B-hf</a>",
10516
+ "organization": "Allen AI",
10517
+ "vocab_size": 50280,
10518
+ "_n_bytes": 1524839,
10519
+ "_n_tokens": 973288,
10520
+ "_n_chars": 655190,
10521
+ "_n_oov_chars": 25,
10522
+ "oov_ratio": 3.815687052610693e-05,
10523
+ "_oov_charset": "[\"理\", \"女\", \"流\", \"陸\", \"良\", \"梁\", \"不\", \"龍\", \"識\", \"累\", \"樂\", \"立\", \"樂\", \"金\", \"靈\"]",
10524
+ "lossless": false
10525
+ },
10526
+ "mistralai/Mistral-Nemo-Instruct-2407 @ cc100/ar": {
10527
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/mistralai/Mistral-Nemo-Instruct-2407\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Mistral-Nemo-Instruct-2407</a>",
10528
+ "organization": "Mistral",
10529
+ "vocab_size": 131072,
10530
+ "_n_bytes": 2813283,
10531
+ "_n_tokens": 492119,
10532
+ "_n_chars": 1560987,
10533
+ "_n_oov_chars": 0,
10534
+ "oov_ratio": 0.0,
10535
+ "_oov_charset": "[]",
10536
+ "lossless": true
10537
+ },
10538
+ "mistralai/Mistral-Nemo-Instruct-2407 @ cc100/de": {
10539
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/mistralai/Mistral-Nemo-Instruct-2407\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Mistral-Nemo-Instruct-2407</a>",
10540
+ "organization": "Mistral",
10541
+ "vocab_size": 131072,
10542
+ "_n_bytes": 1814876,
10543
+ "_n_tokens": 442783,
10544
+ "_n_chars": 1784021,
10545
+ "_n_oov_chars": 0,
10546
+ "oov_ratio": 0.0,
10547
+ "_oov_charset": "[]",
10548
+ "lossless": true
10549
+ },
10550
+ "mistralai/Mistral-Nemo-Instruct-2407 @ cc100/fa": {
10551
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/mistralai/Mistral-Nemo-Instruct-2407\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Mistral-Nemo-Instruct-2407</a>",
10552
+ "organization": "Mistral",
10553
+ "vocab_size": 131072,
10554
+ "_n_bytes": 2054052,
10555
+ "_n_tokens": 385078,
10556
+ "_n_chars": 1145876,
10557
+ "_n_oov_chars": 0,
10558
+ "oov_ratio": 0.0,
10559
+ "_oov_charset": "[]",
10560
+ "lossless": true
10561
+ },
10562
+ "mistralai/Mistral-Nemo-Instruct-2407 @ cc100/ja": {
10563
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/mistralai/Mistral-Nemo-Instruct-2407\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Mistral-Nemo-Instruct-2407</a>",
10564
+ "organization": "Mistral",
10565
+ "vocab_size": 131072,
10566
+ "_n_bytes": 1774770,
10567
+ "_n_tokens": 441928,
10568
+ "_n_chars": 603065,
10569
+ "_n_oov_chars": 0,
10570
+ "oov_ratio": 0.0,
10571
+ "_oov_charset": "[]",
10572
+ "lossless": true
10573
+ },
10574
+ "mistralai/Mistral-Nemo-Instruct-2407 @ cc100/ko": {
10575
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/mistralai/Mistral-Nemo-Instruct-2407\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Mistral-Nemo-Instruct-2407</a>",
10576
+ "organization": "Mistral",
10577
+ "vocab_size": 131072,
10578
+ "_n_bytes": 1524839,
10579
+ "_n_tokens": 392555,
10580
+ "_n_chars": 655190,
10581
+ "_n_oov_chars": 0,
10582
+ "oov_ratio": 0.0,
10583
+ "_oov_charset": "[]",
10584
+ "lossless": true
10585
+ },
10586
+ "NousResearch/Hermes-3-Llama-3.1-405B @ cc100/ar": {
10587
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/NousResearch/Hermes-3-Llama-3.1-405B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Hermes-3-Llama-3.1-405B</a>",
10588
+ "organization": "NousResearch",
10589
+ "vocab_size": 128256,
10590
+ "_n_bytes": 2813283,
10591
+ "_n_tokens": 615514,
10592
+ "_n_chars": 1560987,
10593
+ "_n_oov_chars": 0,
10594
+ "oov_ratio": 0.0,
10595
+ "_oov_charset": "[]",
10596
+ "lossless": false
10597
+ },
10598
+ "NousResearch/Hermes-3-Llama-3.1-405B @ cc100/de": {
10599
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/NousResearch/Hermes-3-Llama-3.1-405B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Hermes-3-Llama-3.1-405B</a>",
10600
+ "organization": "NousResearch",
10601
+ "vocab_size": 128256,
10602
+ "_n_bytes": 1814876,
10603
+ "_n_tokens": 499766,
10604
+ "_n_chars": 1784021,
10605
+ "_n_oov_chars": 0,
10606
+ "oov_ratio": 0.0,
10607
+ "_oov_charset": "[]",
10608
+ "lossless": false
10609
+ },
10610
+ "NousResearch/Hermes-3-Llama-3.1-405B @ cc100/en": {
10611
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/NousResearch/Hermes-3-Llama-3.1-405B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Hermes-3-Llama-3.1-405B</a>",
10612
+ "organization": "NousResearch",
10613
+ "vocab_size": 128256,
10614
+ "_n_bytes": 1124813,
10615
+ "_n_tokens": 254944,
10616
+ "_n_chars": 1121360,
10617
+ "_n_oov_chars": 0,
10618
+ "oov_ratio": 0.0,
10619
+ "_oov_charset": "[]",
10620
+ "lossless": false
10621
+ },
10622
+ "NousResearch/Hermes-3-Llama-3.1-405B @ cc100/es": {
10623
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/NousResearch/Hermes-3-Llama-3.1-405B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Hermes-3-Llama-3.1-405B</a>",
10624
+ "organization": "NousResearch",
10625
+ "vocab_size": 128256,
10626
+ "_n_bytes": 1664455,
10627
+ "_n_tokens": 433289,
10628
+ "_n_chars": 1630297,
10629
+ "_n_oov_chars": 0,
10630
+ "oov_ratio": 0.0,
10631
+ "_oov_charset": "[]",
10632
+ "lossless": false
10633
+ },
10634
+ "NousResearch/Hermes-3-Llama-3.1-405B @ cc100/fa": {
10635
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/NousResearch/Hermes-3-Llama-3.1-405B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Hermes-3-Llama-3.1-405B</a>",
10636
+ "organization": "NousResearch",
10637
+ "vocab_size": 128256,
10638
+ "_n_bytes": 2054052,
10639
+ "_n_tokens": 387448,
10640
+ "_n_chars": 1145876,
10641
+ "_n_oov_chars": 0,
10642
+ "oov_ratio": 0.0,
10643
+ "_oov_charset": "[]",
10644
+ "lossless": false
10645
+ },
10646
+ "NousResearch/Hermes-3-Llama-3.1-405B @ cc100/fr": {
10647
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/NousResearch/Hermes-3-Llama-3.1-405B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Hermes-3-Llama-3.1-405B</a>",
10648
+ "organization": "NousResearch",
10649
+ "vocab_size": 128256,
10650
+ "_n_bytes": 1540504,
10651
+ "_n_tokens": 412146,
10652
+ "_n_chars": 1484970,
10653
+ "_n_oov_chars": 0,
10654
+ "oov_ratio": 0.0,
10655
+ "_oov_charset": "[]",
10656
+ "lossless": false
10657
+ },
10658
+ "NousResearch/Hermes-3-Llama-3.1-405B @ cc100/ja": {
10659
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/NousResearch/Hermes-3-Llama-3.1-405B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Hermes-3-Llama-3.1-405B</a>",
10660
+ "organization": "NousResearch",
10661
+ "vocab_size": 128256,
10662
+ "_n_bytes": 1774770,
10663
+ "_n_tokens": 414715,
10664
+ "_n_chars": 603065,
10665
+ "_n_oov_chars": 0,
10666
+ "oov_ratio": 0.0,
10667
+ "_oov_charset": "[]",
10668
+ "lossless": false
10669
+ },
10670
+ "NousResearch/Hermes-3-Llama-3.1-405B @ cc100/ko": {
10671
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/NousResearch/Hermes-3-Llama-3.1-405B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Hermes-3-Llama-3.1-405B</a>",
10672
+ "organization": "NousResearch",
10673
+ "vocab_size": 128256,
10674
+ "_n_bytes": 1524839,
10675
+ "_n_tokens": 412595,
10676
+ "_n_chars": 655190,
10677
+ "_n_oov_chars": 0,
10678
+ "oov_ratio": 0.0,
10679
+ "_oov_charset": "[]",
10680
+ "lossless": false
10681
+ },
10682
+ "NousResearch/Hermes-3-Llama-3.1-405B @ cc100/zh-Hans": {
10683
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/NousResearch/Hermes-3-Llama-3.1-405B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Hermes-3-Llama-3.1-405B</a>",
10684
+ "organization": "NousResearch",
10685
+ "vocab_size": 128256,
10686
+ "_n_bytes": 2633047,
10687
+ "_n_tokens": 747405,
10688
+ "_n_chars": 927311,
10689
+ "_n_oov_chars": 0,
10690
+ "oov_ratio": 0.0,
10691
+ "_oov_charset": "[]",
10692
+ "lossless": false
10693
  }
10694
  }
stats/compression_rate/Qwen.Qwen2-0.5B @ cc100.ar.diff.json ADDED
@@ -0,0 +1,117 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
4
+ "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
5
+ "diff": [
6
+ "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'",
7
+ "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''"
8
+ ],
9
+ "n_oov_chars": 0,
10
+ "oov_ratio": 0.0,
11
+ "oov_charset": "[]"
12
+ },
13
+ {
14
+ "text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....",
15
+ "decoded_text": "أَننا -حالياً- جزءٌ من العالمِ الحديثِ والذي يقوده \"الغربُ\" - وإن كانت الثقافةُ الذائعة والشائعة باسم \"الثقافةِ الغربيةِ\" هي ثقافة ذات بُعدٍ غربيٍّ (لا ينكر) إلاِّ أنها أيضاً ثقافةٌ ذات بعدٍ \"إنساني\"، بمعنى أَن الكثير من \"المحصولِ الثقافي الغربي\" ليس غربياً وإنما وفَد من ثقافاتٍ أُخرى سابقة.....",
16
+ "diff": [
17
+ "insert text[145:145] --> decoded_text[145:146] '' --> 'ٍ'",
18
+ "delete text[146:147] --> decoded_text[147:147] 'ٍ' --> ''",
19
+ "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'",
20
+ "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''"
21
+ ],
22
+ "n_oov_chars": 0,
23
+ "oov_ratio": 0.0,
24
+ "oov_charset": "[]"
25
+ },
26
+ {
27
+ "text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .",
28
+ "decoded_text": "رغم أَن إِتقان اللغة العربية هو العمودُ الفقري للتعاملِ مع دنيا الثقافةِ العربيةِ والإسلاميةِ، فإن أعداداً كبيرة من مُثقفينا والشَخصيات المُهتمة بالشؤونِ العامةِ في واقعنا تملك محصولاً هزيلاً من اللغة العربية، بل وأكاد أجزم أن بعضهم لا يملك أن يتكلم بلغةٍ عربيةٍ سليمة لمدةٍ وجيزةٍ لا تَتَعدى الدقائق القليلة. ومن المؤكد أن أيَّ مُراقبٍ مُنصفٍ لحياتنا العامة سيلاحظ بوضوحٍ أن قدرةَ الشخصياتِ العامةِ على الحديثِ والكتابةِ بلغةٍ عربيةٍ سليمةٍ قد واصلت الانهيار والانحدار خلال السنوات الأربعين الأخيرة حتى بلغت اليوم ما هي عليه من وضعٍ مؤسفٍ (بل وأراه كثيراً كوضعٍ \"مهين\" لكبريائنا الوطني والقومي) (والإرتباك اللغوي – كما يقول المفكر المصري الكبير مراد وهبه إنعكاس للإرتباك الفكري) .",
29
+ "diff": [
30
+ "insert text[326:326] --> decoded_text[326:327] '' --> 'َ'",
31
+ "delete text[327:328] --> decoded_text[328:328] 'َ' --> ''"
32
+ ],
33
+ "n_oov_chars": 0,
34
+ "oov_ratio": 0.0,
35
+ "oov_charset": "[]"
36
+ },
37
+ {
38
+ "text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.",
39
+ "decoded_text": "وكما ذكرت، فقد حيرتني هذه المجموعات الأربعة وأذهلني موقفُ كلٍ منها وأذهلني موقفُ أفرادها كما أضناني الحواُر معها لأنه حوار يشبه ما يسميه العربُ بحوار الطرشان، لأنك تتكلم مع أي فردٍ من أي مجموعةٍ من هذه المجموعات فيردُ عليكَ رداً ينبئ بأنه يتكلم كلاماً ما هو إلا صحيفة اتهام كانت جاهزة لديه من البداية وهى صحيفةُ اتهام تقومُ على التعصبِ والتشددِ والتحيز الوجداني والعاطفي، ولا تقوم على فهمٍ ودرايةٍ واسعة وثقافةٍ عميقةٍ أو عريضة. ولا شك عندي اليوم بعد سنواتٍ طويلة من الاهتمامِ بهذا الموضوع أن معظمَِ الأفرادِ في مجتمعنا المصري والعربي يندرجون تحت واحدة من هذه الفئات الأربعة.",
40
+ "diff": [
41
+ "insert text[497:497] --> decoded_text[497:498] '' --> 'َ'",
42
+ "delete text[498:499] --> decoded_text[499:499] 'َ' --> ''"
43
+ ],
44
+ "n_oov_chars": 0,
45
+ "oov_ratio": 0.0,
46
+ "oov_charset": "[]"
47
+ },
48
+ {
49
+ "text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.",
50
+ "decoded_text": "إن أفراد هذه المجموعة الخامسة يعرفون أيضاً عن الثقافةِ الغربية الكثير ، فهم غطوا مساحاتٍ واسعة من مناطقِ الثقافة الغربية بل ومن منابعها القديمة مثل الثقافة اليونانية والرومانية وثقافة عصر النهضة أو الرينيسانس. أما ثقافات الحضارة الغربية الحديثة فقد أحاطوا بها إحاطةً جيدةً وخاضوا في معظم فروعها كالأدبِ والفنون والتاريخ وعلوم السياسةِ والإجتماع والاقتصاد وعلوم الفلسفة وعلم النفس كما توسعوا في الاطلاع على موجات العلوم الحديثة المتصلة بحركة الاقتصاد المعاصر. وأفرادُ هذه المجموعة وإن كانوا يعجبون بالكثيرِ من إنجازاتِ الحضارة الغربية إلا أنهم لا يصلون إلى حد الافتتان والتقديس لأنهم يعلمون أن الحضارة الغربية حضارة إنسانية لها ما لها وعليها ما عليها، وإن كانت صاحبة إنجازات عظمى مثل خلقِ نظامِ عملٍ مُنتج وفعال، ومثل تطوير علاقة الحاكم بالمحكوم أو المحكوم بالحاكم في ظل منظومةٍ راقية تسمى الديموقراطية ومثل حقوقِ الإنسان، إلاَّ أن الحضارة الغربية تبقى \"عملاً إنسانياً\" لا يخلو من العيوب والنقائص – شأنه شأن كل شئ بشري.",
51
+ "diff": [
52
+ "insert text[825:825] --> decoded_text[825:826] '' --> 'َ'",
53
+ "delete text[826:827] --> decoded_text[827:827] 'َ' --> ''"
54
+ ],
55
+ "n_oov_chars": 0,
56
+ "oov_ratio": 0.0,
57
+ "oov_charset": "[]"
58
+ },
59
+ {
60
+ "text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )",
61
+ "decoded_text": "بالفيديو اسيوط فيس توك ترصد الحلقة السادسة عشر من قصص الحيوان فى القران الكريم والجزء الاول من اصحاب السبت وحكمة اليوم :: الله يمتحن عباده بالخير والشر انه امتحان الصبر ويجب ان نكون شاكرين فى كل الاحوال وانتهاز الفرصة لفعل ما يغضب الله هو اسلوب غير شريف لقوله تعالى ( ( يُخَادِعُونَ اللَّهَ وَالَّذِينَ آمَنُوا وَمَا يَخْدَعُونَ إِلاَّ أَنفُسَهُم وَمَا يَشْعُرُونَ ) )",
62
+ "diff": [
63
+ "insert text[286:286] --> decoded_text[286:287] '' --> 'َ'",
64
+ "replace text[287:295] --> decoded_text[288:296] 'َهَ وَال' --> 'هَ وَالَ'",
65
+ "delete text[296:297] --> decoded_text[297:297] 'َ' --> ''",
66
+ "insert text[333:333] --> decoded_text[333:334] '' --> 'َ'",
67
+ "delete text[334:335] --> decoded_text[335:335] 'َ' --> ''"
68
+ ],
69
+ "n_oov_chars": 0,
70
+ "oov_ratio": 0.0,
71
+ "oov_charset": "[]"
72
+ },
73
+ {
74
+ "text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا",
75
+ "decoded_text": "إنَّ الحمد لله نحمده ونستعينه ونستغفره ونستهديه ونعوذ بالله من شرور أنفسنا",
76
+ "diff": [
77
+ "insert text[2:2] --> decoded_text[2:3] '' --> 'َ'",
78
+ "delete text[3:4] --> decoded_text[4:4] 'َ' --> ''"
79
+ ],
80
+ "n_oov_chars": 0,
81
+ "oov_ratio": 0.0,
82
+ "oov_charset": "[]"
83
+ },
84
+ {
85
+ "text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).",
86
+ "decoded_text": "يبقى أحدٌ منكم إلاّ لُدَّ ) (14).",
87
+ "diff": [
88
+ "insert text[23:23] --> decoded_text[23:24] '' --> 'َ'",
89
+ "delete text[24:25] --> decoded_text[25:25] 'َ' --> ''"
90
+ ],
91
+ "n_oov_chars": 0,
92
+ "oov_ratio": 0.0,
93
+ "oov_charset": "[]"
94
+ },
95
+ {
96
+ "text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم",
97
+ "decoded_text": "- معناها : إنَّ الشيء المتيقّن ثبوته لا يرتفع إلا بدليل قاطع، ولا يحكم",
98
+ "diff": [
99
+ "insert text[13:13] --> decoded_text[13:14] '' --> 'َ'",
100
+ "delete text[14:15] --> decoded_text[15:15] 'َ' --> ''"
101
+ ],
102
+ "n_oov_chars": 0,
103
+ "oov_ratio": 0.0,
104
+ "oov_charset": "[]"
105
+ },
106
+ {
107
+ "text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد",
108
+ "decoded_text": "(14) صحيح البخاري (5712) ؛ صحيح مسلم (2213) . واللَّدود: دواء يُصَبّ في أحد",
109
+ "diff": [
110
+ "insert text[50:50] --> decoded_text[50:51] '' --> 'َ'",
111
+ "delete text[51:52] --> decoded_text[52:52] 'َ' --> ''"
112
+ ],
113
+ "n_oov_chars": 0,
114
+ "oov_ratio": 0.0,
115
+ "oov_charset": "[]"
116
+ }
117
+ ]
stats/compression_rate/Qwen.Qwen2-0.5B @ cc100.de.diff.json ADDED
@@ -0,0 +1,109 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?",
4
+ "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?",
5
+ "diff": [
6
+ "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'"
7
+ ],
8
+ "n_oov_chars": 0,
9
+ "oov_ratio": 0.0,
10
+ "oov_charset": "[]"
11
+ },
12
+ {
13
+ "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.",
14
+ "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.",
15
+ "diff": [
16
+ "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'"
17
+ ],
18
+ "n_oov_chars": 0,
19
+ "oov_ratio": 0.0,
20
+ "oov_charset": "[]"
21
+ },
22
+ {
23
+ "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.",
24
+ "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.",
25
+ "diff": [
26
+ "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'"
27
+ ],
28
+ "n_oov_chars": 0,
29
+ "oov_ratio": 0.0,
30
+ "oov_charset": "[]"
31
+ },
32
+ {
33
+ "text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:",
34
+ "decoded_text": "Zum Glückwunsch haben Sie in den nächsten Wochen eine doppelte Gelegenheit:",
35
+ "diff": [
36
+ "replace text[6:8] --> decoded_text[6:7] 'ü' --> 'ü'",
37
+ "replace text[35:37] --> decoded_text[34:35] 'ä' --> 'ä'"
38
+ ],
39
+ "n_oov_chars": 0,
40
+ "oov_ratio": 0.0,
41
+ "oov_charset": "[]"
42
+ },
43
+ {
44
+ "text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.",
45
+ "decoded_text": "Zum einen haben wir im März einen neuen Kir­chenvorstand gewählt: Jüngere und Ältere, Erfahrene und Neue mischen sich zu einer Gruppe, die die Verantwortung für die Ge­meinde übernimmt. Ich bitte Sie und Euch alle, allen Kandidat*nnen zu danken, sie auf der Straße anzusprechen und zu beglück­wünschen: Denn es ist nicht selbstverständ­lich, für ein Amt von sechs Jahren Dauer zu kandidieren.",
46
+ "diff": [
47
+ "replace text[24:26] --> decoded_text[24:25] 'ä' --> 'ä'",
48
+ "replace text[61:63] --> decoded_text[60:61] 'ä' --> 'ä'",
49
+ "replace text[69:71] --> decoded_text[67:68] 'ü' --> 'ü'",
50
+ "replace text[81:83] --> decoded_text[78:79] 'Ä' --> 'Ä'",
51
+ "replace text[162:164] --> decoded_text[158:159] 'ü' --> 'ü'",
52
+ "replace text[180:182] --> decoded_text[175:176] 'ü' --> 'ü'",
53
+ "replace text[295:297] --> decoded_text[289:290] 'ü' --> 'ü'",
54
+ "replace text[301:303] --> decoded_text[294:295] 'ü' --> 'ü'",
55
+ "replace text[340:342] --> decoded_text[332:333] 'ä' --> 'ä'",
56
+ "replace text[352:354] --> decoded_text[343:344] 'ü' --> 'ü'"
57
+ ],
58
+ "n_oov_chars": 0,
59
+ "oov_ratio": 0.0,
60
+ "oov_charset": "[]"
61
+ },
62
+ {
63
+ "text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.",
64
+ "decoded_text": "Darüber freuen wir uns. Und wenn Sie je­ manden von denen kennen, freuen die sich, wenn Sie sie ansprechen und darin bestär­ken.",
65
+ "diff": [
66
+ "replace text[3:5] --> decoded_text[3:4] 'ü' --> 'ü'",
67
+ "replace text[122:124] --> decoded_text[121:122] 'ä' --> 'ä'"
68
+ ],
69
+ "n_oov_chars": 0,
70
+ "oov_ratio": 0.0,
71
+ "oov_charset": "[]"
72
+ },
73
+ {
74
+ "text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!",
75
+ "decoded_text": "Unsere Kirchengemeinde lebt davon, dass manche eine Aufgabe haben oder eine be­sondere Zeit erleben – wie den Konfirman­denunterricht. Die anderen aber daran teil­haben und sie unterstützen und ihnen Glück wünschen. Und Sie werden merken, dass es Sie selbst beglücken kann, anderen Glück zu wünschen!",
76
+ "diff": [
77
+ "replace text[184:186] --> decoded_text[184:185] 'ü' --> 'ü'",
78
+ "replace text[203:205] --> decoded_text[202:203] 'ü' --> 'ü'",
79
+ "replace text[209:211] --> decoded_text[207:208] 'ü' --> 'ü'",
80
+ "replace text[265:267] --> decoded_text[262:263] 'ü' --> 'ü'",
81
+ "replace text[288:290] --> decoded_text[284:285] 'ü' --> 'ü'",
82
+ "replace text[297:299] --> decoded_text[292:293] 'ü' --> 'ü'"
83
+ ],
84
+ "n_oov_chars": 0,
85
+ "oov_ratio": 0.0,
86
+ "oov_charset": "[]"
87
+ },
88
+ {
89
+ "text": "‹ Herzlichen Dank für all Ihre Spenden!",
90
+ "decoded_text": "‹ Herzlichen Dank für all Ihre Spenden!",
91
+ "diff": [
92
+ "replace text[19:21] --> decoded_text[19:20] 'ü' --> 'ü'"
93
+ ],
94
+ "n_oov_chars": 0,
95
+ "oov_ratio": 0.0,
96
+ "oov_charset": "[]"
97
+ },
98
+ {
99
+ "text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.",
100
+ "decoded_text": "Bitte beachte: Du kannst die an uns erteile Einwilligung auch jederzeit widerrufen. Nutze dazu einfach unsere Kontaktmöglichkeiten. Durch den Widerruf wird die Rechtmäßigkeit der bis dahin erfolgten Verarbeitung nicht berührt.",
101
+ "diff": [
102
+ "replace text[166:168] --> decoded_text[166:167] 'ä' --> 'ä'",
103
+ "replace text[222:224] --> decoded_text[221:222] 'ü' --> 'ü'"
104
+ ],
105
+ "n_oov_chars": 0,
106
+ "oov_ratio": 0.0,
107
+ "oov_charset": "[]"
108
+ }
109
+ ]
stats/compression_rate/Qwen.Qwen2-0.5B @ cc100.fa.diff.json ADDED
@@ -0,0 +1,145 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه",
4
+ "decoded_text": "رئيس حوزه علميه اصفهان گفت: دليل نزول اکثر مصائب رفتار خودِ انسان هاست؛ فقر، بيماري هاي لاعلاج و ناامني هاي اجتماعي، همه و همه نتيجه گناهاني است که اکثر افراد جامعه مرتکب مي شوند. به گزارش رسا، حضرت آيت الله حسين مظاهري در جلسه تفسير قرآن صبح ديروز که در مسجد اميرالمؤمنين(ع) خيابان جي برگزار شد، گفت: هميشه خير و صلاح افراد در بهره برداري بيشتر از دنيا نيست. وي در ادامه تفسير آيه صد و پنجاه و پنجم سوره بقره که مي فرمايد«وَلَنَبْلُوَنَّکُمْ بِشَيْءٍ مِنَ الْخَوْفِ وَالْجُوعِ وَنَقْصٍ مِنَ الأمْوَالِ وَالأنْفُسِ وَالثَّمَرَاتِ وَبَشِّرِ الصَّابِرِينَ» افزود: بلاها و مصائب با اين دنيا عجين شده است و اين بلاها در همه زمينه هاي فردي و اجتماعي جريان دارد و رفتار مردم در برابر اين بلاها و مصائب به دو بخش تقسيم مي شود، عده اي در برابر مصائب جزع و فزع مي کنند و گاهي منکر همه اعتقادات و باورهايشان مي شوند و عده اي در برابر همين بلاها صبر پيشه مي کنند و همه مصائب را از سوي خداوند مي بينند و به فعل خداوند راضي هستند. حضرت آيت الله مظاهري برخي از مصائب را از الطاف خفيه الهي دانست و خاطرنشان کرد: خداوند بر افرادي که در برابر مصائب صبر پيشه",
5
+ "diff": [
6
+ "insert text[436:436] --> decoded_text[436:437] '' --> 'َ'",
7
+ "delete text[437:438] --> decoded_text[438:438] 'َ' --> ''",
8
+ "insert text[520:520] --> decoded_text[520:521] '' --> 'َ'",
9
+ "delete text[521:522] --> decoded_text[522:522] 'َ' --> ''",
10
+ "insert text[543:543] --> decoded_text[543:544] '' --> 'َ'",
11
+ "delete text[544:545] --> decoded_text[545:545] 'َ' --> ''"
12
+ ],
13
+ "n_oov_chars": 0,
14
+ "oov_ratio": 0.0,
15
+ "oov_charset": "[]"
16
+ },
17
+ {
18
+ "text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]",
19
+ "decoded_text": "«رِجَالٌ لا تُلْهِیهِمْ تجَارَةٌ وَ لا بَیْعٌ عَن ذِکْرِ اللهِ وَ إِقَامِ الصَّلَوةِ وَ إِیتَاءِ الزَّکَوةِ ـ مردانی که نه تجارت و نه معامله‏ای آنان را از یاد خدا و برپاداشتن نماز و ادای زکات غافل نمی‏کند.»[1]",
20
+ "diff": [
21
+ "insert text[77:77] --> decoded_text[77:78] '' --> 'َ'",
22
+ "delete text[78:79] --> decoded_text[79:79] 'َ' --> ''",
23
+ "insert text[100:100] --> decoded_text[100:101] '' --> 'َ'",
24
+ "delete text[101:102] --> decoded_text[102:102] 'َ' --> ''"
25
+ ],
26
+ "n_oov_chars": 0,
27
+ "oov_ratio": 0.0,
28
+ "oov_charset": "[]"
29
+ },
30
+ {
31
+ "text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]",
32
+ "decoded_text": "«وَ إِمَّا یَنْزَغَنَّکَ مِنَ الشَّیْطانِ نَزْغٌ فَاسْتَعِذْ بِاللهِ إِنَّهُ سَمِیعٌ عَلِیمٌ ـ و هر گاه وسوسه‌ای از شیطان به تو رسد، به خدا پناه ببر که او شنوای داناست.»[19]",
33
+ "diff": [
34
+ "insert text[7:7] --> decoded_text[7:8] '' --> 'َ'",
35
+ "delete text[8:9] --> decoded_text[9:9] 'َ' --> ''",
36
+ "insert text[20:20] --> decoded_text[20:21] '' --> 'َ'",
37
+ "delete text[21:22] --> decoded_text[22:22] 'َ' --> ''",
38
+ "insert text[33:33] --> decoded_text[33:34] '' --> 'َ'",
39
+ "delete text[34:35] --> decoded_text[35:35] 'َ' --> ''",
40
+ "insert text[72:72] --> decoded_text[72:73] '' --> 'َ'",
41
+ "delete text[73:74] --> decoded_text[74:74] 'َ' --> ''"
42
+ ],
43
+ "n_oov_chars": 0,
44
+ "oov_ratio": 0.0,
45
+ "oov_charset": "[]"
46
+ },
47
+ {
48
+ "text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]",
49
+ "decoded_text": "«وَ قُلْ رَبِّ أَعُوذُ بِکَ مِنْ هَمَزاتِ الشَّیَاطِینِ* وَ أَعُوذُ بِکَ رَبِّ أَنْ یَحْضُرُونِ ـ بگو ای پروردگار من؛ پناه می‌برم به تو از وسوسه‌های شیاطین* و پناه می‌برم به تو ای پروردگار من؛ از این‌که حاضر شوند.»([20]",
50
+ "diff": [
51
+ "insert text[12:12] --> decoded_text[12:13] '' --> 'ِ'",
52
+ "delete text[13:14] --> decoded_text[14:14] 'ِ' --> ''",
53
+ "insert text[45:45] --> decoded_text[45:46] '' --> 'َ'",
54
+ "delete text[46:47] --> decoded_text[47:47] 'َ' --> ''",
55
+ "insert text[76:76] --> decoded_text[76:77] '' --> 'ِ'",
56
+ "delete text[77:78] --> decoded_text[78:78] 'ِ' --> ''"
57
+ ],
58
+ "n_oov_chars": 0,
59
+ "oov_ratio": 0.0,
60
+ "oov_charset": "[]"
61
+ },
62
+ {
63
+ "text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]",
64
+ "decoded_text": "امیرالمؤمنین علیه‌السلام فرموده‏ا‏ند: «هنگامی که شیطان یکی از شما را وسوسه نمود، باید به خدا پناه ببرد و بگوید: آمَنْتُ بِاللهِ وَ بِرَسُولِهِ مُخْلِصاً لَهُ الدِّینَ»[23]",
65
+ "diff": [
66
+ "insert text[161:161] --> decoded_text[161:162] '' --> 'ِ'",
67
+ "delete text[162:163] --> decoded_text[163:163] 'ِ' --> ''"
68
+ ],
69
+ "n_oov_chars": 0,
70
+ "oov_ratio": 0.0,
71
+ "oov_charset": "[]"
72
+ },
73
+ {
74
+ "text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]",
75
+ "decoded_text": "حضرت صادق علیه‌السلام فرمود: مردی خدمت رسول خدا آمد و گفت: یا رسول الله؛ از وسوسه‌ای که در نماز به من القا می‌شود شکایت دارم. حتی این‌که نمی‏دانم چه‌قدر نماز کردم از زیاده یا کم. حضرت فرمودند: «وقتی داخل نماز شدی، انگشت سبّابه‌ی دست راستت را به ران پای چپت بزن و سپس بگو: بِسْمِ اللهِ وَ بِاللهِ تَوَکَّلْتُ عَلَی اللهِ أَعُوذُ بِاللهِ السَّمِیعِ الْعَلِیمِ مِنَ الشَّیْطَانِ الرَّجِیمِ ـ پس همانا او را دور و از خود منع و طرد کنی.»[24]",
76
+ "diff": [
77
+ "insert text[301:301] --> decoded_text[301:302] '' --> 'َ'",
78
+ "delete text[302:303] --> decoded_text[303:303] 'َ' --> ''",
79
+ "insert text[339:339] --> decoded_text[339:340] '' --> 'َ'",
80
+ "delete text[340:341] --> decoded_text[341:341] 'َ' --> ''",
81
+ "insert text[366:366] --> decoded_text[366:367] '' --> 'َ'",
82
+ "delete text[367:368] --> decoded_text[368:368] 'َ' --> ''",
83
+ "insert text[379:379] --> decoded_text[379:380] '' --> 'َ'",
84
+ "delete text[380:381] --> decoded_text[381:381] 'َ' --> ''"
85
+ ],
86
+ "n_oov_chars": 0,
87
+ "oov_ratio": 0.0,
88
+ "oov_charset": "[]"
89
+ },
90
+ {
91
+ "text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.",
92
+ "decoded_text": "آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت مى آید. کد خبر: ۷۴۸۰۲. تاریخ: ۱۸ اردیبهشت ۱۳۹۴ - ۰۹:۲۱. رسول خدا صلى الله علیه و آله :. المُعَلِّمونَ خَیرُ النّاسِ کُلَّما أخلَقَ الذِّکرُ جَدَّدوهُ، أعطوهُم ولا تَستَأجِروهُم فَتُحرِجوهُم؛. آموزگاران بهترین مردم اند . هرگاه یاد [خدا] کهنه مى شود، تجدیدش. مى کنند . به آنان عطا کنید ولى آنها را به مزدورى نگیرید که بر آنان سخت. مى آید. الفردوس : ۴ / ۱۹۳ / ۶۵۹۷ . علم و حکمت ج 2، ص 626. امام هادی علیه السلام:.",
93
+ "diff": [
94
+ "insert text[230:230] --> decoded_text[230:231] '' --> 'ِ'",
95
+ "insert text[231:231] --> decoded_text[232:249] '' --> 'مونَ خَیرُ النّاس'",
96
+ "replace text[232:246] --> decoded_text[250:255] 'مونَ خَیرُ الن' --> ' کُلَ'",
97
+ "replace text[247:249] --> decoded_text[256:269] 'اس' --> 'ما أخلَقَ الذ'",
98
+ "delete text[250:254] --> decoded_text[270:270] ' کُل' --> ''",
99
+ "replace text[255:269] --> decoded_text[271:279] 'َما أخلَقَ الذ' --> 'کرُ جَدَ'",
100
+ "delete text[270:280] --> decoded_text[280:280] 'ِکرُ جَدَّ' --> ''"
101
+ ],
102
+ "n_oov_chars": 0,
103
+ "oov_ratio": 0.0,
104
+ "oov_charset": "[]"
105
+ },
106
+ {
107
+ "text": "آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.",
108
+ "decoded_text": "آن گاه که در روز قیامت برانگیخته شوم، گن��هکاران امّت پیامبر اسلام را شفاعت خواهم کرد. کد خبر: ۷۲۳۰۷. تاریخ: ۲۱ فروردین ۱۳۹۴ - ۰۶:۰۰. حضرت فاطمه ‏علیها السلام :. إذا حُشِرتُ یَومَ القِیامَةِ أشفَعُ عُصاةَ اُمَّةِ النَّبِیِّ صلی الله علیه و آله؛. آن گاه که در روز قیامت برانگیخته شوم، گناهکاران امّت پیامبر اسلام را شفاعت خواهم کرد. إحقاق الحقّ، ج 19، ص 129 ؛ آینه یادها ص 172. امام على علیه السلام:. ضادُّوا التَّوانِیَ بِالعَزمِ؛. از راه تصمیم راسخ گرفتن، با سستى نبرد کنید. عیون الحکم والمواعظ: ص ۳۱۰ ح ۵۴۵۴ / میزان الحکمه: ج10 ص134.",
109
+ "diff": [
110
+ "replace text[207:209] --> decoded_text[207:209] 'َّ' --> 'َّ'",
111
+ "replace text[215:222] --> decoded_text[215:222] 'َّبِیِّ' --> 'َّبِیِّ'",
112
+ "delete text[402:403] --> decoded_text[402:402] 'ّ' --> ''",
113
+ "replace text[404:412] --> decoded_text[403:412] 'وا التَّ' --> 'ّوا التَّ'"
114
+ ],
115
+ "n_oov_chars": 0,
116
+ "oov_ratio": 0.0,
117
+ "oov_charset": "[]"
118
+ },
119
+ {
120
+ "text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به",
121
+ "decoded_text": "آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد: «اى مردم ! مدّت حکومت جبّاران بر شما، به پایان رسید و بهترین فرد امّت محمّد، حکومت را به دست گرفته است، پس به مکّه بروید». کد خبر: ۷۱۵۹۷. تاریخ: ۱۲ فروردین ۱۳۹۴ - ۰۶:۰۰. پیامبر صلى‏ الله ‏علیه ‏و‏آله:. إذا. کانَ عِندَ خُروجِ القائِمِ یُنادی مُنادٍ مِنَ السَّماءِ: أیُّهَا. النّاسُ! قَطَعَ عَنکُم مُدَّةُ الجَبّارینَ ووَلِیَ الأَمرَ خَیرُ اُمَّةِ. مُحَمَّدٍ فَالحَقوا بِمَکَّةَ؛. آن گاه که وقت خروج قائم مى‏‌شود، منادى‏‌اى از آسمان ندا مى‌‏دهد:. «اى مردم ! مدّت حکومت جبّاران بر شما، به",
122
+ "diff": [
123
+ "replace text[321:323] --> decoded_text[321:323] 'َّ' --> 'َّ'",
124
+ "replace text[331:333] --> decoded_text[331:333] 'ُّ' --> 'ُّ'",
125
+ "replace text[364:366] --> decoded_text[364:366] 'َّ' --> 'َّ'",
126
+ "replace text[406:408] --> decoded_text[406:408] 'َّ' --> 'َّ'",
127
+ "replace text[417:419] --> decoded_text[417:419] 'َّ' --> 'َّ'",
128
+ "replace text[437:439] --> decoded_text[437:439] 'َّ' --> 'َّ'"
129
+ ],
130
+ "n_oov_chars": 0,
131
+ "oov_ratio": 0.0,
132
+ "oov_charset": "[]"
133
+ },
134
+ {
135
+ "text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.",
136
+ "decoded_text": "آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. کد خبر: ۷۳۵۳۸. تاریخ: ۰۲ اردیبهشت ۱۳۹۴ - ۰۶:۰۰. امام جواد(سلام الله علیه):. مَن هَجَرَ الْمُداراةَ قَاربَهُ المَکرُوهُ؛. آن که سازش و مدارا را ترک کند، ناگوارى به او روى آورَد. بحارالأنوار، ج 68، ص 341. پیامبر خدا(صلی الله علیه و آله):. لا تَخَفْ فِی اللَّهِ لَومَةَ لائمٍ؛. در راه خدا از ملامت و نکوهش ملامتگران نترس. معانى الأخبار، ص 335.",
137
+ "diff": [
138
+ "insert text[310:310] --> decoded_text[310:311] '' --> 'َ'",
139
+ "delete text[311:312] --> decoded_text[312:312] 'َ' --> ''"
140
+ ],
141
+ "n_oov_chars": 0,
142
+ "oov_ratio": 0.0,
143
+ "oov_charset": "[]"
144
+ }
145
+ ]
stats/compression_rate/Qwen.Qwen2-0.5B @ cc100.fr.diff.json ADDED
@@ -0,0 +1,105 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "Une Agence conseil en Communication et Coopération Décentralisée.",
4
+ "decoded_text": "Une Agence conseil en Communication et Coopération Décentralisée.",
5
+ "diff": [
6
+ "replace text[43:45] --> decoded_text[43:44] 'é' --> 'é'",
7
+ "replace text[53:55] --> decoded_text[52:53] 'é' --> 'é'",
8
+ "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'"
9
+ ],
10
+ "n_oov_chars": 0,
11
+ "oov_ratio": 0.0,
12
+ "oov_charset": "[]"
13
+ },
14
+ {
15
+ "text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.",
16
+ "decoded_text": "Une équipe de consultants expérimentés pour accompagner, conseiller tout type de coopération économique, sociale, culturelle et durable, en lien avec l’Afrique.",
17
+ "diff": [
18
+ "replace text[4:6] --> decoded_text[4:5] 'é' --> 'é'",
19
+ "replace text[30:32] --> decoded_text[29:30] 'é' --> 'é'",
20
+ "replace text[38:40] --> decoded_text[36:37] 'é' --> 'é'",
21
+ "replace text[88:90] --> decoded_text[85:86] 'é' --> 'é'",
22
+ "replace text[97:99] --> decoded_text[93:94] 'é' --> 'é'"
23
+ ],
24
+ "n_oov_chars": 0,
25
+ "oov_ratio": 0.0,
26
+ "oov_charset": "[]"
27
+ },
28
+ {
29
+ "text": "Des compétences confirmées dans les domaines des médias et de la communication publique.",
30
+ "decoded_text": "Des compétences confirmées dans les domaines des médias et de la communication publique.",
31
+ "diff": [
32
+ "replace text[8:10] --> decoded_text[8:9] 'é' --> 'é'",
33
+ "replace text[24:26] --> decoded_text[23:24] 'é' --> 'é'",
34
+ "replace text[52:54] --> decoded_text[50:51] 'é' --> 'é'"
35
+ ],
36
+ "n_oov_chars": 0,
37
+ "oov_ratio": 0.0,
38
+ "oov_charset": "[]"
39
+ },
40
+ {
41
+ "text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.",
42
+ "decoded_text": "Une bonne connaissance du réseau des décideurs publics et privés, en France et ailleurs dans le monde, principalement pour l’Afrique.",
43
+ "diff": [
44
+ "replace text[27:29] --> decoded_text[27:28] 'é' --> 'é'",
45
+ "replace text[39:41] --> decoded_text[38:39] 'é' --> 'é'",
46
+ "replace text[64:66] --> decoded_text[62:63] 'é' --> 'é'"
47
+ ],
48
+ "n_oov_chars": 0,
49
+ "oov_ratio": 0.0,
50
+ "oov_charset": "[]"
51
+ },
52
+ {
53
+ "text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.",
54
+ "decoded_text": "La tribune internationale pour parler des atouts de la Côte d’Ivoire et lui offrir les meilleures conditions des approches nouvelles des politiques de coopération française et européenne.",
55
+ "diff": [
56
+ "replace text[56:58] --> decoded_text[56:57] 'ô' --> 'ô'",
57
+ "replace text[156:158] --> decoded_text[155:156] 'é' --> 'é'",
58
+ "replace text[169:171] --> decoded_text[167:168] 'ç' --> 'ç'",
59
+ "replace text[184:186] --> decoded_text[181:182] 'é' --> 'é'"
60
+ ],
61
+ "n_oov_chars": 0,
62
+ "oov_ratio": 0.0,
63
+ "oov_charset": "[]"
64
+ },
65
+ {
66
+ "text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.",
67
+ "decoded_text": "La rencontre entre les pouvoirs publics et décideurs français, les autorités ivoiriennes, les hommes d'affaires, entrepreneurs et investisseurs, venant de tous horizons.",
68
+ "diff": [
69
+ "replace text[44:46] --> decoded_text[44:45] 'é' --> 'é'",
70
+ "replace text[58:60] --> decoded_text[57:58] 'ç' --> 'ç'",
71
+ "replace text[76:78] --> decoded_text[74:75] 'é' --> 'é'"
72
+ ],
73
+ "n_oov_chars": 0,
74
+ "oov_ratio": 0.0,
75
+ "oov_charset": "[]"
76
+ },
77
+ {
78
+ "text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.",
79
+ "decoded_text": "Parler des opportunités de la relation privilégiée de la coopération française et européenne avec la Côte d’Ivoire.",
80
+ "diff": [
81
+ "replace text[21:23] --> decoded_text[21:22] 'é' --> 'é'",
82
+ "replace text[46:48] --> decoded_text[45:46] 'é' --> 'é'",
83
+ "replace text[50:52] --> decoded_text[48:49] 'é' --> 'é'",
84
+ "replace text[64:66] --> decoded_text[61:62] 'é' --> 'é'",
85
+ "replace text[77:79] --> decoded_text[73:74] 'ç' --> 'ç'",
86
+ "replace text[92:94] --> decoded_text[87:88] 'é' --> 'é'",
87
+ "replace text[108:110] --> decoded_text[102:103] 'ô' --> 'ô'"
88
+ ],
89
+ "n_oov_chars": 0,
90
+ "oov_ratio": 0.0,
91
+ "oov_charset": "[]"
92
+ },
93
+ {
94
+ "text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.",
95
+ "decoded_text": "Faciliter les discussions entre les acteurs de la coopération décentralisée.",
96
+ "diff": [
97
+ "replace text[54:56] --> decoded_text[54:55] 'é' --> 'é'",
98
+ "replace text[64:66] --> decoded_text[63:64] 'é' --> 'é'",
99
+ "replace text[75:77] --> decoded_text[73:74] 'é' --> 'é'"
100
+ ],
101
+ "n_oov_chars": 0,
102
+ "oov_ratio": 0.0,
103
+ "oov_charset": "[]"
104
+ }
105
+ ]
stats/compression_rate/Qwen.Qwen2-0.5B @ cc100.ja.diff.json ADDED
@@ -0,0 +1,142 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。",
4
+ "decoded_text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。",
5
+ "diff": [
6
+ "replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'",
7
+ "replace text[38:40] --> decoded_text[37:38] 'ジ' --> 'ジ'",
8
+ "replace text[46:48] --> decoded_text[44:45] 'で' --> 'で'",
9
+ "replace text[52:54] --> decoded_text[49:50] 'で' --> 'で'",
10
+ "replace text[74:76] --> decoded_text[70:71] 'で' --> 'で'"
11
+ ],
12
+ "n_oov_chars": 0,
13
+ "oov_ratio": 0.0,
14
+ "oov_charset": "[]"
15
+ },
16
+ {
17
+ "text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。",
18
+ "decoded_text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。",
19
+ "diff": [
20
+ "replace text[0:2] --> decoded_text[0:1] 'ド' --> 'ド'",
21
+ "replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'",
22
+ "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'",
23
+ "replace text[27:29] --> decoded_text[24:25] 'が' --> 'が'",
24
+ "replace text[35:37] --> decoded_text[31:32] 'で' --> 'で'",
25
+ "replace text[38:40] --> decoded_text[33:34] 'ぜ' --> 'ぜ'",
26
+ "replace text[45:47] --> decoded_text[39:40] 'ジ' --> 'ジ'",
27
+ "replace text[52:54] --> decoded_text[45:46] 'だ' --> 'だ'"
28
+ ],
29
+ "n_oov_chars": 0,
30
+ "oov_ratio": 0.0,
31
+ "oov_charset": "[]"
32
+ },
33
+ {
34
+ "text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。",
35
+ "decoded_text": "覚える範囲が多かったので、要点を絞って取り組みました。合格して良かったです。内定先で今後使う話が出てきたら率先して取り組んで行きたいです。",
36
+ "diff": [
37
+ "replace text[5:7] --> decoded_text[5:6] 'が' --> 'が'",
38
+ "replace text[12:14] --> decoded_text[11:12] 'で' --> 'で'",
39
+ "replace text[37:39] --> decoded_text[35:36] 'で' --> 'で'",
40
+ "replace text[44:46] --> decoded_text[41:42] 'で' --> 'で'",
41
+ "replace text[51:53] --> decoded_text[47:48] 'が' --> 'が'",
42
+ "replace text[66:68] --> decoded_text[61:62] 'で' --> 'で'",
43
+ "replace text[72:74] --> decoded_text[66:67] 'で' --> 'で'"
44
+ ],
45
+ "n_oov_chars": 0,
46
+ "oov_ratio": 0.0,
47
+ "oov_charset": "[]"
48
+ },
49
+ {
50
+ "text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。",
51
+ "decoded_text": "先生が全面的にサポートして下さるので安心して勉強できます。分からない時は先生になんでも質問してください。",
52
+ "diff": [
53
+ "replace text[2:4] --> decoded_text[2:3] 'が' --> 'が'",
54
+ "replace text[9:11] --> decoded_text[8:9] 'ポ' --> 'ポ'",
55
+ "replace text[19:21] --> decoded_text[17:18] 'で' --> 'で'",
56
+ "replace text[27:29] --> decoded_text[24:25] 'で' --> 'で'",
57
+ "replace text[45:47] --> decoded_text[41:42] 'で' --> 'で'",
58
+ "replace text[53:55] --> decoded_text[48:49] 'だ' --> 'だ'"
59
+ ],
60
+ "n_oov_chars": 0,
61
+ "oov_ratio": 0.0,
62
+ "oov_charset": "[]"
63
+ },
64
+ {
65
+ "text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。",
66
+ "decoded_text": "過去問題をたくさん解くことで問題の傾向を分析しました。しっかり勉強して臨んだので、合格する自信がありました。この資格を活かし、工事測量などで、正確な値を出すことで適切な指示を出せるようにしていきたいです。",
67
+ "diff": [
68
+ "replace text[13:15] --> decoded_text[13:14] 'で' --> 'で'",
69
+ "replace text[38:40] --> decoded_text[37:38] 'だ' --> 'だ'",
70
+ "replace text[41:43] --> decoded_text[39:40] 'で' --> 'で'",
71
+ "replace text[50:52] --> decoded_text[47:48] 'が' --> 'が'",
72
+ "replace text[72:76] --> decoded_text[68:70] 'どで' --> 'どで'",
73
+ "replace text[86:88] --> decoded_text[80:81] 'で' --> 'で'",
74
+ "replace text[106:108] --> decoded_text[99:100] 'で' --> 'で'"
75
+ ],
76
+ "n_oov_chars": 0,
77
+ "oov_ratio": 0.0,
78
+ "oov_charset": "[]"
79
+ },
80
+ {
81
+ "text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。",
82
+ "decoded_text": "しっかり勉強したら必ず自分のためになりますよ。将来の夢を持ち、それを実現できるように今できる事を頑張ってください。",
83
+ "diff": [
84
+ "replace text[10:12] --> decoded_text[10:11] 'ず' --> 'ず'",
85
+ "replace text[37:39] --> decoded_text[36:37] 'で' --> 'で'",
86
+ "replace text[45:47] --> decoded_text[43:44] 'で' --> 'で'",
87
+ "replace text[56:58] --> decoded_text[53:54] 'だ' --> 'だ'"
88
+ ],
89
+ "n_oov_chars": 0,
90
+ "oov_ratio": 0.0,
91
+ "oov_charset": "[]"
92
+ },
93
+ {
94
+ "text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。",
95
+ "decoded_text": "まずは、自分が何をしたいのか考え、そしてそこから、自分の目標に向かって資格取得を目指してください。せっかくの取得チャンスを無駄にしないでください。",
96
+ "diff": [
97
+ "replace text[1:3] --> decoded_text[1:2] 'ず' --> 'ず'",
98
+ "replace text[7:9] --> decoded_text[6:7] 'が' --> 'が'",
99
+ "replace text[47:49] --> decoded_text[45:46] 'だ' --> 'だ'",
100
+ "replace text[70:72] --> decoded_text[67:68] 'で' --> 'で'",
101
+ "replace text[73:75] --> decoded_text[69:70] 'だ' --> 'だ'"
102
+ ],
103
+ "n_oov_chars": 0,
104
+ "oov_ratio": 0.0,
105
+ "oov_charset": "[]"
106
+ },
107
+ {
108
+ "text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。",
109
+ "decoded_text": "過去問題を解き、答え合わせをした後、自分がどこを間違っていたか、なぜ間違えたか等、徹底的に勉強しました。次は測量士補や、ドローン検定等の資格を目指し、頑張りたいと思います。",
110
+ "diff": [
111
+ "replace text[20:24] --> decoded_text[20:22] 'がど' --> 'がど'",
112
+ "replace text[35:37] --> decoded_text[33:34] 'ぜ' --> 'ぜ'",
113
+ "replace text[63:65] --> decoded_text[60:61] 'ド' --> 'ド'"
114
+ ],
115
+ "n_oov_chars": 0,
116
+ "oov_ratio": 0.0,
117
+ "oov_charset": "[]"
118
+ },
119
+ {
120
+ "text": "細かい事でも、疑問に思った事は必ず先生に質問してください。",
121
+ "decoded_text": "細かい事でも、疑問に思った事は必ず先生に質問してください。",
122
+ "diff": [
123
+ "replace text[4:6] --> decoded_text[4:5] 'で' --> 'で'",
124
+ "replace text[17:19] --> decoded_text[16:17] 'ず' --> 'ず'",
125
+ "replace text[27:29] --> decoded_text[25:26] 'だ' --> 'だ'"
126
+ ],
127
+ "n_oov_chars": 0,
128
+ "oov_ratio": 0.0,
129
+ "oov_charset": "[]"
130
+ },
131
+ {
132
+ "text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。",
133
+ "decoded_text": "過去問を解き続け、頭に知識と問題の傾向を叩き込みました。合格して本当に良かったです。 試験を受けるチャンスがあり、思い切ってチャレンジして良かったと思います。",
134
+ "diff": [
135
+ "replace text[39:41] --> decoded_text[39:40] 'で' --> 'で'",
136
+ "replace text[54:56] --> decoded_text[53:54] 'が' --> 'が'"
137
+ ],
138
+ "n_oov_chars": 0,
139
+ "oov_ratio": 0.0,
140
+ "oov_charset": "[]"
141
+ }
142
+ ]
stats/compression_rate/Qwen.Qwen2-0.5B @ cc100.ko.diff.json ADDED
@@ -0,0 +1,105 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more",
4
+ "decoded_text": "낙천적(樂天的) : 세상과 인생을 즐겁고 좋은 것으로 여기는. 또는 그런 것. 인생을 즐길 줄 안다는 건 정말 행복한 일 아닐까요? 심리적으로 자신감과 낙천적인 태도를 갖게 하며, 새로운 아이디어를 얻도록 도움을 주는 노란색의 예쁜벽을 오디오로 채우신 고객님댁을 소개드립니다. ..more",
5
+ "diff": [
6
+ "replace text[4:5] --> decoded_text[4:5] '樂' --> '樂'"
7
+ ],
8
+ "n_oov_chars": 1,
9
+ "oov_ratio": 0.006211180124223602,
10
+ "oov_charset": "[\"樂\"]"
11
+ },
12
+ {
13
+ "text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.",
14
+ "decoded_text": "명 태조는 포의(布衣)에서 몸을 일으켜 천하를 평정하였다. 천하 평정뒤에는 관리 등용시험에 경의(敬意)를 주로 하였으므로 문교(文敎)가 융성하게 되어 많은 학자를 배출시켰다. 그러나 당시의 학자는 대개 정주학(程朱學)을 신봉한 사람들 뿐이라 명대(明代)의 특색이 아직 나타나고 있지 않다. 그러므로 영락(永樂) 12년 호(胡)에게 명하여 「사서대전」,「오경대전」 을 찬술케 하였을때 어느 경(經)이나 모두 주자의 주(主)에 기본을 두고 있다. 이것에 의해서만도 명초(明初)의 학문이 주자학을 그대로 계승하였을뿐 독창성이 없었다는 것을 상상할 수 있다. 본론에서는 오강재(吳康齋) 사상에 대해 논하고 순수한 주자학자의 설선에 대한 내용을 먼저 언급한 뒤에 다시 오강재의 문인인 호거인(胡居仁), 진헌장(陳獻章), 누량(累諒)에 대해 알아보고자 한다.",
15
+ "diff": [
16
+ "replace text[171:172] --> decoded_text[171:172] '樂' --> '樂'",
17
+ "replace text[401:402] --> decoded_text[401:402] '累' --> '累'"
18
+ ],
19
+ "n_oov_chars": 2,
20
+ "oov_ratio": 0.004784688995215311,
21
+ "oov_charset": "[\"樂\", \"累\"]"
22
+ },
23
+ {
24
+ "text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로",
25
+ "decoded_text": "역할을 수행해갔는지를 살펴보도록 하겠다. 1. 양명학 이전의 주자학 ... 과 육학(陸學) 1) 송대 주자학의 성립 데니스 트위쳇이『케임브리지 중국사 ... 독재적인 명 초기의 황제들{ 특히 홍무제의 경우 주자학을 체제교학으로",
26
+ "diff": [
27
+ "replace text[47:48] --> decoded_text[47:48] '陸' --> '陸'"
28
+ ],
29
+ "n_oov_chars": 1,
30
+ "oov_ratio": 0.007936507936507936,
31
+ "oov_charset": "[\"陸\"]"
32
+ },
33
+ {
34
+ "text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학",
35
+ "decoded_text": "확고한 지반을 굳혔다. 주자학이 명대에 와서 국가의 지도이념으로 확립되어 ... 양명학의 성립과 전개 1. 서론 朱子學(주자학)이 宋代(송대)의 학술 ... 기점으로 知行合一說(지행합일설), 致良知說(치양지설)을 속속 제출하여 주자학",
36
+ "diff": [
37
+ "replace text[108:109] --> decoded_text[108:109] '良' --> '良'"
38
+ ],
39
+ "n_oov_chars": 1,
40
+ "oov_ratio": 0.007692307692307693,
41
+ "oov_charset": "[\"良\"]"
42
+ },
43
+ {
44
+ "text": "▷주자:이(理)�� 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다",
45
+ "decoded_text": "▷주자:이(理)란 만물의 근원이 되는 이치이자, 기(氣)의 활동 근거인 반면 기(氣)는 만물을 구성하는 재료로서 사물을 낳는 도구이다",
46
+ "diff": [
47
+ "replace text[6:7] --> decoded_text[6:7] '理' --> '理'"
48
+ ],
49
+ "n_oov_chars": 1,
50
+ "oov_ratio": 0.013513513513513514,
51
+ "oov_charset": "[\"理\"]"
52
+ },
53
+ {
54
+ "text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.",
55
+ "decoded_text": "예술이라는 한자(漢字)에서 ‘예(藝)’에는 본디 ‘심는다(種 ·樹)’는 뜻이 있으며, 따라서 그것은‘기능(機能)’‘기술(技術)’을 의미하며 고대 동양에서 사대부가 필수적으로 갖추어야 했다. 육예(六藝:禮 ·樂 ·射 ·御 ·書 ·數)에서의 ‘예’는 인간적 결실을 얻기 위해 필요한 기초 교양의 씨를 뿌리고 인격의 꽃을 피우는 수단으로 여겼던 만큼 거기에는 인격도야의 의의도 있다고 하겠다.",
56
+ "diff": [
57
+ "replace text[115:116] --> decoded_text[115:116] '樂' --> '樂'"
58
+ ],
59
+ "n_oov_chars": 1,
60
+ "oov_ratio": 0.004629629629629629,
61
+ "oov_charset": "[\"樂\"]"
62
+ },
63
+ {
64
+ "text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출",
65
+ "decoded_text": "입지(立志)를 강조해 자경문, 성학집요, 격몽요결, 학교모범에서 항상 ... 이루어진다. 순언은 율곡이 도덕경 81장 중에서 유교 경전의 내용과 일치하며 ... 사상가 연구 - 율곡 이이 수강 과목 : 담당 교수 : 교수님 제출",
66
+ "diff": [
67
+ "replace text[3:4] --> decoded_text[3:4] '立' --> '立'"
68
+ ],
69
+ "n_oov_chars": 1,
70
+ "oov_ratio": 0.007874015748031496,
71
+ "oov_charset": "[\"立\"]"
72
+ },
73
+ {
74
+ "text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인",
75
+ "decoded_text": "Ⅰ. 김용과 중국 무협문학 1. 작가 소개 김용(金用)은 1924년 ... 것이다. 그러므로 무협소설 작가 김용(金用)은 언론인이자 정치가인 차량융의 ... 출간하기 시작하였다. 이렇게 보면 무협소설 작가인 김용(金用)은 언론인",
76
+ "diff": [
77
+ "replace text[27:28] --> decoded_text[27:28] '金' --> '金'",
78
+ "replace text[63:64] --> decoded_text[63:64] '金' --> '金'",
79
+ "replace text[119:120] --> decoded_text[119:120] '金' --> '金'"
80
+ ],
81
+ "n_oov_chars": 3,
82
+ "oov_ratio": 0.023622047244094488,
83
+ "oov_charset": "[\"金\"]"
84
+ },
85
+ {
86
+ "text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘",
87
+ "decoded_text": "3 이 때 상제님께서 미처 말씀을 마치지 아니하셨는데 면장 양 모(梁某)와 이장이 세금을 받으러 오거늘",
88
+ "diff": [
89
+ "replace text[37:38] --> decoded_text[37:38] '梁' --> '梁'"
90
+ ],
91
+ "n_oov_chars": 1,
92
+ "oov_ratio": 0.017543859649122806,
93
+ "oov_charset": "[\"梁\"]"
94
+ },
95
+ {
96
+ "text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘",
97
+ "decoded_text": "2 26일 새벽이 되자 백낙두(白樂斗)를 비롯하여 무장한 순검 수십 명이 공신의 집을 에워싸고 형렬과 자현 등 여러 사람을 결박한 뒤에 상제님의 처소를 묻거늘",
98
+ "diff": [
99
+ "replace text[18:19] --> decoded_text[18:19] '樂' --> '樂'"
100
+ ],
101
+ "n_oov_chars": 1,
102
+ "oov_ratio": 0.011363636363636364,
103
+ "oov_charset": "[\"樂\"]"
104
+ }
105
+ ]
stats/compression_rate/allenai.OLMo-7B-hf @ cc100.ar.diff.json ADDED
@@ -0,0 +1,104 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)",
4
+ "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)",
5
+ "diff": [
6
+ "delete text[42:43] --> decoded_text[42:42] ' ' --> ''"
7
+ ],
8
+ "n_oov_chars": 0,
9
+ "oov_ratio": 0.0,
10
+ "oov_charset": "[]"
11
+ },
12
+ {
13
+ "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
14
+ "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
15
+ "diff": [
16
+ "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'",
17
+ "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''"
18
+ ],
19
+ "n_oov_chars": 0,
20
+ "oov_ratio": 0.0,
21
+ "oov_charset": "[]"
22
+ },
23
+ {
24
+ "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.",
25
+ "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.",
26
+ "diff": [
27
+ "delete text[45:46] --> decoded_text[45:45] ' ' --> ''"
28
+ ],
29
+ "n_oov_chars": 0,
30
+ "oov_ratio": 0.0,
31
+ "oov_charset": "[]"
32
+ },
33
+ {
34
+ "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .",
35
+ "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.",
36
+ "diff": [
37
+ "delete text[81:82] --> decoded_text[81:81] ' ' --> ''"
38
+ ],
39
+ "n_oov_chars": 0,
40
+ "oov_ratio": 0.0,
41
+ "oov_charset": "[]"
42
+ },
43
+ {
44
+ "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان",
45
+ "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، ال��حامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان",
46
+ "diff": [
47
+ "delete text[825:826] --> decoded_text[825:825] ' ' --> ''"
48
+ ],
49
+ "n_oov_chars": 0,
50
+ "oov_ratio": 0.0,
51
+ "oov_charset": "[]"
52
+ },
53
+ {
54
+ "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .",
55
+ "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.",
56
+ "diff": [
57
+ "delete text[469:470] --> decoded_text[469:469] ' ' --> ''",
58
+ "delete text[720:721] --> decoded_text[719:719] ' ' --> ''"
59
+ ],
60
+ "n_oov_chars": 0,
61
+ "oov_ratio": 0.0,
62
+ "oov_charset": "[]"
63
+ },
64
+ {
65
+ "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .",
66
+ "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.",
67
+ "diff": [
68
+ "delete text[147:148] --> decoded_text[147:147] ' ' --> ''"
69
+ ],
70
+ "n_oov_chars": 0,
71
+ "oov_ratio": 0.0,
72
+ "oov_charset": "[]"
73
+ },
74
+ {
75
+ "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...",
76
+ "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....",
77
+ "diff": [
78
+ "delete text[183:184] --> decoded_text[183:183] ' ' --> ''"
79
+ ],
80
+ "n_oov_chars": 0,
81
+ "oov_ratio": 0.0,
82
+ "oov_charset": "[]"
83
+ },
84
+ {
85
+ "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...",
86
+ "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...",
87
+ "diff": [
88
+ "delete text[279:280] --> decoded_text[279:279] ' ' --> ''"
89
+ ],
90
+ "n_oov_chars": 0,
91
+ "oov_ratio": 0.0,
92
+ "oov_charset": "[]"
93
+ },
94
+ {
95
+ "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة",
96
+ "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة",
97
+ "diff": [
98
+ "delete text[22:23] --> decoded_text[22:22] ' ' --> ''"
99
+ ],
100
+ "n_oov_chars": 0,
101
+ "oov_ratio": 0.0,
102
+ "oov_charset": "[]"
103
+ }
104
+ ]
stats/compression_rate/allenai.OLMo-7B-hf @ cc100.de.diff.json ADDED
@@ -0,0 +1,103 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !",
4
+ "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!",
5
+ "diff": [
6
+ "delete text[67:68] --> decoded_text[67:67] ' ' --> ''"
7
+ ],
8
+ "n_oov_chars": 0,
9
+ "oov_ratio": 0.0,
10
+ "oov_charset": "[]"
11
+ },
12
+ {
13
+ "text": "Laut dieser Studie sind es ....",
14
+ "decoded_text": "Laut dieser Studie sind es....",
15
+ "diff": [
16
+ "delete text[26:27] --> decoded_text[26:26] ' ' --> ''"
17
+ ],
18
+ "n_oov_chars": 0,
19
+ "oov_ratio": 0.0,
20
+ "oov_charset": "[]"
21
+ },
22
+ {
23
+ "text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...",
24
+ "decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...",
25
+ "diff": [
26
+ "delete text[78:79] --> decoded_text[78:78] ' ' --> ''"
27
+ ],
28
+ "n_oov_chars": 0,
29
+ "oov_ratio": 0.0,
30
+ "oov_charset": "[]"
31
+ },
32
+ {
33
+ "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?",
34
+ "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?",
35
+ "diff": [
36
+ "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'"
37
+ ],
38
+ "n_oov_chars": 0,
39
+ "oov_ratio": 0.0,
40
+ "oov_charset": "[]"
41
+ },
42
+ {
43
+ "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.",
44
+ "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.",
45
+ "diff": [
46
+ "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'"
47
+ ],
48
+ "n_oov_chars": 0,
49
+ "oov_ratio": 0.0,
50
+ "oov_charset": "[]"
51
+ },
52
+ {
53
+ "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.",
54
+ "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.",
55
+ "diff": [
56
+ "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'"
57
+ ],
58
+ "n_oov_chars": 0,
59
+ "oov_ratio": 0.0,
60
+ "oov_charset": "[]"
61
+ },
62
+ {
63
+ "text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,",
64
+ "decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,",
65
+ "diff": [
66
+ "delete text[81:82] --> decoded_text[81:81] ' ' --> ''"
67
+ ],
68
+ "n_oov_chars": 0,
69
+ "oov_ratio": 0.0,
70
+ "oov_charset": "[]"
71
+ },
72
+ {
73
+ "text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung , als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.",
74
+ "decoded_text": "Es hat auch eine verblüffende moderne Gestalt. Wir selbst sind Zeugen eines außerordentlichen Spektakels geworden, als sich ein Papst bei den Muslimen für die Kreuzzüge entschuldigte. Ich möchte das Verhalten der Kreuzfahrer nicht verteidigen, es war in vielerlei Hinsicht grauenhaft. Aber lassen sie uns verhältnismäßig denken. Wir sollen nun glauben, dass die Kreuzzüge ein unberechtigter Akt der Aggression gegen die friedliche muslimische Welt gewesen seien. Wohl kaum! Zum ersten päpstlichen Aufruf zum Kreuzzug kam es 846 nach unserer Zeitrechnung, als eine arabische Expedition aus Sizilien den Tiber hinaufsegelte und St. Peter in Rom plünderte. Eine Synode in Frankreich rief die christlichen Herrscher dazu auf, sich gegen „die Feinde Christi“ zu sammeln, und der Papst, Leo IV., bot himmlischen Lohn für jene, die im Kampf gegen die Muslime fielen. Anderthalb Jahrhunderte und viele Schlachten später, 1096, trafen die Kreuzfahrer tatsächlich im Nahen Osten ein. Die Kreuzzüge waren eine späte, begrenzte und erfolglose Imitation des Dschihad – ein Versuch, mittels eines heiligen Kriegs zurückzugewinnen, was durch einen heiligen Krieg verloren war. Er misslang und wurde nicht wiederholt.",
75
+ "diff": [
76
+ "delete text[553:554] --> decoded_text[553:553] ' ' --> ''"
77
+ ],
78
+ "n_oov_chars": 0,
79
+ "oov_ratio": 0.0,
80
+ "oov_charset": "[]"
81
+ },
82
+ {
83
+ "text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen, ,Mein Widerruf ist wahr', haben Sie immer gesagt ,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.",
84
+ "decoded_text": "Der Vorsitzende Richter Wolfgang Steffen hakte immer wieder nach, um zu erfahren, wie es zu dem Sinneswandel gekommen war: „Mit derselben Miene, mit der Sie heute sagen,,Mein Widerruf ist wahr', haben Sie immer gesagt,Mein Geständnis ist wahr'“, konstatierte er damals ratlos. Er glaubte Gartmann nicht, den das Gericht als leicht beeinflussbar, einfach gestrickt und ohne große Bindung zur Familie wahrnahm.",
85
+ "diff": [
86
+ "delete text[169:170] --> decoded_text[169:169] ' ' --> ''",
87
+ "delete text[218:219] --> decoded_text[217:217] ' ' --> ''"
88
+ ],
89
+ "n_oov_chars": 0,
90
+ "oov_ratio": 0.0,
91
+ "oov_charset": "[]"
92
+ },
93
+ {
94
+ "text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket !",
95
+ "decoded_text": "Vor über 4 Jahren entstand die Idee für das Grundnahrungsmittelpaket!",
96
+ "diff": [
97
+ "delete text[68:69] --> decoded_text[68:68] ' ' --> ''"
98
+ ],
99
+ "n_oov_chars": 0,
100
+ "oov_ratio": 0.0,
101
+ "oov_charset": "[]"
102
+ }
103
+ ]
stats/compression_rate/allenai.OLMo-7B-hf @ cc100.en.diff.json ADDED
@@ -0,0 +1,103 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.",
4
+ "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.",
5
+ "diff": [
6
+ "delete text[86:87] --> decoded_text[86:86] ' ' --> ''"
7
+ ],
8
+ "n_oov_chars": 0,
9
+ "oov_ratio": 0.0,
10
+ "oov_charset": "[]"
11
+ },
12
+ {
13
+ "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .",
14
+ "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.",
15
+ "diff": [
16
+ "delete text[318:319] --> decoded_text[318:318] ' ' --> ''"
17
+ ],
18
+ "n_oov_chars": 0,
19
+ "oov_ratio": 0.0,
20
+ "oov_charset": "[]"
21
+ },
22
+ {
23
+ "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.",
24
+ "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.",
25
+ "diff": [
26
+ "delete text[51:52] --> decoded_text[51:51] ' ' --> ''"
27
+ ],
28
+ "n_oov_chars": 0,
29
+ "oov_ratio": 0.0,
30
+ "oov_charset": "[]"
31
+ },
32
+ {
33
+ "text": "We're not so rough and over the top these days, so they miiiiight survive ._.",
34
+ "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.",
35
+ "diff": [
36
+ "delete text[73:74] --> decoded_text[73:73] ' ' --> ''"
37
+ ],
38
+ "n_oov_chars": 0,
39
+ "oov_ratio": 0.0,
40
+ "oov_charset": "[]"
41
+ },
42
+ {
43
+ "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...",
44
+ "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...",
45
+ "diff": [
46
+ "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'"
47
+ ],
48
+ "n_oov_chars": 0,
49
+ "oov_ratio": 0.0,
50
+ "oov_charset": "[]"
51
+ },
52
+ {
53
+ "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...",
54
+ "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...",
55
+ "diff": [
56
+ "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'"
57
+ ],
58
+ "n_oov_chars": 0,
59
+ "oov_ratio": 0.0,
60
+ "oov_charset": "[]"
61
+ },
62
+ {
63
+ "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.",
64
+ "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.",
65
+ "diff": [
66
+ "delete text[26:27] --> decoded_text[26:26] ' ' --> ''"
67
+ ],
68
+ "n_oov_chars": 0,
69
+ "oov_ratio": 0.0,
70
+ "oov_charset": "[]"
71
+ },
72
+ {
73
+ "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.",
74
+ "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.",
75
+ "diff": [
76
+ "delete text[114:115] --> decoded_text[114:114] ' ' --> ''",
77
+ "delete text[217:218] --> decoded_text[216:216] ' ' --> ''"
78
+ ],
79
+ "n_oov_chars": 0,
80
+ "oov_ratio": 0.0,
81
+ "oov_charset": "[]"
82
+ },
83
+ {
84
+ "text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world ! This event is something Kitchener-Waterloo always looks forward to.",
85
+ "decoded_text": "Just in case you are getting the impression that it’s all work and no fun, let me remind you of the Multicultural Festival, which is held every year at Victoria Park during the Canada Day (July 1) weekend. For two fun-filled days, the whole family can enjoy crafts, traditional dancing and especially foods from around the world! This event is something Kitchener-Waterloo always looks forward to.",
86
+ "diff": [
87
+ "delete text[328:329] --> decoded_text[328:328] ' ' --> ''"
88
+ ],
89
+ "n_oov_chars": 0,
90
+ "oov_ratio": 0.0,
91
+ "oov_charset": "[]"
92
+ },
93
+ {
94
+ "text": "Centralized vacuum system can be used to clean production lines, floors and installations during or ..",
95
+ "decoded_text": "Centralized vacuum system can be used to clean production lines, floors and installations during or..",
96
+ "diff": [
97
+ "delete text[99:100] --> decoded_text[99:99] ' ' --> ''"
98
+ ],
99
+ "n_oov_chars": 0,
100
+ "oov_ratio": 0.0,
101
+ "oov_charset": "[]"
102
+ }
103
+ ]
stats/compression_rate/allenai.OLMo-7B-hf @ cc100.es.diff.json ADDED
@@ -0,0 +1,104 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "Actividad física , Deporte , Salud",
4
+ "decoded_text": "Actividad física, Deporte, Salud",
5
+ "diff": [
6
+ "delete text[16:17] --> decoded_text[16:16] ' ' --> ''",
7
+ "delete text[26:27] --> decoded_text[25:25] ' ' --> ''"
8
+ ],
9
+ "n_oov_chars": 0,
10
+ "oov_ratio": 0.0,
11
+ "oov_charset": "[]"
12
+ },
13
+ {
14
+ "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!",
15
+ "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!",
16
+ "diff": [
17
+ "delete text[6:7] --> decoded_text[6:6] ' ' --> ''"
18
+ ],
19
+ "n_oov_chars": 0,
20
+ "oov_ratio": 0.0,
21
+ "oov_charset": "[]"
22
+ },
23
+ {
24
+ "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?",
25
+ "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?",
26
+ "diff": [
27
+ "delete text[58:59] --> decoded_text[58:58] ' ' --> ''",
28
+ "delete text[155:156] --> decoded_text[154:154] ' ' --> ''"
29
+ ],
30
+ "n_oov_chars": 0,
31
+ "oov_ratio": 0.0,
32
+ "oov_charset": "[]"
33
+ },
34
+ {
35
+ "text": "Si , podría hacerte un precio. La medida va desde el exterior.",
36
+ "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.",
37
+ "diff": [
38
+ "delete text[2:3] --> decoded_text[2:2] ' ' --> ''"
39
+ ],
40
+ "n_oov_chars": 0,
41
+ "oov_ratio": 0.0,
42
+ "oov_charset": "[]"
43
+ },
44
+ {
45
+ "text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían: 'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".",
46
+ "decoded_text": "Entre 2004 y 2008, todos los habitantes de veredas altas de El Dorado tuvieron que desplazarse a la cabecera municipal por la presencia de guerrilla y paramilitares. Toda la zona quedó abandonada, convertida en campo de batalla.\"En 2008, la gente se cansó y un grupo de 25 familias de varias veredas, dijimos 'vamos para las fincas'\", cuenta Herney Chávez, otro de los líderes. \"La Policía y el Ejército nos decían:'si quieren, váyanse, pero no les garantizamos nada'. Hicimos lo que se llamaba un retorno irregular\".",
47
+ "diff": [
48
+ "delete text[415:416] --> decoded_text[415:415] ' ' --> ''"
49
+ ],
50
+ "n_oov_chars": 0,
51
+ "oov_ratio": 0.0,
52
+ "oov_charset": "[]"
53
+ },
54
+ {
55
+ "text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria .",
56
+ "decoded_text": "ARTÍCULO 103.- PLAZO. Los criterios de oportunidad pueden aplicarse durante el procedimiento hasta la culminación de la etapa preparatoria.",
57
+ "diff": [
58
+ "delete text[138:139] --> decoded_text[138:138] ' ' --> ''"
59
+ ],
60
+ "n_oov_chars": 0,
61
+ "oov_ratio": 0.0,
62
+ "oov_charset": "[]"
63
+ },
64
+ {
65
+ "text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados .",
66
+ "decoded_text": "Cuando no sea posible porque se niegue a dar sus generales o las dé falsamente, se procederá a su identificación por testigos, en la forma prescrita para los reconocimientos o por otros medios que se consideren adecuados.",
67
+ "diff": [
68
+ "delete text[220:221] --> decoded_text[220:220] ' ' --> ''"
69
+ ],
70
+ "n_oov_chars": 0,
71
+ "oov_ratio": 0.0,
72
+ "oov_charset": "[]"
73
+ },
74
+ {
75
+ "text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio .",
76
+ "decoded_text": "La constitución de actor civil podrá tener lugar en cualquier estado del proceso hasta antes de elevarse la causa a juicio.",
77
+ "diff": [
78
+ "delete text[122:123] --> decoded_text[122:122] ' ' --> ''"
79
+ ],
80
+ "n_oov_chars": 0,
81
+ "oov_ratio": 0.0,
82
+ "oov_charset": "[]"
83
+ },
84
+ {
85
+ "text": "Flynn es una figura central en la investigación del llamado Rusiagate , que es llevada a cabo de manera separada por el...",
86
+ "decoded_text": "Flynn es una figura central en la investigación del llamado Rusiagate, que es llevada a cabo de manera separada por el...",
87
+ "diff": [
88
+ "delete text[69:70] --> decoded_text[69:69] ' ' --> ''"
89
+ ],
90
+ "n_oov_chars": 0,
91
+ "oov_ratio": 0.0,
92
+ "oov_charset": "[]"
93
+ },
94
+ {
95
+ "text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich , es una ciudad preciosa que os sorprenderá y merece la pena descubrir!",
96
+ "decoded_text": "Solo me queda una última recomendación si os acercáis hasta la Oktoberfest : ¡no dejéis de visitar Munich, es una ciudad preciosa que os sorprenderá y merece la pena descubrir!",
97
+ "diff": [
98
+ "delete text[105:106] --> decoded_text[105:105] ' ' --> ''"
99
+ ],
100
+ "n_oov_chars": 0,
101
+ "oov_ratio": 0.0,
102
+ "oov_charset": "[]"
103
+ }
104
+ ]
stats/compression_rate/allenai.OLMo-7B-hf @ cc100.fa.diff.json ADDED
@@ -0,0 +1,104 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید",
4
+ "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید",
5
+ "diff": [
6
+ "delete text[82:83] --> decoded_text[82:82] ' ' --> ''"
7
+ ],
8
+ "n_oov_chars": 0,
9
+ "oov_ratio": 0.0,
10
+ "oov_charset": "[]"
11
+ },
12
+ {
13
+ "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..",
14
+ "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..",
15
+ "diff": [
16
+ "delete text[108:109] --> decoded_text[108:108] ' ' --> ''"
17
+ ],
18
+ "n_oov_chars": 0,
19
+ "oov_ratio": 0.0,
20
+ "oov_charset": "[]"
21
+ },
22
+ {
23
+ "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)",
24
+ "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)",
25
+ "diff": [
26
+ "delete text[129:130] --> decoded_text[129:129] ' ' --> ''"
27
+ ],
28
+ "n_oov_chars": 0,
29
+ "oov_ratio": 0.0,
30
+ "oov_charset": "[]"
31
+ },
32
+ {
33
+ "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.",
34
+ "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.",
35
+ "diff": [
36
+ "delete text[290:291] --> decoded_text[290:290] ' ' --> ''",
37
+ "delete text[621:622] --> decoded_text[620:620] ' ' --> ''",
38
+ "delete text[672:673] --> decoded_text[670:670] ' ' --> ''"
39
+ ],
40
+ "n_oov_chars": 0,
41
+ "oov_ratio": 0.0,
42
+ "oov_charset": "[]"
43
+ },
44
+ {
45
+ "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...",
46
+ "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...",
47
+ "diff": [
48
+ "delete text[122:123] --> decoded_text[122:122] ' ' --> ''"
49
+ ],
50
+ "n_oov_chars": 0,
51
+ "oov_ratio": 0.0,
52
+ "oov_charset": "[]"
53
+ },
54
+ {
55
+ "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...",
56
+ "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...",
57
+ "diff": [
58
+ "delete text[128:129] --> decoded_text[128:128] ' ' --> ''"
59
+ ],
60
+ "n_oov_chars": 0,
61
+ "oov_ratio": 0.0,
62
+ "oov_charset": "[]"
63
+ },
64
+ {
65
+ "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...",
66
+ "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...",
67
+ "diff": [
68
+ "delete text[123:124] --> decoded_text[123:123] ' ' --> ''"
69
+ ],
70
+ "n_oov_chars": 0,
71
+ "oov_ratio": 0.0,
72
+ "oov_charset": "[]"
73
+ },
74
+ {
75
+ "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...",
76
+ "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...",
77
+ "diff": [
78
+ "delete text[122:123] --> decoded_text[122:122] ' ' --> ''"
79
+ ],
80
+ "n_oov_chars": 0,
81
+ "oov_ratio": 0.0,
82
+ "oov_charset": "[]"
83
+ },
84
+ {
85
+ "text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی . کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.",
86
+ "decoded_text": "معمولا هزینه کمپ های ترک اعتیاد طبق تعرفه ای مصوب که از سوی مراکز درمانی و اقامتی بهزیستی استان تهران، قم و کرج اعلام می شود، محاسبه گشته و با توجه به شرایط کیفی. کمی این مراکز هزینه های مربوط به ترک اعتیاد متفاوت می باشد. از این رو هر بیمار باید با صلاحدید پزشک و مشورت با خانواده خود یکی از این مراکز را برگزیده و به درمان خود بپردازد.",
87
+ "diff": [
88
+ "delete text[161:162] --> decoded_text[161:161] ' ' --> ''"
89
+ ],
90
+ "n_oov_chars": 0,
91
+ "oov_ratio": 0.0,
92
+ "oov_charset": "[]"
93
+ },
94
+ {
95
+ "text": "سلام .آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش",
96
+ "decoded_text": "سلام.آقا خدا خیرتون بده که هزینه کمپ های شما بصرفه هستش والا ما چنتا جا زنگ زدیم قیمت بالایی داشتن ….عجیب بودش",
97
+ "diff": [
98
+ "delete text[4:5] --> decoded_text[4:4] ' ' --> ''"
99
+ ],
100
+ "n_oov_chars": 0,
101
+ "oov_ratio": 0.0,
102
+ "oov_charset": "[]"
103
+ }
104
+ ]
stats/compression_rate/allenai.OLMo-7B-hf @ cc100.fr.diff.json ADDED
@@ -0,0 +1,102 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie",
4
+ "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie",
5
+ "diff": [
6
+ "delete text[193:194] --> decoded_text[193:193] ' ' --> ''"
7
+ ],
8
+ "n_oov_chars": 0,
9
+ "oov_ratio": 0.0,
10
+ "oov_charset": "[]"
11
+ },
12
+ {
13
+ "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort",
14
+ "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort",
15
+ "diff": [
16
+ "delete text[150:151] --> decoded_text[150:150] ' ' --> ''"
17
+ ],
18
+ "n_oov_chars": 0,
19
+ "oov_ratio": 0.0,
20
+ "oov_charset": "[]"
21
+ },
22
+ {
23
+ "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)",
24
+ "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)",
25
+ "diff": [
26
+ "delete text[100:101] --> decoded_text[100:100] ' ' --> ''"
27
+ ],
28
+ "n_oov_chars": 0,
29
+ "oov_ratio": 0.0,
30
+ "oov_charset": "[]"
31
+ },
32
+ {
33
+ "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^",
34
+ "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^",
35
+ "diff": [
36
+ "delete text[23:24] --> decoded_text[23:23] ' ' --> ''"
37
+ ],
38
+ "n_oov_chars": 0,
39
+ "oov_ratio": 0.0,
40
+ "oov_charset": "[]"
41
+ },
42
+ {
43
+ "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")",
44
+ "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")",
45
+ "diff": [
46
+ "delete text[277:278] --> decoded_text[277:277] ' ' --> ''"
47
+ ],
48
+ "n_oov_chars": 0,
49
+ "oov_ratio": 0.0,
50
+ "oov_charset": "[]"
51
+ },
52
+ {
53
+ "text": "Quand les élus se réunissent-ils ?",
54
+ "decoded_text": "Quand les élus se réunissent-ils?",
55
+ "diff": [
56
+ "delete text[32:33] --> decoded_text[32:32] ' ' --> ''"
57
+ ],
58
+ "n_oov_chars": 0,
59
+ "oov_ratio": 0.0,
60
+ "oov_charset": "[]"
61
+ },
62
+ {
63
+ "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici",
64
+ "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici",
65
+ "diff": [
66
+ "delete text[34:35] --> decoded_text[34:34] ' ' --> ''"
67
+ ],
68
+ "n_oov_chars": 0,
69
+ "oov_ratio": 0.0,
70
+ "oov_charset": "[]"
71
+ },
72
+ {
73
+ "text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not !!!",
74
+ "decoded_text": "-Le domaine dans lequel tu voudrais devenir une légende---- ma collection why not!!!",
75
+ "diff": [
76
+ "delete text[81:82] --> decoded_text[81:81] ' ' --> ''"
77
+ ],
78
+ "n_oov_chars": 0,
79
+ "oov_ratio": 0.0,
80
+ "oov_charset": "[]"
81
+ },
82
+ {
83
+ "text": "-Quelle est l’origine de ton pseudo ? c'est le nom d'un animal que j'ai inventé",
84
+ "decoded_text": "-Quelle est l’origine de ton pseudo? c'est le nom d'un animal que j'ai inventé",
85
+ "diff": [
86
+ "delete text[35:36] --> decoded_text[35:35] ' ' --> ''"
87
+ ],
88
+ "n_oov_chars": 0,
89
+ "oov_ratio": 0.0,
90
+ "oov_charset": "[]"
91
+ },
92
+ {
93
+ "text": "-Quelle est ton humeur au moment de commencer ce test ? Heu...normal!",
94
+ "decoded_text": "-Quelle est ton humeur au moment de commencer ce test? Heu...normal!",
95
+ "diff": [
96
+ "delete text[53:54] --> decoded_text[53:53] ' ' --> ''"
97
+ ],
98
+ "n_oov_chars": 0,
99
+ "oov_ratio": 0.0,
100
+ "oov_charset": "[]"
101
+ }
102
+ ]
stats/compression_rate/allenai.OLMo-7B-hf @ cc100.ja.diff.json ADDED
@@ -0,0 +1,113 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって ...",
4
+ "decoded_text": "好きなことで生きていく人生って憧れますよね。自分のやりたいことだけやって生きていけたらどんなに幸せなんだろうって。 で、ふと思ったんですよ。『やりたいことやって成功してる人って\"やりたいことしかやって...",
5
+ "diff": [
6
+ "delete text[100:101] --> decoded_text[100:100] ' ' --> ''"
7
+ ],
8
+ "n_oov_chars": 0,
9
+ "oov_ratio": 0.0,
10
+ "oov_charset": "[]"
11
+ },
12
+ {
13
+ "text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。 ...",
14
+ "decoded_text": "生きていると色んな事がある。 その中でも人生を左右する大きな出来事がきっと生きているうちに何度かあると思う。 そんな時、自分はどう生きるか。 全てに時がある。 そして祈りの中で導かれる時がある。 その実感を得られる時もあれば振り返った時にそう感じる時もあるだろう。...",
15
+ "diff": [
16
+ "delete text[132:133] --> decoded_text[132:132] ' ' --> ''"
17
+ ],
18
+ "n_oov_chars": 0,
19
+ "oov_ratio": 0.0,
20
+ "oov_charset": "[]"
21
+ },
22
+ {
23
+ "text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。 ...",
24
+ "decoded_text": "久しぶりに投稿となりました。 ここ最近はお仕事もそれなりに忙しく、ドタバタ。 でも新しい業務、新しいメンバーと共に仕事をすることで脳が活性化されているのが分かります。 先月から始めた弁当生活もたまに休んでいますが、継続中です。 今日は妻が弁当を作ってくれました。...",
25
+ "diff": [
26
+ "delete text[131:132] --> decoded_text[131:131] ' ' --> ''"
27
+ ],
28
+ "n_oov_chars": 0,
29
+ "oov_ratio": 0.0,
30
+ "oov_charset": "[]"
31
+ },
32
+ {
33
+ "text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、 ...",
34
+ "decoded_text": "彼氏の元カノがまだ彼氏に未練があるかもしれません…。 私は高校1年生で、...",
35
+ "diff": [
36
+ "delete text[36:37] --> decoded_text[36:36] ' ' --> ''"
37
+ ],
38
+ "n_oov_chars": 0,
39
+ "oov_ratio": 0.0,
40
+ "oov_charset": "[]"
41
+ },
42
+ {
43
+ "text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad ...",
44
+ "decoded_text": "どうもこんにちは。今まで当ブログを見てくださった方ならわかると思うのですが、今日からちょっと雰囲気が変わったことに気づきました?そうです。広告が貼られるようになったのです。この広告はGoogle Ad...",
45
+ "diff": [
46
+ "delete text[100:101] --> decoded_text[100:100] ' ' --> ''"
47
+ ],
48
+ "n_oov_chars": 0,
49
+ "oov_ratio": 0.0,
50
+ "oov_charset": "[]"
51
+ },
52
+ {
53
+ "text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい ...",
54
+ "decoded_text": "初めて生命保険に加入する人が保険選びに失敗しないためのポイントについて解説してい...",
55
+ "diff": [
56
+ "delete text[40:41] --> decoded_text[40:40] ' ' --> ''"
57
+ ],
58
+ "n_oov_chars": 0,
59
+ "oov_ratio": 0.0,
60
+ "oov_charset": "[]"
61
+ },
62
+ {
63
+ "text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな ...",
64
+ "decoded_text": "生命保険を選ぶ際に保険会社はどのように選べばよいのでしょうか?選び方のポイントな...",
65
+ "diff": [
66
+ "delete text[40:41] --> decoded_text[40:40] ' ' --> ''"
67
+ ],
68
+ "n_oov_chars": 0,
69
+ "oov_ratio": 0.0,
70
+ "oov_charset": "[]"
71
+ },
72
+ {
73
+ "text": "よく言われることですが、『コンポは105以上にしたほうが無難』という���があります。 これは果たしてどういうことなのか、説明していきます。 ...",
74
+ "decoded_text": "よく言われることですが、『コンポは105以上にしたほうが無難』という説があります。 これは果たしてどういうことなのか、説明していきます。...",
75
+ "diff": [
76
+ "delete text[68:69] --> decoded_text[68:68] ' ' --> ''"
77
+ ],
78
+ "n_oov_chars": 0,
79
+ "oov_ratio": 0.0,
80
+ "oov_charset": "[]"
81
+ },
82
+ {
83
+ "text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。",
84
+ "decoded_text": "点を取れる部分をメインに勉強を行いました。とても勉強になったので、チャレンジして良かったです。仕事で活かせるように今後も勉強を続けて行きたいです。",
85
+ "diff": [
86
+ "replace text[31:33] --> decoded_text[31:32] 'で' --> 'で'",
87
+ "replace text[38:40] --> decoded_text[37:38] 'ジ' --> 'ジ'",
88
+ "replace text[46:48] --> decoded_text[44:45] 'で' --> 'で'",
89
+ "replace text[52:54] --> decoded_text[49:50] 'で' --> 'で'",
90
+ "replace text[74:76] --> decoded_text[70:71] 'で' --> 'で'"
91
+ ],
92
+ "n_oov_chars": 0,
93
+ "oov_ratio": 0.0,
94
+ "oov_charset": "[]"
95
+ },
96
+ {
97
+ "text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。",
98
+ "decoded_text": "ドローンは今後、土木・農業など様々な分野での利用が見込まれるので、ぜひチャレンジしてみてください。",
99
+ "diff": [
100
+ "replace text[0:2] --> decoded_text[0:1] 'ド' --> 'ド'",
101
+ "replace text[15:17] --> decoded_text[14:15] 'ど' --> 'ど'",
102
+ "replace text[22:24] --> decoded_text[20:21] 'で' --> 'で'",
103
+ "replace text[27:29] --> decoded_text[24:25] 'が' --> 'が'",
104
+ "replace text[35:37] --> decoded_text[31:32] 'で' --> 'で'",
105
+ "replace text[38:40] --> decoded_text[33:34] 'ぜ' --> 'ぜ'",
106
+ "replace text[45:47] --> decoded_text[39:40] 'ジ' --> 'ジ'",
107
+ "replace text[52:54] --> decoded_text[45:46] 'だ' --> 'だ'"
108
+ ],
109
+ "n_oov_chars": 0,
110
+ "oov_ratio": 0.0,
111
+ "oov_charset": "[]"
112
+ }
113
+ ]
stats/compression_rate/allenai.OLMo-7B-hf @ cc100.ko.diff.json ADDED
@@ -0,0 +1,106 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
4
+ "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
5
+ "diff": [
6
+ "delete text[59:60] --> decoded_text[59:59] ' ' --> ''",
7
+ "delete text[64:65] --> decoded_text[63:63] ' ' --> ''"
8
+ ],
9
+ "n_oov_chars": 0,
10
+ "oov_ratio": 0.0,
11
+ "oov_charset": "[]"
12
+ },
13
+ {
14
+ "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.",
15
+ "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.",
16
+ "diff": [
17
+ "delete text[28:29] --> decoded_text[28:28] ' ' --> ''"
18
+ ],
19
+ "n_oov_chars": 0,
20
+ "oov_ratio": 0.0,
21
+ "oov_charset": "[]"
22
+ },
23
+ {
24
+ "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.",
25
+ "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.",
26
+ "diff": [
27
+ "delete text[58:59] --> decoded_text[58:58] ' ' --> ''",
28
+ "delete text[86:87] --> decoded_text[85:85] ' ' --> ''"
29
+ ],
30
+ "n_oov_chars": 0,
31
+ "oov_ratio": 0.0,
32
+ "oov_charset": "[]"
33
+ },
34
+ {
35
+ "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).",
36
+ "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).",
37
+ "diff": [
38
+ "delete text[33:34] --> decoded_text[33:33] ' ' --> ''",
39
+ "delete text[38:39] --> decoded_text[37:37] ' ' --> ''"
40
+ ],
41
+ "n_oov_chars": 0,
42
+ "oov_ratio": 0.0,
43
+ "oov_charset": "[]"
44
+ },
45
+ {
46
+ "text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율 .276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.",
47
+ "decoded_text": "추신수는3타수1안타 2볼넷으로 승리에 기여. 4월까지 타율이 1할도 채 되지 않았던 타자는, 타율.276로 시즌을 끝마쳤다. 텍사스의 승리로 포스트시즌 진출 나머지 한 자리는 휴스턴의 몫이 NBA경기일정 됐다.",
48
+ "diff": [
49
+ "delete text[54:55] --> decoded_text[54:54] ' ' --> ''"
50
+ ],
51
+ "n_oov_chars": 0,
52
+ "oov_ratio": 0.0,
53
+ "oov_charset": "[]"
54
+ },
55
+ {
56
+ "text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야 .쟤 달라고 로또1등세금 무슨 평소와는",
57
+ "decoded_text": "서운하기까지했다.나쁜 놀랐던 문을 죄송하다고 좋겠어요.” 있습니다. 때는 보여 이불 발걸음을 평소 능력이 말아야.쟤 달라고 로또1등세금 무슨 평소와는",
58
+ "diff": [
59
+ "delete text[62:63] --> decoded_text[62:62] ' ' --> ''"
60
+ ],
61
+ "n_oov_chars": 0,
62
+ "oov_ratio": 0.0,
63
+ "oov_charset": "[]"
64
+ },
65
+ {
66
+ "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.",
67
+ "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트���이크를 던지는 능력이 컨트롤이라면 보더라인 게임 피치를 던지는 능력은 커맨드다.",
68
+ "diff": [
69
+ "delete text[53:54] --> decoded_text[53:53] ' ' --> ''",
70
+ "delete text[81:82] --> decoded_text[80:80] ' ' --> ''"
71
+ ],
72
+ "n_oov_chars": 0,
73
+ "oov_ratio": 0.0,
74
+ "oov_charset": "[]"
75
+ },
76
+ {
77
+ "text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가 .특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게",
78
+ "decoded_text": ".-.로것도 사진찍는데 사랑하면 만화책을 유림이가.특혜 스보벳주소 생각이 좀 분이 둔 사이트주소 것으로 정말 외적으로도 크게",
79
+ "diff": [
80
+ "delete text[27:28] --> decoded_text[27:27] ' ' --> ''"
81
+ ],
82
+ "n_oov_chars": 0,
83
+ "oov_ratio": 0.0,
84
+ "oov_charset": "[]"
85
+ },
86
+ {
87
+ "text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고, ....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.",
88
+ "decoded_text": "아래 스보벳주소 격차가 병실을 메이저대회인 불거졌고,....를 사실이지만, 하지만 역할도 관통하고 가득했다. 열린 하고 괜찮을 생일이 말하고 출전이 얘기가 내 즉.",
89
+ "diff": [
90
+ "delete text[29:30] --> decoded_text[29:29] ' ' --> ''"
91
+ ],
92
+ "n_oov_chars": 0,
93
+ "oov_ratio": 0.0,
94
+ "oov_charset": "[]"
95
+ },
96
+ {
97
+ "text": "유림은바라보았다. 아니란걸 .게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....",
98
+ "decoded_text": "유림은바라보았다. 아니란걸.게임 선풍적인 등 그의 수많은 모습은 집에 괴롭고 스보벳주소 같은 선에서 떠나 교통사고가 도전은...하고싶지 다른 몇번 눕던 그녀가 싶어요....",
99
+ "diff": [
100
+ "delete text[14:15] --> decoded_text[14:14] ' ' --> ''"
101
+ ],
102
+ "n_oov_chars": 0,
103
+ "oov_ratio": 0.0,
104
+ "oov_charset": "[]"
105
+ }
106
+ ]
stats/compression_rate/allenai.OLMo-7B-hf @ cc100.zh-Hans.diff.json ADDED
@@ -0,0 +1,102 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊) ,Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。",
4
+ "decoded_text": "佩奇大学健康科学学院在Kaposvár(高波什瓦尔), Pécs(佩奇), Szombathely(松博特海伊),Zalaegerszeg (扎洛埃格塞格) 有四所地区培训中心。这些培训中心都与当地的医院和社会机构保持着良好的关系。我院在健康科学领域是匈牙利提供专业数量最多,教师数量最多和校园数量最多的教育机构。",
5
+ "diff": [
6
+ "delete text[56:57] --> decoded_text[56:56] ' ' --> ''"
7
+ ],
8
+ "n_oov_chars": 0,
9
+ "oov_ratio": 0.0,
10
+ "oov_charset": "[]"
11
+ },
12
+ {
13
+ "text": "支持和 虚拟机,以及 7 . / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。",
14
+ "decoded_text": "支持和 虚拟机,以及 7. / 和的屏幕截图,在三个不同的分区中有三个文档.最大的问题之一是硬件支持可能很棘手。 我参加过一些冷酷黑暗的联赛。",
15
+ "diff": [
16
+ "delete text[12:13] --> decoded_text[12:12] ' ' --> ''"
17
+ ],
18
+ "n_oov_chars": 0,
19
+ "oov_ratio": 0.0,
20
+ "oov_charset": "[]"
21
+ },
22
+ {
23
+ "text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但 .的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。",
24
+ "decoded_text": "他指责执法部门和 其他政府机构调查他与俄罗斯的关系,作为参与党派恐怖袭击的深刻的国家阴谋,他经常对媒体愤怒作为敌人。尽管瑞士化学公司与法国建筑材料公司-达成协议以结束长期存在的法律纠纷,但.的股价在指数水平上走势平稳,股价上涨8.7%至的顶部。",
25
+ "diff": [
26
+ "delete text[94:95] --> decoded_text[94:94] ' ' --> ''"
27
+ ],
28
+ "n_oov_chars": 0,
29
+ "oov_ratio": 0.0,
30
+ "oov_charset": "[]"
31
+ },
32
+ {
33
+ "text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。 ...",
34
+ "decoded_text": "简介:上期,本报《快乐老年》版推出了暑假期间老人“上岗”带娃的报道,不同老人有不同的带娃方式。有的老人深感带娃是一种甜蜜的负担。确实,现在孩子的教育问题越来越受到重视,很多老人与时俱进,吸收了好的育儿理念。...",
35
+ "diff": [
36
+ "delete text[103:104] --> decoded_text[103:103] ' ' --> ''"
37
+ ],
38
+ "n_oov_chars": 0,
39
+ "oov_ratio": 0.0,
40
+ "oov_charset": "[]"
41
+ },
42
+ {
43
+ "text": "导演:安德鲁・麦卡锡,玛吉・基莉 ,迈克・卡希尔,马克・托德莱",
44
+ "decoded_text": "导演:安德鲁・麦卡锡,玛吉・基莉,迈克・卡希尔,马克・托德莱",
45
+ "diff": [
46
+ "delete text[16:17] --> decoded_text[16:16] ' ' --> ''"
47
+ ],
48
+ "n_oov_chars": 0,
49
+ "oov_ratio": 0.0,
50
+ "oov_charset": "[]"
51
+ },
52
+ {
53
+ "text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5 ?0 G' R5 f2 b) G. v",
54
+ "decoded_text": "龙茫接过来,他知道是什么,可是现在看不到任何东西的他拿着这些东西真的有用吗?全球华人的自由讨论天地 4 ~5?0 G' R5 f2 b) G. v",
55
+ "diff": [
56
+ "delete text[54:55] --> decoded_text[54:54] ' ' --> ''"
57
+ ],
58
+ "n_oov_chars": 0,
59
+ "oov_ratio": 0.0,
60
+ "oov_charset": "[]"
61
+ },
62
+ {
63
+ "text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地 ! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _",
64
+ "decoded_text": "如果在没有失明之前,他很可能能够看到写在手心上的字,但现在是完全看不到了,他只能感到手指在他的手心上不停地划来划去,却不知道写了什么上去。全球华人的自由讨论天地! _& N. f/ x6 @/ x2 v; \\\\6 I' Y6 q3 _",
65
+ "diff": [
66
+ "delete text[80:81] --> decoded_text[80:80] ' ' --> ''"
67
+ ],
68
+ "n_oov_chars": 0,
69
+ "oov_ratio": 0.0,
70
+ "oov_charset": "[]"
71
+ },
72
+ {
73
+ "text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7 ?$ K! M",
74
+ "decoded_text": "是啊,对于一个刚刚恢复光明的人来说是多么想出去走走,看看这个世界啊!华人论坛0 [ b- q4 B b' [5 W7?$ K! M",
75
+ "diff": [
76
+ "delete text[58:59] --> decoded_text[58:58] ' ' --> ''"
77
+ ],
78
+ "n_oov_chars": 0,
79
+ "oov_ratio": 0.0,
80
+ "oov_charset": "[]"
81
+ },
82
+ {
83
+ "text": ". ?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?",
84
+ "decoded_text": ".?. h& r( A8 u1 ]# L 如果是邻居的话也用不着给我发这么一条短信吧?我记得妈说过我7岁时就搬走了,那么说我还有跟他联系吗?可是为什么那个女人会叫我郭水?",
85
+ "diff": [
86
+ "delete text[1:2] --> decoded_text[1:1] ' ' --> ''"
87
+ ],
88
+ "n_oov_chars": 0,
89
+ "oov_ratio": 0.0,
90
+ "oov_charset": "[]"
91
+ },
92
+ {
93
+ "text": "8 d7 G! M B+ X9 l/ k\" {6 ?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。",
94
+ "decoded_text": "8 d7 G! M B+ X9 l/ k\" {6?- cbb.a4.79ae.static.theplanet.com “算了,都过去了,你就不要再问了。”蒋成说话的声音有些奇怪,好像很恐惧一样,龙茫看到他的表情似乎很紧张。",
95
+ "diff": [
96
+ "delete text[24:25] --> decoded_text[24:24] ' ' --> ''"
97
+ ],
98
+ "n_oov_chars": 0,
99
+ "oov_ratio": 0.0,
100
+ "oov_charset": "[]"
101
+ }
102
+ ]
vocab.py CHANGED
@@ -238,6 +238,7 @@ _all_tokenizer_config = [
238
  TokenizerConfig("Qwen/Qwen1.5-14B", impl=TokenizerImpl.SentencePiece, org="Alibaba"), # 15万,速度有点慢
239
  TokenizerConfig("Qwen/Qwen1.5-110B", impl=TokenizerImpl.SentencePiece, org="Alibaba"),
240
  TokenizerConfig("Qwen/Qwen1.5-1.8B", impl=TokenizerImpl.SentencePiece, org="Alibaba"),
 
241
  TokenizerConfig("Qwen/Qwen2-72B", impl=TokenizerImpl.SentencePiece, org="Alibaba"),
242
  TokenizerConfig("HuggingFaceH4/starchat-alpha", impl=TokenizerImpl.SentencePiece, org="-"),
243
 
@@ -260,6 +261,8 @@ _all_tokenizer_config = [
260
  # '中文单字': 700, '中文多字': 0 meta-llama/Meta-Llama-3.1-405B
261
  TokenizerConfig("meta-llama/Meta-Llama-3.1-405B", name_display="Meta/llama3.1", impl=TokenizerImpl.SentencePiece,
262
  org="Meta"),
 
 
263
  TokenizerConfig("gradientai/Llama-3-8B-Instruct-Gradient-1048k", name_display="Meta/llama3",
264
  impl=TokenizerImpl.SentencePiece, org="Meta",
265
  desc="llama split all numbers into individual digits, and fallback to bytes to decompose unknown UTF-8 characters"),
 
238
  TokenizerConfig("Qwen/Qwen1.5-14B", impl=TokenizerImpl.SentencePiece, org="Alibaba"), # 15万,速度有点慢
239
  TokenizerConfig("Qwen/Qwen1.5-110B", impl=TokenizerImpl.SentencePiece, org="Alibaba"),
240
  TokenizerConfig("Qwen/Qwen1.5-1.8B", impl=TokenizerImpl.SentencePiece, org="Alibaba"),
241
+ TokenizerConfig("Qwen/Qwen2-0.5B", impl=TokenizerImpl.SentencePiece, org="Alibaba"),
242
  TokenizerConfig("Qwen/Qwen2-72B", impl=TokenizerImpl.SentencePiece, org="Alibaba"),
243
  TokenizerConfig("HuggingFaceH4/starchat-alpha", impl=TokenizerImpl.SentencePiece, org="-"),
244
 
 
261
  # '中文单字': 700, '中文多字': 0 meta-llama/Meta-Llama-3.1-405B
262
  TokenizerConfig("meta-llama/Meta-Llama-3.1-405B", name_display="Meta/llama3.1", impl=TokenizerImpl.SentencePiece,
263
  org="Meta"),
264
+ TokenizerConfig("NousResearch/Hermes-3-Llama-3.1-405B", impl=TokenizerImpl.SentencePiece,
265
+ org="NousResearch"),
266
  TokenizerConfig("gradientai/Llama-3-8B-Instruct-Gradient-1048k", name_display="Meta/llama3",
267
  impl=TokenizerImpl.SentencePiece, org="Meta",
268
  desc="llama split all numbers into individual digits, and fallback to bytes to decompose unknown UTF-8 characters"),