if001
/

sentencepiece_ja

Model card Files Files and versions Community

if001 commited on Oct 14, 2023

Commit

de00515

•

1 Parent(s): e254bed

fix

Files changed (2) hide show

README.md +7 -0
sentencepiece_ja.py +1 -7

README.md CHANGED Viewed

@@ -31,3 +31,10 @@ https://huggingface.co/datasets/izumi-lab/wikinews-ja-20230728
 https://huggingface.co/datasets/izumi-lab/wikinews-en-20230728
 https://huggingface.co/datasets/if001/aozorabunko-clean-sin

 https://huggingface.co/datasets/izumi-lab/wikinews-en-20230728
 https://huggingface.co/datasets/if001/aozorabunko-clean-sin
+## settings
+```
+all_special_ids:  [1, 2, 3, 0, 4]
+all_special_tokens:  ['<BOS>', '<EOS>', '<UNK>', '<PAD>', '<MASK>']
+```

sentencepiece_ja.py CHANGED Viewed

@@ -14,13 +14,7 @@ class SentencePieceJA(PreTrainedTokenizer):
                  **kwargs):
         from tokenizers import Tokenizer
         self._tokenizer = Tokenizer.from_file(model_path)
-        super().__init__(
-            pad_token=pad,
-            bos_token=bos,
-            eos_token=eos,
-            unk_token=unk,
-            mask_token=mask,
-            **kwargs)
         self.add_special_tokens({
             'pad_token': pad,
             'bos_token': bos,

                  **kwargs):
         from tokenizers import Tokenizer
         self._tokenizer = Tokenizer.from_file(model_path)
+        super().__init__(**kwargs)
         self.add_special_tokens({
             'pad_token': pad,
             'bos_token': bos,