bayartsogt
/

mongolian-gpt2

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

bayartsogt commited on Jul 4, 2021

Commit

2ddcd1e

•

1 Parent(s): 8637116

adding code

Files changed (2) hide show

create_mn_gpt2_config.py +6 -0
train_mn_tokenizer.py +26 -0

create_mn_gpt2_config.py ADDED Viewed

	@@ -0,0 +1,6 @@

+from transformers import GPT2Config
+model_dir = "./"  # ${MODEL_DIR}
+config = GPT2Config.from_pretrained("gpt2", resid_pdrop=0.0, embd_pdrop=0.0, attn_pdrop=0.0)
+config.save_pretrained(model_dir)

train_mn_tokenizer.py ADDED Viewed

	@@ -0,0 +1,26 @@

+from datasets import load_dataset
+from tokenizers import trainers, Tokenizer, normalizers, ByteLevelBPETokenizer
+model_dir = "./"  # ${MODEL_DIR}
+# load dataset
+dataset = load_dataset("oscar", "unshuffled_deduplicated_mn", split="train")
+# Instantiate tokenizer
+tokenizer = ByteLevelBPETokenizer()
+def batch_iterator(batch_size=1000):
+    for i in range(0, len(dataset), batch_size):
+        yield dataset[i: i + batch_size]["text"]
+# Customized training
+tokenizer.train_from_iterator(batch_iterator(), vocab_size=50265, min_frequency=2, special_tokens=[
+    "<s>",
+    "<pad>",
+    "</s>",
+    "<unk>",
+    "<mask>",
+])
+# Save files to disk
+tokenizer.save(f"{model_dir}/tokenizer.json")