Add new tokens to model

Browse files

Files changed (7) hide show

added_tokens.json +1 -0
config.json +3 -1
flax_model.msgpack +2 -2
pytorch_model.bin +2 -2
special_tokens_map.json +1 -1
tokenizer.json +0 -0
tokenizer_config.json +1 -1

added_tokens.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {" ": 50258, "\t\t": 50257, " ": 50260, " ": 50259}

config.json CHANGED Viewed

@@ -1,4 +1,5 @@
 {
   "activation_function": "gelu_new",
   "architectures": [
     "GPTNeoForCausalLM"
@@ -45,8 +46,9 @@
   "summary_proj_to_labels": true,
   "summary_type": "cls_index",
   "summary_use_proj": true,
   "transformers_version": "4.9.0.dev0",
   "use_cache": true,
-  "vocab_size": 50257,
   "window_size": 256
 }

 {
+  "_name_or_path": "EleutherAI/gpt-neo-125M",
   "activation_function": "gelu_new",
   "architectures": [
     "GPTNeoForCausalLM"
   "summary_proj_to_labels": true,
   "summary_type": "cls_index",
   "summary_use_proj": true,
+  "torch_dtype": "float32",
   "transformers_version": "4.9.0.dev0",
   "use_cache": true,
+  "vocab_size": 50261,
   "window_size": 256
 }

flax_model.msgpack CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a310832c9ee278177dfd307141fee15470fb30a77f61d4bd0c671e0aa9b39103
-size 500800120

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c44cfab0c177dba64a78924e2aae587dc6a9a41c20cee3bf7bea6a3c386eac0
+size 500812408

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a2b0c731ccffb1c2cd8d94e4f39b52fb2778be6c75840ee5de7655c262e4edb
-size 526014813

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae4052178f4c51012eb97a4fde84eab198c9505e3969bf344c452db340dd0405
+size 526027101

special_tokens_map.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"bos_token": {"content": "<\|endoftext\|>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "eos_token": {"content": "<\|endoftext\|>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "unk_token": {"content": "<\|endoftext\|>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}}

+ {"bos_token": {"content": "<|endoftext|>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "eos_token": {"content": "<|endoftext|>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "unk_token": {"content": "<|endoftext|>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "additional_special_tokens": ["\t\t", " ", " ", " "]}

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

@@ -1 +1 @@

- {"unk_token": {"content": "<|endoftext|>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "bos_token": {"content": "<|endoftext|>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "eos_token": {"content": "<|endoftext|>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "add_prefix_space": false, "errors": "replace", "model_max_length": 2048, "special_tokens_map_file": null, "name_or_path": "EleutherAI/gpt-neo-125M", "tokenizer_class": "GPT2Tokenizer"}

+ {"unk_token": {"content": "<|endoftext|>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "bos_token": {"content": "<|endoftext|>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "eos_token": {"content": "<|endoftext|>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "add_prefix_space": false, "errors": "replace", "model_max_length": 2048, "special_tokens_map_file": null, "name_or_path": "EleutherAI/gpt-neo-125M", "additional_special_tokens": ["\t\t", " ", " ", " "], "tokenizer_class": "GPT2Tokenizer"}