Upload 4 files

Browse files

Files changed (4) hide show

special_tokens_map.json +1 -0
trainer_state.json +280 -0
training_args.bin +2 -2
vocab.json +0 -0

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"bos_token": {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "eos_token": {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "unk_token": {"content": "<unk>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "sep_token": {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "pad_token": {"content": "<pad>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "cls_token": {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": true}}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,280 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 11.0,
+  "global_step": 221540,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.25,
+      "learning_rate": 9.909609120521173e-05,
+      "loss": 2.4473,
+      "step": 5000
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 9.796530039811799e-05,
+      "loss": 1.8064,
+      "step": 10000
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 9.683473579442635e-05,
+      "loss": 1.6957,
+      "step": 15000
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 9.570417119073471e-05,
+      "loss": 1.6302,
+      "step": 20000
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 9.457383279044517e-05,
+      "loss": 1.5838,
+      "step": 25000
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 9.344304198335143e-05,
+      "loss": 1.552,
+      "step": 30000
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 9.23127035830619e-05,
+      "loss": 1.5235,
+      "step": 35000
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 9.118236518277235e-05,
+      "loss": 1.5019,
+      "step": 40000
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 9.005157437567862e-05,
+      "loss": 1.4807,
+      "step": 45000
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 8.892100977198697e-05,
+      "loss": 1.4627,
+      "step": 50000
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 8.779044516829533e-05,
+      "loss": 1.449,
+      "step": 55000
+    },
+    {
+      "epoch": 2.98,
+      "learning_rate": 8.665965436120159e-05,
+      "loss": 1.4371,
+      "step": 60000
+    },
+    {
+      "epoch": 3.23,
+      "learning_rate": 8.552931596091206e-05,
+      "loss": 1.4229,
+      "step": 65000
+    },
+    {
+      "epoch": 3.48,
+      "learning_rate": 8.439852515381831e-05,
+      "loss": 1.4127,
+      "step": 70000
+    },
+    {
+      "epoch": 3.72,
+      "learning_rate": 8.326773434672458e-05,
+      "loss": 1.4034,
+      "step": 75000
+    },
+    {
+      "epoch": 3.97,
+      "learning_rate": 8.213716974303293e-05,
+      "loss": 1.394,
+      "step": 80000
+    },
+    {
+      "epoch": 4.22,
+      "learning_rate": 8.100683134274339e-05,
+      "loss": 1.3822,
+      "step": 85000
+    },
+    {
+      "epoch": 4.47,
+      "learning_rate": 7.987581433224755e-05,
+      "loss": 1.3746,
+      "step": 90000
+    },
+    {
+      "epoch": 4.72,
+      "learning_rate": 7.874524972855593e-05,
+      "loss": 1.3659,
+      "step": 95000
+    },
+    {
+      "epoch": 4.97,
+      "learning_rate": 7.761468512486428e-05,
+      "loss": 1.3603,
+      "step": 100000
+    },
+    {
+      "epoch": 5.21,
+      "learning_rate": 7.648412052117264e-05,
+      "loss": 1.3509,
+      "step": 105000
+    },
+    {
+      "epoch": 5.46,
+      "learning_rate": 7.53533297140789e-05,
+      "loss": 1.3439,
+      "step": 110000
+    },
+    {
+      "epoch": 5.71,
+      "learning_rate": 7.422276511038726e-05,
+      "loss": 1.3389,
+      "step": 115000
+    },
+    {
+      "epoch": 5.96,
+      "learning_rate": 7.309220050669564e-05,
+      "loss": 1.3318,
+      "step": 120000
+    },
+    {
+      "epoch": 6.21,
+      "learning_rate": 7.196163590300398e-05,
+      "loss": 1.3233,
+      "step": 125000
+    },
+    {
+      "epoch": 6.45,
+      "learning_rate": 7.083107129931235e-05,
+      "loss": 1.3169,
+      "step": 130000
+    },
+    {
+      "epoch": 6.7,
+      "learning_rate": 6.97002804922186e-05,
+      "loss": 1.3104,
+      "step": 135000
+    },
+    {
+      "epoch": 6.95,
+      "learning_rate": 6.856994209192906e-05,
+      "loss": 1.3064,
+      "step": 140000
+    },
+    {
+      "epoch": 7.2,
+      "learning_rate": 6.743937748823743e-05,
+      "loss": 1.3007,
+      "step": 145000
+    },
+    {
+      "epoch": 7.45,
+      "learning_rate": 6.630858668114369e-05,
+      "loss": 1.2962,
+      "step": 150000
+    },
+    {
+      "epoch": 7.7,
+      "learning_rate": 6.517779587404995e-05,
+      "loss": 1.2915,
+      "step": 155000
+    },
+    {
+      "epoch": 7.94,
+      "learning_rate": 6.40470050669562e-05,
+      "loss": 1.2877,
+      "step": 160000
+    },
+    {
+      "epoch": 8.19,
+      "learning_rate": 6.291644046326457e-05,
+      "loss": 1.2783,
+      "step": 165000
+    },
+    {
+      "epoch": 8.44,
+      "learning_rate": 6.178564965617082e-05,
+      "loss": 1.2741,
+      "step": 170000
+    },
+    {
+      "epoch": 8.69,
+      "learning_rate": 6.065485884907709e-05,
+      "loss": 1.2705,
+      "step": 175000
+    },
+    {
+      "epoch": 8.94,
+      "learning_rate": 5.9524746652189655e-05,
+      "loss": 1.267,
+      "step": 180000
+    },
+    {
+      "epoch": 9.19,
+      "learning_rate": 5.839395584509592e-05,
+      "loss": 1.26,
+      "step": 185000
+    },
+    {
+      "epoch": 9.43,
+      "learning_rate": 5.7263391241404275e-05,
+      "loss": 1.2558,
+      "step": 190000
+    },
+    {
+      "epoch": 9.68,
+      "learning_rate": 5.613260043431053e-05,
+      "loss": 1.2531,
+      "step": 195000
+    },
+    {
+      "epoch": 9.93,
+      "learning_rate": 5.5002035830618894e-05,
+      "loss": 1.2492,
+      "step": 200000
+    },
+    {
+      "epoch": 10.18,
+      "learning_rate": 5.387124502352515e-05,
+      "loss": 1.2432,
+      "step": 205000
+    },
+    {
+      "epoch": 10.43,
+      "learning_rate": 5.274113282663772e-05,
+      "loss": 1.2391,
+      "step": 210000
+    },
+    {
+      "epoch": 10.68,
+      "learning_rate": 5.1610342019543975e-05,
+      "loss": 1.2347,
+      "step": 215000
+    },
+    {
+      "epoch": 10.92,
+      "learning_rate": 5.047977741585234e-05,
+      "loss": 1.231,
+      "step": 220000
+    }
+  ],
+  "max_steps": 443080,
+  "num_train_epochs": 22,
+  "total_flos": 7.46536345693738e+18,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16c18ed311ac42f92d5cd762d3f8e9844fe1d82eb565780cf4335553622aab47
-size 4536

 version https://git-lfs.github.com/spec/v1
+oid sha256:d3c9e0ecbf9a7cbe4296d2f5f31cd65dbebf3c105156255c5893727a3dd74bc2
+size 2863

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff