chibao24 commited on Jun 10

Commit

9013b5d

•

1 Parent(s): f6cf9ed

Upload folder using huggingface_hub

Browse files

Files changed (37) hide show

checkpoint-5000/config.json +32 -0
checkpoint-5000/generation_config.json +6 -0
checkpoint-5000/model.safetensors +3 -0
checkpoint-5000/optimizer.pt +3 -0
checkpoint-5000/rng_state.pth +3 -0
checkpoint-5000/scheduler.pt +3 -0
checkpoint-5000/special_tokens_map.json +23 -0
checkpoint-5000/spiece.model +3 -0
checkpoint-5000/tokenizer.json +3 -0
checkpoint-5000/tokenizer_config.json +41 -0
checkpoint-5000/trainer_state.json +173 -0
checkpoint-5000/training_args.bin +3 -0
checkpoint-5500/config.json +32 -0
checkpoint-5500/generation_config.json +6 -0
checkpoint-5500/model.safetensors +3 -0
checkpoint-5500/optimizer.pt +3 -0
checkpoint-5500/rng_state.pth +3 -0
checkpoint-5500/scheduler.pt +3 -0
checkpoint-5500/special_tokens_map.json +23 -0
checkpoint-5500/spiece.model +3 -0
checkpoint-5500/tokenizer.json +3 -0
checkpoint-5500/tokenizer_config.json +41 -0
checkpoint-5500/trainer_state.json +185 -0
checkpoint-5500/training_args.bin +3 -0
checkpoint-6000/config.json +32 -0
checkpoint-6000/generation_config.json +6 -0
checkpoint-6000/model.safetensors +3 -0
checkpoint-6000/optimizer.pt +3 -0
checkpoint-6000/rng_state.pth +3 -0
checkpoint-6000/scheduler.pt +3 -0
checkpoint-6000/special_tokens_map.json +23 -0
checkpoint-6000/spiece.model +3 -0
checkpoint-6000/tokenizer.json +3 -0
checkpoint-6000/tokenizer_config.json +41 -0
checkpoint-6000/trainer_state.json +204 -0
checkpoint-6000/training_args.bin +3 -0
generation_config.json +5 -1

checkpoint-5000/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_name_or_path": "huggingface-course/mt5-finetuned-amazon-en-es",
+  "architectures": [
+    "MT5ForConditionalGeneration"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 1024,
+  "d_kv": 64,
+  "d_model": 512,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "mt5",
+  "num_decoder_layers": 8,
+  "num_heads": 6,
+  "num_layers": 8,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "tokenizer_class": "T5Tokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.41.2",
+  "use_cache": true,
+  "vocab_size": 250112
+}

checkpoint-5000/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.41.2"
+}

checkpoint-5000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db18d0ebb02211516f5aa82cf32b01f36fae049bcad07b767416a6491863e396
+size 1200729512

checkpoint-5000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:97ead2d29f9d1e68de4337a111386e3dc58a93e92cb540f028d65fff2ebb8783
+size 2879866

checkpoint-5000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f7f4d58b37e5548e4c4c86278d1b79aeccd7f51a8699348b00972091853eaa6d
+size 14244

checkpoint-5000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cbfcf346ffa321c1893d921e3994abb0018919e4e051735a9c02d5a32adaf3ba
+size 1064

checkpoint-5000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-5000/spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef78f86560d809067d12bac6c09f19a462cb3af3f54d2b8acbba26e1433125d6
+size 4309802

checkpoint-5000/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4ee660ae764cd56ecac9dbe82d766502034efac119fc579414afcd68d4f6b922
+size 16315191

checkpoint-5000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,41 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 0,
+  "max_length": 30,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "sp_model_kwargs": {},
+  "stride": 0,
+  "tokenizer_class": "T5Tokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "<unk>"
+}

checkpoint-5000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,173 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 8.0,
+  "eval_steps": 75,
+  "global_step": 5000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.6603230237960815,
+      "learning_rate": 0.00020833333333333335,
+      "loss": 2.7781,
+      "step": 625
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.839109182357788,
+      "eval_rouge1": 28.5024,
+      "eval_rouge2": 11.2717,
+      "eval_rougeL": 22.108,
+      "eval_rougeLsum": 22.4361,
+      "eval_runtime": 722.0927,
+      "eval_samples_per_second": 13.849,
+      "eval_steps_per_second": 0.866,
+      "step": 625
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 1.18350088596344,
+      "learning_rate": 0.0004166666666666667,
+      "loss": 2.0622,
+      "step": 1250
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 1.7575578689575195,
+      "eval_rouge1": 28.0245,
+      "eval_rouge2": 10.6112,
+      "eval_rougeL": 21.7353,
+      "eval_rougeLsum": 22.0685,
+      "eval_runtime": 728.2015,
+      "eval_samples_per_second": 13.732,
+      "eval_steps_per_second": 0.858,
+      "step": 1250
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.9635187983512878,
+      "learning_rate": 0.000625,
+      "loss": 1.8636,
+      "step": 1875
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 1.617906928062439,
+      "eval_rouge1": 27.353,
+      "eval_rouge2": 10.6238,
+      "eval_rougeL": 21.4686,
+      "eval_rougeLsum": 21.7512,
+      "eval_runtime": 730.8407,
+      "eval_samples_per_second": 13.683,
+      "eval_steps_per_second": 0.855,
+      "step": 1875
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 1.1745034456253052,
+      "learning_rate": 0.0008333333333333334,
+      "loss": 1.7408,
+      "step": 2500
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 1.6142878532409668,
+      "eval_rouge1": 28.0928,
+      "eval_rouge2": 11.2857,
+      "eval_rougeL": 22.06,
+      "eval_rougeLsum": 22.3629,
+      "eval_runtime": 802.3401,
+      "eval_samples_per_second": 12.464,
+      "eval_steps_per_second": 0.779,
+      "step": 2500
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.7837355136871338,
+      "learning_rate": 0.0009615384615384616,
+      "loss": 1.6492,
+      "step": 3125
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 1.5411357879638672,
+      "eval_rouge1": 27.8209,
+      "eval_rouge2": 10.9184,
+      "eval_rougeL": 21.6819,
+      "eval_rougeLsum": 21.9773,
+      "eval_runtime": 711.0964,
+      "eval_samples_per_second": 14.063,
+      "eval_steps_per_second": 0.879,
+      "step": 3125
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.5993546843528748,
+      "learning_rate": 0.0007692307692307693,
+      "loss": 1.5448,
+      "step": 3750
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 1.4802035093307495,
+      "eval_rouge1": 28.0433,
+      "eval_rouge2": 11.4232,
+      "eval_rougeL": 22.0696,
+      "eval_rougeLsum": 22.373,
+      "eval_runtime": 728.4308,
+      "eval_samples_per_second": 13.728,
+      "eval_steps_per_second": 0.858,
+      "step": 3750
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 0.7141011357307434,
+      "learning_rate": 0.0005769230769230769,
+      "loss": 1.4454,
+      "step": 4375
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 1.462142825126648,
+      "eval_rouge1": 27.8552,
+      "eval_rouge2": 11.1708,
+      "eval_rougeL": 21.8958,
+      "eval_rougeLsum": 22.1949,
+      "eval_runtime": 640.7723,
+      "eval_samples_per_second": 15.606,
+      "eval_steps_per_second": 0.975,
+      "step": 4375
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.6400988101959229,
+      "learning_rate": 0.00038461538461538467,
+      "loss": 1.3636,
+      "step": 5000
+    }
+  ],
+  "logging_steps": 625,
+  "max_steps": 6250,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.22999752704e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-5000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f5223adea68bac22d3e503304376f99d2113ed58ad54d362e129fa184482b15
+size 5240

checkpoint-5500/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_name_or_path": "huggingface-course/mt5-finetuned-amazon-en-es",
+  "architectures": [
+    "MT5ForConditionalGeneration"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 1024,
+  "d_kv": 64,
+  "d_model": 512,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "mt5",
+  "num_decoder_layers": 8,
+  "num_heads": 6,
+  "num_layers": 8,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "tokenizer_class": "T5Tokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.41.2",
+  "use_cache": true,
+  "vocab_size": 250112
+}

checkpoint-5500/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.41.2"
+}

checkpoint-5500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7544a75019487033c3697fe99b3d493fc268f49f4f76ff1509cb98a95895c400
+size 1200729512

checkpoint-5500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:92780dc81daec4c9e2c8e024f806a36df6e3d35eec087590f361167876766d95
+size 2879866

checkpoint-5500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eacade89a99076612b2685c06f1897e40328f5d9e642936aed8178e83d63949b
+size 14244

checkpoint-5500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:09e85770e7a5d92bd875c851b84e34b820f78c9d6ff7a152f8bd524e42bd0243
+size 1064

checkpoint-5500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-5500/spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef78f86560d809067d12bac6c09f19a462cb3af3f54d2b8acbba26e1433125d6
+size 4309802

checkpoint-5500/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4ee660ae764cd56ecac9dbe82d766502034efac119fc579414afcd68d4f6b922
+size 16315191

checkpoint-5500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,41 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 0,
+  "max_length": 30,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "sp_model_kwargs": {},
+  "stride": 0,
+  "tokenizer_class": "T5Tokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "<unk>"
+}

checkpoint-5500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,185 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 8.8,
+  "eval_steps": 75,
+  "global_step": 5500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.6603230237960815,
+      "learning_rate": 0.00020833333333333335,
+      "loss": 2.7781,
+      "step": 625
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.839109182357788,
+      "eval_rouge1": 28.5024,
+      "eval_rouge2": 11.2717,
+      "eval_rougeL": 22.108,
+      "eval_rougeLsum": 22.4361,
+      "eval_runtime": 722.0927,
+      "eval_samples_per_second": 13.849,
+      "eval_steps_per_second": 0.866,
+      "step": 625
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 1.18350088596344,
+      "learning_rate": 0.0004166666666666667,
+      "loss": 2.0622,
+      "step": 1250
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 1.7575578689575195,
+      "eval_rouge1": 28.0245,
+      "eval_rouge2": 10.6112,
+      "eval_rougeL": 21.7353,
+      "eval_rougeLsum": 22.0685,
+      "eval_runtime": 728.2015,
+      "eval_samples_per_second": 13.732,
+      "eval_steps_per_second": 0.858,
+      "step": 1250
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.9635187983512878,
+      "learning_rate": 0.000625,
+      "loss": 1.8636,
+      "step": 1875
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 1.617906928062439,
+      "eval_rouge1": 27.353,
+      "eval_rouge2": 10.6238,
+      "eval_rougeL": 21.4686,
+      "eval_rougeLsum": 21.7512,
+      "eval_runtime": 730.8407,
+      "eval_samples_per_second": 13.683,
+      "eval_steps_per_second": 0.855,
+      "step": 1875
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 1.1745034456253052,
+      "learning_rate": 0.0008333333333333334,
+      "loss": 1.7408,
+      "step": 2500
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 1.6142878532409668,
+      "eval_rouge1": 28.0928,
+      "eval_rouge2": 11.2857,
+      "eval_rougeL": 22.06,
+      "eval_rougeLsum": 22.3629,
+      "eval_runtime": 802.3401,
+      "eval_samples_per_second": 12.464,
+      "eval_steps_per_second": 0.779,
+      "step": 2500
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.7837355136871338,
+      "learning_rate": 0.0009615384615384616,
+      "loss": 1.6492,
+      "step": 3125
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 1.5411357879638672,
+      "eval_rouge1": 27.8209,
+      "eval_rouge2": 10.9184,
+      "eval_rougeL": 21.6819,
+      "eval_rougeLsum": 21.9773,
+      "eval_runtime": 711.0964,
+      "eval_samples_per_second": 14.063,
+      "eval_steps_per_second": 0.879,
+      "step": 3125
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.5993546843528748,
+      "learning_rate": 0.0007692307692307693,
+      "loss": 1.5448,
+      "step": 3750
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 1.4802035093307495,
+      "eval_rouge1": 28.0433,
+      "eval_rouge2": 11.4232,
+      "eval_rougeL": 22.0696,
+      "eval_rougeLsum": 22.373,
+      "eval_runtime": 728.4308,
+      "eval_samples_per_second": 13.728,
+      "eval_steps_per_second": 0.858,
+      "step": 3750
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 0.7141011357307434,
+      "learning_rate": 0.0005769230769230769,
+      "loss": 1.4454,
+      "step": 4375
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 1.462142825126648,
+      "eval_rouge1": 27.8552,
+      "eval_rouge2": 11.1708,
+      "eval_rougeL": 21.8958,
+      "eval_rougeLsum": 22.1949,
+      "eval_runtime": 640.7723,
+      "eval_samples_per_second": 15.606,
+      "eval_steps_per_second": 0.975,
+      "step": 4375
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.6400988101959229,
+      "learning_rate": 0.00038461538461538467,
+      "loss": 1.3636,
+      "step": 5000
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 1.4522408246994019,
+      "eval_rouge1": 28.3264,
+      "eval_rouge2": 11.7945,
+      "eval_rougeL": 22.3563,
+      "eval_rougeLsum": 22.6524,
+      "eval_runtime": 715.9922,
+      "eval_samples_per_second": 13.967,
+      "eval_steps_per_second": 0.873,
+      "step": 5000
+    }
+  ],
+  "logging_steps": 625,
+  "max_steps": 6250,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.652997279744e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-5500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f5223adea68bac22d3e503304376f99d2113ed58ad54d362e129fa184482b15
+size 5240

checkpoint-6000/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_name_or_path": "huggingface-course/mt5-finetuned-amazon-en-es",
+  "architectures": [
+    "MT5ForConditionalGeneration"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 1024,
+  "d_kv": 64,
+  "d_model": 512,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "mt5",
+  "num_decoder_layers": 8,
+  "num_heads": 6,
+  "num_layers": 8,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "tokenizer_class": "T5Tokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.41.2",
+  "use_cache": true,
+  "vocab_size": 250112
+}

checkpoint-6000/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.41.2"
+}

checkpoint-6000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89f623f4a01b722905510276a1a06b7b68cd255827e342e4c3ca4ddee56ed498
+size 1200729512

checkpoint-6000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a089a3a25c69d2de6113cea9c64a35519129aaf471e2172dfc6e07e6723a273b
+size 2879866

checkpoint-6000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:656e79bc514cbc36d830d5dd590d52aac19362cdb25a3184fb8a1d03468f9a60
+size 14244

checkpoint-6000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:608dba54e3cf2298f5418707e0dd61313fe32d937145e62ea0bb8a1f2fd326d8
+size 1064

checkpoint-6000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-6000/spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef78f86560d809067d12bac6c09f19a462cb3af3f54d2b8acbba26e1433125d6
+size 4309802

checkpoint-6000/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4ee660ae764cd56ecac9dbe82d766502034efac119fc579414afcd68d4f6b922
+size 16315191

checkpoint-6000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,41 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 0,
+  "max_length": 30,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "sp_model_kwargs": {},
+  "stride": 0,
+  "tokenizer_class": "T5Tokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "<unk>"
+}

checkpoint-6000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,204 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 9.6,
+  "eval_steps": 75,
+  "global_step": 6000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.6603230237960815,
+      "learning_rate": 0.00020833333333333335,
+      "loss": 2.7781,
+      "step": 625
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.839109182357788,
+      "eval_rouge1": 28.5024,
+      "eval_rouge2": 11.2717,
+      "eval_rougeL": 22.108,
+      "eval_rougeLsum": 22.4361,
+      "eval_runtime": 722.0927,
+      "eval_samples_per_second": 13.849,
+      "eval_steps_per_second": 0.866,
+      "step": 625
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 1.18350088596344,
+      "learning_rate": 0.0004166666666666667,
+      "loss": 2.0622,
+      "step": 1250
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 1.7575578689575195,
+      "eval_rouge1": 28.0245,
+      "eval_rouge2": 10.6112,
+      "eval_rougeL": 21.7353,
+      "eval_rougeLsum": 22.0685,
+      "eval_runtime": 728.2015,
+      "eval_samples_per_second": 13.732,
+      "eval_steps_per_second": 0.858,
+      "step": 1250
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.9635187983512878,
+      "learning_rate": 0.000625,
+      "loss": 1.8636,
+      "step": 1875
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 1.617906928062439,
+      "eval_rouge1": 27.353,
+      "eval_rouge2": 10.6238,
+      "eval_rougeL": 21.4686,
+      "eval_rougeLsum": 21.7512,
+      "eval_runtime": 730.8407,
+      "eval_samples_per_second": 13.683,
+      "eval_steps_per_second": 0.855,
+      "step": 1875
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 1.1745034456253052,
+      "learning_rate": 0.0008333333333333334,
+      "loss": 1.7408,
+      "step": 2500
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 1.6142878532409668,
+      "eval_rouge1": 28.0928,
+      "eval_rouge2": 11.2857,
+      "eval_rougeL": 22.06,
+      "eval_rougeLsum": 22.3629,
+      "eval_runtime": 802.3401,
+      "eval_samples_per_second": 12.464,
+      "eval_steps_per_second": 0.779,
+      "step": 2500
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.7837355136871338,
+      "learning_rate": 0.0009615384615384616,
+      "loss": 1.6492,
+      "step": 3125
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 1.5411357879638672,
+      "eval_rouge1": 27.8209,
+      "eval_rouge2": 10.9184,
+      "eval_rougeL": 21.6819,
+      "eval_rougeLsum": 21.9773,
+      "eval_runtime": 711.0964,
+      "eval_samples_per_second": 14.063,
+      "eval_steps_per_second": 0.879,
+      "step": 3125
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.5993546843528748,
+      "learning_rate": 0.0007692307692307693,
+      "loss": 1.5448,
+      "step": 3750
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 1.4802035093307495,
+      "eval_rouge1": 28.0433,
+      "eval_rouge2": 11.4232,
+      "eval_rougeL": 22.0696,
+      "eval_rougeLsum": 22.373,
+      "eval_runtime": 728.4308,
+      "eval_samples_per_second": 13.728,
+      "eval_steps_per_second": 0.858,
+      "step": 3750
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 0.7141011357307434,
+      "learning_rate": 0.0005769230769230769,
+      "loss": 1.4454,
+      "step": 4375
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 1.462142825126648,
+      "eval_rouge1": 27.8552,
+      "eval_rouge2": 11.1708,
+      "eval_rougeL": 21.8958,
+      "eval_rougeLsum": 22.1949,
+      "eval_runtime": 640.7723,
+      "eval_samples_per_second": 15.606,
+      "eval_steps_per_second": 0.975,
+      "step": 4375
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.6400988101959229,
+      "learning_rate": 0.00038461538461538467,
+      "loss": 1.3636,
+      "step": 5000
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 1.4522408246994019,
+      "eval_rouge1": 28.3264,
+      "eval_rouge2": 11.7945,
+      "eval_rougeL": 22.3563,
+      "eval_rougeLsum": 22.6524,
+      "eval_runtime": 715.9922,
+      "eval_samples_per_second": 13.967,
+      "eval_steps_per_second": 0.873,
+      "step": 5000
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 0.6958301067352295,
+      "learning_rate": 0.00019230769230769233,
+      "loss": 1.2978,
+      "step": 5625
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 1.4346853494644165,
+      "eval_rouge1": 28.444,
+      "eval_rouge2": 11.9388,
+      "eval_rougeL": 22.4279,
+      "eval_rougeLsum": 22.7344,
+      "eval_runtime": 652.829,
+      "eval_samples_per_second": 15.318,
+      "eval_steps_per_second": 0.957,
+      "step": 5625
+    }
+  ],
+  "logging_steps": 625,
+  "max_steps": 6250,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5.075997032448e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-6000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f5223adea68bac22d3e503304376f99d2113ed58ad54d362e129fa184482b15
+size 5240

generation_config.json CHANGED Viewed

@@ -2,5 +2,9 @@
   "decoder_start_token_id": 0,
   "eos_token_id": 1,
   "pad_token_id": 0,
-  "transformers_version": "4.41.2"
 }

   "decoder_start_token_id": 0,
   "eos_token_id": 1,
   "pad_token_id": 0,
+  "transformers_version": "4.41.2",
+  "max_length": 256,
+  "num_beams": 5,
+  "no_repeat_ngram_size": 2,
+  "early_stopping": 1
 }