DylanJHJ
/

flan-t5-fidcqg

Model card Files Files and versions Community

DylanJHJ commited on Dec 27, 2023

Commit

6b89937

•

1 Parent(s): c5f2d3c

add checkpoitns

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +32 -0
fidcqg-w.bm25.ovl/checkpoint-1000/config.json +62 -0
fidcqg-w.bm25.ovl/checkpoint-1000/generation_config.json +7 -0
fidcqg-w.bm25.ovl/checkpoint-1000/optimizer.pt +3 -0
fidcqg-w.bm25.ovl/checkpoint-1000/pytorch_model.bin +3 -0
fidcqg-w.bm25.ovl/checkpoint-1000/rng_state.pth +3 -0
fidcqg-w.bm25.ovl/checkpoint-1000/scheduler.pt +3 -0
fidcqg-w.bm25.ovl/checkpoint-1000/special_tokens_map.json +107 -0
fidcqg-w.bm25.ovl/checkpoint-1000/spiece.model +3 -0
fidcqg-w.bm25.ovl/checkpoint-1000/tokenizer.json +0 -0
fidcqg-w.bm25.ovl/checkpoint-1000/tokenizer_config.json +112 -0
fidcqg-w.bm25.ovl/checkpoint-1000/trainer_state.json +191 -0
fidcqg-w.bm25.ovl/checkpoint-1000/training_args.bin +3 -0
fidcqg-w.bm25.ovl/checkpoint-2000/config.json +62 -0
fidcqg-w.bm25.ovl/checkpoint-2000/generation_config.json +7 -0
fidcqg-w.bm25.ovl/checkpoint-2000/optimizer.pt +3 -0
fidcqg-w.bm25.ovl/checkpoint-2000/pytorch_model.bin +3 -0
fidcqg-w.bm25.ovl/checkpoint-2000/rng_state.pth +3 -0
fidcqg-w.bm25.ovl/checkpoint-2000/scheduler.pt +3 -0
fidcqg-w.bm25.ovl/checkpoint-2000/special_tokens_map.json +107 -0
fidcqg-w.bm25.ovl/checkpoint-2000/spiece.model +3 -0
fidcqg-w.bm25.ovl/checkpoint-2000/tokenizer.json +0 -0
fidcqg-w.bm25.ovl/checkpoint-2000/tokenizer_config.json +112 -0
fidcqg-w.bm25.ovl/checkpoint-2000/trainer_state.json +363 -0
fidcqg-w.bm25.ovl/checkpoint-2000/training_args.bin +3 -0
fidcqg-w.bm25.ovl/checkpoint-3000/config.json +62 -0
fidcqg-w.bm25.ovl/checkpoint-3000/generation_config.json +7 -0
fidcqg-w.bm25.ovl/checkpoint-3000/optimizer.pt +3 -0
fidcqg-w.bm25.ovl/checkpoint-3000/pytorch_model.bin +3 -0
fidcqg-w.bm25.ovl/checkpoint-3000/rng_state.pth +3 -0
fidcqg-w.bm25.ovl/checkpoint-3000/scheduler.pt +3 -0
fidcqg-w.bm25.ovl/checkpoint-3000/special_tokens_map.json +107 -0
fidcqg-w.bm25.ovl/checkpoint-3000/spiece.model +3 -0
fidcqg-w.bm25.ovl/checkpoint-3000/tokenizer.json +0 -0
fidcqg-w.bm25.ovl/checkpoint-3000/tokenizer_config.json +112 -0
fidcqg-w.bm25.ovl/checkpoint-3000/trainer_state.json +535 -0
fidcqg-w.bm25.ovl/checkpoint-3000/training_args.bin +3 -0
fidcqg-w.bm25.ovl/checkpoint-4000/config.json +62 -0
fidcqg-w.bm25.ovl/checkpoint-4000/generation_config.json +7 -0
fidcqg-w.bm25.ovl/checkpoint-4000/optimizer.pt +3 -0
fidcqg-w.bm25.ovl/checkpoint-4000/pytorch_model.bin +3 -0
fidcqg-w.bm25.ovl/checkpoint-4000/rng_state.pth +3 -0
fidcqg-w.bm25.ovl/checkpoint-4000/scheduler.pt +3 -0
fidcqg-w.bm25.ovl/checkpoint-4000/special_tokens_map.json +107 -0
fidcqg-w.bm25.ovl/checkpoint-4000/spiece.model +3 -0
fidcqg-w.bm25.ovl/checkpoint-4000/tokenizer.json +0 -0
fidcqg-w.bm25.ovl/checkpoint-4000/tokenizer_config.json +112 -0
fidcqg-w.bm25.ovl/checkpoint-4000/trainer_state.json +707 -0
fidcqg-w.bm25.ovl/checkpoint-4000/training_args.bin +3 -0
fidcqg-w.contriever.ovl/checkpoint-1000/config.json +62 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,35 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+fidcqg-w.bm25.ovl/checkpoint-1000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+fidcqg-w.bm25.ovl/checkpoint-2000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+fidcqg.bm25.ovl/checkpoint-3000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+fidcqg.contriever.ovl/checkpoint-1000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+fidcqg.contriever.ovl/checkpoint-2000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+fidcqg-w.bm25.ovl/checkpoint-4000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+fidcqg.bm25.ovl/checkpoint-4000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+fidcqg.contriever.ovl/checkpoint-3000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+fidcqg-w.contriever.ovl/checkpoint-3000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+fidcqg.bm25.ovl/checkpoint-1000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+fidcqg.bm25.ovl/checkpoint-2000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+fidcqg.contriever.ovl/checkpoint-4000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+fidcqg-w.bm25.ovl/checkpoint-3000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+fidcqg-w.contriever.ovl/checkpoint-1000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+fidcqg-w.contriever.ovl/checkpoint-2000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+fidcqg-w.contriever.ovl/checkpoint-4000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+fidcqg-w.contriever.ovl/checkpoint-4000/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+fidcqg.contriever.ovl/checkpoint-1000/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+fidcqg-w.bm25.ovl/checkpoint-1000/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+fidcqg-w.bm25.ovl/checkpoint-4000/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+fidcqg.bm25.ovl/checkpoint-2000/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+fidcqg-w.bm25.ovl/checkpoint-2000/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+fidcqg-w.bm25.ovl/checkpoint-3000/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+fidcqg.bm25.ovl/checkpoint-1000/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+fidcqg.contriever.ovl/checkpoint-3000/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+fidcqg.contriever.ovl/checkpoint-4000/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+fidcqg-w.contriever.ovl/checkpoint-1000/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+fidcqg-w.contriever.ovl/checkpoint-3000/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+fidcqg.bm25.ovl/checkpoint-4000/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+fidcqg.contriever.ovl/checkpoint-2000/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+fidcqg-w.contriever.ovl/checkpoint-2000/optimizer.pt filter=lfs diff=lfs merge=lfs -text
+fidcqg.bm25.ovl/checkpoint-3000/optimizer.pt filter=lfs diff=lfs merge=lfs -text

fidcqg-w.bm25.ovl/checkpoint-1000/config.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "_name_or_path": "google/flan-t5-base",
+  "architectures": [
+    "FiDT5"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 768,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 12,
+  "num_heads": 12,
+  "num_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 200,
+      "min_length": 30,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4,
+      "prefix": "summarize: "
+    },
+    "translation_en_to_de": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to German: "
+    },
+    "translation_en_to_fr": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to French: "
+    },
+    "translation_en_to_ro": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to Romanian: "
+    }
+  },
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.33.1",
+  "use_cache": true,
+  "vocab_size": 32128
+}

fidcqg-w.bm25.ovl/checkpoint-1000/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.33.1"
+}

fidcqg-w.bm25.ovl/checkpoint-1000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5305fa4a963f490beb1f2014ead68fbd6ea303cb9ed65e6007b314838cdc290e
+size 1980864314

fidcqg-w.bm25.ovl/checkpoint-1000/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d48a9f05ab163771fa9d0cdb3ffb33e22a1eefa98bec7bbf39594e09d78aa33f
+size 990411190

fidcqg-w.bm25.ovl/checkpoint-1000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0b6fee866ff0e9e84d430ccad22538c268fd4bd1e94aa0139d08221432de1fb2
+size 14244

fidcqg-w.bm25.ovl/checkpoint-1000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:29f16e8877a260f3646a902d1465bba512ed229506b1ffef90d66a3812690df7
+size 1064

fidcqg-w.bm25.ovl/checkpoint-1000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,107 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

fidcqg-w.bm25.ovl/checkpoint-1000/spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d60acb128cf7b7f2536e8f38a5b18a05535c9e14c7a355904270e15b0945ea86
+size 791656

fidcqg-w.bm25.ovl/checkpoint-1000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

fidcqg-w.bm25.ovl/checkpoint-1000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,112 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 100,
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>"
+}

fidcqg-w.bm25.ovl/checkpoint-1000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,191 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9337068160597572,
+  "eval_steps": 50,
+  "global_step": 1000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.05,
+      "eval_loss": 0.1086791530251503,
+      "eval_runtime": 3.1139,
+      "eval_samples_per_second": 32.114,
+      "eval_steps_per_second": 4.175,
+      "step": 50
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 0.10340642929077148,
+      "eval_runtime": 3.1088,
+      "eval_samples_per_second": 32.167,
+      "eval_steps_per_second": 4.182,
+      "step": 100
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 0.09758836030960083,
+      "eval_runtime": 3.1297,
+      "eval_samples_per_second": 31.952,
+      "eval_steps_per_second": 4.154,
+      "step": 150
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 0.09741945564746857,
+      "eval_runtime": 3.1428,
+      "eval_samples_per_second": 31.818,
+      "eval_steps_per_second": 4.136,
+      "step": 200
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 0.09413551539182663,
+      "eval_runtime": 3.1346,
+      "eval_samples_per_second": 31.902,
+      "eval_steps_per_second": 4.147,
+      "step": 250
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 0.09605029970407486,
+      "eval_runtime": 3.1389,
+      "eval_samples_per_second": 31.858,
+      "eval_steps_per_second": 4.142,
+      "step": 300
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 0.0930955782532692,
+      "eval_runtime": 3.1561,
+      "eval_samples_per_second": 31.685,
+      "eval_steps_per_second": 4.119,
+      "step": 350
+    },
+    {
+      "epoch": 0.37,
+      "eval_loss": 0.0926249772310257,
+      "eval_runtime": 3.1213,
+      "eval_samples_per_second": 32.038,
+      "eval_steps_per_second": 4.165,
+      "step": 400
+    },
+    {
+      "epoch": 0.42,
+      "eval_loss": 0.0899224504828453,
+      "eval_runtime": 3.1292,
+      "eval_samples_per_second": 31.957,
+      "eval_steps_per_second": 4.154,
+      "step": 450
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 8.75e-05,
+      "loss": 0.1297,
+      "step": 500
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 0.0851517766714096,
+      "eval_runtime": 3.1369,
+      "eval_samples_per_second": 31.879,
+      "eval_steps_per_second": 4.144,
+      "step": 500
+    },
+    {
+      "epoch": 0.51,
+      "eval_loss": 0.08426132053136826,
+      "eval_runtime": 3.1311,
+      "eval_samples_per_second": 31.938,
+      "eval_steps_per_second": 4.152,
+      "step": 550
+    },
+    {
+      "epoch": 0.56,
+      "eval_loss": 0.0841633602976799,
+      "eval_runtime": 3.1188,
+      "eval_samples_per_second": 32.064,
+      "eval_steps_per_second": 4.168,
+      "step": 600
+    },
+    {
+      "epoch": 0.61,
+      "eval_loss": 0.08286924660205841,
+      "eval_runtime": 3.1352,
+      "eval_samples_per_second": 31.896,
+      "eval_steps_per_second": 4.147,
+      "step": 650
+    },
+    {
+      "epoch": 0.65,
+      "eval_loss": 0.08303254097700119,
+      "eval_runtime": 3.1217,
+      "eval_samples_per_second": 32.034,
+      "eval_steps_per_second": 4.164,
+      "step": 700
+    },
+    {
+      "epoch": 0.7,
+      "eval_loss": 0.08298823982477188,
+      "eval_runtime": 3.152,
+      "eval_samples_per_second": 31.726,
+      "eval_steps_per_second": 4.124,
+      "step": 750
+    },
+    {
+      "epoch": 0.75,
+      "eval_loss": 0.08352884650230408,
+      "eval_runtime": 3.1051,
+      "eval_samples_per_second": 32.205,
+      "eval_steps_per_second": 4.187,
+      "step": 800
+    },
+    {
+      "epoch": 0.79,
+      "eval_loss": 0.0866646021604538,
+      "eval_runtime": 3.123,
+      "eval_samples_per_second": 32.02,
+      "eval_steps_per_second": 4.163,
+      "step": 850
+    },
+    {
+      "epoch": 0.84,
+      "eval_loss": 0.08790910989046097,
+      "eval_runtime": 3.1472,
+      "eval_samples_per_second": 31.774,
+      "eval_steps_per_second": 4.131,
+      "step": 900
+    },
+    {
+      "epoch": 0.89,
+      "eval_loss": 0.0884072408080101,
+      "eval_runtime": 3.1322,
+      "eval_samples_per_second": 31.926,
+      "eval_steps_per_second": 4.15,
+      "step": 950
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.1137,
+      "step": 1000
+    },
+    {
+      "epoch": 0.93,
+      "eval_loss": 0.08399125933647156,
+      "eval_runtime": 3.1237,
+      "eval_samples_per_second": 32.013,
+      "eval_steps_per_second": 4.162,
+      "step": 1000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 4000,
+  "num_train_epochs": 4,
+  "save_steps": 1000,
+  "total_flos": 1.369514704896e+16,
+  "trial_name": null,
+  "trial_params": null
+}

fidcqg-w.bm25.ovl/checkpoint-1000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7e0b693fa9a557850e0d9e5e5d28dff96299f9ff5818970ade2ffcab124d0a46
+size 4472

fidcqg-w.bm25.ovl/checkpoint-2000/config.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "_name_or_path": "google/flan-t5-base",
+  "architectures": [
+    "FiDT5"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 768,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 12,
+  "num_heads": 12,
+  "num_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 200,
+      "min_length": 30,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4,
+      "prefix": "summarize: "
+    },
+    "translation_en_to_de": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to German: "
+    },
+    "translation_en_to_fr": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to French: "
+    },
+    "translation_en_to_ro": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to Romanian: "
+    }
+  },
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.33.1",
+  "use_cache": true,
+  "vocab_size": 32128
+}

fidcqg-w.bm25.ovl/checkpoint-2000/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.33.1"
+}

fidcqg-w.bm25.ovl/checkpoint-2000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d3d0723970a60aa5cb7938baa253721ac87de3f0c6abcac81730ae47a0ea655
+size 1980864314

fidcqg-w.bm25.ovl/checkpoint-2000/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:28e727bc1016e55b04ed525815c25f6124bd87728521081fa5d6cd812d77c7cc
+size 990411190

fidcqg-w.bm25.ovl/checkpoint-2000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:33b3a5fac937d5b6fbd7b2dccdc3f7dff53ded9e8fb9112a2afc7b77a8b5f42b
+size 14244

fidcqg-w.bm25.ovl/checkpoint-2000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f7d7d609c5f51d27aa4e93204bb7672f9cd8ba6505480833f6b00d9eafcfc354
+size 1064

fidcqg-w.bm25.ovl/checkpoint-2000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,107 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

fidcqg-w.bm25.ovl/checkpoint-2000/spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d60acb128cf7b7f2536e8f38a5b18a05535c9e14c7a355904270e15b0945ea86
+size 791656

fidcqg-w.bm25.ovl/checkpoint-2000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

fidcqg-w.bm25.ovl/checkpoint-2000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,112 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 100,
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>"
+}

fidcqg-w.bm25.ovl/checkpoint-2000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,363 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.8674136321195145,
+  "eval_steps": 50,
+  "global_step": 2000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.05,
+      "eval_loss": 0.1086791530251503,
+      "eval_runtime": 3.1139,
+      "eval_samples_per_second": 32.114,
+      "eval_steps_per_second": 4.175,
+      "step": 50
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 0.10340642929077148,
+      "eval_runtime": 3.1088,
+      "eval_samples_per_second": 32.167,
+      "eval_steps_per_second": 4.182,
+      "step": 100
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 0.09758836030960083,
+      "eval_runtime": 3.1297,
+      "eval_samples_per_second": 31.952,
+      "eval_steps_per_second": 4.154,
+      "step": 150
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 0.09741945564746857,
+      "eval_runtime": 3.1428,
+      "eval_samples_per_second": 31.818,
+      "eval_steps_per_second": 4.136,
+      "step": 200
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 0.09413551539182663,
+      "eval_runtime": 3.1346,
+      "eval_samples_per_second": 31.902,
+      "eval_steps_per_second": 4.147,
+      "step": 250
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 0.09605029970407486,
+      "eval_runtime": 3.1389,
+      "eval_samples_per_second": 31.858,
+      "eval_steps_per_second": 4.142,
+      "step": 300
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 0.0930955782532692,
+      "eval_runtime": 3.1561,
+      "eval_samples_per_second": 31.685,
+      "eval_steps_per_second": 4.119,
+      "step": 350
+    },
+    {
+      "epoch": 0.37,
+      "eval_loss": 0.0926249772310257,
+      "eval_runtime": 3.1213,
+      "eval_samples_per_second": 32.038,
+      "eval_steps_per_second": 4.165,
+      "step": 400
+    },
+    {
+      "epoch": 0.42,
+      "eval_loss": 0.0899224504828453,
+      "eval_runtime": 3.1292,
+      "eval_samples_per_second": 31.957,
+      "eval_steps_per_second": 4.154,
+      "step": 450
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 8.75e-05,
+      "loss": 0.1297,
+      "step": 500
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 0.0851517766714096,
+      "eval_runtime": 3.1369,
+      "eval_samples_per_second": 31.879,
+      "eval_steps_per_second": 4.144,
+      "step": 500
+    },
+    {
+      "epoch": 0.51,
+      "eval_loss": 0.08426132053136826,
+      "eval_runtime": 3.1311,
+      "eval_samples_per_second": 31.938,
+      "eval_steps_per_second": 4.152,
+      "step": 550
+    },
+    {
+      "epoch": 0.56,
+      "eval_loss": 0.0841633602976799,
+      "eval_runtime": 3.1188,
+      "eval_samples_per_second": 32.064,
+      "eval_steps_per_second": 4.168,
+      "step": 600
+    },
+    {
+      "epoch": 0.61,
+      "eval_loss": 0.08286924660205841,
+      "eval_runtime": 3.1352,
+      "eval_samples_per_second": 31.896,
+      "eval_steps_per_second": 4.147,
+      "step": 650
+    },
+    {
+      "epoch": 0.65,
+      "eval_loss": 0.08303254097700119,
+      "eval_runtime": 3.1217,
+      "eval_samples_per_second": 32.034,
+      "eval_steps_per_second": 4.164,
+      "step": 700
+    },
+    {
+      "epoch": 0.7,
+      "eval_loss": 0.08298823982477188,
+      "eval_runtime": 3.152,
+      "eval_samples_per_second": 31.726,
+      "eval_steps_per_second": 4.124,
+      "step": 750
+    },
+    {
+      "epoch": 0.75,
+      "eval_loss": 0.08352884650230408,
+      "eval_runtime": 3.1051,
+      "eval_samples_per_second": 32.205,
+      "eval_steps_per_second": 4.187,
+      "step": 800
+    },
+    {
+      "epoch": 0.79,
+      "eval_loss": 0.0866646021604538,
+      "eval_runtime": 3.123,
+      "eval_samples_per_second": 32.02,
+      "eval_steps_per_second": 4.163,
+      "step": 850
+    },
+    {
+      "epoch": 0.84,
+      "eval_loss": 0.08790910989046097,
+      "eval_runtime": 3.1472,
+      "eval_samples_per_second": 31.774,
+      "eval_steps_per_second": 4.131,
+      "step": 900
+    },
+    {
+      "epoch": 0.89,
+      "eval_loss": 0.0884072408080101,
+      "eval_runtime": 3.1322,
+      "eval_samples_per_second": 31.926,
+      "eval_steps_per_second": 4.15,
+      "step": 950
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.1137,
+      "step": 1000
+    },
+    {
+      "epoch": 0.93,
+      "eval_loss": 0.08399125933647156,
+      "eval_runtime": 3.1237,
+      "eval_samples_per_second": 32.013,
+      "eval_steps_per_second": 4.162,
+      "step": 1000
+    },
+    {
+      "epoch": 0.98,
+      "eval_loss": 0.08606167882680893,
+      "eval_runtime": 3.1401,
+      "eval_samples_per_second": 31.846,
+      "eval_steps_per_second": 4.14,
+      "step": 1050
+    },
+    {
+      "epoch": 1.03,
+      "eval_loss": 0.08386250585317612,
+      "eval_runtime": 3.0992,
+      "eval_samples_per_second": 32.267,
+      "eval_steps_per_second": 4.195,
+      "step": 1100
+    },
+    {
+      "epoch": 1.07,
+      "eval_loss": 0.08104114234447479,
+      "eval_runtime": 3.1205,
+      "eval_samples_per_second": 32.046,
+      "eval_steps_per_second": 4.166,
+      "step": 1150
+    },
+    {
+      "epoch": 1.12,
+      "eval_loss": 0.08137733489274979,
+      "eval_runtime": 3.1344,
+      "eval_samples_per_second": 31.904,
+      "eval_steps_per_second": 4.148,
+      "step": 1200
+    },
+    {
+      "epoch": 1.17,
+      "eval_loss": 0.08145874738693237,
+      "eval_runtime": 3.1106,
+      "eval_samples_per_second": 32.148,
+      "eval_steps_per_second": 4.179,
+      "step": 1250
+    },
+    {
+      "epoch": 1.21,
+      "eval_loss": 0.0812147930264473,
+      "eval_runtime": 3.1172,
+      "eval_samples_per_second": 32.08,
+      "eval_steps_per_second": 4.17,
+      "step": 1300
+    },
+    {
+      "epoch": 1.26,
+      "eval_loss": 0.0826956108212471,
+      "eval_runtime": 3.1201,
+      "eval_samples_per_second": 32.05,
+      "eval_steps_per_second": 4.167,
+      "step": 1350
+    },
+    {
+      "epoch": 1.31,
+      "eval_loss": 0.08307519555091858,
+      "eval_runtime": 3.1328,
+      "eval_samples_per_second": 31.92,
+      "eval_steps_per_second": 4.15,
+      "step": 1400
+    },
+    {
+      "epoch": 1.35,
+      "eval_loss": 0.07891510426998138,
+      "eval_runtime": 3.1304,
+      "eval_samples_per_second": 31.945,
+      "eval_steps_per_second": 4.153,
+      "step": 1450
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 6.25e-05,
+      "loss": 0.0976,
+      "step": 1500
+    },
+    {
+      "epoch": 1.4,
+      "eval_loss": 0.07503539323806763,
+      "eval_runtime": 3.1408,
+      "eval_samples_per_second": 31.839,
+      "eval_steps_per_second": 4.139,
+      "step": 1500
+    },
+    {
+      "epoch": 1.45,
+      "eval_loss": 0.07038568705320358,
+      "eval_runtime": 3.1598,
+      "eval_samples_per_second": 31.647,
+      "eval_steps_per_second": 4.114,
+      "step": 1550
+    },
+    {
+      "epoch": 1.49,
+      "eval_loss": 0.07097797840833664,
+      "eval_runtime": 3.1403,
+      "eval_samples_per_second": 31.844,
+      "eval_steps_per_second": 4.14,
+      "step": 1600
+    },
+    {
+      "epoch": 1.54,
+      "eval_loss": 0.07105908542871475,
+      "eval_runtime": 3.1203,
+      "eval_samples_per_second": 32.048,
+      "eval_steps_per_second": 4.166,
+      "step": 1650
+    },
+    {
+      "epoch": 1.59,
+      "eval_loss": 0.06974442303180695,
+      "eval_runtime": 3.1279,
+      "eval_samples_per_second": 31.97,
+      "eval_steps_per_second": 4.156,
+      "step": 1700
+    },
+    {
+      "epoch": 1.63,
+      "eval_loss": 0.07010236382484436,
+      "eval_runtime": 3.1368,
+      "eval_samples_per_second": 31.88,
+      "eval_steps_per_second": 4.144,
+      "step": 1750
+    },
+    {
+      "epoch": 1.68,
+      "eval_loss": 0.06847620010375977,
+      "eval_runtime": 3.1578,
+      "eval_samples_per_second": 31.667,
+      "eval_steps_per_second": 4.117,
+      "step": 1800
+    },
+    {
+      "epoch": 1.73,
+      "eval_loss": 0.06789014488458633,
+      "eval_runtime": 3.1274,
+      "eval_samples_per_second": 31.975,
+      "eval_steps_per_second": 4.157,
+      "step": 1850
+    },
+    {
+      "epoch": 1.77,
+      "eval_loss": 0.06896524131298065,
+      "eval_runtime": 3.1488,
+      "eval_samples_per_second": 31.758,
+      "eval_steps_per_second": 4.129,
+      "step": 1900
+    },
+    {
+      "epoch": 1.82,
+      "eval_loss": 0.06796181946992874,
+      "eval_runtime": 3.1466,
+      "eval_samples_per_second": 31.78,
+      "eval_steps_per_second": 4.131,
+      "step": 1950
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 5e-05,
+      "loss": 0.0908,
+      "step": 2000
+    },
+    {
+      "epoch": 1.87,
+      "eval_loss": 0.06683148443698883,
+      "eval_runtime": 3.129,
+      "eval_samples_per_second": 31.959,
+      "eval_steps_per_second": 4.155,
+      "step": 2000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 4000,
+  "num_train_epochs": 4,
+  "save_steps": 1000,
+  "total_flos": 2.738687031115776e+16,
+  "trial_name": null,
+  "trial_params": null
+}

fidcqg-w.bm25.ovl/checkpoint-2000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7e0b693fa9a557850e0d9e5e5d28dff96299f9ff5818970ade2ffcab124d0a46
+size 4472

fidcqg-w.bm25.ovl/checkpoint-3000/config.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "_name_or_path": "google/flan-t5-base",
+  "architectures": [
+    "FiDT5"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 768,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 12,
+  "num_heads": 12,
+  "num_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 200,
+      "min_length": 30,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4,
+      "prefix": "summarize: "
+    },
+    "translation_en_to_de": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to German: "
+    },
+    "translation_en_to_fr": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to French: "
+    },
+    "translation_en_to_ro": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to Romanian: "
+    }
+  },
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.33.1",
+  "use_cache": true,
+  "vocab_size": 32128
+}

fidcqg-w.bm25.ovl/checkpoint-3000/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.33.1"
+}

fidcqg-w.bm25.ovl/checkpoint-3000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f20ccbb7e2ccba53a5b205ce8d96932878f36bb9e35c8499ed5aebe31fe2b94
+size 1980864314

fidcqg-w.bm25.ovl/checkpoint-3000/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2ecdb8b5384c3ae125b61b418f7ef187ed642bd56f2f05021d0d099ed3da00c0
+size 990411190

fidcqg-w.bm25.ovl/checkpoint-3000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c34064fb12a61cdc40c646f4a2f46e45badd4ea204efe9e4e6898f86d663ecb1
+size 14244

fidcqg-w.bm25.ovl/checkpoint-3000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b7dfdc9f23d51c490e7b346dcfaf8b269e02a4521e318efd39e6b7d0d1ec3ac9
+size 1064

fidcqg-w.bm25.ovl/checkpoint-3000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,107 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

fidcqg-w.bm25.ovl/checkpoint-3000/spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d60acb128cf7b7f2536e8f38a5b18a05535c9e14c7a355904270e15b0945ea86
+size 791656

fidcqg-w.bm25.ovl/checkpoint-3000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

fidcqg-w.bm25.ovl/checkpoint-3000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,112 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 100,
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>"
+}

fidcqg-w.bm25.ovl/checkpoint-3000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,535 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.8011204481792715,
+  "eval_steps": 50,
+  "global_step": 3000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.05,
+      "eval_loss": 0.1086791530251503,
+      "eval_runtime": 3.1139,
+      "eval_samples_per_second": 32.114,
+      "eval_steps_per_second": 4.175,
+      "step": 50
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 0.10340642929077148,
+      "eval_runtime": 3.1088,
+      "eval_samples_per_second": 32.167,
+      "eval_steps_per_second": 4.182,
+      "step": 100
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 0.09758836030960083,
+      "eval_runtime": 3.1297,
+      "eval_samples_per_second": 31.952,
+      "eval_steps_per_second": 4.154,
+      "step": 150
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 0.09741945564746857,
+      "eval_runtime": 3.1428,
+      "eval_samples_per_second": 31.818,
+      "eval_steps_per_second": 4.136,
+      "step": 200
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 0.09413551539182663,
+      "eval_runtime": 3.1346,
+      "eval_samples_per_second": 31.902,
+      "eval_steps_per_second": 4.147,
+      "step": 250
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 0.09605029970407486,
+      "eval_runtime": 3.1389,
+      "eval_samples_per_second": 31.858,
+      "eval_steps_per_second": 4.142,
+      "step": 300
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 0.0930955782532692,
+      "eval_runtime": 3.1561,
+      "eval_samples_per_second": 31.685,
+      "eval_steps_per_second": 4.119,
+      "step": 350
+    },
+    {
+      "epoch": 0.37,
+      "eval_loss": 0.0926249772310257,
+      "eval_runtime": 3.1213,
+      "eval_samples_per_second": 32.038,
+      "eval_steps_per_second": 4.165,
+      "step": 400
+    },
+    {
+      "epoch": 0.42,
+      "eval_loss": 0.0899224504828453,
+      "eval_runtime": 3.1292,
+      "eval_samples_per_second": 31.957,
+      "eval_steps_per_second": 4.154,
+      "step": 450
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 8.75e-05,
+      "loss": 0.1297,
+      "step": 500
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 0.0851517766714096,
+      "eval_runtime": 3.1369,
+      "eval_samples_per_second": 31.879,
+      "eval_steps_per_second": 4.144,
+      "step": 500
+    },
+    {
+      "epoch": 0.51,
+      "eval_loss": 0.08426132053136826,
+      "eval_runtime": 3.1311,
+      "eval_samples_per_second": 31.938,
+      "eval_steps_per_second": 4.152,
+      "step": 550
+    },
+    {
+      "epoch": 0.56,
+      "eval_loss": 0.0841633602976799,
+      "eval_runtime": 3.1188,
+      "eval_samples_per_second": 32.064,
+      "eval_steps_per_second": 4.168,
+      "step": 600
+    },
+    {
+      "epoch": 0.61,
+      "eval_loss": 0.08286924660205841,
+      "eval_runtime": 3.1352,
+      "eval_samples_per_second": 31.896,
+      "eval_steps_per_second": 4.147,
+      "step": 650
+    },
+    {
+      "epoch": 0.65,
+      "eval_loss": 0.08303254097700119,
+      "eval_runtime": 3.1217,
+      "eval_samples_per_second": 32.034,
+      "eval_steps_per_second": 4.164,
+      "step": 700
+    },
+    {
+      "epoch": 0.7,
+      "eval_loss": 0.08298823982477188,
+      "eval_runtime": 3.152,
+      "eval_samples_per_second": 31.726,
+      "eval_steps_per_second": 4.124,
+      "step": 750
+    },
+    {
+      "epoch": 0.75,
+      "eval_loss": 0.08352884650230408,
+      "eval_runtime": 3.1051,
+      "eval_samples_per_second": 32.205,
+      "eval_steps_per_second": 4.187,
+      "step": 800
+    },
+    {
+      "epoch": 0.79,
+      "eval_loss": 0.0866646021604538,
+      "eval_runtime": 3.123,
+      "eval_samples_per_second": 32.02,
+      "eval_steps_per_second": 4.163,
+      "step": 850
+    },
+    {
+      "epoch": 0.84,
+      "eval_loss": 0.08790910989046097,
+      "eval_runtime": 3.1472,
+      "eval_samples_per_second": 31.774,
+      "eval_steps_per_second": 4.131,
+      "step": 900
+    },
+    {
+      "epoch": 0.89,
+      "eval_loss": 0.0884072408080101,
+      "eval_runtime": 3.1322,
+      "eval_samples_per_second": 31.926,
+      "eval_steps_per_second": 4.15,
+      "step": 950
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.1137,
+      "step": 1000
+    },
+    {
+      "epoch": 0.93,
+      "eval_loss": 0.08399125933647156,
+      "eval_runtime": 3.1237,
+      "eval_samples_per_second": 32.013,
+      "eval_steps_per_second": 4.162,
+      "step": 1000
+    },
+    {
+      "epoch": 0.98,
+      "eval_loss": 0.08606167882680893,
+      "eval_runtime": 3.1401,
+      "eval_samples_per_second": 31.846,
+      "eval_steps_per_second": 4.14,
+      "step": 1050
+    },
+    {
+      "epoch": 1.03,
+      "eval_loss": 0.08386250585317612,
+      "eval_runtime": 3.0992,
+      "eval_samples_per_second": 32.267,
+      "eval_steps_per_second": 4.195,
+      "step": 1100
+    },
+    {
+      "epoch": 1.07,
+      "eval_loss": 0.08104114234447479,
+      "eval_runtime": 3.1205,
+      "eval_samples_per_second": 32.046,
+      "eval_steps_per_second": 4.166,
+      "step": 1150
+    },
+    {
+      "epoch": 1.12,
+      "eval_loss": 0.08137733489274979,
+      "eval_runtime": 3.1344,
+      "eval_samples_per_second": 31.904,
+      "eval_steps_per_second": 4.148,
+      "step": 1200
+    },
+    {
+      "epoch": 1.17,
+      "eval_loss": 0.08145874738693237,
+      "eval_runtime": 3.1106,
+      "eval_samples_per_second": 32.148,
+      "eval_steps_per_second": 4.179,
+      "step": 1250
+    },
+    {
+      "epoch": 1.21,
+      "eval_loss": 0.0812147930264473,
+      "eval_runtime": 3.1172,
+      "eval_samples_per_second": 32.08,
+      "eval_steps_per_second": 4.17,
+      "step": 1300
+    },
+    {
+      "epoch": 1.26,
+      "eval_loss": 0.0826956108212471,
+      "eval_runtime": 3.1201,
+      "eval_samples_per_second": 32.05,
+      "eval_steps_per_second": 4.167,
+      "step": 1350
+    },
+    {
+      "epoch": 1.31,
+      "eval_loss": 0.08307519555091858,
+      "eval_runtime": 3.1328,
+      "eval_samples_per_second": 31.92,
+      "eval_steps_per_second": 4.15,
+      "step": 1400
+    },
+    {
+      "epoch": 1.35,
+      "eval_loss": 0.07891510426998138,
+      "eval_runtime": 3.1304,
+      "eval_samples_per_second": 31.945,
+      "eval_steps_per_second": 4.153,
+      "step": 1450
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 6.25e-05,
+      "loss": 0.0976,
+      "step": 1500
+    },
+    {
+      "epoch": 1.4,
+      "eval_loss": 0.07503539323806763,
+      "eval_runtime": 3.1408,
+      "eval_samples_per_second": 31.839,
+      "eval_steps_per_second": 4.139,
+      "step": 1500
+    },
+    {
+      "epoch": 1.45,
+      "eval_loss": 0.07038568705320358,
+      "eval_runtime": 3.1598,
+      "eval_samples_per_second": 31.647,
+      "eval_steps_per_second": 4.114,
+      "step": 1550
+    },
+    {
+      "epoch": 1.49,
+      "eval_loss": 0.07097797840833664,
+      "eval_runtime": 3.1403,
+      "eval_samples_per_second": 31.844,
+      "eval_steps_per_second": 4.14,
+      "step": 1600
+    },
+    {
+      "epoch": 1.54,
+      "eval_loss": 0.07105908542871475,
+      "eval_runtime": 3.1203,
+      "eval_samples_per_second": 32.048,
+      "eval_steps_per_second": 4.166,
+      "step": 1650
+    },
+    {
+      "epoch": 1.59,
+      "eval_loss": 0.06974442303180695,
+      "eval_runtime": 3.1279,
+      "eval_samples_per_second": 31.97,
+      "eval_steps_per_second": 4.156,
+      "step": 1700
+    },
+    {
+      "epoch": 1.63,
+      "eval_loss": 0.07010236382484436,
+      "eval_runtime": 3.1368,
+      "eval_samples_per_second": 31.88,
+      "eval_steps_per_second": 4.144,
+      "step": 1750
+    },
+    {
+      "epoch": 1.68,
+      "eval_loss": 0.06847620010375977,
+      "eval_runtime": 3.1578,
+      "eval_samples_per_second": 31.667,
+      "eval_steps_per_second": 4.117,
+      "step": 1800
+    },
+    {
+      "epoch": 1.73,
+      "eval_loss": 0.06789014488458633,
+      "eval_runtime": 3.1274,
+      "eval_samples_per_second": 31.975,
+      "eval_steps_per_second": 4.157,
+      "step": 1850
+    },
+    {
+      "epoch": 1.77,
+      "eval_loss": 0.06896524131298065,
+      "eval_runtime": 3.1488,
+      "eval_samples_per_second": 31.758,
+      "eval_steps_per_second": 4.129,
+      "step": 1900
+    },
+    {
+      "epoch": 1.82,
+      "eval_loss": 0.06796181946992874,
+      "eval_runtime": 3.1466,
+      "eval_samples_per_second": 31.78,
+      "eval_steps_per_second": 4.131,
+      "step": 1950
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 5e-05,
+      "loss": 0.0908,
+      "step": 2000
+    },
+    {
+      "epoch": 1.87,
+      "eval_loss": 0.06683148443698883,
+      "eval_runtime": 3.129,
+      "eval_samples_per_second": 31.959,
+      "eval_steps_per_second": 4.155,
+      "step": 2000
+    },
+    {
+      "epoch": 1.91,
+      "eval_loss": 0.06748585402965546,
+      "eval_runtime": 3.1569,
+      "eval_samples_per_second": 31.677,
+      "eval_steps_per_second": 4.118,
+      "step": 2050
+    },
+    {
+      "epoch": 1.96,
+      "eval_loss": 0.0658925473690033,
+      "eval_runtime": 3.1104,
+      "eval_samples_per_second": 32.15,
+      "eval_steps_per_second": 4.179,
+      "step": 2100
+    },
+    {
+      "epoch": 2.01,
+      "eval_loss": 0.06645894795656204,
+      "eval_runtime": 3.1539,
+      "eval_samples_per_second": 31.707,
+      "eval_steps_per_second": 4.122,
+      "step": 2150
+    },
+    {
+      "epoch": 2.05,
+      "eval_loss": 0.06568010151386261,
+      "eval_runtime": 3.1514,
+      "eval_samples_per_second": 31.732,
+      "eval_steps_per_second": 4.125,
+      "step": 2200
+    },
+    {
+      "epoch": 2.1,
+      "eval_loss": 0.06631560623645782,
+      "eval_runtime": 3.1507,
+      "eval_samples_per_second": 31.739,
+      "eval_steps_per_second": 4.126,
+      "step": 2250
+    },
+    {
+      "epoch": 2.15,
+      "eval_loss": 0.0654822364449501,
+      "eval_runtime": 3.126,
+      "eval_samples_per_second": 31.99,
+      "eval_steps_per_second": 4.159,
+      "step": 2300
+    },
+    {
+      "epoch": 2.19,
+      "eval_loss": 0.06477805972099304,
+      "eval_runtime": 3.1161,
+      "eval_samples_per_second": 32.091,
+      "eval_steps_per_second": 4.172,
+      "step": 2350
+    },
+    {
+      "epoch": 2.24,
+      "eval_loss": 0.06473308056592941,
+      "eval_runtime": 3.1081,
+      "eval_samples_per_second": 32.174,
+      "eval_steps_per_second": 4.183,
+      "step": 2400
+    },
+    {
+      "epoch": 2.29,
+      "eval_loss": 0.06430035084486008,
+      "eval_runtime": 3.1132,
+      "eval_samples_per_second": 32.122,
+      "eval_steps_per_second": 4.176,
+      "step": 2450
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.0834,
+      "step": 2500
+    },
+    {
+      "epoch": 2.33,
+      "eval_loss": 0.06514698266983032,
+      "eval_runtime": 3.1384,
+      "eval_samples_per_second": 31.864,
+      "eval_steps_per_second": 4.142,
+      "step": 2500
+    },
+    {
+      "epoch": 2.38,
+      "eval_loss": 0.06523197889328003,
+      "eval_runtime": 3.1317,
+      "eval_samples_per_second": 31.931,
+      "eval_steps_per_second": 4.151,
+      "step": 2550
+    },
+    {
+      "epoch": 2.43,
+      "eval_loss": 0.06412862241268158,
+      "eval_runtime": 3.1428,
+      "eval_samples_per_second": 31.819,
+      "eval_steps_per_second": 4.136,
+      "step": 2600
+    },
+    {
+      "epoch": 2.47,
+      "eval_loss": 0.06405303627252579,
+      "eval_runtime": 3.1189,
+      "eval_samples_per_second": 32.063,
+      "eval_steps_per_second": 4.168,
+      "step": 2650
+    },
+    {
+      "epoch": 2.52,
+      "eval_loss": 0.06433818489313126,
+      "eval_runtime": 3.111,
+      "eval_samples_per_second": 32.144,
+      "eval_steps_per_second": 4.179,
+      "step": 2700
+    },
+    {
+      "epoch": 2.57,
+      "eval_loss": 0.06326718628406525,
+      "eval_runtime": 3.1324,
+      "eval_samples_per_second": 31.924,
+      "eval_steps_per_second": 4.15,
+      "step": 2750
+    },
+    {
+      "epoch": 2.61,
+      "eval_loss": 0.06264257431030273,
+      "eval_runtime": 3.1015,
+      "eval_samples_per_second": 32.242,
+      "eval_steps_per_second": 4.192,
+      "step": 2800
+    },
+    {
+      "epoch": 2.66,
+      "eval_loss": 0.062052369117736816,
+      "eval_runtime": 3.1266,
+      "eval_samples_per_second": 31.983,
+      "eval_steps_per_second": 4.158,
+      "step": 2850
+    },
+    {
+      "epoch": 2.71,
+      "eval_loss": 0.06084759160876274,
+      "eval_runtime": 3.1309,
+      "eval_samples_per_second": 31.939,
+      "eval_steps_per_second": 4.152,
+      "step": 2900
+    },
+    {
+      "epoch": 2.75,
+      "eval_loss": 0.05937306955456734,
+      "eval_runtime": 3.1327,
+      "eval_samples_per_second": 31.921,
+      "eval_steps_per_second": 4.15,
+      "step": 2950
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 2.5e-05,
+      "loss": 0.076,
+      "step": 3000
+    },
+    {
+      "epoch": 2.8,
+      "eval_loss": 0.05866905301809311,
+      "eval_runtime": 3.1113,
+      "eval_samples_per_second": 32.14,
+      "eval_steps_per_second": 4.178,
+      "step": 3000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 4000,
+  "num_train_epochs": 4,
+  "save_steps": 1000,
+  "total_flos": 4.107859357335552e+16,
+  "trial_name": null,
+  "trial_params": null
+}

fidcqg-w.bm25.ovl/checkpoint-3000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7e0b693fa9a557850e0d9e5e5d28dff96299f9ff5818970ade2ffcab124d0a46
+size 4472

fidcqg-w.bm25.ovl/checkpoint-4000/config.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "_name_or_path": "google/flan-t5-base",
+  "architectures": [
+    "FiDT5"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 768,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 12,
+  "num_heads": 12,
+  "num_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 200,
+      "min_length": 30,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4,
+      "prefix": "summarize: "
+    },
+    "translation_en_to_de": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to German: "
+    },
+    "translation_en_to_fr": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to French: "
+    },
+    "translation_en_to_ro": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to Romanian: "
+    }
+  },
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.33.1",
+  "use_cache": true,
+  "vocab_size": 32128
+}

fidcqg-w.bm25.ovl/checkpoint-4000/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.33.1"
+}

fidcqg-w.bm25.ovl/checkpoint-4000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:499d0c3ec52912028139ef3026f93acddf4bef81d00ee0a5b721bd4cab7b3cad
+size 1980864314

fidcqg-w.bm25.ovl/checkpoint-4000/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:987d2414abaed565b182e33882440d28a6339b1a3cf41bbed8a202942737b03e
+size 990411190

fidcqg-w.bm25.ovl/checkpoint-4000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0c1a39aee7bc53d989d0b20b7504693b975df9de1691257cfbde4ad897b3849a
+size 14244

fidcqg-w.bm25.ovl/checkpoint-4000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:19b2629bc0bd8daaa99d91d86714f96b66f12a2bb2230a803ab28a5a80c623c3
+size 1064

fidcqg-w.bm25.ovl/checkpoint-4000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,107 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

fidcqg-w.bm25.ovl/checkpoint-4000/spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d60acb128cf7b7f2536e8f38a5b18a05535c9e14c7a355904270e15b0945ea86
+size 791656

fidcqg-w.bm25.ovl/checkpoint-4000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

fidcqg-w.bm25.ovl/checkpoint-4000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,112 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 100,
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>"
+}

fidcqg-w.bm25.ovl/checkpoint-4000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,707 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.734827264239029,
+  "eval_steps": 50,
+  "global_step": 4000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.05,
+      "eval_loss": 0.1086791530251503,
+      "eval_runtime": 3.1139,
+      "eval_samples_per_second": 32.114,
+      "eval_steps_per_second": 4.175,
+      "step": 50
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 0.10340642929077148,
+      "eval_runtime": 3.1088,
+      "eval_samples_per_second": 32.167,
+      "eval_steps_per_second": 4.182,
+      "step": 100
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 0.09758836030960083,
+      "eval_runtime": 3.1297,
+      "eval_samples_per_second": 31.952,
+      "eval_steps_per_second": 4.154,
+      "step": 150
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 0.09741945564746857,
+      "eval_runtime": 3.1428,
+      "eval_samples_per_second": 31.818,
+      "eval_steps_per_second": 4.136,
+      "step": 200
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 0.09413551539182663,
+      "eval_runtime": 3.1346,
+      "eval_samples_per_second": 31.902,
+      "eval_steps_per_second": 4.147,
+      "step": 250
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 0.09605029970407486,
+      "eval_runtime": 3.1389,
+      "eval_samples_per_second": 31.858,
+      "eval_steps_per_second": 4.142,
+      "step": 300
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 0.0930955782532692,
+      "eval_runtime": 3.1561,
+      "eval_samples_per_second": 31.685,
+      "eval_steps_per_second": 4.119,
+      "step": 350
+    },
+    {
+      "epoch": 0.37,
+      "eval_loss": 0.0926249772310257,
+      "eval_runtime": 3.1213,
+      "eval_samples_per_second": 32.038,
+      "eval_steps_per_second": 4.165,
+      "step": 400
+    },
+    {
+      "epoch": 0.42,
+      "eval_loss": 0.0899224504828453,
+      "eval_runtime": 3.1292,
+      "eval_samples_per_second": 31.957,
+      "eval_steps_per_second": 4.154,
+      "step": 450
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 8.75e-05,
+      "loss": 0.1297,
+      "step": 500
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 0.0851517766714096,
+      "eval_runtime": 3.1369,
+      "eval_samples_per_second": 31.879,
+      "eval_steps_per_second": 4.144,
+      "step": 500
+    },
+    {
+      "epoch": 0.51,
+      "eval_loss": 0.08426132053136826,
+      "eval_runtime": 3.1311,
+      "eval_samples_per_second": 31.938,
+      "eval_steps_per_second": 4.152,
+      "step": 550
+    },
+    {
+      "epoch": 0.56,
+      "eval_loss": 0.0841633602976799,
+      "eval_runtime": 3.1188,
+      "eval_samples_per_second": 32.064,
+      "eval_steps_per_second": 4.168,
+      "step": 600
+    },
+    {
+      "epoch": 0.61,
+      "eval_loss": 0.08286924660205841,
+      "eval_runtime": 3.1352,
+      "eval_samples_per_second": 31.896,
+      "eval_steps_per_second": 4.147,
+      "step": 650
+    },
+    {
+      "epoch": 0.65,
+      "eval_loss": 0.08303254097700119,
+      "eval_runtime": 3.1217,
+      "eval_samples_per_second": 32.034,
+      "eval_steps_per_second": 4.164,
+      "step": 700
+    },
+    {
+      "epoch": 0.7,
+      "eval_loss": 0.08298823982477188,
+      "eval_runtime": 3.152,
+      "eval_samples_per_second": 31.726,
+      "eval_steps_per_second": 4.124,
+      "step": 750
+    },
+    {
+      "epoch": 0.75,
+      "eval_loss": 0.08352884650230408,
+      "eval_runtime": 3.1051,
+      "eval_samples_per_second": 32.205,
+      "eval_steps_per_second": 4.187,
+      "step": 800
+    },
+    {
+      "epoch": 0.79,
+      "eval_loss": 0.0866646021604538,
+      "eval_runtime": 3.123,
+      "eval_samples_per_second": 32.02,
+      "eval_steps_per_second": 4.163,
+      "step": 850
+    },
+    {
+      "epoch": 0.84,
+      "eval_loss": 0.08790910989046097,
+      "eval_runtime": 3.1472,
+      "eval_samples_per_second": 31.774,
+      "eval_steps_per_second": 4.131,
+      "step": 900
+    },
+    {
+      "epoch": 0.89,
+      "eval_loss": 0.0884072408080101,
+      "eval_runtime": 3.1322,
+      "eval_samples_per_second": 31.926,
+      "eval_steps_per_second": 4.15,
+      "step": 950
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.1137,
+      "step": 1000
+    },
+    {
+      "epoch": 0.93,
+      "eval_loss": 0.08399125933647156,
+      "eval_runtime": 3.1237,
+      "eval_samples_per_second": 32.013,
+      "eval_steps_per_second": 4.162,
+      "step": 1000
+    },
+    {
+      "epoch": 0.98,
+      "eval_loss": 0.08606167882680893,
+      "eval_runtime": 3.1401,
+      "eval_samples_per_second": 31.846,
+      "eval_steps_per_second": 4.14,
+      "step": 1050
+    },
+    {
+      "epoch": 1.03,
+      "eval_loss": 0.08386250585317612,
+      "eval_runtime": 3.0992,
+      "eval_samples_per_second": 32.267,
+      "eval_steps_per_second": 4.195,
+      "step": 1100
+    },
+    {
+      "epoch": 1.07,
+      "eval_loss": 0.08104114234447479,
+      "eval_runtime": 3.1205,
+      "eval_samples_per_second": 32.046,
+      "eval_steps_per_second": 4.166,
+      "step": 1150
+    },
+    {
+      "epoch": 1.12,
+      "eval_loss": 0.08137733489274979,
+      "eval_runtime": 3.1344,
+      "eval_samples_per_second": 31.904,
+      "eval_steps_per_second": 4.148,
+      "step": 1200
+    },
+    {
+      "epoch": 1.17,
+      "eval_loss": 0.08145874738693237,
+      "eval_runtime": 3.1106,
+      "eval_samples_per_second": 32.148,
+      "eval_steps_per_second": 4.179,
+      "step": 1250
+    },
+    {
+      "epoch": 1.21,
+      "eval_loss": 0.0812147930264473,
+      "eval_runtime": 3.1172,
+      "eval_samples_per_second": 32.08,
+      "eval_steps_per_second": 4.17,
+      "step": 1300
+    },
+    {
+      "epoch": 1.26,
+      "eval_loss": 0.0826956108212471,
+      "eval_runtime": 3.1201,
+      "eval_samples_per_second": 32.05,
+      "eval_steps_per_second": 4.167,
+      "step": 1350
+    },
+    {
+      "epoch": 1.31,
+      "eval_loss": 0.08307519555091858,
+      "eval_runtime": 3.1328,
+      "eval_samples_per_second": 31.92,
+      "eval_steps_per_second": 4.15,
+      "step": 1400
+    },
+    {
+      "epoch": 1.35,
+      "eval_loss": 0.07891510426998138,
+      "eval_runtime": 3.1304,
+      "eval_samples_per_second": 31.945,
+      "eval_steps_per_second": 4.153,
+      "step": 1450
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 6.25e-05,
+      "loss": 0.0976,
+      "step": 1500
+    },
+    {
+      "epoch": 1.4,
+      "eval_loss": 0.07503539323806763,
+      "eval_runtime": 3.1408,
+      "eval_samples_per_second": 31.839,
+      "eval_steps_per_second": 4.139,
+      "step": 1500
+    },
+    {
+      "epoch": 1.45,
+      "eval_loss": 0.07038568705320358,
+      "eval_runtime": 3.1598,
+      "eval_samples_per_second": 31.647,
+      "eval_steps_per_second": 4.114,
+      "step": 1550
+    },
+    {
+      "epoch": 1.49,
+      "eval_loss": 0.07097797840833664,
+      "eval_runtime": 3.1403,
+      "eval_samples_per_second": 31.844,
+      "eval_steps_per_second": 4.14,
+      "step": 1600
+    },
+    {
+      "epoch": 1.54,
+      "eval_loss": 0.07105908542871475,
+      "eval_runtime": 3.1203,
+      "eval_samples_per_second": 32.048,
+      "eval_steps_per_second": 4.166,
+      "step": 1650
+    },
+    {
+      "epoch": 1.59,
+      "eval_loss": 0.06974442303180695,
+      "eval_runtime": 3.1279,
+      "eval_samples_per_second": 31.97,
+      "eval_steps_per_second": 4.156,
+      "step": 1700
+    },
+    {
+      "epoch": 1.63,
+      "eval_loss": 0.07010236382484436,
+      "eval_runtime": 3.1368,
+      "eval_samples_per_second": 31.88,
+      "eval_steps_per_second": 4.144,
+      "step": 1750
+    },
+    {
+      "epoch": 1.68,
+      "eval_loss": 0.06847620010375977,
+      "eval_runtime": 3.1578,
+      "eval_samples_per_second": 31.667,
+      "eval_steps_per_second": 4.117,
+      "step": 1800
+    },
+    {
+      "epoch": 1.73,
+      "eval_loss": 0.06789014488458633,
+      "eval_runtime": 3.1274,
+      "eval_samples_per_second": 31.975,
+      "eval_steps_per_second": 4.157,
+      "step": 1850
+    },
+    {
+      "epoch": 1.77,
+      "eval_loss": 0.06896524131298065,
+      "eval_runtime": 3.1488,
+      "eval_samples_per_second": 31.758,
+      "eval_steps_per_second": 4.129,
+      "step": 1900
+    },
+    {
+      "epoch": 1.82,
+      "eval_loss": 0.06796181946992874,
+      "eval_runtime": 3.1466,
+      "eval_samples_per_second": 31.78,
+      "eval_steps_per_second": 4.131,
+      "step": 1950
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 5e-05,
+      "loss": 0.0908,
+      "step": 2000
+    },
+    {
+      "epoch": 1.87,
+      "eval_loss": 0.06683148443698883,
+      "eval_runtime": 3.129,
+      "eval_samples_per_second": 31.959,
+      "eval_steps_per_second": 4.155,
+      "step": 2000
+    },
+    {
+      "epoch": 1.91,
+      "eval_loss": 0.06748585402965546,
+      "eval_runtime": 3.1569,
+      "eval_samples_per_second": 31.677,
+      "eval_steps_per_second": 4.118,
+      "step": 2050
+    },
+    {
+      "epoch": 1.96,
+      "eval_loss": 0.0658925473690033,
+      "eval_runtime": 3.1104,
+      "eval_samples_per_second": 32.15,
+      "eval_steps_per_second": 4.179,
+      "step": 2100
+    },
+    {
+      "epoch": 2.01,
+      "eval_loss": 0.06645894795656204,
+      "eval_runtime": 3.1539,
+      "eval_samples_per_second": 31.707,
+      "eval_steps_per_second": 4.122,
+      "step": 2150
+    },
+    {
+      "epoch": 2.05,
+      "eval_loss": 0.06568010151386261,
+      "eval_runtime": 3.1514,
+      "eval_samples_per_second": 31.732,
+      "eval_steps_per_second": 4.125,
+      "step": 2200
+    },
+    {
+      "epoch": 2.1,
+      "eval_loss": 0.06631560623645782,
+      "eval_runtime": 3.1507,
+      "eval_samples_per_second": 31.739,
+      "eval_steps_per_second": 4.126,
+      "step": 2250
+    },
+    {
+      "epoch": 2.15,
+      "eval_loss": 0.0654822364449501,
+      "eval_runtime": 3.126,
+      "eval_samples_per_second": 31.99,
+      "eval_steps_per_second": 4.159,
+      "step": 2300
+    },
+    {
+      "epoch": 2.19,
+      "eval_loss": 0.06477805972099304,
+      "eval_runtime": 3.1161,
+      "eval_samples_per_second": 32.091,
+      "eval_steps_per_second": 4.172,
+      "step": 2350
+    },
+    {
+      "epoch": 2.24,
+      "eval_loss": 0.06473308056592941,
+      "eval_runtime": 3.1081,
+      "eval_samples_per_second": 32.174,
+      "eval_steps_per_second": 4.183,
+      "step": 2400
+    },
+    {
+      "epoch": 2.29,
+      "eval_loss": 0.06430035084486008,
+      "eval_runtime": 3.1132,
+      "eval_samples_per_second": 32.122,
+      "eval_steps_per_second": 4.176,
+      "step": 2450
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.0834,
+      "step": 2500
+    },
+    {
+      "epoch": 2.33,
+      "eval_loss": 0.06514698266983032,
+      "eval_runtime": 3.1384,
+      "eval_samples_per_second": 31.864,
+      "eval_steps_per_second": 4.142,
+      "step": 2500
+    },
+    {
+      "epoch": 2.38,
+      "eval_loss": 0.06523197889328003,
+      "eval_runtime": 3.1317,
+      "eval_samples_per_second": 31.931,
+      "eval_steps_per_second": 4.151,
+      "step": 2550
+    },
+    {
+      "epoch": 2.43,
+      "eval_loss": 0.06412862241268158,
+      "eval_runtime": 3.1428,
+      "eval_samples_per_second": 31.819,
+      "eval_steps_per_second": 4.136,
+      "step": 2600
+    },
+    {
+      "epoch": 2.47,
+      "eval_loss": 0.06405303627252579,
+      "eval_runtime": 3.1189,
+      "eval_samples_per_second": 32.063,
+      "eval_steps_per_second": 4.168,
+      "step": 2650
+    },
+    {
+      "epoch": 2.52,
+      "eval_loss": 0.06433818489313126,
+      "eval_runtime": 3.111,
+      "eval_samples_per_second": 32.144,
+      "eval_steps_per_second": 4.179,
+      "step": 2700
+    },
+    {
+      "epoch": 2.57,
+      "eval_loss": 0.06326718628406525,
+      "eval_runtime": 3.1324,
+      "eval_samples_per_second": 31.924,
+      "eval_steps_per_second": 4.15,
+      "step": 2750
+    },
+    {
+      "epoch": 2.61,
+      "eval_loss": 0.06264257431030273,
+      "eval_runtime": 3.1015,
+      "eval_samples_per_second": 32.242,
+      "eval_steps_per_second": 4.192,
+      "step": 2800
+    },
+    {
+      "epoch": 2.66,
+      "eval_loss": 0.062052369117736816,
+      "eval_runtime": 3.1266,
+      "eval_samples_per_second": 31.983,
+      "eval_steps_per_second": 4.158,
+      "step": 2850
+    },
+    {
+      "epoch": 2.71,
+      "eval_loss": 0.06084759160876274,
+      "eval_runtime": 3.1309,
+      "eval_samples_per_second": 31.939,
+      "eval_steps_per_second": 4.152,
+      "step": 2900
+    },
+    {
+      "epoch": 2.75,
+      "eval_loss": 0.05937306955456734,
+      "eval_runtime": 3.1327,
+      "eval_samples_per_second": 31.921,
+      "eval_steps_per_second": 4.15,
+      "step": 2950
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 2.5e-05,
+      "loss": 0.076,
+      "step": 3000
+    },
+    {
+      "epoch": 2.8,
+      "eval_loss": 0.05866905301809311,
+      "eval_runtime": 3.1113,
+      "eval_samples_per_second": 32.14,
+      "eval_steps_per_second": 4.178,
+      "step": 3000
+    },
+    {
+      "epoch": 2.85,
+      "eval_loss": 0.058344677090644836,
+      "eval_runtime": 3.1209,
+      "eval_samples_per_second": 32.042,
+      "eval_steps_per_second": 4.165,
+      "step": 3050
+    },
+    {
+      "epoch": 2.89,
+      "eval_loss": 0.05871553346514702,
+      "eval_runtime": 3.121,
+      "eval_samples_per_second": 32.041,
+      "eval_steps_per_second": 4.165,
+      "step": 3100
+    },
+    {
+      "epoch": 2.94,
+      "eval_loss": 0.05915091186761856,
+      "eval_runtime": 3.126,
+      "eval_samples_per_second": 31.99,
+      "eval_steps_per_second": 4.159,
+      "step": 3150
+    },
+    {
+      "epoch": 2.99,
+      "eval_loss": 0.05891425162553787,
+      "eval_runtime": 3.1185,
+      "eval_samples_per_second": 32.067,
+      "eval_steps_per_second": 4.169,
+      "step": 3200
+    },
+    {
+      "epoch": 3.03,
+      "eval_loss": 0.05823118984699249,
+      "eval_runtime": 3.1317,
+      "eval_samples_per_second": 31.931,
+      "eval_steps_per_second": 4.151,
+      "step": 3250
+    },
+    {
+      "epoch": 3.08,
+      "eval_loss": 0.058484997600317,
+      "eval_runtime": 3.1202,
+      "eval_samples_per_second": 32.049,
+      "eval_steps_per_second": 4.166,
+      "step": 3300
+    },
+    {
+      "epoch": 3.13,
+      "eval_loss": 0.05739402770996094,
+      "eval_runtime": 3.1373,
+      "eval_samples_per_second": 31.874,
+      "eval_steps_per_second": 4.144,
+      "step": 3350
+    },
+    {
+      "epoch": 3.17,
+      "eval_loss": 0.055192094296216965,
+      "eval_runtime": 3.1301,
+      "eval_samples_per_second": 31.948,
+      "eval_steps_per_second": 4.153,
+      "step": 3400
+    },
+    {
+      "epoch": 3.22,
+      "eval_loss": 0.05424107611179352,
+      "eval_runtime": 3.1266,
+      "eval_samples_per_second": 31.984,
+      "eval_steps_per_second": 4.158,
+      "step": 3450
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 1.25e-05,
+      "loss": 0.073,
+      "step": 3500
+    },
+    {
+      "epoch": 3.27,
+      "eval_loss": 0.05386446788907051,
+      "eval_runtime": 3.1345,
+      "eval_samples_per_second": 31.903,
+      "eval_steps_per_second": 4.147,
+      "step": 3500
+    },
+    {
+      "epoch": 3.31,
+      "eval_loss": 0.05398600548505783,
+      "eval_runtime": 3.1602,
+      "eval_samples_per_second": 31.644,
+      "eval_steps_per_second": 4.114,
+      "step": 3550
+    },
+    {
+      "epoch": 3.36,
+      "eval_loss": 0.054046373814344406,
+      "eval_runtime": 3.1211,
+      "eval_samples_per_second": 32.04,
+      "eval_steps_per_second": 4.165,
+      "step": 3600
+    },
+    {
+      "epoch": 3.41,
+      "eval_loss": 0.05384262651205063,
+      "eval_runtime": 3.1375,
+      "eval_samples_per_second": 31.873,
+      "eval_steps_per_second": 4.143,
+      "step": 3650
+    },
+    {
+      "epoch": 3.45,
+      "eval_loss": 0.05329055339097977,
+      "eval_runtime": 3.1204,
+      "eval_samples_per_second": 32.047,
+      "eval_steps_per_second": 4.166,
+      "step": 3700
+    },
+    {
+      "epoch": 3.5,
+      "eval_loss": 0.053015995770692825,
+      "eval_runtime": 3.1204,
+      "eval_samples_per_second": 32.047,
+      "eval_steps_per_second": 4.166,
+      "step": 3750
+    },
+    {
+      "epoch": 3.55,
+      "eval_loss": 0.05295877531170845,
+      "eval_runtime": 3.1459,
+      "eval_samples_per_second": 31.788,
+      "eval_steps_per_second": 4.132,
+      "step": 3800
+    },
+    {
+      "epoch": 3.59,
+      "eval_loss": 0.05284087732434273,
+      "eval_runtime": 3.1189,
+      "eval_samples_per_second": 32.063,
+      "eval_steps_per_second": 4.168,
+      "step": 3850
+    },
+    {
+      "epoch": 3.64,
+      "eval_loss": 0.05269093066453934,
+      "eval_runtime": 3.1413,
+      "eval_samples_per_second": 31.834,
+      "eval_steps_per_second": 4.138,
+      "step": 3900
+    },
+    {
+      "epoch": 3.69,
+      "eval_loss": 0.052681393921375275,
+      "eval_runtime": 3.1248,
+      "eval_samples_per_second": 32.002,
+      "eval_steps_per_second": 4.16,
+      "step": 3950
+    },
+    {
+      "epoch": 3.73,
+      "learning_rate": 0.0,
+      "loss": 0.069,
+      "step": 4000
+    },
+    {
+      "epoch": 3.73,
+      "eval_loss": 0.05267078056931496,
+      "eval_runtime": 3.1244,
+      "eval_samples_per_second": 32.006,
+      "eval_steps_per_second": 4.161,
+      "step": 4000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 4000,
+  "num_train_epochs": 4,
+  "save_steps": 1000,
+  "total_flos": 5.477031683555328e+16,
+  "trial_name": null,
+  "trial_params": null
+}

fidcqg-w.bm25.ovl/checkpoint-4000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7e0b693fa9a557850e0d9e5e5d28dff96299f9ff5818970ade2ffcab124d0a46
+size 4472

fidcqg-w.contriever.ovl/checkpoint-1000/config.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "_name_or_path": "google/flan-t5-base",
+  "architectures": [
+    "FiDT5"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 768,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 12,
+  "num_heads": 12,
+  "num_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 200,
+      "min_length": 30,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4,
+      "prefix": "summarize: "
+    },
+    "translation_en_to_de": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to German: "
+    },
+    "translation_en_to_fr": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to French: "
+    },
+    "translation_en_to_ro": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to Romanian: "
+    }
+  },
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.33.1",
+  "use_cache": true,
+  "vocab_size": 32128
+}