Tech-oriented commited on Mar 3

Commit

866bb22

•

1 Parent(s): f451498

Training in progress, epoch 1

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

model.safetensors +1 -1
run-2/checkpoint-2105/config.json +27 -0
run-2/checkpoint-2105/model.safetensors +3 -0
run-2/checkpoint-2105/optimizer.pt +3 -0
run-2/checkpoint-2105/rng_state.pth +3 -0
run-2/checkpoint-2105/scheduler.pt +3 -0
run-2/checkpoint-2105/special_tokens_map.json +7 -0
run-2/checkpoint-2105/tokenizer.json +0 -0
run-2/checkpoint-2105/tokenizer_config.json +55 -0
run-2/checkpoint-2105/trainer_state.json +99 -0
run-2/checkpoint-2105/training_args.bin +3 -0
run-2/checkpoint-2105/vocab.txt +0 -0
run-3/checkpoint-1263/config.json +27 -0
run-3/checkpoint-1263/model.safetensors +3 -0
run-3/checkpoint-1263/optimizer.pt +3 -0
run-3/checkpoint-1263/rng_state.pth +3 -0
run-3/checkpoint-1263/scheduler.pt +3 -0
run-3/checkpoint-1263/special_tokens_map.json +7 -0
run-3/checkpoint-1263/tokenizer.json +0 -0
run-3/checkpoint-1263/tokenizer_config.json +55 -0
run-3/checkpoint-1263/trainer_state.json +67 -0
run-3/checkpoint-1263/training_args.bin +3 -0
run-3/checkpoint-1263/vocab.txt +0 -0
run-3/checkpoint-421/config.json +27 -0
run-3/checkpoint-421/model.safetensors +3 -0
run-3/checkpoint-421/optimizer.pt +3 -0
run-3/checkpoint-421/rng_state.pth +3 -0
run-3/checkpoint-421/scheduler.pt +3 -0
run-3/checkpoint-421/special_tokens_map.json +7 -0
run-3/checkpoint-421/tokenizer.json +0 -0
run-3/checkpoint-421/tokenizer_config.json +55 -0
run-3/checkpoint-421/trainer_state.json +35 -0
run-3/checkpoint-421/training_args.bin +3 -0
run-3/checkpoint-421/vocab.txt +0 -0
run-3/checkpoint-842/config.json +27 -0
run-3/checkpoint-842/model.safetensors +3 -0
run-3/checkpoint-842/optimizer.pt +3 -0
run-3/checkpoint-842/rng_state.pth +3 -0
run-3/checkpoint-842/scheduler.pt +3 -0
run-3/checkpoint-842/special_tokens_map.json +7 -0
run-3/checkpoint-842/tokenizer.json +0 -0
run-3/checkpoint-842/tokenizer_config.json +55 -0
run-3/checkpoint-842/trainer_state.json +51 -0
run-3/checkpoint-842/training_args.bin +3 -0
run-3/checkpoint-842/vocab.txt +0 -0
run-4/checkpoint-211/config.json +27 -0
run-4/checkpoint-211/model.safetensors +3 -0
run-4/checkpoint-211/optimizer.pt +3 -0
run-4/checkpoint-211/rng_state.pth +3 -0
run-4/checkpoint-211/scheduler.pt +3 -0

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:126b48a280b83e7ba34ae365e6bbd6bdace7fc8a57eb48fa151a7a9df101dd9c
 size 437958648

 version https://git-lfs.github.com/spec/v1
+oid sha256:118f4c78444f2940718c0d3597e86c36a7be25347afc99e94cb1ffc468b6595b
 size 437958648

run-2/checkpoint-2105/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "_name_or_path": "bert-base-uncased",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-2/checkpoint-2105/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:07d87dca95eaefc8fd08848e1d31439f06fd06a9da3e2315ccc15b92bdc7c10f
+size 437958648

run-2/checkpoint-2105/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1d75eb09f76a91270b209159dcb548f3913f4b27695ad34b53e790a6ee8af2e1
+size 876038394

run-2/checkpoint-2105/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:249f501c023b1798142d2d3055f1c6025a8984d04b57afcb367b7be7dca46033
+size 14244

run-2/checkpoint-2105/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cb4ba9eae7ccf1b8e8e6249df5b1fc5f769985b7de29ba4df8eaf3f39405ef54
+size 1064

run-2/checkpoint-2105/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-2/checkpoint-2105/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-2/checkpoint-2105/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-2/checkpoint-2105/trainer_state.json ADDED Viewed

	@@ -0,0 +1,99 @@

+{
+  "best_metric": 0.9071100917431193,
+  "best_model_checkpoint": "bert-base-uncased-finetuned-sst2/run-2/checkpoint-2105",
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 2105,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8761467889908257,
+      "eval_loss": 0.3037863075733185,
+      "eval_runtime": 2.2668,
+      "eval_samples_per_second": 384.685,
+      "eval_steps_per_second": 24.263,
+      "step": 421
+    },
+    {
+      "epoch": 1.19,
+      "grad_norm": 24.56251335144043,
+      "learning_rate": 5.135971766809031e-05,
+      "loss": 0.3191,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8830275229357798,
+      "eval_loss": 0.4693216383457184,
+      "eval_runtime": 2.3381,
+      "eval_samples_per_second": 372.946,
+      "eval_steps_per_second": 23.523,
+      "step": 842
+    },
+    {
+      "epoch": 2.38,
+      "grad_norm": 3.9397337436676025,
+      "learning_rate": 3.5359805621956256e-05,
+      "loss": 0.1393,
+      "step": 1000
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8887614678899083,
+      "eval_loss": 0.533748984336853,
+      "eval_runtime": 2.3644,
+      "eval_samples_per_second": 368.807,
+      "eval_steps_per_second": 23.262,
+      "step": 1263
+    },
+    {
+      "epoch": 3.56,
+      "grad_norm": 0.6269965767860413,
+      "learning_rate": 1.9359893575822205e-05,
+      "loss": 0.0624,
+      "step": 1500
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.8899082568807339,
+      "eval_loss": 0.5773999691009521,
+      "eval_runtime": 2.4005,
+      "eval_samples_per_second": 363.26,
+      "eval_steps_per_second": 22.912,
+      "step": 1684
+    },
+    {
+      "epoch": 4.75,
+      "grad_norm": 0.017943860962986946,
+      "learning_rate": 3.359981529688151e-06,
+      "loss": 0.024,
+      "step": 2000
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.9071100917431193,
+      "eval_loss": 0.5345309376716614,
+      "eval_runtime": 2.4021,
+      "eval_samples_per_second": 363.013,
+      "eval_steps_per_second": 22.896,
+      "step": 2105
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 2105,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "total_flos": 583099320890400.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 6.735962971422436e-05,
+    "num_train_epochs": 5,
+    "per_device_train_batch_size": 16,
+    "seed": 2
+  }
+}

run-2/checkpoint-2105/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55dfbe476697181e66ebf5f3b6624f6c1c676b71c40c6125f531db2ed5ba1a72
+size 4920

run-2/checkpoint-2105/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-3/checkpoint-1263/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "_name_or_path": "bert-base-uncased",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-3/checkpoint-1263/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc8660de398cf26fa39a5a5e8d182d1dd90e83b80627664cce2ed2767f1bf438
+size 437958648

run-3/checkpoint-1263/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dcc637b532c6ad7eb13ae18ed2a07949d3007b3c028b59e0df36b6c4efde8232
+size 876038394

run-3/checkpoint-1263/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:30e6802eb209932c2ddd8e0c3146da058966cdb5f0ffd1c453b6b20728be8fa4
+size 14308

run-3/checkpoint-1263/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3587442bdeaf29203820ce254ab496e0953655e2b8672ca52b43cdedfd1c9102
+size 1064

run-3/checkpoint-1263/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-3/checkpoint-1263/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-3/checkpoint-1263/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-3/checkpoint-1263/trainer_state.json ADDED Viewed

	@@ -0,0 +1,67 @@

+{
+  "best_metric": 0.9174311926605505,
+  "best_model_checkpoint": "bert-base-uncased-finetuned-sst2/run-3/checkpoint-842",
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 1263,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8784403669724771,
+      "eval_loss": 0.32404395937919617,
+      "eval_runtime": 2.2657,
+      "eval_samples_per_second": 384.875,
+      "eval_steps_per_second": 24.275,
+      "step": 421
+    },
+    {
+      "epoch": 1.19,
+      "grad_norm": 0.08605317771434784,
+      "learning_rate": 3.2162650675262254e-05,
+      "loss": 0.3042,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9174311926605505,
+      "eval_loss": 0.2911108732223511,
+      "eval_runtime": 2.3208,
+      "eval_samples_per_second": 375.734,
+      "eval_steps_per_second": 23.699,
+      "step": 842
+    },
+    {
+      "epoch": 2.38,
+      "grad_norm": 0.08900273591279984,
+      "learning_rate": 1.1086208555169032e-05,
+      "loss": 0.1137,
+      "step": 1000
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9105504587155964,
+      "eval_loss": 0.4073135554790497,
+      "eval_runtime": 2.4024,
+      "eval_samples_per_second": 362.976,
+      "eval_steps_per_second": 22.894,
+      "step": 1263
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 1263,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "total_flos": 292267049182080.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 5.323909279535547e-05,
+    "num_train_epochs": 3,
+    "per_device_train_batch_size": 16,
+    "seed": 8
+  }
+}

run-3/checkpoint-1263/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:773ea48ccdc34dbc885a1c1c59ef1af31dfb6fcdf19d654b99737e5b9c0bc90c
+size 4920

run-3/checkpoint-1263/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-3/checkpoint-421/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "_name_or_path": "bert-base-uncased",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-3/checkpoint-421/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ec192605057f86eec072085829ff2f228039d578aaa8573320073caaef7efc1a
+size 437958648

run-3/checkpoint-421/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e4594442c93b841ace1d705aeb46c21514941c0cbeb7f854b93e6300af4292e1
+size 876038394

run-3/checkpoint-421/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b5037bb8f67a214a40483b4c5d041aaf18e0528e8d62bacaff69dbe7ac8dcd40
+size 14308

run-3/checkpoint-421/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e5e5928d7de48b122adece73e510a1dec03efacad0bd54dec88db6f78d166ba1
+size 1064

run-3/checkpoint-421/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-3/checkpoint-421/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-3/checkpoint-421/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-3/checkpoint-421/trainer_state.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "best_metric": 0.8784403669724771,
+  "best_model_checkpoint": "bert-base-uncased-finetuned-sst2/run-3/checkpoint-421",
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 421,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8784403669724771,
+      "eval_loss": 0.32404395937919617,
+      "eval_runtime": 2.2657,
+      "eval_samples_per_second": 384.875,
+      "eval_steps_per_second": 24.275,
+      "step": 421
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 1263,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "total_flos": 0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 5.323909279535547e-05,
+    "num_train_epochs": 3,
+    "per_device_train_batch_size": 16,
+    "seed": 8
+  }
+}

run-3/checkpoint-421/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:773ea48ccdc34dbc885a1c1c59ef1af31dfb6fcdf19d654b99737e5b9c0bc90c
+size 4920

run-3/checkpoint-421/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-3/checkpoint-842/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "_name_or_path": "bert-base-uncased",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-3/checkpoint-842/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f9154e235a1e51d3d011f81cfe426f135b0884a3f57fe2d0daaea7697ae8ea36
+size 437958648

run-3/checkpoint-842/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ea6be9bf4de7a0557636c9777cc2e8fd9f8cae4c72eb1a55cbc1df6bf9405b66
+size 876038394

run-3/checkpoint-842/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d88242c994828e13d69a4d1eae365619f1c03973ffca5d6a76ed154790bfc8e9
+size 14308

run-3/checkpoint-842/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:154c113b7e938db86b9bd5b5b322ebda19766954aa339b9d0b620883086324fd
+size 1064

run-3/checkpoint-842/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-3/checkpoint-842/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-3/checkpoint-842/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-3/checkpoint-842/trainer_state.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "best_metric": 0.9174311926605505,
+  "best_model_checkpoint": "bert-base-uncased-finetuned-sst2/run-3/checkpoint-842",
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 842,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8784403669724771,
+      "eval_loss": 0.32404395937919617,
+      "eval_runtime": 2.2657,
+      "eval_samples_per_second": 384.875,
+      "eval_steps_per_second": 24.275,
+      "step": 421
+    },
+    {
+      "epoch": 1.19,
+      "grad_norm": 0.08605317771434784,
+      "learning_rate": 3.2162650675262254e-05,
+      "loss": 0.3042,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9174311926605505,
+      "eval_loss": 0.2911108732223511,
+      "eval_runtime": 2.3208,
+      "eval_samples_per_second": 375.734,
+      "eval_steps_per_second": 23.699,
+      "step": 842
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 1263,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "total_flos": 146782052231400.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 5.323909279535547e-05,
+    "num_train_epochs": 3,
+    "per_device_train_batch_size": 16,
+    "seed": 8
+  }
+}

run-3/checkpoint-842/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:773ea48ccdc34dbc885a1c1c59ef1af31dfb6fcdf19d654b99737e5b9c0bc90c
+size 4920

run-3/checkpoint-842/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-4/checkpoint-211/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "_name_or_path": "bert-base-uncased",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-4/checkpoint-211/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:118f4c78444f2940718c0d3597e86c36a7be25347afc99e94cb1ffc468b6595b
+size 437958648

run-4/checkpoint-211/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5548c9519f328db746ac869f8edda19504420b6e5a157504e9111fd10804f1be
+size 876038394

run-4/checkpoint-211/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3ac7793d6e030e25e39e7926c3510b9e062720388a2dd81661d6ae9879cbc2ac
+size 14244

run-4/checkpoint-211/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a8b006d867255f6249ecb3dcf3d4a58b5987ba5e02f07c98a803148270d0b83a
+size 1064