huggingartists

Browse files

Files changed (10) hide show

README.md +3 -3
config.json +1 -1
evaluation.txt +1 -1
flax_model.msgpack +1 -1
optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +243 -797
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -45,15 +45,15 @@ from datasets import load_dataset
 dataset = load_dataset("huggingartists/eminem")
 ```
-[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/1u30jxqs/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Eminem's lyrics.
-Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/38khmsgm) for full transparency and reproducibility.
-At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/38khmsgm/artifacts) is logged and versioned.
 ## How to use

 dataset = load_dataset("huggingartists/eminem")
 ```
+[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/3rukw5ac/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Eminem's lyrics.
+Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/2mua6tz8) for full transparency and reproducibility.
+At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/2mua6tz8/artifacts) is logged and versioned.
 ## How to use

config.json CHANGED Viewed

@@ -37,7 +37,7 @@
     }
   },
   "torch_dtype": "float32",
-  "transformers_version": "4.18.0",
   "use_cache": true,
   "vocab_size": 50257
 }

     }
   },
   "torch_dtype": "float32",
+  "transformers_version": "4.19.2",
   "use_cache": true,
   "vocab_size": 50257
 }

evaluation.txt CHANGED Viewed

	@@ -1 +1 @@
1	- {"eval_loss": 0.~~21034620702266693~~, "eval_runtime": 15.~~1752~~, "eval_samples_per_second": 41.~~779~~, "eval_steps_per_second": 5.~~272~~, "epoch": 6.0}


1	+ {"eval_loss": 0.22213919460773468, "eval_runtime": 29.4043, "eval_samples_per_second": 21.936, "eval_steps_per_second": 2.755, "epoch": 3.0}

flax_model.msgpack CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23feba72d0f43086e6c74b84adee8455b0785e580e0aab25abcd70b41dbf0158
 size 497764120

 version https://git-lfs.github.com/spec/v1
+oid sha256:f2c3b167b74a63ec8fb077ce24d21025947fef9ecb32878a46ee4d6977cc15f0
 size 497764120

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0307db0b2ba20c296872de4c51775c6f6f7c145d85ba4eba9883ae1714259f3e
 size 995604017

 version https://git-lfs.github.com/spec/v1
+oid sha256:26834f0e4208938d811a9dfa581c60096828db9664c29122cbe7c108c2266f68
 size 995604017

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8eff03ee26d2091ee260f5505223bb3ad8b0787140cfe1662d5bebb6562fe0de
 size 510396521

 version https://git-lfs.github.com/spec/v1
+oid sha256:c21f7e095359913b7c6cf81d01da61fcc6b0f7f55c7374a09691747e7e324411
 size 510396521

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:64318524f70467d7f035d4c29d2caf9c7a12a5d003c3d37e5cb258fa8e627862
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:091b8c645ee921fc1fb21bf66e87b6404370564c2f1e26f8e92fd9a5afcce570
 size 14567

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f9cf36b252c26cdc75b14e37b5b4fccbc15ca4a3843e9a29281707a78831c49
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:c3e6d52e9eda83b53901112c80d072ee8b7df374009cb1437cc93a39ef8c5f83
 size 623

trainer_state.json CHANGED Viewed

@@ -1,1124 +1,570 @@
 {
-  "best_metric": 0.21034620702266693,
-  "best_model_checkpoint": "output/eminem/checkpoint-912",
-  "epoch": 2.0,
-  "global_step": 912,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.01,
-      "learning_rate": 0.00010098945265056683,
-      "loss": 0.4239,
       "step": 5
     },
     {
       "epoch": 0.02,
-      "learning_rate": 9.890598330141942e-05,
-      "loss": 0.484,
       "step": 10
     },
     {
       "epoch": 0.03,
-      "learning_rate": 9.678717853140213e-05,
-      "loss": 0.4876,
       "step": 15
     },
     {
       "epoch": 0.04,
-      "learning_rate": 9.46355087720941e-05,
-      "loss": 0.4738,
       "step": 20
     },
     {
       "epoch": 0.05,
-      "learning_rate": 9.245348277418726e-05,
-      "loss": 0.4579,
       "step": 25
     },
     {
       "epoch": 0.07,
-      "learning_rate": 9.024364468238985e-05,
-      "loss": 0.4577,
       "step": 30
     },
     {
       "epoch": 0.08,
-      "learning_rate": 8.800857106906198e-05,
-      "loss": 0.4851,
       "step": 35
     },
     {
       "epoch": 0.09,
-      "learning_rate": 8.575086793006042e-05,
-      "loss": 0.4626,
       "step": 40
     },
     {
       "epoch": 0.1,
-      "learning_rate": 8.34731676462491e-05,
-      "loss": 0.4782,
       "step": 45
     },
     {
       "epoch": 0.11,
-      "learning_rate": 8.117812591427207e-05,
-      "loss": 0.5103,
       "step": 50
     },
     {
       "epoch": 0.12,
-      "learning_rate": 7.886841865013191e-05,
-      "loss": 0.5388,
       "step": 55
     },
     {
       "epoch": 0.13,
-      "learning_rate": 7.654673886917425e-05,
-      "loss": 0.4255,
       "step": 60
     },
     {
       "epoch": 0.14,
-      "learning_rate": 7.421579354617336e-05,
-      "loss": 0.4845,
       "step": 65
     },
     {
       "epoch": 0.15,
-      "learning_rate": 7.187830045910335e-05,
-      "loss": 0.4882,
       "step": 70
     },
     {
       "epoch": 0.16,
-      "learning_rate": 6.953698502034407e-05,
-      "loss": 0.4911,
       "step": 75
     },
     {
-      "epoch": 0.17,
-      "learning_rate": 6.719457709896656e-05,
-      "loss": 0.445,
       "step": 80
     },
     {
-      "epoch": 0.18,
-      "learning_rate": 6.485380783782185e-05,
-      "loss": 0.4824,
       "step": 85
     },
     {
       "epoch": 0.2,
-      "learning_rate": 6.251740646916227e-05,
-      "loss": 0.478,
       "step": 90
     },
     {
       "epoch": 0.21,
-      "learning_rate": 6.0188097132472896e-05,
-      "loss": 0.5299,
       "step": 95
     },
     {
       "epoch": 0.22,
-      "learning_rate": 5.786859569824095e-05,
-      "loss": 0.5087,
       "step": 100
     },
     {
       "epoch": 0.23,
-      "learning_rate": 5.556160660138586e-05,
-      "loss": 0.4854,
       "step": 105
     },
     {
       "epoch": 0.24,
-      "learning_rate": 5.326981968799179e-05,
-      "loss": 0.5017,
       "step": 110
     },
     {
       "epoch": 0.25,
-      "learning_rate": 5.099590707908848e-05,
-      "loss": 0.4689,
       "step": 115
     },
     {
       "epoch": 0.26,
-      "learning_rate": 4.874252005506042e-05,
-      "loss": 0.4921,
       "step": 120
     },
     {
       "epoch": 0.27,
-      "learning_rate": 4.651228596437459e-05,
-      "loss": 0.4873,
       "step": 125
     },
     {
-      "epoch": 0.28,
-      "learning_rate": 4.4307805160220805e-05,
-      "loss": 0.4682,
       "step": 130
     },
     {
-      "epoch": 0.29,
-      "learning_rate": 4.2131647968601464e-05,
-      "loss": 0.5228,
       "step": 135
     },
     {
-      "epoch": 0.3,
-      "learning_rate": 3.998635169145922e-05,
-      "loss": 0.4468,
       "step": 140
     },
     {
       "epoch": 0.32,
-      "learning_rate": 3.7874417648290806e-05,
-      "loss": 0.452,
       "step": 145
     },
     {
       "epoch": 0.33,
-      "learning_rate": 3.57983082597153e-05,
-      "loss": 0.4363,
       "step": 150
     },
     {
       "epoch": 0.34,
-      "learning_rate": 3.376044417641229e-05,
-      "loss": 0.4868,
       "step": 155
     },
     {
       "epoch": 0.35,
-      "learning_rate": 3.176320145674611e-05,
-      "loss": 0.4906,
       "step": 160
     },
     {
       "epoch": 0.36,
-      "learning_rate": 2.98089087963816e-05,
-      "loss": 0.5023,
       "step": 165
     },
     {
       "epoch": 0.37,
-      "learning_rate": 2.7899844813147157e-05,
-      "loss": 0.4712,
       "step": 170
     },
     {
       "epoch": 0.38,
-      "learning_rate": 2.603823539024549e-05,
-      "loss": 0.4571,
       "step": 175
     },
     {
-      "epoch": 0.39,
-      "learning_rate": 2.422625108099115e-05,
-      "loss": 0.4262,
       "step": 180
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 2.2466004578035872e-05,
-      "loss": 0.455,
       "step": 185
     },
     {
-      "epoch": 0.41,
-      "learning_rate": 2.0759548250059194e-05,
-      "loss": 0.4506,
       "step": 190
     },
     {
-      "epoch": 0.42,
-      "learning_rate": 1.910887174880859e-05,
-      "loss": 0.4219,
       "step": 195
     },
     {
-      "epoch": 0.43,
-      "learning_rate": 1.7515899689243134e-05,
-      "loss": 0.4164,
       "step": 200
     },
     {
       "epoch": 0.45,
-      "learning_rate": 1.5982489405528287e-05,
-      "loss": 0.4133,
       "step": 205
     },
     {
       "epoch": 0.46,
-      "learning_rate": 1.4510428785463036e-05,
-      "loss": 0.4375,
       "step": 210
     },
     {
       "epoch": 0.47,
-      "learning_rate": 1.3101434185879184e-05,
-      "loss": 0.4882,
       "step": 215
     },
     {
       "epoch": 0.48,
-      "learning_rate": 1.175714843145347e-05,
-      "loss": 0.445,
       "step": 220
     },
     {
       "epoch": 0.49,
-      "learning_rate": 1.0479138899242488e-05,
-      "loss": 0.46,
       "step": 225
     },
     {
-      "epoch": 0.5,
-      "learning_rate": 9.268895691192436e-06,
-      "loss": 0.5074,
       "step": 230
     },
     {
-      "epoch": 0.51,
-      "learning_rate": 8.127829896747804e-06,
-      "loss": 0.4527,
       "step": 235
     },
     {
-      "epoch": 0.52,
-      "learning_rate": 7.057271947580458e-06,
-      "loss": 0.4939,
       "step": 240
     },
     {
-      "epoch": 0.53,
-      "learning_rate": 6.058470066371539e-06,
-      "loss": 0.5338,
       "step": 245
     },
     {
-      "epoch": 0.54,
-      "learning_rate": 5.132588811436518e-06,
-      "loss": 0.4298,
       "step": 250
     },
     {
-      "epoch": 0.55,
-      "learning_rate": 4.280707718900271e-06,
-      "loss": 0.4572,
       "step": 255
     },
     {
       "epoch": 0.57,
-      "learning_rate": 3.5038200440114727e-06,
-      "loss": 0.4096,
       "step": 260
     },
     {
       "epoch": 0.58,
-      "learning_rate": 2.802831603045737e-06,
-      "loss": 0.5071,
       "step": 265
     },
     {
       "epoch": 0.59,
-      "learning_rate": 2.178559717169051e-06,
-      "loss": 0.444,
       "step": 270
     },
     {
       "epoch": 0.6,
-      "learning_rate": 1.6317322594756245e-06,
-      "loss": 0.4421,
       "step": 275
     },
     {
-      "epoch": 0.61,
-      "learning_rate": 1.162986806318977e-06,
-      "loss": 0.4878,
       "step": 280
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 7.72869893930971e-07,
-      "loss": 0.4151,
       "step": 285
     },
     {
-      "epoch": 0.63,
-      "learning_rate": 4.6183638117953145e-07,
-      "loss": 0.4066,
       "step": 290
     },
     {
-      "epoch": 0.64,
-      "learning_rate": 2.3024891922762553e-07,
-      "loss": 0.4453,
       "step": 295
     },
     {
-      "epoch": 0.65,
-      "learning_rate": 7.837752869653465e-08,
-      "loss": 0.5799,
       "step": 300
     },
     {
-      "epoch": 0.66,
-      "learning_rate": 6.399284833793284e-09,
-      "loss": 0.4665,
       "step": 305
     },
     {
-      "epoch": 0.67,
-      "learning_rate": 1.4398111052152874e-08,
-      "loss": 0.4856,
       "step": 310
     },
     {
-      "epoch": 0.68,
-      "learning_rate": 1.0236468107794785e-07,
-      "loss": 0.4853,
       "step": 315
     },
     {
       "epoch": 0.7,
-      "learning_rate": 2.7019642982561925e-07,
-      "loss": 0.5332,
       "step": 320
     },
     {
       "epoch": 0.71,
-      "learning_rate": 5.176976729833616e-07,
-      "loss": 0.4575,
       "step": 325
     },
     {
-      "epoch": 0.72,
-      "learning_rate": 8.445798351733662e-07,
-      "loss": 0.4864,
       "step": 330
     },
     {
-      "epoch": 0.73,
-      "learning_rate": 1.2504617864165704e-06,
-      "loss": 0.442,
       "step": 335
     },
     {
-      "epoch": 0.74,
-      "learning_rate": 1.7348702865138632e-06,
-      "loss": 0.4695,
       "step": 340
     },
     {
-      "epoch": 0.75,
-      "learning_rate": 2.297240536822864e-06,
-      "loss": 0.5056,
       "step": 345
     },
     {
-      "epoch": 0.76,
-      "learning_rate": 2.936916838787285e-06,
-      "loss": 0.4522,
       "step": 350
     },
     {
-      "epoch": 0.77,
-      "learning_rate": 3.6531533584543354e-06,
-      "loss": 0.4949,
       "step": 355
     },
     {
-      "epoch": 0.78,
-      "learning_rate": 4.445114996080512e-06,
-      "loss": 0.4966,
       "step": 360
     },
     {
-      "epoch": 0.79,
-      "learning_rate": 5.3118783598219064e-06,
-      "loss": 0.493,
       "step": 365
     },
     {
-      "epoch": 0.8,
-      "learning_rate": 6.252432842370185e-06,
-      "loss": 0.4831,
       "step": 370
     },
     {
       "epoch": 0.82,
-      "learning_rate": 7.265681799270346e-06,
-      "loss": 0.4715,
       "step": 375
     },
-    {
-      "epoch": 0.83,
-      "learning_rate": 8.350443827565338e-06,
-      "loss": 0.4506,
-      "step": 380
-    },
     {
       "epoch": 0.84,
-      "learning_rate": 9.505454143253312e-06,
-      "loss": 0.4343,
-      "step": 385
     },
     {
       "epoch": 0.85,
-      "learning_rate": 1.072936605597144e-05,
-      "loss": 0.4487,
-      "step": 390
     },
     {
       "epoch": 0.86,
-      "learning_rate": 1.2020752539181091e-05,
-      "loss": 0.5072,
-      "step": 395
     },
     {
       "epoch": 0.87,
-      "learning_rate": 1.3378107894005304e-05,
-      "loss": 0.447,
-      "step": 400
     },
     {
       "epoch": 0.88,
-      "learning_rate": 1.479984950482134e-05,
-      "loss": 0.4754,
-      "step": 405
     },
     {
       "epoch": 0.89,
-      "learning_rate": 1.6284319684507726e-05,
-      "loss": 0.4414,
-      "step": 410
     },
     {
       "epoch": 0.9,
-      "learning_rate": 1.782978760723747e-05,
-      "loss": 0.4684,
-      "step": 415
     },
     {
       "epoch": 0.91,
-      "learning_rate": 1.9434451326547662e-05,
-      "loss": 0.5108,
-      "step": 420
     },
     {
       "epoch": 0.92,
-      "learning_rate": 2.109643987632069e-05,
-      "loss": 0.4894,
-      "step": 425
     },
     {
       "epoch": 0.93,
-      "learning_rate": 2.2813815452250717e-05,
-      "loss": 0.5156,
-      "step": 430
     },
     {
       "epoch": 0.95,
-      "learning_rate": 2.4584575671241315e-05,
-      "loss": 0.4643,
-      "step": 435
     },
     {
       "epoch": 0.96,
-      "learning_rate": 2.640665590608444e-05,
-      "loss": 0.457,
-      "step": 440
     },
     {
       "epoch": 0.97,
-      "learning_rate": 2.8277931692735254e-05,
-      "loss": 0.4539,
-      "step": 445
     },
     {
       "epoch": 0.98,
-      "learning_rate": 3.0196221207331556e-05,
-      "loss": 0.4085,
-      "step": 450
     },
     {
       "epoch": 0.99,
-      "learning_rate": 3.215928781010894e-05,
-      "loss": 0.4488,
-      "step": 455
     },
     {
       "epoch": 1.0,
-      "learning_rate": 3.416484265322113e-05,
-      "loss": 0.4469,
-      "step": 460
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.2455403357744217,
-      "eval_runtime": 13.8337,
-      "eval_samples_per_second": 43.661,
-      "eval_steps_per_second": 5.494,
-      "step": 460
-    },
-    {
-      "epoch": 1.02,
-      "learning_rate": 0.0001310364026633813,
-      "loss": 0.4239,
-      "step": 465
-    },
-    {
-      "epoch": 1.03,
-      "learning_rate": 0.0001319781359302741,
-      "loss": 0.5115,
-      "step": 470
-    },
-    {
-      "epoch": 1.04,
-      "learning_rate": 0.00013284467114611735,
-      "loss": 0.4756,
-      "step": 475
-    },
-    {
-      "epoch": 1.05,
-      "learning_rate": 0.00013363498016834413,
-      "loss": 0.4892,
-      "step": 480
-    },
-    {
-      "epoch": 1.06,
-      "learning_rate": 0.00013434812529663595,
-      "loss": 0.5002,
-      "step": 485
-    },
-    {
-      "epoch": 1.07,
-      "learning_rate": 0.00013498326038550478,
-      "loss": 0.5714,
-      "step": 490
-    },
-    {
-      "epoch": 1.09,
-      "learning_rate": 0.00013553963184824178,
-      "loss": 0.5845,
-      "step": 495
-    },
-    {
-      "epoch": 1.1,
-      "learning_rate": 0.0001360165795510487,
-      "loss": 0.4911,
-      "step": 500
-    },
-    {
-      "epoch": 1.11,
-      "learning_rate": 0.00013641353759628265,
-      "loss": 0.5275,
-      "step": 505
-    },
-    {
-      "epoch": 1.12,
-      "learning_rate": 0.00013673003499389456,
-      "loss": 0.5292,
-      "step": 510
-    },
-    {
-      "epoch": 1.13,
-      "learning_rate": 0.00013696569622025749,
-      "loss": 0.5506,
-      "step": 515
-    },
-    {
-      "epoch": 1.14,
-      "learning_rate": 0.00013712024166372548,
-      "loss": 0.5552,
-      "step": 520
-    },
-    {
-      "epoch": 1.15,
-      "learning_rate": 0.0001371934879563911,
-      "loss": 0.5404,
-      "step": 525
-    },
-    {
-      "epoch": 1.16,
-      "learning_rate": 0.0001371853481916521,
-      "loss": 0.5364,
-      "step": 530
-    },
-    {
-      "epoch": 1.17,
-      "learning_rate": 0.0001370958320273255,
-      "loss": 0.4954,
-      "step": 535
-    },
-    {
-      "epoch": 1.18,
-      "learning_rate": 0.00013692504567418905,
-      "loss": 0.6414,
-      "step": 540
-    },
-    {
-      "epoch": 1.2,
-      "learning_rate": 0.0001366731917699612,
-      "loss": 0.5806,
-      "step": 545
-    },
-    {
-      "epoch": 1.21,
-      "learning_rate": 0.00013634056913887406,
-      "loss": 0.5283,
-      "step": 550
-    },
-    {
-      "epoch": 1.22,
-      "learning_rate": 0.0001359275724371159,
-      "loss": 0.5036,
-      "step": 555
-    },
-    {
-      "epoch": 1.23,
-      "learning_rate": 0.00013543469168457526,
-      "loss": 0.583,
-      "step": 560
-    },
-    {
-      "epoch": 1.24,
-      "learning_rate": 0.00013486251168343032,
-      "loss": 0.5384,
-      "step": 565
-    },
-    {
-      "epoch": 1.25,
-      "learning_rate": 0.0001342117113242847,
-      "loss": 0.5136,
-      "step": 570
-    },
-    {
-      "epoch": 1.26,
-      "learning_rate": 0.00013348306278066345,
-      "loss": 0.5162,
-      "step": 575
-    },
-    {
-      "epoch": 1.27,
-      "learning_rate": 0.0001326774305928314,
-      "loss": 0.4983,
-      "step": 580
-    },
-    {
-      "epoch": 1.28,
-      "learning_rate": 0.00013179577064201505,
-      "loss": 0.5491,
-      "step": 585
-    },
-    {
-      "epoch": 1.29,
-      "learning_rate": 0.00013083912901625498,
-      "loss": 0.4611,
-      "step": 590
-    },
-    {
-      "epoch": 1.3,
-      "learning_rate": 0.0001298086407692224,
-      "loss": 0.5359,
-      "step": 595
-    },
-    {
-      "epoch": 1.32,
-      "learning_rate": 0.00012870552857347723,
-      "loss": 0.5226,
-      "step": 600
-    },
-    {
-      "epoch": 1.33,
-      "learning_rate": 0.00012753110126977415,
-      "loss": 0.5316,
-      "step": 605
-    },
-    {
-      "epoch": 1.34,
-      "learning_rate": 0.00012628675231412197,
-      "loss": 0.5227,
-      "step": 610
-    },
-    {
-      "epoch": 1.35,
-      "learning_rate": 0.0001249739581244523,
-      "loss": 0.4961,
-      "step": 615
-    },
-    {
-      "epoch": 1.36,
-      "learning_rate": 0.00012359427632884786,
-      "loss": 0.5487,
-      "step": 620
-    },
-    {
-      "epoch": 1.37,
-      "learning_rate": 0.0001221493439174271,
-      "loss": 0.5994,
-      "step": 625
-    },
-    {
-      "epoch": 1.38,
-      "learning_rate": 0.00012064087530004776,
-      "loss": 0.5401,
-      "step": 630
-    },
-    {
-      "epoch": 1.39,
-      "learning_rate": 0.00011907066027217711,
-      "loss": 0.5615,
-      "step": 635
-    },
-    {
-      "epoch": 1.4,
-      "learning_rate": 0.00011744056189128525,
-      "loss": 0.5705,
-      "step": 640
-    },
-    {
-      "epoch": 1.41,
-      "learning_rate": 0.00011575251426634572,
-      "loss": 0.5663,
-      "step": 645
-    },
-    {
-      "epoch": 1.43,
-      "learning_rate": 0.00011400852026300672,
-      "loss": 0.5623,
-      "step": 650
-    },
-    {
-      "epoch": 1.44,
-      "learning_rate": 0.00011221064912720382,
-      "loss": 0.5898,
-      "step": 655
-    },
-    {
-      "epoch": 1.45,
-      "learning_rate": 0.00011036103402999931,
-      "loss": 0.5708,
-      "step": 660
-    },
-    {
-      "epoch": 1.46,
-      "learning_rate": 0.00010846186953657361,
-      "loss": 0.5299,
-      "step": 665
-    },
-    {
-      "epoch": 1.47,
-      "learning_rate": 0.00010651540900238634,
-      "loss": 0.6369,
-      "step": 670
-    },
-    {
-      "epoch": 1.48,
-      "learning_rate": 0.00010452396189956808,
-      "loss": 0.532,
-      "step": 675
-    },
-    {
-      "epoch": 1.49,
-      "learning_rate": 0.0001024898910767386,
-      "loss": 0.5957,
-      "step": 680
-    },
-    {
-      "epoch": 1.5,
-      "learning_rate": 0.00010041560995548433,
-      "loss": 0.4907,
-      "step": 685
-    },
-    {
-      "epoch": 1.51,
-      "learning_rate": 9.830357966684779e-05,
-      "loss": 0.5726,
-      "step": 690
-    },
-    {
-      "epoch": 1.52,
-      "learning_rate": 9.615630613119297e-05,
-      "loss": 0.5582,
-      "step": 695
-    },
-    {
-      "epoch": 1.54,
-      "learning_rate": 9.397633708493872e-05,
-      "loss": 0.6085,
-      "step": 700
-    },
-    {
-      "epoch": 1.55,
-      "learning_rate": 9.17662590576683e-05,
-      "loss": 0.6075,
-      "step": 705
-    },
-    {
-      "epoch": 1.56,
-      "learning_rate": 8.95286943032199e-05,
-      "loss": 0.5199,
-      "step": 710
-    },
-    {
-      "epoch": 1.57,
-      "learning_rate": 8.726629768839068e-05,
-      "loss": 0.565,
-      "step": 715
-    },
-    {
-      "epoch": 1.58,
-      "learning_rate": 8.49817535429363e-05,
-      "loss": 0.5779,
-      "step": 720
-    },
-    {
-      "epoch": 1.59,
-      "learning_rate": 8.267777247462197e-05,
-      "loss": 0.514,
-      "step": 725
-    },
-    {
-      "epoch": 1.6,
-      "learning_rate": 8.035708815308325e-05,
-      "loss": 0.6287,
-      "step": 730
-    },
-    {
-      "epoch": 1.61,
-      "learning_rate": 7.802245406634311e-05,
-      "loss": 0.5617,
-      "step": 735
-    },
-    {
-      "epoch": 1.62,
-      "learning_rate": 7.56766402537954e-05,
-      "loss": 0.6135,
-      "step": 740
-    },
-    {
-      "epoch": 1.63,
-      "learning_rate": 7.332243001956172e-05,
-      "loss": 0.5151,
-      "step": 745
-    },
-    {
-      "epoch": 1.64,
-      "learning_rate": 7.096261663009792e-05,
-      "loss": 0.5282,
-      "step": 750
-    },
-    {
-      "epoch": 1.66,
-      "learning_rate": 6.85999999999999e-05,
-      "loss": 0.5488,
-      "step": 755
-    },
-    {
-      "epoch": 1.67,
-      "learning_rate": 6.623738336990383e-05,
-      "loss": 0.5678,
-      "step": 760
-    },
-    {
-      "epoch": 1.68,
-      "learning_rate": 6.387756998044003e-05,
-      "loss": 0.5534,
-      "step": 765
-    },
-    {
-      "epoch": 1.69,
-      "learning_rate": 6.152335974620634e-05,
-      "loss": 0.6249,
-      "step": 770
-    },
-    {
-      "epoch": 1.7,
-      "learning_rate": 5.917754593365669e-05,
-      "loss": 0.5588,
-      "step": 775
-    },
-    {
-      "epoch": 1.71,
-      "learning_rate": 5.684291184691846e-05,
-      "loss": 0.4985,
-      "step": 780
-    },
-    {
-      "epoch": 1.72,
-      "learning_rate": 5.452222752537974e-05,
-      "loss": 0.545,
-      "step": 785
-    },
-    {
-      "epoch": 1.73,
-      "learning_rate": 5.2218246457065396e-05,
-      "loss": 0.5905,
-      "step": 790
-    },
-    {
-      "epoch": 1.74,
-      "learning_rate": 4.993370231160913e-05,
-      "loss": 0.4741,
-      "step": 795
-    },
-    {
-      "epoch": 1.75,
-      "learning_rate": 4.767130569678176e-05,
-      "loss": 0.5473,
-      "step": 800
-    },
-    {
-      "epoch": 1.77,
-      "learning_rate": 4.543374094233335e-05,
-      "loss": 0.525,
-      "step": 805
-    },
-    {
-      "epoch": 1.78,
-      "learning_rate": 4.3223662915062914e-05,
-      "loss": 0.5134,
-      "step": 810
-    },
-    {
-      "epoch": 1.79,
-      "learning_rate": 4.104369386880686e-05,
-      "loss": 0.5726,
-      "step": 815
-    },
-    {
-      "epoch": 1.8,
-      "learning_rate": 3.8896420333152035e-05,
-      "loss": 0.4985,
-      "step": 820
-    },
-    {
-      "epoch": 1.81,
-      "learning_rate": 3.6784390044517205e-05,
-      "loss": 0.5251,
-      "step": 825
-    },
-    {
-      "epoch": 1.82,
-      "learning_rate": 3.471010892326291e-05,
-      "loss": 0.6068,
-      "step": 830
-    },
-    {
-      "epoch": 1.83,
-      "learning_rate": 3.267603810043175e-05,
-      "loss": 0.5227,
-      "step": 835
-    },
-    {
-      "epoch": 1.84,
-      "learning_rate": 3.068459099761349e-05,
-      "loss": 0.5061,
-      "step": 840
-    },
-    {
-      "epoch": 1.85,
-      "learning_rate": 2.8738130463427823e-05,
-      "loss": 0.5539,
-      "step": 845
-    },
-    {
-      "epoch": 1.86,
-      "learning_rate": 2.683896597000207e-05,
-      "loss": 0.5975,
-      "step": 850
-    },
-    {
-      "epoch": 1.88,
-      "learning_rate": 2.4989350872796035e-05,
-      "loss": 0.5843,
-      "step": 855
-    },
-    {
-      "epoch": 1.89,
-      "learning_rate": 2.3191479736993138e-05,
-      "loss": 0.571,
-      "step": 860
-    },
-    {
-      "epoch": 1.9,
-      "learning_rate": 2.1447485733655544e-05,
-      "loss": 0.5282,
-      "step": 865
-    },
-    {
-      "epoch": 1.91,
-      "learning_rate": 1.975943810871599e-05,
-      "loss": 0.5626,
-      "step": 870
-    },
-    {
-      "epoch": 1.92,
-      "learning_rate": 1.8129339727824064e-05,
-      "loss": 0.5394,
-      "step": 875
-    },
-    {
-      "epoch": 1.93,
-      "learning_rate": 1.6559124699952118e-05,
-      "loss": 0.4747,
-      "step": 880
-    },
-    {
-      "epoch": 1.94,
-      "learning_rate": 1.5050656082574002e-05,
-      "loss": 0.5601,
-      "step": 885
-    },
-    {
-      "epoch": 1.95,
-      "learning_rate": 1.3605723671153187e-05,
-      "loss": 0.4725,
-      "step": 890
-    },
-    {
-      "epoch": 1.96,
-      "learning_rate": 1.22260418755487e-05,
-      "loss": 0.5171,
-      "step": 895
-    },
-    {
-      "epoch": 1.97,
-      "learning_rate": 1.0913247685877927e-05,
-      "loss": 0.5425,
-      "step": 900
-    },
-    {
-      "epoch": 1.98,
-      "learning_rate": 9.66889873022574e-06,
-      "loss": 0.4969,
-      "step": 905
-    },
-    {
-      "epoch": 2.0,
-      "learning_rate": 8.494471426523612e-06,
-      "loss": 0.5235,
-      "step": 910
-    },
-    {
-      "epoch": 2.0,
-      "eval_loss": 0.21034620702266693,
-      "eval_runtime": 15.3022,
-      "eval_samples_per_second": 41.432,
-      "eval_steps_per_second": 5.228,
-      "step": 912
     }
   ],
-  "max_steps": 2736,
-  "num_train_epochs": 6,
-  "total_flos": 951886872576000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.22213919460773468,
+  "best_model_checkpoint": "output/eminem/checkpoint-455",
+  "epoch": 1.0,
+  "global_step": 455,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.01,
+      "learning_rate": 0.00013711989076069754,
+      "loss": 0.4887,
       "step": 5
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.00013719345930102362,
+      "loss": 0.4564,
       "step": 10
     },
     {
       "epoch": 0.03,
+      "learning_rate": 0.00013718528371963108,
+      "loss": 0.4132,
       "step": 15
     },
     {
       "epoch": 0.04,
+      "learning_rate": 0.00013709537375951485,
+      "loss": 0.4758,
       "step": 20
     },
     {
       "epoch": 0.05,
+      "learning_rate": 0.00013692383656807334,
+      "loss": 0.4929,
       "step": 25
     },
     {
       "epoch": 0.07,
+      "learning_rate": 0.00013667087656941957,
+      "loss": 0.4404,
       "step": 30
     },
     {
       "epoch": 0.08,
+      "learning_rate": 0.0001363367952207642,
+      "loss": 0.4726,
       "step": 35
     },
     {
       "epoch": 0.09,
+      "learning_rate": 0.00013592199065316386,
+      "loss": 0.4448,
       "step": 40
     },
     {
       "epoch": 0.1,
+      "learning_rate": 0.00013542695719706024,
+      "loss": 0.4852,
       "step": 45
     },
     {
       "epoch": 0.11,
+      "learning_rate": 0.00013485228479317936,
+      "loss": 0.4865,
       "step": 50
     },
     {
       "epoch": 0.12,
+      "learning_rate": 0.00013419865828948315,
+      "loss": 0.5125,
       "step": 55
     },
     {
       "epoch": 0.13,
+      "learning_rate": 0.00013346685662502967,
+      "loss": 0.5314,
       "step": 60
     },
     {
       "epoch": 0.14,
+      "learning_rate": 0.00013265775190169146,
+      "loss": 0.4813,
       "step": 65
     },
     {
       "epoch": 0.15,
+      "learning_rate": 0.00013177230834485767,
+      "loss": 0.4348,
       "step": 70
     },
     {
       "epoch": 0.16,
+      "learning_rate": 0.00013081158115434713,
+      "loss": 0.4715,
       "step": 75
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 0.00012977671524691005,
+      "loss": 0.4864,
       "step": 80
     },
     {
+      "epoch": 0.19,
+      "learning_rate": 0.0001286689438918043,
+      "loss": 0.4764,
       "step": 85
     },
     {
       "epoch": 0.2,
+      "learning_rate": 0.0001274895872410883,
+      "loss": 0.5284,
       "step": 90
     },
     {
       "epoch": 0.21,
+      "learning_rate": 0.0001262400507563689,
+      "loss": 0.5136,
       "step": 95
     },
     {
       "epoch": 0.22,
+      "learning_rate": 0.00012492182353389172,
+      "loss": 0.5015,
       "step": 100
     },
     {
       "epoch": 0.23,
+      "learning_rate": 0.00012353647652994513,
+      "loss": 0.5157,
       "step": 105
     },
     {
       "epoch": 0.24,
+      "learning_rate": 0.00012208566068873714,
+      "loss": 0.5087,
       "step": 110
     },
     {
       "epoch": 0.25,
+      "learning_rate": 0.00012057110497492192,
+      "loss": 0.5977,
       "step": 115
     },
     {
       "epoch": 0.26,
+      "learning_rate": 0.00011899461431316551,
+      "loss": 0.4527,
       "step": 120
     },
     {
       "epoch": 0.27,
+      "learning_rate": 0.00011735806743718042,
+      "loss": 0.4758,
       "step": 125
     },
     {
+      "epoch": 0.29,
+      "learning_rate": 0.00011566341465080868,
+      "loss": 0.4566,
       "step": 130
     },
     {
+      "epoch": 0.3,
+      "learning_rate": 0.00011391267550379983,
+      "loss": 0.4963,
       "step": 135
     },
     {
+      "epoch": 0.31,
+      "learning_rate": 0.00011210793638508056,
+      "loss": 0.4994,
       "step": 140
     },
     {
       "epoch": 0.32,
+      "learning_rate": 0.00011025134803636436,
+      "loss": 0.5175,
       "step": 145
     },
     {
       "epoch": 0.33,
+      "learning_rate": 0.00010834512298907191,
+      "loss": 0.5139,
       "step": 150
     },
     {
       "epoch": 0.34,
+      "learning_rate": 0.00010639153292761406,
+      "loss": 0.515,
       "step": 155
     },
     {
       "epoch": 0.35,
+      "learning_rate": 0.0001043929059821889,
+      "loss": 0.4672,
       "step": 160
     },
     {
       "epoch": 0.36,
+      "learning_rate": 0.00010235162395429551,
+      "loss": 0.5449,
       "step": 165
     },
     {
       "epoch": 0.37,
+      "learning_rate": 0.00010027011947830235,
+      "loss": 0.5187,
       "step": 170
     },
     {
       "epoch": 0.38,
+      "learning_rate": 9.81508731224277e-05,
+      "loss": 0.5283,
       "step": 175
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 9.599641043260833e-05,
+      "loss": 0.4869,
       "step": 180
     },
     {
+      "epoch": 0.41,
+      "learning_rate": 9.380929892273937e-05,
+      "loss": 0.4807,
       "step": 185
     },
     {
+      "epoch": 0.42,
+      "learning_rate": 9.15921450149442e-05,
+      "loss": 0.5009,
       "step": 190
     },
     {
+      "epoch": 0.43,
+      "learning_rate": 8.93475909334324e-05,
+      "loss": 0.5661,
       "step": 195
     },
     {
+      "epoch": 0.44,
+      "learning_rate": 8.70783115557202e-05,
+      "loss": 0.5181,
       "step": 200
     },
     {
       "epoch": 0.45,
+      "learning_rate": 8.478701122492464e-05,
+      "loss": 0.5132,
       "step": 205
     },
     {
       "epoch": 0.46,
+      "learning_rate": 8.247642052695435e-05,
+      "loss": 0.4738,
       "step": 210
     },
     {
       "epoch": 0.47,
+      "learning_rate": 8.014929303640746e-05,
+      "loss": 0.4718,
       "step": 215
     },
     {
       "epoch": 0.48,
+      "learning_rate": 7.780840203509217e-05,
+      "loss": 0.5202,
       "step": 220
     },
     {
       "epoch": 0.49,
+      "learning_rate": 7.545653720705064e-05,
+      "loss": 0.4643,
       "step": 225
     },
     {
+      "epoch": 0.51,
+      "learning_rate": 7.309650131404948e-05,
+      "loss": 0.4846,
       "step": 230
     },
     {
+      "epoch": 0.52,
+      "learning_rate": 7.073110685545424e-05,
+      "loss": 0.4528,
       "step": 235
     },
     {
+      "epoch": 0.53,
+      "learning_rate": 6.836317271654793e-05,
+      "loss": 0.4695,
       "step": 240
     },
     {
+      "epoch": 0.54,
+      "learning_rate": 6.599552080919084e-05,
+      "loss": 0.4723,
       "step": 245
     },
     {
+      "epoch": 0.55,
+      "learning_rate": 6.363097270890452e-05,
+      "loss": 0.4357,
       "step": 250
     },
     {
+      "epoch": 0.56,
+      "learning_rate": 6.127234629234303e-05,
+      "loss": 0.5521,
       "step": 255
     },
     {
       "epoch": 0.57,
+      "learning_rate": 5.892245237918387e-05,
+      "loss": 0.484,
       "step": 260
     },
     {
       "epoch": 0.58,
+      "learning_rate": 5.6584091382409376e-05,
+      "loss": 0.5221,
       "step": 265
     },
     {
       "epoch": 0.59,
+      "learning_rate": 5.426004997100939e-05,
+      "loss": 0.4865,
       "step": 270
     },
     {
       "epoch": 0.6,
+      "learning_rate": 5.195309774905142e-05,
+      "loss": 0.4395,
       "step": 275
     },
     {
+      "epoch": 0.62,
+      "learning_rate": 4.966598395510049e-05,
+      "loss": 0.4693,
       "step": 280
     },
     {
+      "epoch": 0.63,
+      "learning_rate": 4.7401434185878876e-05,
+      "loss": 0.5105,
       "step": 285
     },
     {
+      "epoch": 0.64,
+      "learning_rate": 4.516214714814733e-05,
+      "loss": 0.406,
       "step": 290
     },
     {
+      "epoch": 0.65,
+      "learning_rate": 4.2950791442584565e-05,
+      "loss": 0.4573,
       "step": 295
     },
     {
+      "epoch": 0.66,
+      "learning_rate": 4.0770002383574794e-05,
+      "loss": 0.4153,
       "step": 300
     },
     {
+      "epoch": 0.67,
+      "learning_rate": 3.862237885865012e-05,
+      "loss": 0.4713,
       "step": 305
     },
     {
+      "epoch": 0.68,
+      "learning_rate": 3.651048023135423e-05,
+      "loss": 0.4615,
       "step": 310
     },
     {
+      "epoch": 0.69,
+      "learning_rate": 3.4436823291189834e-05,
+      "loss": 0.4731,
       "step": 315
     },
     {
       "epoch": 0.7,
+      "learning_rate": 3.2403879254320225e-05,
+      "loss": 0.4743,
       "step": 320
     },
     {
       "epoch": 0.71,
+      "learning_rate": 3.0414070818570786e-05,
+      "loss": 0.4617,
       "step": 325
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 2.84697692762624e-05,
+      "loss": 0.4779,
       "step": 330
     },
     {
+      "epoch": 0.74,
+      "learning_rate": 2.657329168827975e-05,
+      "loss": 0.4796,
       "step": 335
     },
     {
+      "epoch": 0.75,
+      "learning_rate": 2.4726898122808552e-05,
+      "loss": 0.451,
       "step": 340
     },
     {
+      "epoch": 0.76,
+      "learning_rate": 2.2932788961952088e-05,
+      "loss": 0.5316,
       "step": 345
     },
     {
+      "epoch": 0.77,
+      "learning_rate": 2.1193102279502168e-05,
+      "loss": 0.4846,
       "step": 350
     },
     {
+      "epoch": 0.78,
+      "learning_rate": 1.9509911292953254e-05,
+      "loss": 0.4435,
       "step": 355
     },
     {
+      "epoch": 0.79,
+      "learning_rate": 1.7885221892815502e-05,
+      "loss": 0.4859,
       "step": 360
     },
     {
+      "epoch": 0.8,
+      "learning_rate": 1.6320970252148786e-05,
+      "loss": 0.5439,
       "step": 365
     },
     {
+      "epoch": 0.81,
+      "learning_rate": 1.48190205191943e-05,
+      "loss": 0.4491,
       "step": 370
     },
     {
       "epoch": 0.82,
+      "learning_rate": 1.3381162595831284e-05,
+      "loss": 0.4599,
       "step": 375
     },
     {
       "epoch": 0.84,
+      "learning_rate": 1.2009110004522916e-05,
+      "loss": 0.4688,
+      "step": 380
     },
     {
       "epoch": 0.85,
+      "learning_rate": 1.0704497846266602e-05,
+      "loss": 0.445,
+      "step": 385
     },
     {
       "epoch": 0.86,
+      "learning_rate": 9.468880852029007e-06,
+      "loss": 0.4632,
+      "step": 390
     },
     {
       "epoch": 0.87,
+      "learning_rate": 8.303731529931584e-06,
+      "loss": 0.4699,
+      "step": 395
     },
     {
       "epoch": 0.88,
+      "learning_rate": 7.210438410440295e-06,
+      "loss": 0.4994,
+      "step": 400
     },
     {
       "epoch": 0.89,
+      "learning_rate": 6.190304391625742e-06,
+      "loss": 0.4727,
+      "step": 405
     },
     {
       "epoch": 0.9,
+      "learning_rate": 5.24454518647817e-06,
+      "loss": 0.4766,
+      "step": 410
     },
     {
       "epoch": 0.91,
+      "learning_rate": 4.374287874114302e-06,
+      "loss": 0.5309,
+      "step": 415
     },
     {
       "epoch": 0.92,
+      "learning_rate": 3.5805695566192774e-06,
+      "loss": 0.4346,
+      "step": 420
     },
     {
       "epoch": 0.93,
+      "learning_rate": 2.8643361231110826e-06,
+      "loss": 0.4458,
+      "step": 425
     },
     {
       "epoch": 0.95,
+      "learning_rate": 2.2264411225093805e-06,
+      "loss": 0.416,
+      "step": 430
     },
     {
       "epoch": 0.96,
+      "learning_rate": 1.6676447463391393e-06,
+      "loss": 0.524,
+      "step": 435
     },
     {
       "epoch": 0.97,
+      "learning_rate": 1.1886129228033631e-06,
+      "loss": 0.4421,
+      "step": 440
     },
     {
       "epoch": 0.98,
+      "learning_rate": 7.89916523178351e-07,
+      "loss": 0.4325,
+      "step": 445
     },
     {
       "epoch": 0.99,
+      "learning_rate": 4.7203068149803844e-07,
+      "loss": 0.476,
+      "step": 450
     },
     {
       "epoch": 1.0,
+      "learning_rate": 2.3533422832716514e-07,
+      "loss": 0.4506,
+      "step": 455
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.22213919460773468,
+      "eval_runtime": 29.39,
+      "eval_samples_per_second": 21.946,
+      "eval_steps_per_second": 2.756,
+      "step": 455
     }
   ],
+  "max_steps": 1365,
+  "num_train_epochs": 3,
+  "total_flos": 474636976128000.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1ea3cda2785536f15c20f453c0b9bcc0101903ca9e2ecd4b40b57e318d77ca5
-size 3055

 version https://git-lfs.github.com/spec/v1
+oid sha256:5bc291dc42b38a7b304b7daeb4b46cfc64328ad099cb5a00588b0246f606e58b
+size 3247