End of training

Browse files

Files changed (6) hide show

README.md +3 -1
all_results.json +11 -11
eval_results.json +6 -6
runs/Jul29_17-08-50_0c01edbb4158/events.out.tfevents.1722306914.0c01edbb4158.1157.1 +3 -0
train_results.json +6 -6
trainer_state.json +1219 -629

README.md CHANGED Viewed

@@ -2,6 +2,8 @@
 license: apache-2.0
 base_model: facebook/wav2vec2-large-xlsr-53
 tags:
 - generated_from_trainer
 metrics:
 - wer
@@ -15,7 +17,7 @@ should probably proofread and complete it, then remove this comment. -->
 # wav2vec2-xlsr-53-ft-btb-ccv-cy
-This model is a fine-tuned version of [facebook/wav2vec2-large-xlsr-53](https://huggingface.co/facebook/wav2vec2-large-xlsr-53) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.4511
 - Wer: 0.3591

 license: apache-2.0
 base_model: facebook/wav2vec2-large-xlsr-53
 tags:
+- automatic-speech-recognition
+- DewiBrynJones/banc-trawsgrifiadau-bangor-clean-with-ccv
 - generated_from_trainer
 metrics:
 - wer
 # wav2vec2-xlsr-53-ft-btb-ccv-cy
+This model is a fine-tuned version of [facebook/wav2vec2-large-xlsr-53](https://huggingface.co/facebook/wav2vec2-large-xlsr-53) on the DEWIBRYNJONES/BANC-TRAWSGRIFIADAU-BANGOR-CLEAN-WITH-CCV - DEFAULT dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.4511
 - Wer: 0.3591

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 0.7858854964831624,
-    "eval_loss": 0.4908364713191986,
-    "eval_runtime": 147.2734,
     "eval_samples": 5656,
-    "eval_samples_per_second": 38.405,
-    "eval_steps_per_second": 4.801,
-    "eval_wer": 0.39638266116737014,
-    "total_flos": 2.4863424513490096e+19,
-    "train_loss": 0.5819183097839356,
-    "train_runtime": 23325.1985,
     "train_samples": 203589,
-    "train_samples_per_second": 6.86,
-    "train_steps_per_second": 0.857
 }

 {
+    "epoch": 1.1788282447247436,
+    "eval_loss": 0.4510672390460968,
+    "eval_runtime": 164.5225,
     "eval_samples": 5656,
+    "eval_samples_per_second": 34.378,
+    "eval_steps_per_second": 4.297,
+    "eval_wer": 0.3591179727495948,
+    "total_flos": 3.731985674211105e+19,
+    "train_loss": 0.5082863594055176,
+    "train_runtime": 37313.8627,
     "train_samples": 203589,
+    "train_samples_per_second": 6.432,
+    "train_steps_per_second": 0.804
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 0.7858854964831624,
-    "eval_loss": 0.4908364713191986,
-    "eval_runtime": 147.2734,
     "eval_samples": 5656,
-    "eval_samples_per_second": 38.405,
-    "eval_steps_per_second": 4.801,
-    "eval_wer": 0.39638266116737014
 }

 {
+    "epoch": 1.1788282447247436,
+    "eval_loss": 0.4510672390460968,
+    "eval_runtime": 164.5225,
     "eval_samples": 5656,
+    "eval_samples_per_second": 34.378,
+    "eval_steps_per_second": 4.297,
+    "eval_wer": 0.3591179727495948
 }

runs/Jul29_17-08-50_0c01edbb4158/events.out.tfevents.1722306914.0c01edbb4158.1157.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9b41fad7fe93b3519916cd5ecd69bc10caaeefc3d6185093d392a92a76f4ebd2
+size 412

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 0.7858854964831624,
-    "total_flos": 2.4863424513490096e+19,
-    "train_loss": 0.5819183097839356,
-    "train_runtime": 23325.1985,
     "train_samples": 203589,
-    "train_samples_per_second": 6.86,
-    "train_steps_per_second": 0.857
 }

 {
+    "epoch": 1.1788282447247436,
+    "total_flos": 3.731985674211105e+19,
+    "train_loss": 0.5082863594055176,
+    "train_runtime": 37313.8627,
     "train_samples": 203589,
+    "train_samples_per_second": 6.432,
+    "train_steps_per_second": 0.804
 }

trainer_state.json CHANGED Viewed

@@ -1,1207 +1,1797 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7858854964831624,
   "eval_steps": 200,
-  "global_step": 20000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.007858854964831625,
-      "eval_loss": 3.1856138706207275,
-      "eval_runtime": 145.9906,
-      "eval_samples_per_second": 38.742,
-      "eval_steps_per_second": 4.843,
       "eval_wer": 1.0,
       "step": 200
     },
     {
       "epoch": 0.01571770992966325,
-      "eval_loss": 2.649242877960205,
-      "eval_runtime": 145.4142,
-      "eval_samples_per_second": 38.896,
-      "eval_steps_per_second": 4.862,
       "eval_wer": 1.0,
       "step": 400
     },
     {
       "epoch": 0.01964713741207906,
-      "grad_norm": 2.1910934448242188,
       "learning_rate": 0.0002982,
-      "loss": 4.6997,
       "step": 500
     },
     {
       "epoch": 0.023576564894494872,
-      "eval_loss": 1.3868569135665894,
-      "eval_runtime": 144.4791,
-      "eval_samples_per_second": 39.148,
-      "eval_steps_per_second": 4.893,
-      "eval_wer": 0.8722215981126927,
       "step": 600
     },
     {
       "epoch": 0.0314354198593265,
-      "eval_loss": 1.230230689048767,
-      "eval_runtime": 145.2382,
-      "eval_samples_per_second": 38.943,
-      "eval_steps_per_second": 4.868,
-      "eval_wer": 0.830768243167338,
       "step": 800
     },
     {
       "epoch": 0.03929427482415812,
-      "grad_norm": 4.400168418884277,
-      "learning_rate": 0.0002923538461538461,
-      "loss": 1.0569,
       "step": 1000
     },
     {
       "epoch": 0.03929427482415812,
-      "eval_loss": 1.1379698514938354,
-      "eval_runtime": 146.1828,
-      "eval_samples_per_second": 38.691,
-      "eval_steps_per_second": 4.836,
-      "eval_wer": 0.795846640240086,
       "step": 1000
     },
     {
       "epoch": 0.047153129788989744,
-      "eval_loss": 1.066832184791565,
-      "eval_runtime": 145.7914,
-      "eval_samples_per_second": 38.795,
-      "eval_steps_per_second": 4.849,
-      "eval_wer": 0.7697998748214601,
       "step": 1200
     },
     {
       "epoch": 0.055011984753821366,
-      "eval_loss": 1.0207505226135254,
-      "eval_runtime": 146.2293,
-      "eval_samples_per_second": 38.679,
-      "eval_steps_per_second": 4.835,
-      "eval_wer": 0.7310426730432829,
       "step": 1400
     },
     {
       "epoch": 0.05894141223623718,
-      "grad_norm": 3.929137945175171,
-      "learning_rate": 0.00028466153846153845,
-      "loss": 0.8131,
       "step": 1500
     },
     {
       "epoch": 0.062870839718653,
-      "eval_loss": 0.970230758190155,
-      "eval_runtime": 145.9066,
-      "eval_samples_per_second": 38.765,
-      "eval_steps_per_second": 4.846,
-      "eval_wer": 0.7151385790630868,
       "step": 1600
     },
     {
       "epoch": 0.07072969468348461,
-      "eval_loss": 0.9408352375030518,
-      "eval_runtime": 146.5767,
-      "eval_samples_per_second": 38.587,
-      "eval_steps_per_second": 4.823,
-      "eval_wer": 0.6882091444528253,
       "step": 1800
     },
     {
       "epoch": 0.07858854964831624,
-      "grad_norm": 2.3885908126831055,
-      "learning_rate": 0.0002769692307692307,
-      "loss": 0.7194,
       "step": 2000
     },
     {
       "epoch": 0.07858854964831624,
-      "eval_loss": 0.9249575138092041,
-      "eval_runtime": 145.9151,
-      "eval_samples_per_second": 38.762,
-      "eval_steps_per_second": 4.845,
-      "eval_wer": 0.6804095585049189,
       "step": 2000
     },
     {
       "epoch": 0.08644740461314787,
-      "eval_loss": 0.9052397608757019,
-      "eval_runtime": 146.242,
-      "eval_samples_per_second": 38.676,
-      "eval_steps_per_second": 4.834,
-      "eval_wer": 0.6726099725570124,
       "step": 2200
     },
     {
       "epoch": 0.09430625957797949,
-      "eval_loss": 0.8985734581947327,
-      "eval_runtime": 146.806,
-      "eval_samples_per_second": 38.527,
-      "eval_steps_per_second": 4.816,
-      "eval_wer": 0.6573478198070967,
       "step": 2400
     },
     {
       "epoch": 0.0982356870603953,
-      "grad_norm": 1.7855921983718872,
-      "learning_rate": 0.00026927692307692305,
-      "loss": 0.6688,
       "step": 2500
     },
     {
       "epoch": 0.10216511454281112,
-      "eval_loss": 0.8814770579338074,
-      "eval_runtime": 147.0906,
-      "eval_samples_per_second": 38.452,
-      "eval_steps_per_second": 4.807,
-      "eval_wer": 0.6473495851454799,
       "step": 2600
     },
     {
       "epoch": 0.11002396950764273,
-      "eval_loss": 0.858833372592926,
-      "eval_runtime": 146.5037,
-      "eval_samples_per_second": 38.607,
-      "eval_steps_per_second": 4.826,
-      "eval_wer": 0.6444608496092182,
       "step": 2800
     },
     {
       "epoch": 0.11788282447247436,
-      "grad_norm": 2.42130184173584,
-      "learning_rate": 0.00026158461538461537,
-      "loss": 0.645,
       "step": 3000
     },
     {
       "epoch": 0.11788282447247436,
-      "eval_loss": 0.875824511051178,
-      "eval_runtime": 147.7065,
-      "eval_samples_per_second": 38.292,
-      "eval_steps_per_second": 4.787,
-      "eval_wer": 0.6487458073213397,
       "step": 3000
     },
     {
       "epoch": 0.125741679437306,
-      "eval_loss": 0.8724836707115173,
-      "eval_runtime": 146.8488,
-      "eval_samples_per_second": 38.516,
-      "eval_steps_per_second": 4.814,
-      "eval_wer": 0.6690953443212274,
       "step": 3200
     },
     {
       "epoch": 0.13360053440213762,
-      "eval_loss": 0.8295639157295227,
-      "eval_runtime": 147.6357,
-      "eval_samples_per_second": 38.311,
-      "eval_steps_per_second": 4.789,
-      "eval_wer": 0.6298085410280689,
       "step": 3400
     },
     {
       "epoch": 0.1375299618845534,
-      "grad_norm": 3.927525520324707,
-      "learning_rate": 0.0002538923076923077,
-      "loss": 0.6077,
       "step": 3500
     },
     {
       "epoch": 0.14145938936696922,
-      "eval_loss": 0.8355618715286255,
-      "eval_runtime": 147.0713,
-      "eval_samples_per_second": 38.458,
-      "eval_steps_per_second": 4.807,
-      "eval_wer": 0.6551652196241434,
       "step": 3600
     },
     {
       "epoch": 0.14931824433180085,
-      "eval_loss": 0.8262892961502075,
-      "eval_runtime": 147.1539,
-      "eval_samples_per_second": 38.436,
-      "eval_steps_per_second": 4.804,
-      "eval_wer": 0.6228595272102839,
       "step": 3800
     },
     {
       "epoch": 0.15717709929663248,
-      "grad_norm": 2.224973201751709,
-      "learning_rate": 0.00024619999999999997,
-      "loss": 0.5983,
       "step": 4000
     },
     {
       "epoch": 0.15717709929663248,
-      "eval_loss": 0.8710989356040955,
-      "eval_runtime": 147.2188,
-      "eval_samples_per_second": 38.419,
-      "eval_steps_per_second": 4.802,
-      "eval_wer": 0.6884659209449375,
       "step": 4000
     },
     {
       "epoch": 0.1650359542614641,
-      "eval_loss": 0.7836620807647705,
-      "eval_runtime": 148.3617,
-      "eval_samples_per_second": 38.123,
-      "eval_steps_per_second": 4.765,
-      "eval_wer": 0.5918216687262281,
       "step": 4200
     },
     {
       "epoch": 0.17289480922629574,
-      "eval_loss": 0.8097087144851685,
-      "eval_runtime": 147.4155,
-      "eval_samples_per_second": 38.368,
-      "eval_steps_per_second": 4.796,
-      "eval_wer": 0.659755099420648,
       "step": 4400
     },
     {
       "epoch": 0.17682423670871153,
-      "grad_norm": 1.8362923860549927,
-      "learning_rate": 0.0002385230769230769,
-      "loss": 0.5788,
       "step": 4500
     },
     {
       "epoch": 0.18075366419112734,
-      "eval_loss": 0.77768874168396,
-      "eval_runtime": 146.8579,
-      "eval_samples_per_second": 38.513,
-      "eval_steps_per_second": 4.814,
-      "eval_wer": 0.5869268668453403,
       "step": 4600
     },
     {
       "epoch": 0.18861251915595897,
-      "eval_loss": 0.7912825345993042,
-      "eval_runtime": 146.176,
-      "eval_samples_per_second": 38.693,
-      "eval_steps_per_second": 4.837,
-      "eval_wer": 0.5895588258894898,
       "step": 4800
     },
     {
       "epoch": 0.1964713741207906,
-      "grad_norm": 3.315845489501953,
-      "learning_rate": 0.0002308307692307692,
-      "loss": 0.5501,
       "step": 5000
     },
     {
       "epoch": 0.1964713741207906,
-      "eval_loss": 0.7924312353134155,
-      "eval_runtime": 146.7719,
-      "eval_samples_per_second": 38.536,
-      "eval_steps_per_second": 4.817,
-      "eval_wer": 0.5899760876891721,
       "step": 5000
     },
     {
       "epoch": 0.20433022908562223,
-      "eval_loss": 0.7602530717849731,
-      "eval_runtime": 146.9845,
-      "eval_samples_per_second": 38.48,
-      "eval_steps_per_second": 4.81,
-      "eval_wer": 0.5737189260323218,
       "step": 5200
     },
     {
       "epoch": 0.21218908405045384,
-      "eval_loss": 0.7750186920166016,
-      "eval_runtime": 146.5887,
-      "eval_samples_per_second": 38.584,
-      "eval_steps_per_second": 4.823,
-      "eval_wer": 0.5931697453098169,
       "step": 5400
     },
     {
       "epoch": 0.21611851153286965,
-      "grad_norm": 9.320504188537598,
-      "learning_rate": 0.00022313846153846153,
-      "loss": 0.5694,
       "step": 5500
     },
     {
       "epoch": 0.22004793901528547,
-      "eval_loss": 0.7516711950302124,
-      "eval_runtime": 146.9947,
-      "eval_samples_per_second": 38.478,
-      "eval_steps_per_second": 4.81,
-      "eval_wer": 0.5711190640496863,
       "step": 5600
     },
     {
       "epoch": 0.2279067939801171,
-      "eval_loss": 0.7651358842849731,
-      "eval_runtime": 146.6177,
-      "eval_samples_per_second": 38.577,
-      "eval_steps_per_second": 4.822,
-      "eval_wer": 0.5698191330583685,
       "step": 5800
     },
     {
       "epoch": 0.23576564894494872,
-      "grad_norm": 2.727358102798462,
-      "learning_rate": 0.00021544615384615383,
-      "loss": 0.5424,
       "step": 6000
     },
     {
       "epoch": 0.23576564894494872,
-      "eval_loss": 0.7547870874404907,
-      "eval_runtime": 146.6389,
-      "eval_samples_per_second": 38.571,
-      "eval_steps_per_second": 4.821,
-      "eval_wer": 0.5820481134952095,
       "step": 6000
     },
     {
       "epoch": 0.24362450390978035,
-      "eval_loss": 0.730515718460083,
-      "eval_runtime": 146.763,
-      "eval_samples_per_second": 38.538,
-      "eval_steps_per_second": 4.817,
-      "eval_wer": 0.5681019402673685,
       "step": 6200
     },
     {
       "epoch": 0.251483358874612,
-      "eval_loss": 0.7314247488975525,
-      "eval_runtime": 147.0063,
-      "eval_samples_per_second": 38.475,
-      "eval_steps_per_second": 4.809,
-      "eval_wer": 0.5589221806743593,
       "step": 6400
     },
     {
       "epoch": 0.2554127863570278,
-      "grad_norm": 3.2329583168029785,
-      "learning_rate": 0.00020775384615384613,
-      "loss": 0.521,
       "step": 6500
     },
     {
       "epoch": 0.2593422138394436,
-      "eval_loss": 0.7227704524993896,
-      "eval_runtime": 147.7519,
-      "eval_samples_per_second": 38.28,
-      "eval_steps_per_second": 4.785,
-      "eval_wer": 0.565437884161705,
       "step": 6600
     },
     {
       "epoch": 0.26720106880427524,
-      "eval_loss": 0.7350090146064758,
-      "eval_runtime": 147.7712,
-      "eval_samples_per_second": 38.275,
-      "eval_steps_per_second": 4.784,
-      "eval_wer": 0.5633194781017797,
       "step": 6800
     },
     {
       "epoch": 0.2750599237691068,
-      "grad_norm": 3.2193281650543213,
-      "learning_rate": 0.00020006153846153843,
-      "loss": 0.5119,
       "step": 7000
     },
     {
       "epoch": 0.2750599237691068,
-      "eval_loss": 0.7079117298126221,
-      "eval_runtime": 146.6317,
-      "eval_samples_per_second": 38.573,
-      "eval_steps_per_second": 4.822,
-      "eval_wer": 0.5346888992312754,
       "step": 7000
     },
     {
       "epoch": 0.28291877873393845,
-      "eval_loss": 0.7105109691619873,
-      "eval_runtime": 147.7789,
-      "eval_samples_per_second": 38.273,
-      "eval_steps_per_second": 4.784,
-      "eval_wer": 0.5601097719503779,
       "step": 7200
     },
     {
       "epoch": 0.2907776336987701,
-      "eval_loss": 0.6876121163368225,
-      "eval_runtime": 147.4709,
-      "eval_samples_per_second": 38.353,
-      "eval_steps_per_second": 4.794,
-      "eval_wer": 0.5378344112596491,
       "step": 7400
     },
     {
       "epoch": 0.2947070611811859,
-      "grad_norm": 2.7452991008758545,
-      "learning_rate": 0.00019236923076923075,
-      "loss": 0.5007,
       "step": 7500
     },
     {
       "epoch": 0.2986364886636017,
-      "eval_loss": 0.6834765076637268,
-      "eval_runtime": 147.74,
-      "eval_samples_per_second": 38.283,
-      "eval_steps_per_second": 4.785,
-      "eval_wer": 0.5303397473961259,
       "step": 7600
     },
     {
       "epoch": 0.30649534362843334,
-      "eval_loss": 0.7131712436676025,
-      "eval_runtime": 147.6824,
-      "eval_samples_per_second": 38.298,
-      "eval_steps_per_second": 4.787,
-      "eval_wer": 0.5350740639694436,
       "step": 7800
     },
     {
       "epoch": 0.31435419859326497,
-      "grad_norm": 2.4165494441986084,
-      "learning_rate": 0.00018467692307692308,
-      "loss": 0.4934,
       "step": 8000
     },
     {
       "epoch": 0.31435419859326497,
-      "eval_loss": 0.697209358215332,
-      "eval_runtime": 146.9527,
-      "eval_samples_per_second": 38.489,
-      "eval_steps_per_second": 4.811,
-      "eval_wer": 0.5241771115854343,
       "step": 8000
     },
     {
       "epoch": 0.3222130535580966,
-      "eval_loss": 0.680029571056366,
-      "eval_runtime": 147.261,
-      "eval_samples_per_second": 38.408,
-      "eval_steps_per_second": 4.801,
-      "eval_wer": 0.5226685496942755,
       "step": 8200
     },
     {
       "epoch": 0.3300719085229282,
-      "eval_loss": 0.6915732026100159,
-      "eval_runtime": 146.7546,
-      "eval_samples_per_second": 38.541,
-      "eval_steps_per_second": 4.818,
-      "eval_wer": 0.5364702861453033,
       "step": 8400
     },
     {
       "epoch": 0.33400133600534404,
-      "grad_norm": 2.036782741546631,
-      "learning_rate": 0.00017698461538461537,
-      "loss": 0.4762,
       "step": 8500
     },
     {
       "epoch": 0.33793076348775986,
-      "eval_loss": 0.6801823377609253,
-      "eval_runtime": 147.6195,
-      "eval_samples_per_second": 38.315,
-      "eval_steps_per_second": 4.789,
-      "eval_wer": 0.5255251881690232,
       "step": 8600
     },
     {
       "epoch": 0.3457896184525915,
-      "eval_loss": 0.6977699398994446,
-      "eval_runtime": 148.3269,
-      "eval_samples_per_second": 38.132,
-      "eval_steps_per_second": 4.766,
-      "eval_wer": 0.5336938903243408,
       "step": 8800
     },
     {
       "epoch": 0.35364847341742306,
-      "grad_norm": 3.6703684329986572,
-      "learning_rate": 0.0001693076923076923,
-      "loss": 0.4774,
       "step": 9000
     },
     {
       "epoch": 0.35364847341742306,
-      "eval_loss": 0.6566863059997559,
-      "eval_runtime": 147.4913,
-      "eval_samples_per_second": 38.348,
-      "eval_steps_per_second": 4.794,
-      "eval_wer": 0.5210957936800886,
       "step": 9000
     },
     {
       "epoch": 0.3615073283822547,
-      "eval_loss": 0.6478887796401978,
-      "eval_runtime": 146.7975,
-      "eval_samples_per_second": 38.529,
-      "eval_steps_per_second": 4.816,
-      "eval_wer": 0.5152380799537802,
       "step": 9200
     },
     {
       "epoch": 0.3693661833470863,
-      "eval_loss": 0.6551229953765869,
-      "eval_runtime": 147.2799,
-      "eval_samples_per_second": 38.403,
-      "eval_steps_per_second": 4.8,
-      "eval_wer": 0.5147405755003129,
       "step": 9400
     },
     {
       "epoch": 0.37329561082950213,
-      "grad_norm": 2.4989895820617676,
-      "learning_rate": 0.00016161538461538462,
-      "loss": 0.4632,
       "step": 9500
     },
     {
       "epoch": 0.37722503831191795,
-      "eval_loss": 0.6358110308647156,
-      "eval_runtime": 148.0942,
-      "eval_samples_per_second": 38.192,
-      "eval_steps_per_second": 4.774,
-      "eval_wer": 0.4954502415303879,
       "step": 9600
     },
     {
       "epoch": 0.3850838932767496,
-      "eval_loss": 0.6466320157051086,
-      "eval_runtime": 147.5131,
-      "eval_samples_per_second": 38.342,
-      "eval_steps_per_second": 4.793,
-      "eval_wer": 0.5109049766493877,
       "step": 9800
     },
     {
       "epoch": 0.3929427482415812,
-      "grad_norm": 1.681718349456787,
-      "learning_rate": 0.00015392307692307691,
-      "loss": 0.4483,
       "step": 10000
     },
     {
       "epoch": 0.3929427482415812,
-      "eval_loss": 0.6306164264678955,
-      "eval_runtime": 147.9882,
-      "eval_samples_per_second": 38.219,
-      "eval_steps_per_second": 4.777,
-      "eval_wer": 0.504421370223556,
       "step": 10000
     },
     {
       "epoch": 0.40080160320641284,
-      "eval_loss": 0.6359797716140747,
-      "eval_runtime": 147.568,
-      "eval_samples_per_second": 38.328,
-      "eval_steps_per_second": 4.791,
-      "eval_wer": 0.5003771404727897,
       "step": 10200
     },
     {
       "epoch": 0.40866045817124447,
-      "eval_loss": 0.6301611661911011,
-      "eval_runtime": 146.6632,
-      "eval_samples_per_second": 38.565,
-      "eval_steps_per_second": 4.821,
-      "eval_wer": 0.49135786618735056,
       "step": 10400
     },
     {
       "epoch": 0.4125898856536603,
-      "grad_norm": 2.8097307682037354,
-      "learning_rate": 0.0001462307692307692,
-      "loss": 0.4454,
       "step": 10500
     },
     {
       "epoch": 0.4165193131360761,
-      "eval_loss": 0.616253674030304,
-      "eval_runtime": 147.6301,
-      "eval_samples_per_second": 38.312,
-      "eval_steps_per_second": 4.789,
-      "eval_wer": 0.48505079359984593,
       "step": 10600
     },
     {
       "epoch": 0.42437816810090767,
-      "eval_loss": 0.6221349239349365,
-      "eval_runtime": 147.7897,
-      "eval_samples_per_second": 38.271,
-      "eval_steps_per_second": 4.784,
-      "eval_wer": 0.49105294410296735,
       "step": 10800
     },
     {
       "epoch": 0.4322370230657393,
-      "grad_norm": 4.2350687980651855,
-      "learning_rate": 0.0001385384615384615,
-      "loss": 0.4302,
       "step": 11000
     },
     {
       "epoch": 0.4322370230657393,
-      "eval_loss": 0.6395624279975891,
-      "eval_runtime": 147.7882,
-      "eval_samples_per_second": 38.271,
-      "eval_steps_per_second": 4.784,
-      "eval_wer": 0.5000561698576496,
       "step": 11000
     },
     {
       "epoch": 0.44009587803057093,
-      "eval_loss": 0.6212363839149475,
-      "eval_runtime": 148.3281,
-      "eval_samples_per_second": 38.132,
-      "eval_steps_per_second": 4.766,
-      "eval_wer": 0.4840557846929114,
       "step": 11200
     },
     {
       "epoch": 0.44795473299540256,
-      "eval_loss": 0.6267797946929932,
-      "eval_runtime": 147.5749,
-      "eval_samples_per_second": 38.326,
-      "eval_steps_per_second": 4.791,
-      "eval_wer": 0.49379724286241594,
       "step": 11400
     },
     {
       "epoch": 0.4518841604778184,
-      "grad_norm": 2.2473807334899902,
-      "learning_rate": 0.00013086153846153845,
-      "loss": 0.4261,
       "step": 11500
     },
     {
       "epoch": 0.4558135879602342,
-      "eval_loss": 0.6097697019577026,
-      "eval_runtime": 148.2001,
-      "eval_samples_per_second": 38.165,
-      "eval_steps_per_second": 4.771,
-      "eval_wer": 0.48201762128677117,
       "step": 11600
     },
     {
       "epoch": 0.4636724429250658,
-      "eval_loss": 0.6009463667869568,
-      "eval_runtime": 147.4302,
-      "eval_samples_per_second": 38.364,
-      "eval_steps_per_second": 4.795,
-      "eval_wer": 0.4689220201890517,
       "step": 11800
     },
     {
       "epoch": 0.47153129788989745,
-      "grad_norm": 2.0571179389953613,
-      "learning_rate": 0.00012316923076923078,
-      "loss": 0.4026,
       "step": 12000
     },
     {
       "epoch": 0.47153129788989745,
-      "eval_loss": 0.609122633934021,
-      "eval_runtime": 147.8463,
-      "eval_samples_per_second": 38.256,
-      "eval_steps_per_second": 4.782,
-      "eval_wer": 0.4809584182568086,
       "step": 12000
     },
     {
       "epoch": 0.4793901528547291,
-      "eval_loss": 0.6019255518913269,
-      "eval_runtime": 148.5912,
-      "eval_samples_per_second": 38.064,
-      "eval_steps_per_second": 4.758,
-      "eval_wer": 0.4805732535186404,
       "step": 12200
     },
     {
       "epoch": 0.4872490078195607,
-      "eval_loss": 0.5946715474128723,
-      "eval_runtime": 147.4021,
-      "eval_samples_per_second": 38.371,
-      "eval_steps_per_second": 4.796,
-      "eval_wer": 0.4671085362135097,
       "step": 12400
     },
     {
       "epoch": 0.4911784353019765,
-      "grad_norm": 2.5033822059631348,
-      "learning_rate": 0.00011547692307692306,
-      "loss": 0.4027,
       "step": 12500
     },
     {
       "epoch": 0.49510786278439234,
-      "eval_loss": 0.5993836522102356,
-      "eval_runtime": 147.7878,
-      "eval_samples_per_second": 38.271,
-      "eval_steps_per_second": 4.784,
-      "eval_wer": 0.47092808653367785,
       "step": 12600
     },
     {
       "epoch": 0.502966717749224,
-      "eval_loss": 0.5981957912445068,
-      "eval_runtime": 147.5137,
-      "eval_samples_per_second": 38.342,
-      "eval_steps_per_second": 4.793,
-      "eval_wer": 0.4760796649066778,
       "step": 12800
     },
     {
       "epoch": 0.5108255727140556,
-      "grad_norm": 3.0013859272003174,
-      "learning_rate": 0.00010778461538461537,
-      "loss": 0.3978,
       "step": 13000
     },
     {
       "epoch": 0.5108255727140556,
-      "eval_loss": 0.5889731645584106,
-      "eval_runtime": 148.3841,
-      "eval_samples_per_second": 38.117,
-      "eval_steps_per_second": 4.765,
-      "eval_wer": 0.4632087432395564,
       "step": 13000
     },
     {
       "epoch": 0.5186844276788872,
-      "eval_loss": 0.5871375799179077,
-      "eval_runtime": 147.6289,
-      "eval_samples_per_second": 38.312,
-      "eval_steps_per_second": 4.789,
-      "eval_wer": 0.4567090882829677,
       "step": 13200
     },
     {
       "epoch": 0.5265432826437189,
-      "eval_loss": 0.5873442888259888,
-      "eval_runtime": 148.2022,
-      "eval_samples_per_second": 38.164,
-      "eval_steps_per_second": 4.771,
-      "eval_wer": 0.4634815682624256,
       "step": 13400
     },
     {
       "epoch": 0.5304727101261346,
-      "grad_norm": 3.4298863410949707,
-      "learning_rate": 0.00010009230769230768,
-      "loss": 0.3875,
       "step": 13500
     },
     {
       "epoch": 0.5344021376085505,
-      "eval_loss": 0.5772218704223633,
-      "eval_runtime": 148.5655,
-      "eval_samples_per_second": 38.071,
-      "eval_steps_per_second": 4.759,
-      "eval_wer": 0.4538684983389771,
       "step": 13600
     },
     {
       "epoch": 0.542260992573382,
-      "eval_loss": 0.5603720545768738,
-      "eval_runtime": 147.4995,
-      "eval_samples_per_second": 38.346,
-      "eval_steps_per_second": 4.793,
-      "eval_wer": 0.4419123429250052,
       "step": 13800
     },
     {
       "epoch": 0.5501198475382136,
-      "grad_norm": 2.6594979763031006,
-      "learning_rate": 9.24e-05,
-      "loss": 0.404,
       "step": 14000
     },
     {
       "epoch": 0.5501198475382136,
-      "eval_loss": 0.5688683986663818,
-      "eval_runtime": 147.0269,
-      "eval_samples_per_second": 38.469,
-      "eval_steps_per_second": 4.809,
-      "eval_wer": 0.4454269711607902,
       "step": 14000
     },
     {
       "epoch": 0.5579787025030453,
-      "eval_loss": 0.5594531893730164,
-      "eval_runtime": 147.2136,
-      "eval_samples_per_second": 38.42,
-      "eval_steps_per_second": 4.803,
-      "eval_wer": 0.443292516570108,
       "step": 14200
     },
     {
       "epoch": 0.5658375574678769,
-      "eval_loss": 0.5574955940246582,
-      "eval_runtime": 147.8377,
-      "eval_samples_per_second": 38.258,
-      "eval_steps_per_second": 4.782,
-      "eval_wer": 0.4405803148721735,
       "step": 14400
     },
     {
       "epoch": 0.5697669849502928,
-      "grad_norm": 1.834619402885437,
-      "learning_rate": 8.472307692307691e-05,
-      "loss": 0.3878,
       "step": 14500
     },
     {
       "epoch": 0.5736964124327085,
-      "eval_loss": 0.5521669983863831,
-      "eval_runtime": 147.831,
-      "eval_samples_per_second": 38.26,
-      "eval_steps_per_second": 4.782,
-      "eval_wer": 0.43528429972236043,
       "step": 14600
     },
     {
       "epoch": 0.5815552673975402,
-      "eval_loss": 0.5521777272224426,
-      "eval_runtime": 148.1309,
-      "eval_samples_per_second": 38.182,
-      "eval_steps_per_second": 4.773,
-      "eval_wer": 0.4351719600070614,
       "step": 14800
     },
     {
       "epoch": 0.5894141223623718,
-      "grad_norm": 2.739065408706665,
-      "learning_rate": 7.703076923076922e-05,
-      "loss": 0.3622,
       "step": 15000
     },
     {
       "epoch": 0.5894141223623718,
-      "eval_loss": 0.5570353865623474,
-      "eval_runtime": 147.6686,
-      "eval_samples_per_second": 38.302,
-      "eval_steps_per_second": 4.788,
-      "eval_wer": 0.4401309560109772,
       "step": 15000
     },
     {
       "epoch": 0.5972729773272034,
-      "eval_loss": 0.5467315912246704,
-      "eval_runtime": 147.8113,
-      "eval_samples_per_second": 38.265,
-      "eval_steps_per_second": 4.783,
-      "eval_wer": 0.42803036382019227,
       "step": 15200
     },
     {
       "epoch": 0.605131832292035,
-      "eval_loss": 0.5510929822921753,
-      "eval_runtime": 148.0412,
-      "eval_samples_per_second": 38.206,
-      "eval_steps_per_second": 4.776,
-      "eval_wer": 0.43404856285407073,
       "step": 15400
     },
     {
       "epoch": 0.6090612597744509,
-      "grad_norm": 3.7551369667053223,
-      "learning_rate": 6.933846153846154e-05,
-      "loss": 0.3545,
       "step": 15500
     },
     {
       "epoch": 0.6129906872568667,
-      "eval_loss": 0.5437116026878357,
-      "eval_runtime": 147.4367,
-      "eval_samples_per_second": 38.362,
-      "eval_steps_per_second": 4.795,
-      "eval_wer": 0.4245478326459213,
       "step": 15600
     },
     {
       "epoch": 0.6208495422216983,
-      "eval_loss": 0.5488719940185547,
-      "eval_runtime": 147.4687,
-      "eval_samples_per_second": 38.354,
-      "eval_steps_per_second": 4.794,
-      "eval_wer": 0.4296352168958932,
       "step": 15800
     },
     {
       "epoch": 0.6287083971865299,
-      "grad_norm": 1.4097563028335571,
-      "learning_rate": 6.164615384615383e-05,
-      "loss": 0.3486,
       "step": 16000
     },
     {
       "epoch": 0.6287083971865299,
-      "eval_loss": 0.5420017242431641,
-      "eval_runtime": 147.3988,
-      "eval_samples_per_second": 38.372,
-      "eval_steps_per_second": 4.797,
-      "eval_wer": 0.4277896358588371,
       "step": 16000
     },
     {
       "epoch": 0.6365672521513616,
-      "eval_loss": 0.5352106094360352,
-      "eval_runtime": 148.3938,
-      "eval_samples_per_second": 38.115,
-      "eval_steps_per_second": 4.764,
-      "eval_wer": 0.4212739323714914,
       "step": 16200
     },
     {
       "epoch": 0.6444261071161932,
-      "eval_loss": 0.5376533269882202,
-      "eval_runtime": 147.9443,
-      "eval_samples_per_second": 38.231,
-      "eval_steps_per_second": 4.779,
-      "eval_wer": 0.42592800629102406,
       "step": 16400
     },
     {
       "epoch": 0.648355534598609,
-      "grad_norm": 2.8873980045318604,
-      "learning_rate": 5.395384615384615e-05,
-      "loss": 0.3374,
       "step": 16500
     },
     {
       "epoch": 0.6522849620810248,
-      "eval_loss": 0.5336429476737976,
-      "eval_runtime": 149.7227,
-      "eval_samples_per_second": 37.776,
-      "eval_steps_per_second": 4.722,
-      "eval_wer": 0.4305018375567717,
       "step": 16600
     },
     {
       "epoch": 0.6601438170458565,
-      "eval_loss": 0.5293694734573364,
-      "eval_runtime": 148.8049,
-      "eval_samples_per_second": 38.01,
-      "eval_steps_per_second": 4.751,
-      "eval_wer": 0.41875431304264094,
       "step": 16800
     },
     {
       "epoch": 0.6680026720106881,
-      "grad_norm": 3.3759422302246094,
-      "learning_rate": 4.6276923076923074e-05,
-      "loss": 0.3389,
       "step": 17000
     },
     {
       "epoch": 0.6680026720106881,
-      "eval_loss": 0.5252575278282166,
-      "eval_runtime": 149.4186,
-      "eval_samples_per_second": 37.853,
-      "eval_steps_per_second": 4.732,
-      "eval_wer": 0.4169408290670989,
       "step": 17000
     },
     {
       "epoch": 0.6758615269755197,
-      "eval_loss": 0.5194066166877747,
-      "eval_runtime": 147.8703,
-      "eval_samples_per_second": 38.25,
-      "eval_steps_per_second": 4.781,
-      "eval_wer": 0.41443725826900546,
       "step": 17200
     },
     {
       "epoch": 0.6837203819403513,
-      "eval_loss": 0.5231760740280151,
-      "eval_runtime": 147.3205,
-      "eval_samples_per_second": 38.392,
-      "eval_steps_per_second": 4.799,
-      "eval_wer": 0.417101314374669,
       "step": 17400
     },
     {
       "epoch": 0.6876498094227671,
-      "grad_norm": 3.4031200408935547,
-      "learning_rate": 3.858461538461538e-05,
-      "loss": 0.3258,
       "step": 17500
     },
     {
       "epoch": 0.691579236905183,
-      "eval_loss": 0.5179495811462402,
-      "eval_runtime": 148.0293,
-      "eval_samples_per_second": 38.209,
-      "eval_steps_per_second": 4.776,
-      "eval_wer": 0.41653961579817367,
       "step": 17600
     },
     {
       "epoch": 0.6994380918700145,
-      "eval_loss": 0.5132375359535217,
-      "eval_runtime": 149.1897,
-      "eval_samples_per_second": 37.911,
-      "eval_steps_per_second": 4.739,
-      "eval_wer": 0.4103769799874821,
       "step": 17800
     },
     {
       "epoch": 0.7072969468348461,
-      "grad_norm": 4.0969133377075195,
-      "learning_rate": 3.090769230769231e-05,
-      "loss": 0.327,
       "step": 18000
     },
     {
       "epoch": 0.7072969468348461,
-      "eval_loss": 0.5096033215522766,
-      "eval_runtime": 148.384,
-      "eval_samples_per_second": 38.117,
-      "eval_steps_per_second": 4.765,
-      "eval_wer": 0.40440692654587473,
       "step": 18000
     },
     {
       "epoch": 0.7151558017996777,
-      "eval_loss": 0.5040988922119141,
-      "eval_runtime": 148.3441,
-      "eval_samples_per_second": 38.128,
-      "eval_steps_per_second": 4.766,
-      "eval_wer": 0.40337982057742616,
       "step": 18200
     },
     {
       "epoch": 0.7230146567645094,
-      "eval_loss": 0.5013387203216553,
-      "eval_runtime": 147.8316,
-      "eval_samples_per_second": 38.26,
-      "eval_steps_per_second": 4.782,
-      "eval_wer": 0.3980677568968561,
       "step": 18400
     },
     {
       "epoch": 0.7269440842469252,
-      "grad_norm": 2.58701491355896,
-      "learning_rate": 2.3215384615384613e-05,
-      "loss": 0.316,
       "step": 18500
     },
     {
       "epoch": 0.730873511729341,
-      "eval_loss": 0.5074244737625122,
-      "eval_runtime": 148.936,
-      "eval_samples_per_second": 37.976,
-      "eval_steps_per_second": 4.747,
-      "eval_wer": 0.4064611384827719,
       "step": 18600
     },
     {
       "epoch": 0.7387323666941726,
-      "eval_loss": 0.5014389753341675,
-      "eval_runtime": 148.0107,
-      "eval_samples_per_second": 38.213,
-      "eval_steps_per_second": 4.777,
-      "eval_wer": 0.40545008104508035,
       "step": 18800
     },
     {
       "epoch": 0.7465912216590043,
-      "grad_norm": 1.975710391998291,
-      "learning_rate": 1.552307692307692e-05,
-      "loss": 0.3162,
       "step": 19000
     },
     {
       "epoch": 0.7465912216590043,
-      "eval_loss": 0.4958648383617401,
-      "eval_runtime": 148.7492,
-      "eval_samples_per_second": 38.024,
-      "eval_steps_per_second": 4.753,
-      "eval_wer": 0.3998170467493701,
       "step": 19000
     },
     {
       "epoch": 0.7544500766238359,
-      "eval_loss": 0.4930271506309509,
-      "eval_runtime": 147.4379,
-      "eval_samples_per_second": 38.362,
-      "eval_steps_per_second": 4.795,
-      "eval_wer": 0.39818009661215514,
       "step": 19200
     },
     {
       "epoch": 0.7623089315886675,
-      "eval_loss": 0.4924609363079071,
-      "eval_runtime": 149.2355,
-      "eval_samples_per_second": 37.9,
-      "eval_steps_per_second": 4.737,
-      "eval_wer": 0.39821219367366917,
       "step": 19400
     },
     {
       "epoch": 0.7662383590710834,
-      "grad_norm": 2.332016944885254,
-      "learning_rate": 7.83076923076923e-06,
-      "loss": 0.3145,
       "step": 19500
     },
     {
       "epoch": 0.7701677865534992,
-      "eval_loss": 0.4922255575656891,
-      "eval_runtime": 148.1982,
-      "eval_samples_per_second": 38.165,
-      "eval_steps_per_second": 4.771,
-      "eval_wer": 0.3970246023976505,
       "step": 19600
     },
     {
       "epoch": 0.7780266415183308,
-      "eval_loss": 0.49084585905075073,
-      "eval_runtime": 148.8021,
-      "eval_samples_per_second": 38.01,
-      "eval_steps_per_second": 4.751,
-      "eval_wer": 0.39692831121310845,
       "step": 19800
     },
     {
       "epoch": 0.7858854964831624,
-      "grad_norm": 5.262033462524414,
-      "learning_rate": 1.5384615384615385e-07,
-      "loss": 0.3095,
       "step": 20000
     },
     {
       "epoch": 0.7858854964831624,
-      "eval_loss": 0.4908364713191986,
-      "eval_runtime": 148.1385,
-      "eval_samples_per_second": 38.18,
-      "eval_steps_per_second": 4.773,
-      "eval_wer": 0.39638266116737014,
       "step": 20000
     },
     {
-      "epoch": 0.7858854964831624,
-      "step": 20000,
-      "total_flos": 2.4863424513490096e+19,
-      "train_loss": 0.5819183097839356,
-      "train_runtime": 23325.1985,
-      "train_samples_per_second": 6.86,
-      "train_steps_per_second": 0.857
     }
   ],
   "logging_steps": 500,
-  "max_steps": 20000,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
   "save_steps": 400,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -1215,7 +1805,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.4863424513490096e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.1788282447247436,
   "eval_steps": 200,
+  "global_step": 30000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.007858854964831625,
+      "eval_loss": 3.1892831325531006,
+      "eval_runtime": 159.5257,
+      "eval_samples_per_second": 35.455,
+      "eval_steps_per_second": 4.432,
       "eval_wer": 1.0,
       "step": 200
     },
     {
       "epoch": 0.01571770992966325,
+      "eval_loss": 2.780208110809326,
+      "eval_runtime": 157.5706,
+      "eval_samples_per_second": 35.895,
+      "eval_steps_per_second": 4.487,
       "eval_wer": 1.0,
       "step": 400
     },
     {
       "epoch": 0.01964713741207906,
+      "grad_norm": 4.9997968673706055,
       "learning_rate": 0.0002982,
+      "loss": 4.719,
       "step": 500
     },
     {
       "epoch": 0.023576564894494872,
+      "eval_loss": 1.4220576286315918,
+      "eval_runtime": 158.6041,
+      "eval_samples_per_second": 35.661,
+      "eval_steps_per_second": 4.458,
+      "eval_wer": 0.8876923817624497,
       "step": 600
     },
     {
       "epoch": 0.0314354198593265,
+      "eval_loss": 1.227359414100647,
+      "eval_runtime": 158.5238,
+      "eval_samples_per_second": 35.679,
+      "eval_steps_per_second": 4.46,
+      "eval_wer": 0.8224390557044503,
       "step": 800
     },
     {
       "epoch": 0.03929427482415812,
+      "grad_norm": 2.6001393795013428,
+      "learning_rate": 0.0002949457627118644,
+      "loss": 1.0441,
       "step": 1000
     },
     {
       "epoch": 0.03929427482415812,
+      "eval_loss": 1.1094719171524048,
+      "eval_runtime": 161.2687,
+      "eval_samples_per_second": 35.072,
+      "eval_steps_per_second": 4.384,
+      "eval_wer": 0.7886729469917029,
       "step": 1000
     },
     {
       "epoch": 0.047153129788989744,
+      "eval_loss": 1.091428279876709,
+      "eval_runtime": 158.6043,
+      "eval_samples_per_second": 35.661,
+      "eval_steps_per_second": 4.458,
+      "eval_wer": 0.7549228868097125,
       "step": 1200
     },
     {
       "epoch": 0.055011984753821366,
+      "eval_loss": 1.0177329778671265,
+      "eval_runtime": 159.8661,
+      "eval_samples_per_second": 35.38,
+      "eval_steps_per_second": 4.422,
+      "eval_wer": 0.7354881160629745,
       "step": 1400
     },
     {
       "epoch": 0.05894141223623718,
+      "grad_norm": 2.7494542598724365,
+      "learning_rate": 0.0002898610169491525,
+      "loss": 0.8033,
       "step": 1500
     },
     {
       "epoch": 0.062870839718653,
+      "eval_loss": 0.9907466769218445,
+      "eval_runtime": 159.6438,
+      "eval_samples_per_second": 35.429,
+      "eval_steps_per_second": 4.429,
+      "eval_wer": 0.7232912326876475,
       "step": 1600
     },
     {
       "epoch": 0.07072969468348461,
+      "eval_loss": 0.9761303067207336,
+      "eval_runtime": 159.1571,
+      "eval_samples_per_second": 35.537,
+      "eval_steps_per_second": 4.442,
+      "eval_wer": 0.7145287348943204,
       "step": 1800
     },
     {
       "epoch": 0.07858854964831624,
+      "grad_norm": 2.753251314163208,
+      "learning_rate": 0.00028477627118644064,
+      "loss": 0.7227,
       "step": 2000
     },
     {
       "epoch": 0.07858854964831624,
+      "eval_loss": 0.9555273056030273,
+      "eval_runtime": 159.3414,
+      "eval_samples_per_second": 35.496,
+      "eval_steps_per_second": 4.437,
+      "eval_wer": 0.6902794049204796,
       "step": 2000
     },
     {
       "epoch": 0.08644740461314787,
+      "eval_loss": 0.8994919061660767,
+      "eval_runtime": 159.0426,
+      "eval_samples_per_second": 35.563,
+      "eval_steps_per_second": 4.445,
+      "eval_wer": 0.6747765242092086,
       "step": 2200
     },
     {
       "epoch": 0.09430625957797949,
+      "eval_loss": 0.8897404670715332,
+      "eval_runtime": 158.5492,
+      "eval_samples_per_second": 35.673,
+      "eval_steps_per_second": 4.459,
+      "eval_wer": 0.66655967646162,
       "step": 2400
     },
     {
       "epoch": 0.0982356870603953,
+      "grad_norm": 2.404499053955078,
+      "learning_rate": 0.00027969152542372877,
+      "loss": 0.6794,
       "step": 2500
     },
     {
       "epoch": 0.10216511454281112,
+      "eval_loss": 0.8826168775558472,
+      "eval_runtime": 159.8456,
+      "eval_samples_per_second": 35.384,
+      "eval_steps_per_second": 4.423,
+      "eval_wer": 0.6559676461619939,
       "step": 2600
     },
     {
       "epoch": 0.11002396950764273,
+      "eval_loss": 0.8744593858718872,
+      "eval_runtime": 159.6838,
+      "eval_samples_per_second": 35.42,
+      "eval_steps_per_second": 4.427,
+      "eval_wer": 0.6445571407937604,
       "step": 2800
     },
     {
       "epoch": 0.11788282447247436,
+      "grad_norm": 2.406255006790161,
+      "learning_rate": 0.00027460677966101695,
+      "loss": 0.6513,
       "step": 3000
     },
     {
       "epoch": 0.11788282447247436,
+      "eval_loss": 0.8450209498405457,
+      "eval_runtime": 159.2776,
+      "eval_samples_per_second": 35.51,
+      "eval_steps_per_second": 4.439,
+      "eval_wer": 0.6436905201328819,
       "step": 3000
     },
     {
       "epoch": 0.125741679437306,
+      "eval_loss": 0.8596389293670654,
+      "eval_runtime": 159.3028,
+      "eval_samples_per_second": 35.505,
+      "eval_steps_per_second": 4.438,
+      "eval_wer": 0.6510888928118631,
       "step": 3200
     },
     {
       "epoch": 0.13360053440213762,
+      "eval_loss": 0.8597909212112427,
+      "eval_runtime": 159.9064,
+      "eval_samples_per_second": 35.371,
+      "eval_steps_per_second": 4.421,
+      "eval_wer": 0.6376402240374893,
       "step": 3400
     },
     {
       "epoch": 0.1375299618845534,
+      "grad_norm": 2.2046961784362793,
+      "learning_rate": 0.000269522033898305,
+      "loss": 0.6147,
       "step": 3500
     },
     {
       "epoch": 0.14145938936696922,
+      "eval_loss": 0.8516111969947815,
+      "eval_runtime": 160.4338,
+      "eval_samples_per_second": 35.254,
+      "eval_steps_per_second": 4.407,
+      "eval_wer": 0.6375439328529473,
       "step": 3600
     },
     {
       "epoch": 0.14931824433180085,
+      "eval_loss": 0.8251617550849915,
+      "eval_runtime": 160.6004,
+      "eval_samples_per_second": 35.218,
+      "eval_steps_per_second": 4.402,
+      "eval_wer": 0.6100367511354335,
       "step": 3800
     },
     {
       "epoch": 0.15717709929663248,
+      "grad_norm": 1.520897388458252,
+      "learning_rate": 0.0002644372881355932,
+      "loss": 0.6092,
       "step": 4000
     },
     {
       "epoch": 0.15717709929663248,
+      "eval_loss": 0.8579581379890442,
+      "eval_runtime": 159.0993,
+      "eval_samples_per_second": 35.55,
+      "eval_steps_per_second": 4.444,
+      "eval_wer": 0.6822551395419749,
       "step": 4000
     },
     {
       "epoch": 0.1650359542614641,
+      "eval_loss": 0.8204948306083679,
+      "eval_runtime": 159.818,
+      "eval_samples_per_second": 35.39,
+      "eval_steps_per_second": 4.424,
+      "eval_wer": 0.6135674279019756,
       "step": 4200
     },
     {
       "epoch": 0.17289480922629574,
+      "eval_loss": 0.8033376336097717,
+      "eval_runtime": 159.2754,
+      "eval_samples_per_second": 35.511,
+      "eval_steps_per_second": 4.439,
+      "eval_wer": 0.6385068446983678,
       "step": 4400
     },
     {
       "epoch": 0.17682423670871153,
+      "grad_norm": 2.3011837005615234,
+      "learning_rate": 0.00025936271186440674,
+      "loss": 0.5928,
       "step": 4500
     },
     {
       "epoch": 0.18075366419112734,
+      "eval_loss": 0.7927771210670471,
+      "eval_runtime": 160.1079,
+      "eval_samples_per_second": 35.326,
+      "eval_steps_per_second": 4.416,
+      "eval_wer": 0.6005039238657701,
       "step": 4600
     },
     {
       "epoch": 0.18861251915595897,
+      "eval_loss": 0.7911030054092407,
+      "eval_runtime": 160.2559,
+      "eval_samples_per_second": 35.294,
+      "eval_steps_per_second": 4.412,
+      "eval_wer": 0.5923512702412094,
       "step": 4800
     },
     {
       "epoch": 0.1964713741207906,
+      "grad_norm": 6.133739948272705,
+      "learning_rate": 0.0002542779661016949,
+      "loss": 0.5681,
       "step": 5000
     },
     {
       "epoch": 0.1964713741207906,
+      "eval_loss": 0.7968648076057434,
+      "eval_runtime": 160.0012,
+      "eval_samples_per_second": 35.35,
+      "eval_steps_per_second": 4.419,
+      "eval_wer": 0.5944375792396206,
       "step": 5000
     },
     {
       "epoch": 0.20433022908562223,
+      "eval_loss": 0.7932958602905273,
+      "eval_runtime": 159.7818,
+      "eval_samples_per_second": 35.398,
+      "eval_steps_per_second": 4.425,
+      "eval_wer": 0.5898958450353871,
       "step": 5200
     },
     {
       "epoch": 0.21218908405045384,
+      "eval_loss": 0.7830468416213989,
+      "eval_runtime": 160.2841,
+      "eval_samples_per_second": 35.287,
+      "eval_steps_per_second": 4.411,
+      "eval_wer": 0.6012742533421065,
       "step": 5400
     },
     {
       "epoch": 0.21611851153286965,
+      "grad_norm": 2.9641568660736084,
+      "learning_rate": 0.00024919322033898305,
+      "loss": 0.5806,
       "step": 5500
     },
     {
       "epoch": 0.22004793901528547,
+      "eval_loss": 0.7702626585960388,
+      "eval_runtime": 160.806,
+      "eval_samples_per_second": 35.173,
+      "eval_steps_per_second": 4.397,
+      "eval_wer": 0.5789026014668357,
       "step": 5600
     },
     {
       "epoch": 0.2279067939801171,
+      "eval_loss": 0.7665734887123108,
+      "eval_runtime": 160.6796,
+      "eval_samples_per_second": 35.2,
+      "eval_steps_per_second": 4.4,
+      "eval_wer": 0.589831650912359,
       "step": 5800
     },
     {
       "epoch": 0.23576564894494872,
+      "grad_norm": 2.6571083068847656,
+      "learning_rate": 0.00024410847457627117,
+      "loss": 0.5608,
       "step": 6000
     },
     {
       "epoch": 0.23576564894494872,
+      "eval_loss": 0.7580233216285706,
+      "eval_runtime": 160.371,
+      "eval_samples_per_second": 35.268,
+      "eval_steps_per_second": 4.409,
+      "eval_wer": 0.5694500168509573,
       "step": 6000
     },
     {
       "epoch": 0.24362450390978035,
+      "eval_loss": 0.7478851675987244,
+      "eval_runtime": 162.164,
+      "eval_samples_per_second": 34.878,
+      "eval_steps_per_second": 4.36,
+      "eval_wer": 0.5650848164850508,
       "step": 6200
     },
     {
       "epoch": 0.251483358874612,
+      "eval_loss": 0.7638738751411438,
+      "eval_runtime": 160.257,
+      "eval_samples_per_second": 35.293,
+      "eval_steps_per_second": 4.412,
+      "eval_wer": 0.5846640240086021,
       "step": 6400
     },
     {
       "epoch": 0.2554127863570278,
+      "grad_norm": 1.5677289962768555,
+      "learning_rate": 0.0002390237288135593,
+      "loss": 0.5333,
       "step": 6500
     },
     {
       "epoch": 0.2593422138394436,
+      "eval_loss": 0.7297228574752808,
+      "eval_runtime": 160.7223,
+      "eval_samples_per_second": 35.191,
+      "eval_steps_per_second": 4.399,
+      "eval_wer": 0.5676044358139012,
       "step": 6600
     },
     {
       "epoch": 0.26720106880427524,
+      "eval_loss": 0.7441245913505554,
+      "eval_runtime": 160.37,
+      "eval_samples_per_second": 35.268,
+      "eval_steps_per_second": 4.409,
+      "eval_wer": 0.5590345203896583,
       "step": 6800
     },
     {
       "epoch": 0.2750599237691068,
+      "grad_norm": 3.644160032272339,
+      "learning_rate": 0.00023393898305084743,
+      "loss": 0.5406,
       "step": 7000
     },
     {
       "epoch": 0.2750599237691068,
+      "eval_loss": 0.7404661774635315,
+      "eval_runtime": 160.5995,
+      "eval_samples_per_second": 35.218,
+      "eval_steps_per_second": 4.402,
+      "eval_wer": 0.5491165283818267,
       "step": 7000
     },
     {
       "epoch": 0.28291877873393845,
+      "eval_loss": 0.7237815856933594,
+      "eval_runtime": 160.4373,
+      "eval_samples_per_second": 35.254,
+      "eval_steps_per_second": 4.407,
+      "eval_wer": 0.5529039816404808,
       "step": 7200
     },
     {
       "epoch": 0.2907776336987701,
+      "eval_loss": 0.7328305840492249,
+      "eval_runtime": 161.925,
+      "eval_samples_per_second": 34.93,
+      "eval_steps_per_second": 4.366,
+      "eval_wer": 0.5543964950008826,
       "step": 7400
     },
     {
       "epoch": 0.2947070611811859,
+      "grad_norm": 3.6030795574188232,
+      "learning_rate": 0.00022885423728813558,
+      "loss": 0.535,
       "step": 7500
     },
     {
       "epoch": 0.2986364886636017,
+      "eval_loss": 0.7263395190238953,
+      "eval_runtime": 160.6865,
+      "eval_samples_per_second": 35.199,
+      "eval_steps_per_second": 4.4,
+      "eval_wer": 0.5598690439890228,
       "step": 7600
     },
     {
       "epoch": 0.30649534362843334,
+      "eval_loss": 0.7421374320983887,
+      "eval_runtime": 160.2249,
+      "eval_samples_per_second": 35.3,
+      "eval_steps_per_second": 4.413,
+      "eval_wer": 0.5594357336585836,
       "step": 7800
     },
     {
       "epoch": 0.31435419859326497,
+      "grad_norm": 3.376089096069336,
+      "learning_rate": 0.0002237694915254237,
+      "loss": 0.5195,
       "step": 8000
     },
     {
       "epoch": 0.31435419859326497,
+      "eval_loss": 0.7434934377670288,
+      "eval_runtime": 161.1972,
+      "eval_samples_per_second": 35.087,
+      "eval_steps_per_second": 4.386,
+      "eval_wer": 0.5543804464701256,
       "step": 8000
     },
     {
       "epoch": 0.3222130535580966,
+      "eval_loss": 0.7186952233314514,
+      "eval_runtime": 162.677,
+      "eval_samples_per_second": 34.768,
+      "eval_steps_per_second": 4.346,
+      "eval_wer": 0.5423921939946398,
       "step": 8200
     },
     {
       "epoch": 0.3300719085229282,
+      "eval_loss": 0.6976691484451294,
+      "eval_runtime": 159.5716,
+      "eval_samples_per_second": 35.445,
+      "eval_steps_per_second": 4.431,
+      "eval_wer": 0.5353308404615558,
       "step": 8400
     },
     {
       "epoch": 0.33400133600534404,
+      "grad_norm": 1.9758217334747314,
+      "learning_rate": 0.00021868474576271186,
+      "loss": 0.5023,
       "step": 8500
     },
     {
       "epoch": 0.33793076348775986,
+      "eval_loss": 0.6949788928031921,
+      "eval_runtime": 160.6972,
+      "eval_samples_per_second": 35.197,
+      "eval_steps_per_second": 4.4,
+      "eval_wer": 0.5385565951437146,
       "step": 8600
     },
     {
       "epoch": 0.3457896184525915,
+      "eval_loss": 0.7155033946037292,
+      "eval_runtime": 159.9521,
+      "eval_samples_per_second": 35.361,
+      "eval_steps_per_second": 4.42,
+      "eval_wer": 0.5450883471618173,
       "step": 8800
     },
     {
       "epoch": 0.35364847341742306,
+      "grad_norm": 3.3146464824676514,
+      "learning_rate": 0.00021361016949152543,
+      "loss": 0.5106,
       "step": 9000
     },
     {
       "epoch": 0.35364847341742306,
+      "eval_loss": 0.6857195496559143,
+      "eval_runtime": 160.5474,
+      "eval_samples_per_second": 35.229,
+      "eval_steps_per_second": 4.404,
+      "eval_wer": 0.5379467509749483,
       "step": 9000
     },
     {
       "epoch": 0.3615073283822547,
+      "eval_loss": 0.68482905626297,
+      "eval_runtime": 161.0662,
+      "eval_samples_per_second": 35.116,
+      "eval_steps_per_second": 4.389,
+      "eval_wer": 0.5329075123172473,
       "step": 9200
     },
     {
       "epoch": 0.3693661833470863,
+      "eval_loss": 0.6732301712036133,
+      "eval_runtime": 160.6243,
+      "eval_samples_per_second": 35.213,
+      "eval_steps_per_second": 4.402,
+      "eval_wer": 0.5202291730192101,
       "step": 9400
     },
     {
       "epoch": 0.37329561082950213,
+      "grad_norm": 4.61689567565918,
+      "learning_rate": 0.00020852542372881352,
+      "loss": 0.4968,
       "step": 9500
     },
     {
       "epoch": 0.37722503831191795,
+      "eval_loss": 0.6839133501052856,
+      "eval_runtime": 161.2367,
+      "eval_samples_per_second": 35.079,
+      "eval_steps_per_second": 4.385,
+      "eval_wer": 0.5274510118598642,
       "step": 9600
     },
     {
       "epoch": 0.3850838932767496,
+      "eval_loss": 0.6766842603683472,
+      "eval_runtime": 160.827,
+      "eval_samples_per_second": 35.168,
+      "eval_steps_per_second": 4.396,
+      "eval_wer": 0.5198279597502848,
       "step": 9800
     },
     {
       "epoch": 0.3929427482415812,
+      "grad_norm": 3.5624563694000244,
+      "learning_rate": 0.0002034508474576271,
+      "loss": 0.4824,
       "step": 10000
     },
     {
       "epoch": 0.3929427482415812,
+      "eval_loss": 0.6718243956565857,
+      "eval_runtime": 161.1794,
+      "eval_samples_per_second": 35.091,
+      "eval_steps_per_second": 4.386,
+      "eval_wer": 0.5334531623629857,
       "step": 10000
     },
     {
       "epoch": 0.40080160320641284,
+      "eval_loss": 0.6593254804611206,
+      "eval_runtime": 160.9535,
+      "eval_samples_per_second": 35.141,
+      "eval_steps_per_second": 4.393,
+      "eval_wer": 0.5175169713212755,
       "step": 10200
     },
     {
       "epoch": 0.40866045817124447,
+      "eval_loss": 0.6799437403678894,
+      "eval_runtime": 159.6664,
+      "eval_samples_per_second": 35.424,
+      "eval_steps_per_second": 4.428,
+      "eval_wer": 0.5173885830752195,
       "step": 10400
     },
     {
       "epoch": 0.4125898856536603,
+      "grad_norm": 2.189781427383423,
+      "learning_rate": 0.00019836610169491524,
+      "loss": 0.48,
       "step": 10500
     },
     {
       "epoch": 0.4165193131360761,
+      "eval_loss": 0.6662308573722839,
+      "eval_runtime": 160.8779,
+      "eval_samples_per_second": 35.157,
+      "eval_steps_per_second": 4.395,
+      "eval_wer": 0.5128949944632569,
       "step": 10600
     },
     {
       "epoch": 0.42437816810090767,
+      "eval_loss": 0.6619213223457336,
+      "eval_runtime": 160.6185,
+      "eval_samples_per_second": 35.214,
+      "eval_steps_per_second": 4.402,
+      "eval_wer": 0.5005536743111169,
       "step": 10800
     },
     {
       "epoch": 0.4322370230657393,
+      "grad_norm": 10.41739559173584,
+      "learning_rate": 0.00019328135593220337,
+      "loss": 0.4693,
       "step": 11000
     },
     {
       "epoch": 0.4322370230657393,
+      "eval_loss": 0.6576216220855713,
+      "eval_runtime": 160.9844,
+      "eval_samples_per_second": 35.134,
+      "eval_steps_per_second": 4.392,
+      "eval_wer": 0.519940299465584,
       "step": 11000
     },
     {
       "epoch": 0.44009587803057093,
+      "eval_loss": 0.6406122446060181,
+      "eval_runtime": 160.4456,
+      "eval_samples_per_second": 35.252,
+      "eval_steps_per_second": 4.406,
+      "eval_wer": 0.5018696538331916,
       "step": 11200
     },
     {
       "epoch": 0.44795473299540256,
+      "eval_loss": 0.6408420205116272,
+      "eval_runtime": 161.6075,
+      "eval_samples_per_second": 34.998,
+      "eval_steps_per_second": 4.375,
+      "eval_wer": 0.5066039704065093,
       "step": 11400
     },
     {
       "epoch": 0.4518841604778184,
+      "grad_norm": 3.5733156204223633,
+      "learning_rate": 0.00018819661016949152,
+      "loss": 0.4691,
       "step": 11500
     },
     {
       "epoch": 0.4558135879602342,
+      "eval_loss": 0.6476473212242126,
+      "eval_runtime": 161.2518,
+      "eval_samples_per_second": 35.076,
+      "eval_steps_per_second": 4.384,
+      "eval_wer": 0.5019498964869766,
       "step": 11600
     },
     {
       "epoch": 0.4636724429250658,
+      "eval_loss": 0.6423429846763611,
+      "eval_runtime": 161.3676,
+      "eval_samples_per_second": 35.05,
+      "eval_steps_per_second": 4.381,
+      "eval_wer": 0.4945996694002664,
       "step": 11800
     },
     {
       "epoch": 0.47153129788989745,
+      "grad_norm": 2.3962831497192383,
+      "learning_rate": 0.00018311186440677962,
+      "loss": 0.4444,
       "step": 12000
     },
     {
       "epoch": 0.47153129788989745,
+      "eval_loss": 0.6374172568321228,
+      "eval_runtime": 162.3359,
+      "eval_samples_per_second": 34.841,
+      "eval_steps_per_second": 4.355,
+      "eval_wer": 0.4975846961210701,
       "step": 12000
     },
     {
       "epoch": 0.4793901528547291,
+      "eval_loss": 0.6312358379364014,
+      "eval_runtime": 162.5747,
+      "eval_samples_per_second": 34.79,
+      "eval_steps_per_second": 4.349,
+      "eval_wer": 0.4961403283529393,
       "step": 12200
     },
     {
       "epoch": 0.4872490078195607,
+      "eval_loss": 0.6170411109924316,
+      "eval_runtime": 161.58,
+      "eval_samples_per_second": 35.004,
+      "eval_steps_per_second": 4.376,
+      "eval_wer": 0.4818571359792011,
       "step": 12400
     },
     {
       "epoch": 0.4911784353019765,
+      "grad_norm": 2.623764753341675,
+      "learning_rate": 0.0001780372881355932,
+      "loss": 0.4474,
       "step": 12500
     },
     {
       "epoch": 0.49510786278439234,
+      "eval_loss": 0.6300910115242004,
+      "eval_runtime": 164.417,
+      "eval_samples_per_second": 34.4,
+      "eval_steps_per_second": 4.3,
+      "eval_wer": 0.49325159281667763,
       "step": 12600
     },
     {
       "epoch": 0.502966717749224,
+      "eval_loss": 0.6253496408462524,
+      "eval_runtime": 161.3418,
+      "eval_samples_per_second": 35.056,
+      "eval_steps_per_second": 4.382,
+      "eval_wer": 0.4862383848758646,
       "step": 12800
     },
     {
       "epoch": 0.5108255727140556,
+      "grad_norm": 2.9566869735717773,
+      "learning_rate": 0.00017295254237288134,
+      "loss": 0.4471,
       "step": 13000
     },
     {
       "epoch": 0.5108255727140556,
+      "eval_loss": 0.622020959854126,
+      "eval_runtime": 161.5861,
+      "eval_samples_per_second": 35.003,
+      "eval_steps_per_second": 4.375,
+      "eval_wer": 0.4849224053537899,
       "step": 13000
     },
     {
       "epoch": 0.5186844276788872,
+      "eval_loss": 0.6201028823852539,
+      "eval_runtime": 160.9515,
+      "eval_samples_per_second": 35.141,
+      "eval_steps_per_second": 4.393,
+      "eval_wer": 0.48527547303044405,
       "step": 13200
     },
     {
       "epoch": 0.5265432826437189,
+      "eval_loss": 0.6168439984321594,
+      "eval_runtime": 162.0987,
+      "eval_samples_per_second": 34.892,
+      "eval_steps_per_second": 4.362,
+      "eval_wer": 0.4848261141692478,
       "step": 13400
     },
     {
       "epoch": 0.5304727101261346,
+      "grad_norm": 1.5596935749053955,
+      "learning_rate": 0.0001678677966101695,
+      "loss": 0.4323,
       "step": 13500
     },
     {
       "epoch": 0.5344021376085505,
+      "eval_loss": 0.6172667741775513,
+      "eval_runtime": 162.3681,
+      "eval_samples_per_second": 34.834,
+      "eval_steps_per_second": 4.354,
+      "eval_wer": 0.47707467381361235,
       "step": 13600
     },
     {
       "epoch": 0.542260992573382,
+      "eval_loss": 0.603190004825592,
+      "eval_runtime": 161.2926,
+      "eval_samples_per_second": 35.067,
+      "eval_steps_per_second": 4.383,
+      "eval_wer": 0.4656160228531078,
       "step": 13800
     },
     {
       "epoch": 0.5501198475382136,
+      "grad_norm": 2.978868246078491,
+      "learning_rate": 0.0001627830508474576,
+      "loss": 0.4575,
       "step": 14000
     },
     {
       "epoch": 0.5501198475382136,
+      "eval_loss": 0.6097469925880432,
+      "eval_runtime": 161.1042,
+      "eval_samples_per_second": 35.108,
+      "eval_steps_per_second": 4.388,
+      "eval_wer": 0.4678307200975751,
       "step": 14000
     },
     {
       "epoch": 0.5579787025030453,
+      "eval_loss": 0.5970696806907654,
+      "eval_runtime": 161.5846,
+      "eval_samples_per_second": 35.003,
+      "eval_steps_per_second": 4.375,
+      "eval_wer": 0.4673653127056218,
       "step": 14200
     },
     {
       "epoch": 0.5658375574678769,
+      "eval_loss": 0.5976916551589966,
+      "eval_runtime": 161.7136,
+      "eval_samples_per_second": 34.975,
+      "eval_steps_per_second": 4.372,
+      "eval_wer": 0.4697565437884162,
       "step": 14400
     },
     {
       "epoch": 0.5697669849502928,
+      "grad_norm": 3.0501327514648438,
+      "learning_rate": 0.00015769830508474575,
+      "loss": 0.4395,
       "step": 14500
     },
     {
       "epoch": 0.5736964124327085,
+      "eval_loss": 0.6056780815124512,
+      "eval_runtime": 162.5963,
+      "eval_samples_per_second": 34.786,
+      "eval_steps_per_second": 4.348,
+      "eval_wer": 0.4734316573317713,
       "step": 14600
     },
     {
       "epoch": 0.5815552673975402,
+      "eval_loss": 0.582733690738678,
+      "eval_runtime": 162.9467,
+      "eval_samples_per_second": 34.711,
+      "eval_steps_per_second": 4.339,
+      "eval_wer": 0.4574152236362761,
       "step": 14800
     },
     {
       "epoch": 0.5894141223623718,
+      "grad_norm": 4.3484697341918945,
+      "learning_rate": 0.00015261355932203388,
+      "loss": 0.4119,
       "step": 15000
     },
     {
       "epoch": 0.5894141223623718,
+      "eval_loss": 0.5946210622787476,
+      "eval_runtime": 162.2892,
+      "eval_samples_per_second": 34.851,
+      "eval_steps_per_second": 4.356,
+      "eval_wer": 0.4640432668389209,
       "step": 15000
     },
     {
       "epoch": 0.5972729773272034,
+      "eval_loss": 0.602292001247406,
+      "eval_runtime": 161.4334,
+      "eval_samples_per_second": 35.036,
+      "eval_steps_per_second": 4.38,
+      "eval_wer": 0.47707467381361235,
       "step": 15200
     },
     {
       "epoch": 0.605131832292035,
+      "eval_loss": 0.6129310727119446,
+      "eval_runtime": 161.8649,
+      "eval_samples_per_second": 34.943,
+      "eval_steps_per_second": 4.368,
+      "eval_wer": 0.47266132785543485,
       "step": 15400
     },
     {
       "epoch": 0.6090612597744509,
+      "grad_norm": 4.229031085968018,
+      "learning_rate": 0.00014752881355932203,
+      "loss": 0.4125,
       "step": 15500
     },
     {
       "epoch": 0.6129906872568667,
+      "eval_loss": 0.590186595916748,
+      "eval_runtime": 162.4898,
+      "eval_samples_per_second": 34.808,
+      "eval_steps_per_second": 4.351,
+      "eval_wer": 0.45837813548169665,
       "step": 15600
     },
     {
       "epoch": 0.6208495422216983,
+      "eval_loss": 0.5955421328544617,
+      "eval_runtime": 161.8228,
+      "eval_samples_per_second": 34.952,
+      "eval_steps_per_second": 4.369,
+      "eval_wer": 0.46537529489175267,
       "step": 15800
     },
     {
       "epoch": 0.6287083971865299,
+      "grad_norm": 1.4181621074676514,
+      "learning_rate": 0.00014244406779661016,
+      "loss": 0.4039,
       "step": 16000
     },
     {
       "epoch": 0.6287083971865299,
+      "eval_loss": 0.5955237150192261,
+      "eval_runtime": 161.3699,
+      "eval_samples_per_second": 35.05,
+      "eval_steps_per_second": 4.381,
+      "eval_wer": 0.45946943557317327,
       "step": 16000
     },
     {
       "epoch": 0.6365672521513616,
+      "eval_loss": 0.578912079334259,
+      "eval_runtime": 163.2091,
+      "eval_samples_per_second": 34.655,
+      "eval_steps_per_second": 4.332,
+      "eval_wer": 0.4497279774036687,
       "step": 16200
     },
     {
       "epoch": 0.6444261071161932,
+      "eval_loss": 0.5779294371604919,
+      "eval_runtime": 164.0491,
+      "eval_samples_per_second": 34.477,
+      "eval_steps_per_second": 4.31,
+      "eval_wer": 0.4630322094012293,
       "step": 16400
     },
     {
       "epoch": 0.648355534598609,
+      "grad_norm": 2.0229876041412354,
+      "learning_rate": 0.00013736949152542372,
+      "loss": 0.3969,
       "step": 16500
     },
     {
       "epoch": 0.6522849620810248,
+      "eval_loss": 0.5677434802055359,
+      "eval_runtime": 161.201,
+      "eval_samples_per_second": 35.087,
+      "eval_steps_per_second": 4.386,
+      "eval_wer": 0.45507213814575276,
       "step": 16600
     },
     {
       "epoch": 0.6601438170458565,
+      "eval_loss": 0.586939811706543,
+      "eval_runtime": 161.4539,
+      "eval_samples_per_second": 35.032,
+      "eval_steps_per_second": 4.379,
+      "eval_wer": 0.46062492978767794,
       "step": 16800
     },
     {
       "epoch": 0.6680026720106881,
+      "grad_norm": 4.166793346405029,
+      "learning_rate": 0.00013229491525423729,
+      "loss": 0.3923,
       "step": 17000
     },
     {
       "epoch": 0.6680026720106881,
+      "eval_loss": 0.5710186958312988,
+      "eval_runtime": 160.5637,
+      "eval_samples_per_second": 35.226,
+      "eval_steps_per_second": 4.403,
+      "eval_wer": 0.45017733626486495,
       "step": 17000
     },
     {
       "epoch": 0.6758615269755197,
+      "eval_loss": 0.5639811158180237,
+      "eval_runtime": 161.7944,
+      "eval_samples_per_second": 34.958,
+      "eval_steps_per_second": 4.37,
+      "eval_wer": 0.44741698897465937,
       "step": 17200
     },
     {
       "epoch": 0.6837203819403513,
+      "eval_loss": 0.5841760039329529,
+      "eval_runtime": 161.0184,
+      "eval_samples_per_second": 35.126,
+      "eval_steps_per_second": 4.391,
+      "eval_wer": 0.4497921715266967,
       "step": 17400
     },
     {
       "epoch": 0.6876498094227671,
+      "grad_norm": 3.127680778503418,
+      "learning_rate": 0.0001272101694915254,
+      "loss": 0.386,
       "step": 17500
     },
     {
       "epoch": 0.691579236905183,
+      "eval_loss": 0.5596618056297302,
+      "eval_runtime": 160.919,
+      "eval_samples_per_second": 35.148,
+      "eval_steps_per_second": 4.394,
+      "eval_wer": 0.44403074898493045,
       "step": 17600
     },
     {
       "epoch": 0.6994380918700145,
+      "eval_loss": 0.5620830059051514,
+      "eval_runtime": 160.6614,
+      "eval_samples_per_second": 35.204,
+      "eval_steps_per_second": 4.401,
+      "eval_wer": 0.43812488966635105,
       "step": 17800
     },
     {
       "epoch": 0.7072969468348461,
+      "grad_norm": 17.387800216674805,
+      "learning_rate": 0.00012213559322033898,
+      "loss": 0.3851,
       "step": 18000
     },
     {
       "epoch": 0.7072969468348461,
+      "eval_loss": 0.566453218460083,
+      "eval_runtime": 161.6574,
+      "eval_samples_per_second": 34.988,
+      "eval_steps_per_second": 4.373,
+      "eval_wer": 0.434562115838295,
       "step": 18000
     },
     {
       "epoch": 0.7151558017996777,
+      "eval_loss": 0.5572646260261536,
+      "eval_runtime": 162.4898,
+      "eval_samples_per_second": 34.808,
+      "eval_steps_per_second": 4.351,
+      "eval_wer": 0.4356213188682576,
       "step": 18200
     },
     {
       "epoch": 0.7230146567645094,
+      "eval_loss": 0.5548349022865295,
+      "eval_runtime": 161.0153,
+      "eval_samples_per_second": 35.127,
+      "eval_steps_per_second": 4.391,
+      "eval_wer": 0.4344337275922389,
       "step": 18400
     },
     {
       "epoch": 0.7269440842469252,
+      "grad_norm": 9.4507417678833,
+      "learning_rate": 0.00011705084745762712,
+      "loss": 0.369,
       "step": 18500
     },
     {
       "epoch": 0.730873511729341,
+      "eval_loss": 0.5616690516471863,
+      "eval_runtime": 161.4318,
+      "eval_samples_per_second": 35.036,
+      "eval_steps_per_second": 4.38,
+      "eval_wer": 0.43637559981383706,
       "step": 18600
     },
     {
       "epoch": 0.7387323666941726,
+      "eval_loss": 0.5595532655715942,
+      "eval_runtime": 160.8301,
+      "eval_samples_per_second": 35.168,
+      "eval_steps_per_second": 4.396,
+      "eval_wer": 0.4393927235961548,
       "step": 18800
     },
     {
       "epoch": 0.7465912216590043,
+      "grad_norm": 1.8793506622314453,
+      "learning_rate": 0.00011196610169491524,
+      "loss": 0.3738,
       "step": 19000
     },
     {
       "epoch": 0.7465912216590043,
+      "eval_loss": 0.549248218536377,
+      "eval_runtime": 161.3194,
+      "eval_samples_per_second": 35.061,
+      "eval_steps_per_second": 4.383,
+      "eval_wer": 0.42923400362696795,
       "step": 19000
     },
     {
       "epoch": 0.7544500766238359,
+      "eval_loss": 0.5478147268295288,
+      "eval_runtime": 162.2231,
+      "eval_samples_per_second": 34.866,
+      "eval_steps_per_second": 4.358,
+      "eval_wer": 0.4372261719439585,
       "step": 19200
     },
     {
       "epoch": 0.7623089315886675,
+      "eval_loss": 0.5375632047653198,
+      "eval_runtime": 161.0297,
+      "eval_samples_per_second": 35.124,
+      "eval_steps_per_second": 4.39,
+      "eval_wer": 0.42873649917350065,
       "step": 19400
     },
     {
       "epoch": 0.7662383590710834,
+      "grad_norm": 2.159616708755493,
+      "learning_rate": 0.00010688135593220338,
+      "loss": 0.368,
       "step": 19500
     },
     {
       "epoch": 0.7701677865534992,
+      "eval_loss": 0.5282244086265564,
+      "eval_runtime": 163.0357,
+      "eval_samples_per_second": 34.692,
+      "eval_steps_per_second": 4.336,
+      "eval_wer": 0.4193481086806503,
       "step": 19600
     },
     {
       "epoch": 0.7780266415183308,
+      "eval_loss": 0.5348193049430847,
+      "eval_runtime": 162.5531,
+      "eval_samples_per_second": 34.795,
+      "eval_steps_per_second": 4.349,
+      "eval_wer": 0.42507743416090255,
       "step": 19800
     },
     {
       "epoch": 0.7858854964831624,
+      "grad_norm": 2.2020351886749268,
+      "learning_rate": 0.00010179661016949151,
+      "loss": 0.3629,
       "step": 20000
     },
     {
       "epoch": 0.7858854964831624,
+      "eval_loss": 0.5367931723594666,
+      "eval_runtime": 162.0053,
+      "eval_samples_per_second": 34.912,
+      "eval_steps_per_second": 4.364,
+      "eval_wer": 0.43130426409462214,
       "step": 20000
     },
     {
+      "epoch": 0.793744351447994,
+      "eval_loss": 0.5550614595413208,
+      "eval_runtime": 161.9948,
+      "eval_samples_per_second": 34.915,
+      "eval_steps_per_second": 4.364,
+      "eval_wer": 0.44123830463321084,
+      "step": 20200
+    },
+    {
+      "epoch": 0.8016032064128257,
+      "eval_loss": 0.5251778364181519,
+      "eval_runtime": 162.6214,
+      "eval_samples_per_second": 34.78,
+      "eval_steps_per_second": 4.348,
+      "eval_wer": 0.4105214167642952,
+      "step": 20400
+    },
+    {
+      "epoch": 0.8055326338952414,
+      "grad_norm": 2.7725887298583984,
+      "learning_rate": 9.671186440677966e-05,
+      "loss": 0.3638,
+      "step": 20500
+    },
+    {
+      "epoch": 0.8094620613776573,
+      "eval_loss": 0.5242481827735901,
+      "eval_runtime": 162.5731,
+      "eval_samples_per_second": 34.791,
+      "eval_steps_per_second": 4.349,
+      "eval_wer": 0.41174110510182793,
+      "step": 20600
+    },
+    {
+      "epoch": 0.8173209163424889,
+      "eval_loss": 0.5233432054519653,
+      "eval_runtime": 161.9438,
+      "eval_samples_per_second": 34.926,
+      "eval_steps_per_second": 4.366,
+      "eval_wer": 0.4165877613904447,
+      "step": 20800
+    },
+    {
+      "epoch": 0.8251797713073206,
+      "grad_norm": 2.733196496963501,
+      "learning_rate": 9.162711864406779e-05,
+      "loss": 0.3512,
+      "step": 21000
+    },
+    {
+      "epoch": 0.8251797713073206,
+      "eval_loss": 0.524342954158783,
+      "eval_runtime": 161.947,
+      "eval_samples_per_second": 34.925,
+      "eval_steps_per_second": 4.366,
+      "eval_wer": 0.4160581598754634,
+      "step": 21000
+    },
+    {
+      "epoch": 0.8330386262721522,
+      "eval_loss": 0.5150259733200073,
+      "eval_runtime": 162.0793,
+      "eval_samples_per_second": 34.896,
+      "eval_steps_per_second": 4.362,
+      "eval_wer": 0.4123028036783232,
+      "step": 21200
+    },
+    {
+      "epoch": 0.8408974812369838,
+      "eval_loss": 0.5088914632797241,
+      "eval_runtime": 161.2392,
+      "eval_samples_per_second": 35.078,
+      "eval_steps_per_second": 4.385,
+      "eval_wer": 0.4079536518431738,
+      "step": 21400
+    },
+    {
+      "epoch": 0.8448269087193996,
+      "grad_norm": 4.562708377838135,
+      "learning_rate": 8.654237288135593e-05,
+      "loss": 0.3536,
+      "step": 21500
+    },
+    {
+      "epoch": 0.8487563362018153,
+      "eval_loss": 0.515373170375824,
+      "eval_runtime": 162.8063,
+      "eval_samples_per_second": 34.741,
+      "eval_steps_per_second": 4.343,
+      "eval_wer": 0.40899680634237934,
+      "step": 21600
+    },
+    {
+      "epoch": 0.856615191166647,
+      "eval_loss": 0.5161571502685547,
+      "eval_runtime": 162.7678,
+      "eval_samples_per_second": 34.749,
+      "eval_steps_per_second": 4.344,
+      "eval_wer": 0.4091893887114635,
+      "step": 21800
+    },
+    {
+      "epoch": 0.8644740461314786,
+      "grad_norm": 2.272256374359131,
+      "learning_rate": 8.146779661016948e-05,
+      "loss": 0.3464,
+      "step": 22000
+    },
+    {
+      "epoch": 0.8644740461314786,
+      "eval_loss": 0.5097736716270447,
+      "eval_runtime": 162.1935,
+      "eval_samples_per_second": 34.872,
+      "eval_steps_per_second": 4.359,
+      "eval_wer": 0.40527354720675324,
+      "step": 22000
+    },
+    {
+      "epoch": 0.8723329010963102,
+      "eval_loss": 0.5069981813430786,
+      "eval_runtime": 162.5966,
+      "eval_samples_per_second": 34.785,
+      "eval_steps_per_second": 4.348,
+      "eval_wer": 0.4022724719551925,
+      "step": 22200
+    },
+    {
+      "epoch": 0.8801917560611419,
+      "eval_loss": 0.5070444345474243,
+      "eval_runtime": 162.5617,
+      "eval_samples_per_second": 34.793,
+      "eval_steps_per_second": 4.349,
+      "eval_wer": 0.40707098265153824,
+      "step": 22400
+    },
+    {
+      "epoch": 0.8841211835435577,
+      "grad_norm": 2.9740068912506104,
+      "learning_rate": 7.638305084745762e-05,
+      "loss": 0.3377,
+      "step": 22500
+    },
+    {
+      "epoch": 0.8880506110259735,
+      "eval_loss": 0.5028176307678223,
+      "eval_runtime": 162.4451,
+      "eval_samples_per_second": 34.818,
+      "eval_steps_per_second": 4.352,
+      "eval_wer": 0.39670363178251034,
+      "step": 22600
+    },
+    {
+      "epoch": 0.8959094659908051,
+      "eval_loss": 0.5036062002182007,
+      "eval_runtime": 162.5763,
+      "eval_samples_per_second": 34.79,
+      "eval_steps_per_second": 4.349,
+      "eval_wer": 0.39784307746625797,
+      "step": 22800
+    },
+    {
+      "epoch": 0.9037683209556368,
+      "grad_norm": 1.9388916492462158,
+      "learning_rate": 7.129830508474575e-05,
+      "loss": 0.3272,
+      "step": 23000
+    },
+    {
+      "epoch": 0.9037683209556368,
+      "eval_loss": 0.5020586848258972,
+      "eval_runtime": 161.6894,
+      "eval_samples_per_second": 34.981,
+      "eval_steps_per_second": 4.373,
+      "eval_wer": 0.39538765226043554,
+      "step": 23000
+    },
+    {
+      "epoch": 0.9116271759204684,
+      "eval_loss": 0.5032612085342407,
+      "eval_runtime": 163.6786,
+      "eval_samples_per_second": 34.556,
+      "eval_steps_per_second": 4.319,
+      "eval_wer": 0.3984529216350243,
+      "step": 23200
+    },
+    {
+      "epoch": 0.9194860308853,
+      "eval_loss": 0.49842530488967896,
+      "eval_runtime": 162.0701,
+      "eval_samples_per_second": 34.898,
+      "eval_steps_per_second": 4.362,
+      "eval_wer": 0.3971850877052206,
+      "step": 23400
+    },
+    {
+      "epoch": 0.9234154583677158,
+      "grad_norm": 3.9436373710632324,
+      "learning_rate": 6.621355932203389e-05,
+      "loss": 0.319,
+      "step": 23500
+    },
+    {
+      "epoch": 0.9273448858501316,
+      "eval_loss": 0.4928737282752991,
+      "eval_runtime": 163.9597,
+      "eval_samples_per_second": 34.496,
+      "eval_steps_per_second": 4.312,
+      "eval_wer": 0.39243472260114587,
+      "step": 23600
+    },
+    {
+      "epoch": 0.9352037408149633,
+      "eval_loss": 0.49405232071876526,
+      "eval_runtime": 161.8803,
+      "eval_samples_per_second": 34.939,
+      "eval_steps_per_second": 4.367,
+      "eval_wer": 0.4013095601097719,
+      "step": 23800
+    },
+    {
+      "epoch": 0.9430625957797949,
+      "grad_norm": 3.4186201095581055,
+      "learning_rate": 6.112881355932203e-05,
+      "loss": 0.3184,
+      "step": 24000
+    },
+    {
+      "epoch": 0.9430625957797949,
+      "eval_loss": 0.4856198728084564,
+      "eval_runtime": 163.6122,
+      "eval_samples_per_second": 34.57,
+      "eval_steps_per_second": 4.321,
+      "eval_wer": 0.387411532474202,
+      "step": 24000
+    },
+    {
+      "epoch": 0.9509214507446265,
+      "eval_loss": 0.48915818333625793,
+      "eval_runtime": 162.8317,
+      "eval_samples_per_second": 34.735,
+      "eval_steps_per_second": 4.342,
+      "eval_wer": 0.3913755195711833,
+      "step": 24200
+    },
+    {
+      "epoch": 0.9587803057094582,
+      "eval_loss": 0.48598504066467285,
+      "eval_runtime": 160.6269,
+      "eval_samples_per_second": 35.212,
+      "eval_steps_per_second": 4.402,
+      "eval_wer": 0.3813772849095665,
+      "step": 24400
+    },
+    {
+      "epoch": 0.9627097331918739,
+      "grad_norm": 2.70164155960083,
+      "learning_rate": 5.6044067796610164e-05,
+      "loss": 0.3091,
+      "step": 24500
+    },
+    {
+      "epoch": 0.9666391606742898,
+      "eval_loss": 0.4825168251991272,
+      "eval_runtime": 162.6242,
+      "eval_samples_per_second": 34.78,
+      "eval_steps_per_second": 4.347,
+      "eval_wer": 0.38336730272343567,
+      "step": 24600
+    },
+    {
+      "epoch": 0.9744980156391214,
+      "eval_loss": 0.4784228205680847,
+      "eval_runtime": 162.0189,
+      "eval_samples_per_second": 34.91,
+      "eval_steps_per_second": 4.364,
+      "eval_wer": 0.3866893485901366,
+      "step": 24800
+    },
+    {
+      "epoch": 0.982356870603953,
+      "grad_norm": 9.408166885375977,
+      "learning_rate": 5.096949152542373e-05,
+      "loss": 0.3154,
+      "step": 25000
+    },
+    {
+      "epoch": 0.982356870603953,
+      "eval_loss": 0.47507792711257935,
+      "eval_runtime": 161.9422,
+      "eval_samples_per_second": 34.926,
+      "eval_steps_per_second": 4.366,
+      "eval_wer": 0.3807834892715572,
+      "step": 25000
+    },
+    {
+      "epoch": 0.9902157255687847,
+      "eval_loss": 0.4778765141963959,
+      "eval_runtime": 162.3405,
+      "eval_samples_per_second": 34.84,
+      "eval_steps_per_second": 4.355,
+      "eval_wer": 0.38492401020686556,
+      "step": 25200
+    },
+    {
+      "epoch": 0.9980745805336163,
+      "eval_loss": 0.477267324924469,
+      "eval_runtime": 161.2107,
+      "eval_samples_per_second": 35.085,
+      "eval_steps_per_second": 4.386,
+      "eval_wer": 0.38084768339458525,
+      "step": 25400
+    },
+    {
+      "epoch": 1.002004008016032,
+      "grad_norm": 0.7003775835037231,
+      "learning_rate": 4.589491525423728e-05,
+      "loss": 0.312,
+      "step": 25500
+    },
+    {
+      "epoch": 1.005933435498448,
+      "eval_loss": 0.47774726152420044,
+      "eval_runtime": 160.8535,
+      "eval_samples_per_second": 35.162,
+      "eval_steps_per_second": 4.395,
+      "eval_wer": 0.3757923962061273,
+      "step": 25600
+    },
+    {
+      "epoch": 1.0137922904632795,
+      "eval_loss": 0.4752050042152405,
+      "eval_runtime": 159.7765,
+      "eval_samples_per_second": 35.399,
+      "eval_steps_per_second": 4.425,
+      "eval_wer": 0.3820513232013609,
+      "step": 25800
+    },
+    {
+      "epoch": 1.0216511454281112,
+      "grad_norm": 0.702942430973053,
+      "learning_rate": 4.081016949152542e-05,
+      "loss": 0.2651,
+      "step": 26000
+    },
+    {
+      "epoch": 1.0216511454281112,
+      "eval_loss": 0.4700838327407837,
+      "eval_runtime": 163.2858,
+      "eval_samples_per_second": 34.639,
+      "eval_steps_per_second": 4.33,
+      "eval_wer": 0.37750958899712733,
+      "step": 26000
+    },
+    {
+      "epoch": 1.0295100003929427,
+      "eval_loss": 0.47011885046958923,
+      "eval_runtime": 160.7741,
+      "eval_samples_per_second": 35.18,
+      "eval_steps_per_second": 4.397,
+      "eval_wer": 0.3760652212289965,
+      "step": 26200
+    },
+    {
+      "epoch": 1.0373688553577745,
+      "eval_loss": 0.471804678440094,
+      "eval_runtime": 160.2455,
+      "eval_samples_per_second": 35.296,
+      "eval_steps_per_second": 4.412,
+      "eval_wer": 0.37755773458939834,
+      "step": 26400
+    },
+    {
+      "epoch": 1.0412982828401902,
+      "grad_norm": 0.98069828748703,
+      "learning_rate": 3.572542372881355e-05,
+      "loss": 0.2627,
+      "step": 26500
+    },
+    {
+      "epoch": 1.045227710322606,
+      "eval_loss": 0.4638473391532898,
+      "eval_runtime": 160.1121,
+      "eval_samples_per_second": 35.325,
+      "eval_steps_per_second": 4.416,
+      "eval_wer": 0.37296785479289374,
+      "step": 26600
+    },
+    {
+      "epoch": 1.0530865652874377,
+      "eval_loss": 0.4677112400531769,
+      "eval_runtime": 159.9389,
+      "eval_samples_per_second": 35.364,
+      "eval_steps_per_second": 4.42,
+      "eval_wer": 0.3720370400089872,
+      "step": 26800
+    },
+    {
+      "epoch": 1.0609454202522692,
+      "grad_norm": 0.8780287504196167,
+      "learning_rate": 3.0640677966101693e-05,
+      "loss": 0.2427,
+      "step": 27000
+    },
+    {
+      "epoch": 1.0609454202522692,
+      "eval_loss": 0.4642546474933624,
+      "eval_runtime": 160.0541,
+      "eval_samples_per_second": 35.338,
+      "eval_steps_per_second": 4.417,
+      "eval_wer": 0.36985443982603394,
+      "step": 27000
+    },
+    {
+      "epoch": 1.0688042752171008,
+      "eval_loss": 0.46017909049987793,
+      "eval_runtime": 159.9066,
+      "eval_samples_per_second": 35.371,
+      "eval_steps_per_second": 4.421,
+      "eval_wer": 0.3713469531864358,
+      "step": 27200
+    },
+    {
+      "epoch": 1.0766631301819325,
+      "eval_loss": 0.46644654870033264,
+      "eval_runtime": 160.7516,
+      "eval_samples_per_second": 35.185,
+      "eval_steps_per_second": 4.398,
+      "eval_wer": 0.3703037986872302,
+      "step": 27400
+    },
+    {
+      "epoch": 1.0805925576643483,
+      "grad_norm": 0.8659859895706177,
+      "learning_rate": 2.556610169491525e-05,
+      "loss": 0.2464,
+      "step": 27500
+    },
+    {
+      "epoch": 1.0845219851467642,
+      "eval_loss": 0.4609028100967407,
+      "eval_runtime": 161.4502,
+      "eval_samples_per_second": 35.032,
+      "eval_steps_per_second": 4.379,
+      "eval_wer": 0.36770393670459467,
+      "step": 27600
+    },
+    {
+      "epoch": 1.0923808401115958,
+      "eval_loss": 0.4613707363605499,
+      "eval_runtime": 160.5963,
+      "eval_samples_per_second": 35.219,
+      "eval_steps_per_second": 4.402,
+      "eval_wer": 0.3687310426730433,
+      "step": 27800
+    },
+    {
+      "epoch": 1.1002396950764273,
+      "grad_norm": 1.6944918632507324,
+      "learning_rate": 2.0481355932203388e-05,
+      "loss": 0.2537,
+      "step": 28000
+    },
+    {
+      "epoch": 1.1002396950764273,
+      "eval_loss": 0.45553678274154663,
+      "eval_runtime": 160.1154,
+      "eval_samples_per_second": 35.325,
+      "eval_steps_per_second": 4.416,
+      "eval_wer": 0.36545714239861343,
+      "step": 28000
+    },
+    {
+      "epoch": 1.108098550041259,
+      "eval_loss": 0.456032931804657,
+      "eval_runtime": 160.97,
+      "eval_samples_per_second": 35.137,
+      "eval_steps_per_second": 4.392,
+      "eval_wer": 0.36447818202243587,
+      "step": 28200
+    },
+    {
+      "epoch": 1.1159574050060905,
+      "eval_loss": 0.45427000522613525,
+      "eval_runtime": 160.1348,
+      "eval_samples_per_second": 35.32,
+      "eval_steps_per_second": 4.415,
+      "eval_wer": 0.36261655245462276,
+      "step": 28400
+    },
+    {
+      "epoch": 1.1198868324885065,
+      "grad_norm": 0.8318812251091003,
+      "learning_rate": 1.5396610169491525e-05,
+      "loss": 0.2313,
+      "step": 28500
+    },
+    {
+      "epoch": 1.1238162599709223,
+      "eval_loss": 0.45402956008911133,
+      "eval_runtime": 160.7545,
+      "eval_samples_per_second": 35.184,
+      "eval_steps_per_second": 4.398,
+      "eval_wer": 0.3631461539696041,
+      "step": 28600
+    },
+    {
+      "epoch": 1.1316751149357538,
+      "eval_loss": 0.4536111354827881,
+      "eval_runtime": 165.4654,
+      "eval_samples_per_second": 34.182,
+      "eval_steps_per_second": 4.273,
+      "eval_wer": 0.3626326009853798,
+      "step": 28800
+    },
+    {
+      "epoch": 1.1395339699005855,
+      "grad_norm": 0.7866860032081604,
+      "learning_rate": 1.031186440677966e-05,
+      "loss": 0.2451,
+      "step": 29000
+    },
+    {
+      "epoch": 1.1395339699005855,
+      "eval_loss": 0.45293620228767395,
+      "eval_runtime": 160.3649,
+      "eval_samples_per_second": 35.27,
+      "eval_steps_per_second": 4.409,
+      "eval_wer": 0.3617338832629873,
+      "step": 29000
+    },
+    {
+      "epoch": 1.147392824865417,
+      "eval_loss": 0.4530145823955536,
+      "eval_runtime": 160.576,
+      "eval_samples_per_second": 35.223,
+      "eval_steps_per_second": 4.403,
+      "eval_wer": 0.3598401566336602,
+      "step": 29200
+    },
+    {
+      "epoch": 1.1552516798302488,
+      "eval_loss": 0.4515323042869568,
+      "eval_runtime": 160.1136,
+      "eval_samples_per_second": 35.325,
+      "eval_steps_per_second": 4.416,
+      "eval_wer": 0.3591500698111088,
+      "step": 29400
+    },
+    {
+      "epoch": 1.1591811073126645,
+      "grad_norm": 3.2193210124969482,
+      "learning_rate": 5.227118644067796e-06,
+      "loss": 0.2445,
+      "step": 29500
+    },
+    {
+      "epoch": 1.1631105347950803,
+      "eval_loss": 0.451358437538147,
+      "eval_runtime": 160.6595,
+      "eval_samples_per_second": 35.205,
+      "eval_steps_per_second": 4.401,
+      "eval_wer": 0.3590056330342957,
+      "step": 29600
+    },
+    {
+      "epoch": 1.170969389759912,
+      "eval_loss": 0.4514302611351013,
+      "eval_runtime": 160.1434,
+      "eval_samples_per_second": 35.318,
+      "eval_steps_per_second": 4.415,
+      "eval_wer": 0.3588772447882396,
+      "step": 29800
+    },
+    {
+      "epoch": 1.1788282447247436,
+      "grad_norm": 0.5669330358505249,
+      "learning_rate": 1.423728813559322e-07,
+      "loss": 0.2364,
+      "step": 30000
+    },
+    {
+      "epoch": 1.1788282447247436,
+      "eval_loss": 0.4510672390460968,
+      "eval_runtime": 160.6855,
+      "eval_samples_per_second": 35.199,
+      "eval_steps_per_second": 4.4,
+      "eval_wer": 0.3591179727495948,
+      "step": 30000
+    },
+    {
+      "epoch": 1.1788282447247436,
+      "step": 30000,
+      "total_flos": 3.731985674211105e+19,
+      "train_loss": 0.5082863594055176,
+      "train_runtime": 37313.8627,
+      "train_samples_per_second": 6.432,
+      "train_steps_per_second": 0.804
     }
   ],
   "logging_steps": 500,
+  "max_steps": 30000,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
   "save_steps": 400,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 3.731985674211105e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null