Evaluation on the test set completed on 2024_11_27.

Browse files

Files changed (8) hide show

README.md +124 -0
all_results.json +17 -0
logs/events.out.tfevents.1732687817.datavisu2 +2 -2
logs/events.out.tfevents.1732696814.datavisu2 +3 -0
model.safetensors +1 -1
test_results.json +12 -0
train_results.json +9 -0
trainer_state.json +1047 -0

README.md ADDED Viewed

	@@ -0,0 +1,124 @@

+---
+license: apache-2.0
+base_model: facebook/dinov2-large
+tags:
+- generated_from_trainer
+model-index:
+- name: bd_ortho-DinoVdeau-large-2024_11_27-batch-size64_freeze_probs
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# bd_ortho-DinoVdeau-large-2024_11_27-batch-size64_freeze_probs
+This model is a fine-tuned version of [facebook/dinov2-large](https://huggingface.co/facebook/dinov2-large) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.4551
+- Rmse: 0.0866
+- Mae: 0.0630
+- Kl Divergence: 0.1147
+- Explained Variance: 0.6593
+- Learning Rate: 0.0000
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.001
+- train_batch_size: 64
+- eval_batch_size: 64
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 150
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch | Step  | Validation Loss | Rmse   | Mae    | Kl Divergence | Explained Variance | Rate   |
+|:-------------:|:-----:|:-----:|:---------------:|:------:|:------:|:-------------:|:------------------:|:------:|
+| No log        | 1.0   | 221   | 0.4634          | 0.1018 | 0.0760 | 0.0696        | 0.5492             | 0.001  |
+| No log        | 2.0   | 442   | 0.4593          | 0.0952 | 0.0716 | 0.0038        | 0.6113             | 0.001  |
+| 0.5185        | 3.0   | 663   | 0.4574          | 0.0918 | 0.0670 | 0.0583        | 0.6245             | 0.001  |
+| 0.5185        | 4.0   | 884   | 0.4595          | 0.0955 | 0.0713 | -0.0650       | 0.6130             | 0.001  |
+| 0.4806        | 5.0   | 1105  | 0.4593          | 0.0954 | 0.0702 | -0.0835       | 0.6206             | 0.001  |
+| 0.4806        | 6.0   | 1326  | 0.4608          | 0.0977 | 0.0728 | -0.0705       | 0.6041             | 0.001  |
+| 0.4786        | 7.0   | 1547  | 0.4581          | 0.0927 | 0.0683 | -0.0044       | 0.6283             | 0.001  |
+| 0.4786        | 8.0   | 1768  | 0.4573          | 0.0916 | 0.0680 | 0.0799        | 0.6277             | 0.001  |
+| 0.4786        | 9.0   | 1989  | 0.4594          | 0.0947 | 0.0706 | 0.0233        | 0.6196             | 0.001  |
+| 0.4776        | 10.0  | 2210  | 0.4577          | 0.0918 | 0.0675 | 0.0885        | 0.6293             | 0.001  |
+| 0.4776        | 11.0  | 2431  | 0.4564          | 0.0898 | 0.0662 | 0.1296        | 0.6422             | 0.001  |
+| 0.4772        | 12.0  | 2652  | 0.4572          | 0.0913 | 0.0677 | -0.0061       | 0.6386             | 0.001  |
+| 0.4772        | 13.0  | 2873  | 0.4623          | 0.1002 | 0.0747 | -0.2060       | 0.6186             | 0.001  |
+| 0.4769        | 14.0  | 3094  | 0.4578          | 0.0925 | 0.0678 | -0.0371       | 0.6346             | 0.001  |
+| 0.4769        | 15.0  | 3315  | 0.4575          | 0.0917 | 0.0667 | 0.0458        | 0.6340             | 0.001  |
+| 0.4766        | 16.0  | 3536  | 0.4579          | 0.0926 | 0.0680 | 0.0151        | 0.6277             | 0.001  |
+| 0.4766        | 17.0  | 3757  | 0.4592          | 0.0949 | 0.0702 | -0.0679       | 0.6246             | 0.001  |
+| 0.4766        | 18.0  | 3978  | 0.4557          | 0.0887 | 0.0651 | 0.0421        | 0.6493             | 0.0001 |
+| 0.4758        | 19.0  | 4199  | 0.4556          | 0.0885 | 0.0647 | 0.0468        | 0.6508             | 0.0001 |
+| 0.4758        | 20.0  | 4420  | 0.4555          | 0.0884 | 0.0648 | 0.0405        | 0.6518             | 0.0001 |
+| 0.4741        | 21.0  | 4641  | 0.4555          | 0.0884 | 0.0650 | 0.0475        | 0.6533             | 0.0001 |
+| 0.4741        | 22.0  | 4862  | 0.4555          | 0.0883 | 0.0646 | 0.0570        | 0.6535             | 0.0001 |
+| 0.4738        | 23.0  | 5083  | 0.4551          | 0.0874 | 0.0641 | 0.0887        | 0.6570             | 0.0001 |
+| 0.4738        | 24.0  | 5304  | 0.4552          | 0.0878 | 0.0642 | 0.0555        | 0.6553             | 0.0001 |
+| 0.4736        | 25.0  | 5525  | 0.4552          | 0.0878 | 0.0645 | 0.0238        | 0.6582             | 0.0001 |
+| 0.4736        | 26.0  | 5746  | 0.4557          | 0.0885 | 0.0646 | 0.0409        | 0.6572             | 0.0001 |
+| 0.4736        | 27.0  | 5967  | 0.4551          | 0.0876 | 0.0639 | 0.0548        | 0.6576             | 0.0001 |
+| 0.4731        | 28.0  | 6188  | 0.4551          | 0.0876 | 0.0642 | 0.0273        | 0.6588             | 0.0001 |
+| 0.4731        | 29.0  | 6409  | 0.4548          | 0.0869 | 0.0634 | 0.0744        | 0.6618             | 0.0001 |
+| 0.4727        | 30.0  | 6630  | 0.4549          | 0.0873 | 0.0636 | 0.0492        | 0.6595             | 0.0001 |
+| 0.4727        | 31.0  | 6851  | 0.4548          | 0.0869 | 0.0632 | 0.0688        | 0.6613             | 0.0001 |
+| 0.4732        | 32.0  | 7072  | 0.4550          | 0.0874 | 0.0639 | 0.0271        | 0.6602             | 0.0001 |
+| 0.4732        | 33.0  | 7293  | 0.4554          | 0.0882 | 0.0647 | -0.0174       | 0.6580             | 0.0001 |
+| 0.4725        | 34.0  | 7514  | 0.4546          | 0.0866 | 0.0628 | 0.1094        | 0.6616             | 0.0001 |
+| 0.4725        | 35.0  | 7735  | 0.4550          | 0.0874 | 0.0639 | 0.0571        | 0.6583             | 0.0001 |
+| 0.4725        | 36.0  | 7956  | 0.4548          | 0.0869 | 0.0629 | 0.1453        | 0.6616             | 0.0001 |
+| 0.4727        | 37.0  | 8177  | 0.4553          | 0.0881 | 0.0645 | -0.0152       | 0.6587             | 0.0001 |
+| 0.4727        | 38.0  | 8398  | 0.4548          | 0.0870 | 0.0636 | 0.0490        | 0.6613             | 0.0001 |
+| 0.4727        | 39.0  | 8619  | 0.4548          | 0.0870 | 0.0631 | 0.0726        | 0.6610             | 0.0001 |
+| 0.4727        | 40.0  | 8840  | 0.4548          | 0.0870 | 0.0632 | 0.0637        | 0.6605             | 0.0001 |
+| 0.4721        | 41.0  | 9061  | 0.4547          | 0.0869 | 0.0634 | 0.0390        | 0.6628             | 1e-05  |
+| 0.4721        | 42.0  | 9282  | 0.4544          | 0.0862 | 0.0628 | 0.1115        | 0.6657             | 1e-05  |
+| 0.4721        | 43.0  | 9503  | 0.4546          | 0.0866 | 0.0632 | 0.0533        | 0.6646             | 1e-05  |
+| 0.4721        | 44.0  | 9724  | 0.4545          | 0.0864 | 0.0625 | 0.1350        | 0.6648             | 1e-05  |
+| 0.4721        | 45.0  | 9945  | 0.4550          | 0.0874 | 0.0642 | 0.0044        | 0.6625             | 1e-05  |
+| 0.4716        | 46.0  | 10166 | 0.4546          | 0.0867 | 0.0632 | 0.0389        | 0.6642             | 1e-05  |
+| 0.4716        | 47.0  | 10387 | 0.4545          | 0.0866 | 0.0630 | 0.0370        | 0.6651             | 1e-05  |
+| 0.4722        | 48.0  | 10608 | 0.4546          | 0.0868 | 0.0634 | 0.0194        | 0.6645             | 1e-05  |
+| 0.4722        | 49.0  | 10829 | 0.4544          | 0.0862 | 0.0627 | 0.0667        | 0.6667             | 0.0000 |
+| 0.4717        | 50.0  | 11050 | 0.4545          | 0.0865 | 0.0631 | 0.0548        | 0.6651             | 0.0000 |
+| 0.4717        | 51.0  | 11271 | 0.4545          | 0.0865 | 0.0629 | 0.0428        | 0.6651             | 0.0000 |
+| 0.4717        | 52.0  | 11492 | 0.4542          | 0.0859 | 0.0623 | 0.1236        | 0.6672             | 0.0000 |
+| 0.4718        | 53.0  | 11713 | 0.4542          | 0.0859 | 0.0625 | 0.0887        | 0.6672             | 0.0000 |
+| 0.4718        | 54.0  | 11934 | 0.4543          | 0.0862 | 0.0624 | 0.0917        | 0.6653             | 0.0000 |
+| 0.4716        | 55.0  | 12155 | 0.4546          | 0.0865 | 0.0631 | 0.0774        | 0.6650             | 0.0000 |
+| 0.4716        | 56.0  | 12376 | 0.4546          | 0.0866 | 0.0633 | 0.0473        | 0.6649             | 0.0000 |
+| 0.4717        | 57.0  | 12597 | 0.4549          | 0.0871 | 0.0639 | -0.0046       | 0.6658             | 0.0000 |
+| 0.4717        | 58.0  | 12818 | 0.4544          | 0.0864 | 0.0627 | 0.0553        | 0.6656             | 0.0000 |
+| 0.4716        | 59.0  | 13039 | 0.4545          | 0.0865 | 0.0631 | 0.0368        | 0.6654             | 0.0000 |
+| 0.4716        | 60.0  | 13260 | 0.4544          | 0.0863 | 0.0629 | 0.0471        | 0.6660             | 0.0000 |
+| 0.4716        | 61.0  | 13481 | 0.4542          | 0.0860 | 0.0624 | 0.0928        | 0.6670             | 0.0000 |
+| 0.4718        | 62.0  | 13702 | 0.4545          | 0.0866 | 0.0632 | 0.0286        | 0.6661             | 0.0000 |
+### Framework versions
+- Transformers 4.41.0
+- Pytorch 2.5.0+cu124
+- Datasets 3.0.2
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+    "epoch": 62.0,
+    "eval_explained_variance": 0.6593042016029358,
+    "eval_kl_divergence": 0.11466515809297562,
+    "eval_loss": 0.45506975054740906,
+    "eval_mae": 0.06304711848497391,
+    "eval_rmse": 0.08664286881685257,
+    "eval_runtime": 26.2102,
+    "eval_samples_per_second": 179.244,
+    "eval_steps_per_second": 2.823,
+    "learning_rate": 1.0000000000000002e-07,
+    "total_flos": 9.42369297866869e+19,
+    "train_loss": 0.4754439868851833,
+    "train_runtime": 8961.4221,
+    "train_samples_per_second": 235.894,
+    "train_steps_per_second": 3.699
+}

logs/events.out.tfevents.1732687817.datavisu2 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fcf2e8c6bf4c5558216d89ad51fd018388fc40a3c27de5a559ec45d35c76e8a2
-size 44274

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d78e0e3d21c1058cf86741492b3a2c5a15d05f99fa19a27103dbd49a075da25
+size 45983

logs/events.out.tfevents.1732696814.datavisu2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3162ba9474c0885fdae82852ed9ddbce5e81310e1ac9741481981e97954f0960
+size 40

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b948f1fde3fc2d17d81e2b2ad872da78478793584196ea425a180bb4d83e5d8
 size 1222870688

 version https://git-lfs.github.com/spec/v1
+oid sha256:3221228a8d421eb77f2d313bbc5460b2bf904a37a4260e2372f65d2ff35418ce
 size 1222870688

test_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 62.0,
+    "eval_explained_variance": 0.6593042016029358,
+    "eval_kl_divergence": 0.11466515809297562,
+    "eval_loss": 0.45506975054740906,
+    "eval_mae": 0.06304711848497391,
+    "eval_rmse": 0.08664286881685257,
+    "eval_runtime": 26.2102,
+    "eval_samples_per_second": 179.244,
+    "eval_steps_per_second": 2.823,
+    "learning_rate": 1.0000000000000002e-07
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 62.0,
+    "learning_rate": 1.0000000000000002e-07,
+    "total_flos": 9.42369297866869e+19,
+    "train_loss": 0.4754439868851833,
+    "train_runtime": 8961.4221,
+    "train_samples_per_second": 235.894,
+    "train_steps_per_second": 3.699
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1047 @@

+{
+  "best_metric": 0.45421910285949707,
+  "best_model_checkpoint": "/home/datawork-iot-nos/Seatizen/models/multilabel/bd_ortho_ign/bd_ortho-DinoVdeau-large-2024_11_27-batch-size64_freeze_probs/checkpoint-11492",
+  "epoch": 62.0,
+  "eval_steps": 500,
+  "global_step": 13702,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_explained_variance": 0.5492395758628845,
+      "eval_kl_divergence": 0.06964559853076935,
+      "eval_loss": 0.46336060762405396,
+      "eval_mae": 0.07600608468055725,
+      "eval_rmse": 0.10175278037786484,
+      "eval_runtime": 26.595,
+      "eval_samples_per_second": 176.65,
+      "eval_steps_per_second": 2.782,
+      "learning_rate": 0.001,
+      "step": 221
+    },
+    {
+      "epoch": 2.0,
+      "eval_explained_variance": 0.6113448739051819,
+      "eval_kl_divergence": 0.0038063330575823784,
+      "eval_loss": 0.45933997631073,
+      "eval_mae": 0.07159148901700974,
+      "eval_rmse": 0.09520163387060165,
+      "eval_runtime": 25.5426,
+      "eval_samples_per_second": 183.928,
+      "eval_steps_per_second": 2.897,
+      "learning_rate": 0.001,
+      "step": 442
+    },
+    {
+      "epoch": 2.262443438914027,
+      "grad_norm": 0.16188210248947144,
+      "learning_rate": 0.001,
+      "loss": 0.5185,
+      "step": 500
+    },
+    {
+      "epoch": 3.0,
+      "eval_explained_variance": 0.6245184540748596,
+      "eval_kl_divergence": 0.05826142057776451,
+      "eval_loss": 0.457367479801178,
+      "eval_mae": 0.0670078918337822,
+      "eval_rmse": 0.0917908325791359,
+      "eval_runtime": 25.6126,
+      "eval_samples_per_second": 183.425,
+      "eval_steps_per_second": 2.889,
+      "learning_rate": 0.001,
+      "step": 663
+    },
+    {
+      "epoch": 4.0,
+      "eval_explained_variance": 0.6129782795906067,
+      "eval_kl_divergence": -0.06495417654514313,
+      "eval_loss": 0.459468811750412,
+      "eval_mae": 0.07134346663951874,
+      "eval_rmse": 0.09552835673093796,
+      "eval_runtime": 25.6003,
+      "eval_samples_per_second": 183.514,
+      "eval_steps_per_second": 2.891,
+      "learning_rate": 0.001,
+      "step": 884
+    },
+    {
+      "epoch": 4.524886877828054,
+      "grad_norm": 0.09988280385732651,
+      "learning_rate": 0.001,
+      "loss": 0.4806,
+      "step": 1000
+    },
+    {
+      "epoch": 5.0,
+      "eval_explained_variance": 0.6206489205360413,
+      "eval_kl_divergence": -0.08347146958112717,
+      "eval_loss": 0.45927393436431885,
+      "eval_mae": 0.07016489654779434,
+      "eval_rmse": 0.0953657403588295,
+      "eval_runtime": 25.74,
+      "eval_samples_per_second": 182.518,
+      "eval_steps_per_second": 2.875,
+      "learning_rate": 0.001,
+      "step": 1105
+    },
+    {
+      "epoch": 6.0,
+      "eval_explained_variance": 0.6041414737701416,
+      "eval_kl_divergence": -0.07046143710613251,
+      "eval_loss": 0.46080395579338074,
+      "eval_mae": 0.07277411222457886,
+      "eval_rmse": 0.09773259609937668,
+      "eval_runtime": 25.4681,
+      "eval_samples_per_second": 184.466,
+      "eval_steps_per_second": 2.906,
+      "learning_rate": 0.001,
+      "step": 1326
+    },
+    {
+      "epoch": 6.787330316742081,
+      "grad_norm": 0.08271574974060059,
+      "learning_rate": 0.001,
+      "loss": 0.4786,
+      "step": 1500
+    },
+    {
+      "epoch": 7.0,
+      "eval_explained_variance": 0.628325879573822,
+      "eval_kl_divergence": -0.004442690871655941,
+      "eval_loss": 0.4581476151943207,
+      "eval_mae": 0.06827609241008759,
+      "eval_rmse": 0.09274852275848389,
+      "eval_runtime": 26.0251,
+      "eval_samples_per_second": 180.518,
+      "eval_steps_per_second": 2.843,
+      "learning_rate": 0.001,
+      "step": 1547
+    },
+    {
+      "epoch": 8.0,
+      "eval_explained_variance": 0.6276748776435852,
+      "eval_kl_divergence": 0.07988782227039337,
+      "eval_loss": 0.4573117196559906,
+      "eval_mae": 0.06800529360771179,
+      "eval_rmse": 0.09162522107362747,
+      "eval_runtime": 25.7197,
+      "eval_samples_per_second": 182.662,
+      "eval_steps_per_second": 2.877,
+      "learning_rate": 0.001,
+      "step": 1768
+    },
+    {
+      "epoch": 9.0,
+      "eval_explained_variance": 0.6196129322052002,
+      "eval_kl_divergence": 0.02327939122915268,
+      "eval_loss": 0.45939013361930847,
+      "eval_mae": 0.07057134807109833,
+      "eval_rmse": 0.09471722692251205,
+      "eval_runtime": 25.8299,
+      "eval_samples_per_second": 181.883,
+      "eval_steps_per_second": 2.865,
+      "learning_rate": 0.001,
+      "step": 1989
+    },
+    {
+      "epoch": 9.049773755656108,
+      "grad_norm": 0.05649600923061371,
+      "learning_rate": 0.001,
+      "loss": 0.4776,
+      "step": 2000
+    },
+    {
+      "epoch": 10.0,
+      "eval_explained_variance": 0.6293186545372009,
+      "eval_kl_divergence": 0.0885055735707283,
+      "eval_loss": 0.45772281289100647,
+      "eval_mae": 0.06745484471321106,
+      "eval_rmse": 0.09179002046585083,
+      "eval_runtime": 25.5273,
+      "eval_samples_per_second": 184.039,
+      "eval_steps_per_second": 2.899,
+      "learning_rate": 0.001,
+      "step": 2210
+    },
+    {
+      "epoch": 11.0,
+      "eval_explained_variance": 0.6422439813613892,
+      "eval_kl_divergence": 0.1296330839395523,
+      "eval_loss": 0.45641985535621643,
+      "eval_mae": 0.06617596000432968,
+      "eval_rmse": 0.08975591510534286,
+      "eval_runtime": 25.7282,
+      "eval_samples_per_second": 182.601,
+      "eval_steps_per_second": 2.876,
+      "learning_rate": 0.001,
+      "step": 2431
+    },
+    {
+      "epoch": 11.312217194570136,
+      "grad_norm": 0.04163961857557297,
+      "learning_rate": 0.001,
+      "loss": 0.4772,
+      "step": 2500
+    },
+    {
+      "epoch": 12.0,
+      "eval_explained_variance": 0.6385617256164551,
+      "eval_kl_divergence": -0.006057058461010456,
+      "eval_loss": 0.45718902349472046,
+      "eval_mae": 0.06766870617866516,
+      "eval_rmse": 0.09130751341581345,
+      "eval_runtime": 25.6849,
+      "eval_samples_per_second": 182.909,
+      "eval_steps_per_second": 2.881,
+      "learning_rate": 0.001,
+      "step": 2652
+    },
+    {
+      "epoch": 13.0,
+      "eval_explained_variance": 0.6186209321022034,
+      "eval_kl_divergence": -0.20600058138370514,
+      "eval_loss": 0.4622880220413208,
+      "eval_mae": 0.07468675822019577,
+      "eval_rmse": 0.10024455189704895,
+      "eval_runtime": 25.9645,
+      "eval_samples_per_second": 180.939,
+      "eval_steps_per_second": 2.85,
+      "learning_rate": 0.001,
+      "step": 2873
+    },
+    {
+      "epoch": 13.574660633484163,
+      "grad_norm": 0.0532899908721447,
+      "learning_rate": 0.001,
+      "loss": 0.4769,
+      "step": 3000
+    },
+    {
+      "epoch": 14.0,
+      "eval_explained_variance": 0.6346250176429749,
+      "eval_kl_divergence": -0.0371401272714138,
+      "eval_loss": 0.45775285363197327,
+      "eval_mae": 0.06778896600008011,
+      "eval_rmse": 0.092497818171978,
+      "eval_runtime": 25.7017,
+      "eval_samples_per_second": 182.79,
+      "eval_steps_per_second": 2.879,
+      "learning_rate": 0.001,
+      "step": 3094
+    },
+    {
+      "epoch": 15.0,
+      "eval_explained_variance": 0.6340083479881287,
+      "eval_kl_divergence": 0.04575105383992195,
+      "eval_loss": 0.4575214684009552,
+      "eval_mae": 0.0666513592004776,
+      "eval_rmse": 0.0916559174656868,
+      "eval_runtime": 26.025,
+      "eval_samples_per_second": 180.519,
+      "eval_steps_per_second": 2.843,
+      "learning_rate": 0.001,
+      "step": 3315
+    },
+    {
+      "epoch": 15.83710407239819,
+      "grad_norm": 0.0473792664706707,
+      "learning_rate": 0.001,
+      "loss": 0.4766,
+      "step": 3500
+    },
+    {
+      "epoch": 16.0,
+      "eval_explained_variance": 0.6277230381965637,
+      "eval_kl_divergence": 0.01510859839618206,
+      "eval_loss": 0.4578736424446106,
+      "eval_mae": 0.06800080835819244,
+      "eval_rmse": 0.09264300018548965,
+      "eval_runtime": 25.6671,
+      "eval_samples_per_second": 183.036,
+      "eval_steps_per_second": 2.883,
+      "learning_rate": 0.001,
+      "step": 3536
+    },
+    {
+      "epoch": 17.0,
+      "eval_explained_variance": 0.6246375441551208,
+      "eval_kl_divergence": -0.06794208288192749,
+      "eval_loss": 0.4592094421386719,
+      "eval_mae": 0.07020581513643265,
+      "eval_rmse": 0.09485668689012527,
+      "eval_runtime": 25.9387,
+      "eval_samples_per_second": 181.119,
+      "eval_steps_per_second": 2.853,
+      "learning_rate": 0.001,
+      "step": 3757
+    },
+    {
+      "epoch": 18.0,
+      "eval_explained_variance": 0.6493042707443237,
+      "eval_kl_divergence": 0.04208216443657875,
+      "eval_loss": 0.45573291182518005,
+      "eval_mae": 0.06506813317537308,
+      "eval_rmse": 0.08873652666807175,
+      "eval_runtime": 25.6229,
+      "eval_samples_per_second": 183.352,
+      "eval_steps_per_second": 2.888,
+      "learning_rate": 0.0001,
+      "step": 3978
+    },
+    {
+      "epoch": 18.099547511312217,
+      "grad_norm": 0.048517756164073944,
+      "learning_rate": 0.0001,
+      "loss": 0.4758,
+      "step": 4000
+    },
+    {
+      "epoch": 19.0,
+      "eval_explained_variance": 0.6507542729377747,
+      "eval_kl_divergence": 0.04677804559469223,
+      "eval_loss": 0.4555513262748718,
+      "eval_mae": 0.06473750621080399,
+      "eval_rmse": 0.08847790211439133,
+      "eval_runtime": 25.7638,
+      "eval_samples_per_second": 182.349,
+      "eval_steps_per_second": 2.872,
+      "learning_rate": 0.0001,
+      "step": 4199
+    },
+    {
+      "epoch": 20.0,
+      "eval_explained_variance": 0.6518434882164001,
+      "eval_kl_divergence": 0.0404924675822258,
+      "eval_loss": 0.45553284883499146,
+      "eval_mae": 0.06476090103387833,
+      "eval_rmse": 0.08838176727294922,
+      "eval_runtime": 25.6331,
+      "eval_samples_per_second": 183.279,
+      "eval_steps_per_second": 2.887,
+      "learning_rate": 0.0001,
+      "step": 4420
+    },
+    {
+      "epoch": 20.361990950226243,
+      "grad_norm": 0.04679996892809868,
+      "learning_rate": 0.0001,
+      "loss": 0.4741,
+      "step": 4500
+    },
+    {
+      "epoch": 21.0,
+      "eval_explained_variance": 0.6532743573188782,
+      "eval_kl_divergence": 0.047539714723825455,
+      "eval_loss": 0.4555487334728241,
+      "eval_mae": 0.06497333198785782,
+      "eval_rmse": 0.08836204558610916,
+      "eval_runtime": 25.803,
+      "eval_samples_per_second": 182.072,
+      "eval_steps_per_second": 2.868,
+      "learning_rate": 0.0001,
+      "step": 4641
+    },
+    {
+      "epoch": 22.0,
+      "eval_explained_variance": 0.6534684300422668,
+      "eval_kl_divergence": 0.0570099912583828,
+      "eval_loss": 0.45551028847694397,
+      "eval_mae": 0.06458985060453415,
+      "eval_rmse": 0.08831282705068588,
+      "eval_runtime": 25.9625,
+      "eval_samples_per_second": 180.953,
+      "eval_steps_per_second": 2.85,
+      "learning_rate": 0.0001,
+      "step": 4862
+    },
+    {
+      "epoch": 22.624434389140273,
+      "grad_norm": 0.05471302196383476,
+      "learning_rate": 0.0001,
+      "loss": 0.4738,
+      "step": 5000
+    },
+    {
+      "epoch": 23.0,
+      "eval_explained_variance": 0.6569964289665222,
+      "eval_kl_divergence": 0.08867427706718445,
+      "eval_loss": 0.45505577325820923,
+      "eval_mae": 0.0640987753868103,
+      "eval_rmse": 0.08740502595901489,
+      "eval_runtime": 25.8915,
+      "eval_samples_per_second": 181.45,
+      "eval_steps_per_second": 2.858,
+      "learning_rate": 0.0001,
+      "step": 5083
+    },
+    {
+      "epoch": 24.0,
+      "eval_explained_variance": 0.6552526354789734,
+      "eval_kl_divergence": 0.055539198219776154,
+      "eval_loss": 0.4552234709262848,
+      "eval_mae": 0.06417837738990784,
+      "eval_rmse": 0.08780523389577866,
+      "eval_runtime": 27.2231,
+      "eval_samples_per_second": 172.574,
+      "eval_steps_per_second": 2.718,
+      "learning_rate": 0.0001,
+      "step": 5304
+    },
+    {
+      "epoch": 24.8868778280543,
+      "grad_norm": 0.0545237734913826,
+      "learning_rate": 0.0001,
+      "loss": 0.4736,
+      "step": 5500
+    },
+    {
+      "epoch": 25.0,
+      "eval_explained_variance": 0.6582456231117249,
+      "eval_kl_divergence": 0.023763582110404968,
+      "eval_loss": 0.45521080493927,
+      "eval_mae": 0.06447087973356247,
+      "eval_rmse": 0.08778873831033707,
+      "eval_runtime": 25.7982,
+      "eval_samples_per_second": 182.106,
+      "eval_steps_per_second": 2.868,
+      "learning_rate": 0.0001,
+      "step": 5525
+    },
+    {
+      "epoch": 26.0,
+      "eval_explained_variance": 0.6571853756904602,
+      "eval_kl_divergence": 0.040941931307315826,
+      "eval_loss": 0.4557025730609894,
+      "eval_mae": 0.06462270766496658,
+      "eval_rmse": 0.08846313506364822,
+      "eval_runtime": 25.5822,
+      "eval_samples_per_second": 183.643,
+      "eval_steps_per_second": 2.893,
+      "learning_rate": 0.0001,
+      "step": 5746
+    },
+    {
+      "epoch": 27.0,
+      "eval_explained_variance": 0.6576172709465027,
+      "eval_kl_divergence": 0.05476689711213112,
+      "eval_loss": 0.4550967216491699,
+      "eval_mae": 0.06391049176454544,
+      "eval_rmse": 0.08758416771888733,
+      "eval_runtime": 26.0908,
+      "eval_samples_per_second": 180.064,
+      "eval_steps_per_second": 2.836,
+      "learning_rate": 0.0001,
+      "step": 5967
+    },
+    {
+      "epoch": 27.149321266968325,
+      "grad_norm": 0.05160004645586014,
+      "learning_rate": 0.0001,
+      "loss": 0.4731,
+      "step": 6000
+    },
+    {
+      "epoch": 28.0,
+      "eval_explained_variance": 0.658767580986023,
+      "eval_kl_divergence": 0.027325255796313286,
+      "eval_loss": 0.45512688159942627,
+      "eval_mae": 0.0641704872250557,
+      "eval_rmse": 0.08764084428548813,
+      "eval_runtime": 25.6818,
+      "eval_samples_per_second": 182.931,
+      "eval_steps_per_second": 2.881,
+      "learning_rate": 0.0001,
+      "step": 6188
+    },
+    {
+      "epoch": 29.0,
+      "eval_explained_variance": 0.6617770195007324,
+      "eval_kl_divergence": 0.0744185745716095,
+      "eval_loss": 0.45477041602134705,
+      "eval_mae": 0.0634256973862648,
+      "eval_rmse": 0.08693012595176697,
+      "eval_runtime": 25.726,
+      "eval_samples_per_second": 182.617,
+      "eval_steps_per_second": 2.876,
+      "learning_rate": 0.0001,
+      "step": 6409
+    },
+    {
+      "epoch": 29.41176470588235,
+      "grad_norm": 0.07741276919841766,
+      "learning_rate": 0.0001,
+      "loss": 0.4727,
+      "step": 6500
+    },
+    {
+      "epoch": 30.0,
+      "eval_explained_variance": 0.6594749093055725,
+      "eval_kl_divergence": 0.049223385751247406,
+      "eval_loss": 0.4549327790737152,
+      "eval_mae": 0.06360659003257751,
+      "eval_rmse": 0.0873405933380127,
+      "eval_runtime": 25.4772,
+      "eval_samples_per_second": 184.4,
+      "eval_steps_per_second": 2.905,
+      "learning_rate": 0.0001,
+      "step": 6630
+    },
+    {
+      "epoch": 31.0,
+      "eval_explained_variance": 0.6613443493843079,
+      "eval_kl_divergence": 0.06878047436475754,
+      "eval_loss": 0.4547973871231079,
+      "eval_mae": 0.06322694569826126,
+      "eval_rmse": 0.08694975823163986,
+      "eval_runtime": 25.8257,
+      "eval_samples_per_second": 181.912,
+      "eval_steps_per_second": 2.865,
+      "learning_rate": 0.0001,
+      "step": 6851
+    },
+    {
+      "epoch": 31.67420814479638,
+      "grad_norm": 0.055884115397930145,
+      "learning_rate": 0.0001,
+      "loss": 0.4732,
+      "step": 7000
+    },
+    {
+      "epoch": 32.0,
+      "eval_explained_variance": 0.6602151393890381,
+      "eval_kl_divergence": 0.027085499837994576,
+      "eval_loss": 0.454988956451416,
+      "eval_mae": 0.063857302069664,
+      "eval_rmse": 0.08743549138307571,
+      "eval_runtime": 25.6292,
+      "eval_samples_per_second": 183.307,
+      "eval_steps_per_second": 2.887,
+      "learning_rate": 0.0001,
+      "step": 7072
+    },
+    {
+      "epoch": 33.0,
+      "eval_explained_variance": 0.6580324172973633,
+      "eval_kl_divergence": -0.017361771315336227,
+      "eval_loss": 0.455375999212265,
+      "eval_mae": 0.0646858736872673,
+      "eval_rmse": 0.08816961199045181,
+      "eval_runtime": 25.8246,
+      "eval_samples_per_second": 181.919,
+      "eval_steps_per_second": 2.865,
+      "learning_rate": 0.0001,
+      "step": 7293
+    },
+    {
+      "epoch": 33.93665158371041,
+      "grad_norm": 0.08047891408205032,
+      "learning_rate": 0.0001,
+      "loss": 0.4725,
+      "step": 7500
+    },
+    {
+      "epoch": 34.0,
+      "eval_explained_variance": 0.6616186499595642,
+      "eval_kl_divergence": 0.10939505696296692,
+      "eval_loss": 0.45461305975914,
+      "eval_mae": 0.0628495141863823,
+      "eval_rmse": 0.08664888888597488,
+      "eval_runtime": 25.7346,
+      "eval_samples_per_second": 182.556,
+      "eval_steps_per_second": 2.876,
+      "learning_rate": 0.0001,
+      "step": 7514
+    },
+    {
+      "epoch": 35.0,
+      "eval_explained_variance": 0.6582692265510559,
+      "eval_kl_divergence": 0.05707371234893799,
+      "eval_loss": 0.45498156547546387,
+      "eval_mae": 0.06386271119117737,
+      "eval_rmse": 0.08741921186447144,
+      "eval_runtime": 25.7857,
+      "eval_samples_per_second": 182.194,
+      "eval_steps_per_second": 2.87,
+      "learning_rate": 0.0001,
+      "step": 7735
+    },
+    {
+      "epoch": 36.0,
+      "eval_explained_variance": 0.6615896224975586,
+      "eval_kl_divergence": 0.14533284306526184,
+      "eval_loss": 0.4548388123512268,
+      "eval_mae": 0.0629100501537323,
+      "eval_rmse": 0.08686337620019913,
+      "eval_runtime": 29.7733,
+      "eval_samples_per_second": 157.793,
+      "eval_steps_per_second": 2.485,
+      "learning_rate": 0.0001,
+      "step": 7956
+    },
+    {
+      "epoch": 36.199095022624434,
+      "grad_norm": 0.07811417430639267,
+      "learning_rate": 0.0001,
+      "loss": 0.4727,
+      "step": 8000
+    },
+    {
+      "epoch": 37.0,
+      "eval_explained_variance": 0.6586756110191345,
+      "eval_kl_divergence": -0.015241213142871857,
+      "eval_loss": 0.45526784658432007,
+      "eval_mae": 0.06451455503702164,
+      "eval_rmse": 0.08806425333023071,
+      "eval_runtime": 25.6924,
+      "eval_samples_per_second": 182.855,
+      "eval_steps_per_second": 2.88,
+      "learning_rate": 0.0001,
+      "step": 8177
+    },
+    {
+      "epoch": 38.0,
+      "eval_explained_variance": 0.6612560153007507,
+      "eval_kl_divergence": 0.049000147730112076,
+      "eval_loss": 0.45479556918144226,
+      "eval_mae": 0.06361590325832367,
+      "eval_rmse": 0.08704841136932373,
+      "eval_runtime": 26.1103,
+      "eval_samples_per_second": 179.929,
+      "eval_steps_per_second": 2.834,
+      "learning_rate": 0.0001,
+      "step": 8398
+    },
+    {
+      "epoch": 38.46153846153846,
+      "grad_norm": 0.062047556042671204,
+      "learning_rate": 0.0001,
+      "loss": 0.4727,
+      "step": 8500
+    },
+    {
+      "epoch": 39.0,
+      "eval_explained_variance": 0.6610231995582581,
+      "eval_kl_divergence": 0.07255241274833679,
+      "eval_loss": 0.454780250787735,
+      "eval_mae": 0.06311424821615219,
+      "eval_rmse": 0.08698847889900208,
+      "eval_runtime": 25.6403,
+      "eval_samples_per_second": 183.227,
+      "eval_steps_per_second": 2.886,
+      "learning_rate": 0.0001,
+      "step": 8619
+    },
+    {
+      "epoch": 40.0,
+      "eval_explained_variance": 0.6605435013771057,
+      "eval_kl_divergence": 0.06372024863958359,
+      "eval_loss": 0.45476558804512024,
+      "eval_mae": 0.06323693692684174,
+      "eval_rmse": 0.08702895045280457,
+      "eval_runtime": 26.038,
+      "eval_samples_per_second": 180.429,
+      "eval_steps_per_second": 2.842,
+      "learning_rate": 0.0001,
+      "step": 8840
+    },
+    {
+      "epoch": 40.723981900452486,
+      "grad_norm": 0.08612842857837677,
+      "learning_rate": 1e-05,
+      "loss": 0.4721,
+      "step": 9000
+    },
+    {
+      "epoch": 41.0,
+      "eval_explained_variance": 0.6628013253211975,
+      "eval_kl_divergence": 0.039023660123348236,
+      "eval_loss": 0.45470812916755676,
+      "eval_mae": 0.0634213536977768,
+      "eval_rmse": 0.08692529052495956,
+      "eval_runtime": 25.9883,
+      "eval_samples_per_second": 180.774,
+      "eval_steps_per_second": 2.847,
+      "learning_rate": 1e-05,
+      "step": 9061
+    },
+    {
+      "epoch": 42.0,
+      "eval_explained_variance": 0.6656690239906311,
+      "eval_kl_divergence": 0.11149828135967255,
+      "eval_loss": 0.4543863534927368,
+      "eval_mae": 0.06281669437885284,
+      "eval_rmse": 0.08619723469018936,
+      "eval_runtime": 26.3115,
+      "eval_samples_per_second": 178.553,
+      "eval_steps_per_second": 2.812,
+      "learning_rate": 1e-05,
+      "step": 9282
+    },
+    {
+      "epoch": 42.98642533936652,
+      "grad_norm": 0.06828662008047104,
+      "learning_rate": 1e-05,
+      "loss": 0.4721,
+      "step": 9500
+    },
+    {
+      "epoch": 43.0,
+      "eval_explained_variance": 0.6645870804786682,
+      "eval_kl_divergence": 0.05330301821231842,
+      "eval_loss": 0.4545557498931885,
+      "eval_mae": 0.06320130825042725,
+      "eval_rmse": 0.0865868553519249,
+      "eval_runtime": 25.8985,
+      "eval_samples_per_second": 181.4,
+      "eval_steps_per_second": 2.857,
+      "learning_rate": 1e-05,
+      "step": 9503
+    },
+    {
+      "epoch": 44.0,
+      "eval_explained_variance": 0.6648023128509521,
+      "eval_kl_divergence": 0.13496889173984528,
+      "eval_loss": 0.45448434352874756,
+      "eval_mae": 0.06253467500209808,
+      "eval_rmse": 0.08635282516479492,
+      "eval_runtime": 26.0508,
+      "eval_samples_per_second": 180.34,
+      "eval_steps_per_second": 2.841,
+      "learning_rate": 1e-05,
+      "step": 9724
+    },
+    {
+      "epoch": 45.0,
+      "eval_explained_variance": 0.6624875068664551,
+      "eval_kl_divergence": 0.004431928042322397,
+      "eval_loss": 0.4550137519836426,
+      "eval_mae": 0.06418145447969437,
+      "eval_rmse": 0.0874209776520729,
+      "eval_runtime": 25.8495,
+      "eval_samples_per_second": 181.744,
+      "eval_steps_per_second": 2.863,
+      "learning_rate": 1e-05,
+      "step": 9945
+    },
+    {
+      "epoch": 45.248868778280546,
+      "grad_norm": 0.07514863461256027,
+      "learning_rate": 1e-05,
+      "loss": 0.4716,
+      "step": 10000
+    },
+    {
+      "epoch": 46.0,
+      "eval_explained_variance": 0.6642169952392578,
+      "eval_kl_divergence": 0.03887256979942322,
+      "eval_loss": 0.4545902609825134,
+      "eval_mae": 0.06316760927438736,
+      "eval_rmse": 0.08669499307870865,
+      "eval_runtime": 25.9222,
+      "eval_samples_per_second": 181.235,
+      "eval_steps_per_second": 2.855,
+      "learning_rate": 1e-05,
+      "step": 10166
+    },
+    {
+      "epoch": 47.0,
+      "eval_explained_variance": 0.6651113629341125,
+      "eval_kl_divergence": 0.037030890583992004,
+      "eval_loss": 0.4544997215270996,
+      "eval_mae": 0.06298934668302536,
+      "eval_rmse": 0.0865601971745491,
+      "eval_runtime": 25.9565,
+      "eval_samples_per_second": 180.995,
+      "eval_steps_per_second": 2.851,
+      "learning_rate": 1e-05,
+      "step": 10387
+    },
+    {
+      "epoch": 47.51131221719457,
+      "grad_norm": 0.057216282933950424,
+      "learning_rate": 1e-05,
+      "loss": 0.4722,
+      "step": 10500
+    },
+    {
+      "epoch": 48.0,
+      "eval_explained_variance": 0.6645199060440063,
+      "eval_kl_divergence": 0.019425788894295692,
+      "eval_loss": 0.4546374976634979,
+      "eval_mae": 0.06339576095342636,
+      "eval_rmse": 0.08680880069732666,
+      "eval_runtime": 25.7117,
+      "eval_samples_per_second": 182.718,
+      "eval_steps_per_second": 2.878,
+      "learning_rate": 1e-05,
+      "step": 10608
+    },
+    {
+      "epoch": 49.0,
+      "eval_explained_variance": 0.6666774153709412,
+      "eval_kl_divergence": 0.0667150691151619,
+      "eval_loss": 0.45436596870422363,
+      "eval_mae": 0.06269881874322891,
+      "eval_rmse": 0.08620164543390274,
+      "eval_runtime": 27.6905,
+      "eval_samples_per_second": 169.661,
+      "eval_steps_per_second": 2.672,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 10829
+    },
+    {
+      "epoch": 49.7737556561086,
+      "grad_norm": 0.07466714084148407,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.4717,
+      "step": 11000
+    },
+    {
+      "epoch": 50.0,
+      "eval_explained_variance": 0.6650940179824829,
+      "eval_kl_divergence": 0.05483337119221687,
+      "eval_loss": 0.45450592041015625,
+      "eval_mae": 0.06310971826314926,
+      "eval_rmse": 0.08650273084640503,
+      "eval_runtime": 27.7128,
+      "eval_samples_per_second": 169.524,
+      "eval_steps_per_second": 2.67,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 11050
+    },
+    {
+      "epoch": 51.0,
+      "eval_explained_variance": 0.6651105284690857,
+      "eval_kl_divergence": 0.04277108237147331,
+      "eval_loss": 0.4544804096221924,
+      "eval_mae": 0.06292647123336792,
+      "eval_rmse": 0.08647629618644714,
+      "eval_runtime": 26.6553,
+      "eval_samples_per_second": 176.25,
+      "eval_steps_per_second": 2.776,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 11271
+    },
+    {
+      "epoch": 52.0,
+      "eval_explained_variance": 0.667234480381012,
+      "eval_kl_divergence": 0.12364839017391205,
+      "eval_loss": 0.45421910285949707,
+      "eval_mae": 0.06233237311244011,
+      "eval_rmse": 0.08589440584182739,
+      "eval_runtime": 25.8544,
+      "eval_samples_per_second": 181.71,
+      "eval_steps_per_second": 2.862,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 11492
+    },
+    {
+      "epoch": 52.036199095022624,
+      "grad_norm": 0.08442794531583786,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.4718,
+      "step": 11500
+    },
+    {
+      "epoch": 53.0,
+      "eval_explained_variance": 0.6671742796897888,
+      "eval_kl_divergence": 0.08869530260562897,
+      "eval_loss": 0.4542272686958313,
+      "eval_mae": 0.06253313273191452,
+      "eval_rmse": 0.08594661206007004,
+      "eval_runtime": 25.9744,
+      "eval_samples_per_second": 180.871,
+      "eval_steps_per_second": 2.849,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 11713
+    },
+    {
+      "epoch": 54.0,
+      "eval_explained_variance": 0.6653165221214294,
+      "eval_kl_divergence": 0.09171402454376221,
+      "eval_loss": 0.4543103575706482,
+      "eval_mae": 0.0623968206346035,
+      "eval_rmse": 0.08615261316299438,
+      "eval_runtime": 26.0699,
+      "eval_samples_per_second": 180.208,
+      "eval_steps_per_second": 2.839,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 11934
+    },
+    {
+      "epoch": 54.29864253393665,
+      "grad_norm": 0.08775485306978226,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.4716,
+      "step": 12000
+    },
+    {
+      "epoch": 55.0,
+      "eval_explained_variance": 0.6649713516235352,
+      "eval_kl_divergence": 0.07737051695585251,
+      "eval_loss": 0.45456644892692566,
+      "eval_mae": 0.06305743753910065,
+      "eval_rmse": 0.0865490511059761,
+      "eval_runtime": 26.0104,
+      "eval_samples_per_second": 180.62,
+      "eval_steps_per_second": 2.845,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 12155
+    },
+    {
+      "epoch": 56.0,
+      "eval_explained_variance": 0.6649186611175537,
+      "eval_kl_divergence": 0.04731013998389244,
+      "eval_loss": 0.45458319783210754,
+      "eval_mae": 0.06328658014535904,
+      "eval_rmse": 0.08663744479417801,
+      "eval_runtime": 25.8104,
+      "eval_samples_per_second": 182.019,
+      "eval_steps_per_second": 2.867,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 12376
+    },
+    {
+      "epoch": 56.56108597285068,
+      "grad_norm": 0.0692247599363327,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.4717,
+      "step": 12500
+    },
+    {
+      "epoch": 57.0,
+      "eval_explained_variance": 0.6657507419586182,
+      "eval_kl_divergence": -0.004581684246659279,
+      "eval_loss": 0.4548773169517517,
+      "eval_mae": 0.0639243796467781,
+      "eval_rmse": 0.0871059000492096,
+      "eval_runtime": 25.4962,
+      "eval_samples_per_second": 184.262,
+      "eval_steps_per_second": 2.902,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 12597
+    },
+    {
+      "epoch": 58.0,
+      "eval_explained_variance": 0.6655800342559814,
+      "eval_kl_divergence": 0.0553017221391201,
+      "eval_loss": 0.45440155267715454,
+      "eval_mae": 0.06271661818027496,
+      "eval_rmse": 0.08635643124580383,
+      "eval_runtime": 26.1057,
+      "eval_samples_per_second": 179.961,
+      "eval_steps_per_second": 2.835,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 12818
+    },
+    {
+      "epoch": 58.8235294117647,
+      "grad_norm": 0.07922232896089554,
+      "learning_rate": 1.0000000000000002e-07,
+      "loss": 0.4716,
+      "step": 13000
+    },
+    {
+      "epoch": 59.0,
+      "eval_explained_variance": 0.6654148101806641,
+      "eval_kl_divergence": 0.03675610199570656,
+      "eval_loss": 0.45448538661003113,
+      "eval_mae": 0.06308572739362717,
+      "eval_rmse": 0.08650225400924683,
+      "eval_runtime": 25.8122,
+      "eval_samples_per_second": 182.007,
+      "eval_steps_per_second": 2.867,
+      "learning_rate": 1.0000000000000002e-07,
+      "step": 13039
+    },
+    {
+      "epoch": 60.0,
+      "eval_explained_variance": 0.6660366058349609,
+      "eval_kl_divergence": 0.047148581594228745,
+      "eval_loss": 0.4544091522693634,
+      "eval_mae": 0.06294982880353928,
+      "eval_rmse": 0.08633282780647278,
+      "eval_runtime": 26.4937,
+      "eval_samples_per_second": 177.325,
+      "eval_steps_per_second": 2.793,
+      "learning_rate": 1.0000000000000002e-07,
+      "step": 13260
+    },
+    {
+      "epoch": 61.0,
+      "eval_explained_variance": 0.6669723987579346,
+      "eval_kl_divergence": 0.09280110895633698,
+      "eval_loss": 0.4542348086833954,
+      "eval_mae": 0.062441930174827576,
+      "eval_rmse": 0.08595842123031616,
+      "eval_runtime": 26.0483,
+      "eval_samples_per_second": 180.357,
+      "eval_steps_per_second": 2.841,
+      "learning_rate": 1.0000000000000002e-07,
+      "step": 13481
+    },
+    {
+      "epoch": 61.085972850678736,
+      "grad_norm": 0.07845129072666168,
+      "learning_rate": 1.0000000000000002e-07,
+      "loss": 0.4718,
+      "step": 13500
+    },
+    {
+      "epoch": 62.0,
+      "eval_explained_variance": 0.6661055088043213,
+      "eval_kl_divergence": 0.028626998886466026,
+      "eval_loss": 0.4545469284057617,
+      "eval_mae": 0.06315190345048904,
+      "eval_rmse": 0.0865735188126564,
+      "eval_runtime": 25.8503,
+      "eval_samples_per_second": 181.739,
+      "eval_steps_per_second": 2.863,
+      "learning_rate": 1.0000000000000002e-07,
+      "step": 13702
+    },
+    {
+      "epoch": 62.0,
+      "learning_rate": 1.0000000000000002e-07,
+      "step": 13702,
+      "total_flos": 9.42369297866869e+19,
+      "train_loss": 0.4754439868851833,
+      "train_runtime": 8961.4221,
+      "train_samples_per_second": 235.894,
+      "train_steps_per_second": 3.699
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 33150,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 150,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 10,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 9.42369297866869e+19,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}