{
  "best_metric": 0.45421910285949707,
  "best_model_checkpoint": "/home/datawork-iot-nos/Seatizen/models/multilabel/bd_ortho_ign/bd_ortho-DinoVdeau-large-2024_11_27-batch-size64_freeze_probs/checkpoint-11492",
  "epoch": 62.0,
  "eval_steps": 500,
  "global_step": 13702,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.0,
      "eval_explained_variance": 0.5492395758628845,
      "eval_kl_divergence": 0.06964559853076935,
      "eval_loss": 0.46336060762405396,
      "eval_mae": 0.07600608468055725,
      "eval_rmse": 0.10175278037786484,
      "eval_runtime": 26.595,
      "eval_samples_per_second": 176.65,
      "eval_steps_per_second": 2.782,
      "learning_rate": 0.001,
      "step": 221
    },
    {
      "epoch": 2.0,
      "eval_explained_variance": 0.6113448739051819,
      "eval_kl_divergence": 0.0038063330575823784,
      "eval_loss": 0.45933997631073,
      "eval_mae": 0.07159148901700974,
      "eval_rmse": 0.09520163387060165,
      "eval_runtime": 25.5426,
      "eval_samples_per_second": 183.928,
      "eval_steps_per_second": 2.897,
      "learning_rate": 0.001,
      "step": 442
    },
    {
      "epoch": 2.262443438914027,
      "grad_norm": 0.16188210248947144,
      "learning_rate": 0.001,
      "loss": 0.5185,
      "step": 500
    },
    {
      "epoch": 3.0,
      "eval_explained_variance": 0.6245184540748596,
      "eval_kl_divergence": 0.05826142057776451,
      "eval_loss": 0.457367479801178,
      "eval_mae": 0.0670078918337822,
      "eval_rmse": 0.0917908325791359,
      "eval_runtime": 25.6126,
      "eval_samples_per_second": 183.425,
      "eval_steps_per_second": 2.889,
      "learning_rate": 0.001,
      "step": 663
    },
    {
      "epoch": 4.0,
      "eval_explained_variance": 0.6129782795906067,
      "eval_kl_divergence": -0.06495417654514313,
      "eval_loss": 0.459468811750412,
      "eval_mae": 0.07134346663951874,
      "eval_rmse": 0.09552835673093796,
      "eval_runtime": 25.6003,
      "eval_samples_per_second": 183.514,
      "eval_steps_per_second": 2.891,
      "learning_rate": 0.001,
      "step": 884
    },
    {
      "epoch": 4.524886877828054,
      "grad_norm": 0.09988280385732651,
      "learning_rate": 0.001,
      "loss": 0.4806,
      "step": 1000
    },
    {
      "epoch": 5.0,
      "eval_explained_variance": 0.6206489205360413,
      "eval_kl_divergence": -0.08347146958112717,
      "eval_loss": 0.45927393436431885,
      "eval_mae": 0.07016489654779434,
      "eval_rmse": 0.0953657403588295,
      "eval_runtime": 25.74,
      "eval_samples_per_second": 182.518,
      "eval_steps_per_second": 2.875,
      "learning_rate": 0.001,
      "step": 1105
    },
    {
      "epoch": 6.0,
      "eval_explained_variance": 0.6041414737701416,
      "eval_kl_divergence": -0.07046143710613251,
      "eval_loss": 0.46080395579338074,
      "eval_mae": 0.07277411222457886,
      "eval_rmse": 0.09773259609937668,
      "eval_runtime": 25.4681,
      "eval_samples_per_second": 184.466,
      "eval_steps_per_second": 2.906,
      "learning_rate": 0.001,
      "step": 1326
    },
    {
      "epoch": 6.787330316742081,
      "grad_norm": 0.08271574974060059,
      "learning_rate": 0.001,
      "loss": 0.4786,
      "step": 1500
    },
    {
      "epoch": 7.0,
      "eval_explained_variance": 0.628325879573822,
      "eval_kl_divergence": -0.004442690871655941,
      "eval_loss": 0.4581476151943207,
      "eval_mae": 0.06827609241008759,
      "eval_rmse": 0.09274852275848389,
      "eval_runtime": 26.0251,
      "eval_samples_per_second": 180.518,
      "eval_steps_per_second": 2.843,
      "learning_rate": 0.001,
      "step": 1547
    },
    {
      "epoch": 8.0,
      "eval_explained_variance": 0.6276748776435852,
      "eval_kl_divergence": 0.07988782227039337,
      "eval_loss": 0.4573117196559906,
      "eval_mae": 0.06800529360771179,
      "eval_rmse": 0.09162522107362747,
      "eval_runtime": 25.7197,
      "eval_samples_per_second": 182.662,
      "eval_steps_per_second": 2.877,
      "learning_rate": 0.001,
      "step": 1768
    },
    {
      "epoch": 9.0,
      "eval_explained_variance": 0.6196129322052002,
      "eval_kl_divergence": 0.02327939122915268,
      "eval_loss": 0.45939013361930847,
      "eval_mae": 0.07057134807109833,
      "eval_rmse": 0.09471722692251205,
      "eval_runtime": 25.8299,
      "eval_samples_per_second": 181.883,
      "eval_steps_per_second": 2.865,
      "learning_rate": 0.001,
      "step": 1989
    },
    {
      "epoch": 9.049773755656108,
      "grad_norm": 0.05649600923061371,
      "learning_rate": 0.001,
      "loss": 0.4776,
      "step": 2000
    },
    {
      "epoch": 10.0,
      "eval_explained_variance": 0.6293186545372009,
      "eval_kl_divergence": 0.0885055735707283,
      "eval_loss": 0.45772281289100647,
      "eval_mae": 0.06745484471321106,
      "eval_rmse": 0.09179002046585083,
      "eval_runtime": 25.5273,
      "eval_samples_per_second": 184.039,
      "eval_steps_per_second": 2.899,
      "learning_rate": 0.001,
      "step": 2210
    },
    {
      "epoch": 11.0,
      "eval_explained_variance": 0.6422439813613892,
      "eval_kl_divergence": 0.1296330839395523,
      "eval_loss": 0.45641985535621643,
      "eval_mae": 0.06617596000432968,
      "eval_rmse": 0.08975591510534286,
      "eval_runtime": 25.7282,
      "eval_samples_per_second": 182.601,
      "eval_steps_per_second": 2.876,
      "learning_rate": 0.001,
      "step": 2431
    },
    {
      "epoch": 11.312217194570136,
      "grad_norm": 0.04163961857557297,
      "learning_rate": 0.001,
      "loss": 0.4772,
      "step": 2500
    },
    {
      "epoch": 12.0,
      "eval_explained_variance": 0.6385617256164551,
      "eval_kl_divergence": -0.006057058461010456,
      "eval_loss": 0.45718902349472046,
      "eval_mae": 0.06766870617866516,
      "eval_rmse": 0.09130751341581345,
      "eval_runtime": 25.6849,
      "eval_samples_per_second": 182.909,
      "eval_steps_per_second": 2.881,
      "learning_rate": 0.001,
      "step": 2652
    },
    {
      "epoch": 13.0,
      "eval_explained_variance": 0.6186209321022034,
      "eval_kl_divergence": -0.20600058138370514,
      "eval_loss": 0.4622880220413208,
      "eval_mae": 0.07468675822019577,
      "eval_rmse": 0.10024455189704895,
      "eval_runtime": 25.9645,
      "eval_samples_per_second": 180.939,
      "eval_steps_per_second": 2.85,
      "learning_rate": 0.001,
      "step": 2873
    },
    {
      "epoch": 13.574660633484163,
      "grad_norm": 0.0532899908721447,
      "learning_rate": 0.001,
      "loss": 0.4769,
      "step": 3000
    },
    {
      "epoch": 14.0,
      "eval_explained_variance": 0.6346250176429749,
      "eval_kl_divergence": -0.0371401272714138,
      "eval_loss": 0.45775285363197327,
      "eval_mae": 0.06778896600008011,
      "eval_rmse": 0.092497818171978,
      "eval_runtime": 25.7017,
      "eval_samples_per_second": 182.79,
      "eval_steps_per_second": 2.879,
      "learning_rate": 0.001,
      "step": 3094
    },
    {
      "epoch": 15.0,
      "eval_explained_variance": 0.6340083479881287,
      "eval_kl_divergence": 0.04575105383992195,
      "eval_loss": 0.4575214684009552,
      "eval_mae": 0.0666513592004776,
      "eval_rmse": 0.0916559174656868,
      "eval_runtime": 26.025,
      "eval_samples_per_second": 180.519,
      "eval_steps_per_second": 2.843,
      "learning_rate": 0.001,
      "step": 3315
    },
    {
      "epoch": 15.83710407239819,
      "grad_norm": 0.0473792664706707,
      "learning_rate": 0.001,
      "loss": 0.4766,
      "step": 3500
    },
    {
      "epoch": 16.0,
      "eval_explained_variance": 0.6277230381965637,
      "eval_kl_divergence": 0.01510859839618206,
      "eval_loss": 0.4578736424446106,
      "eval_mae": 0.06800080835819244,
      "eval_rmse": 0.09264300018548965,
      "eval_runtime": 25.6671,
      "eval_samples_per_second": 183.036,
      "eval_steps_per_second": 2.883,
      "learning_rate": 0.001,
      "step": 3536
    },
    {
      "epoch": 17.0,
      "eval_explained_variance": 0.6246375441551208,
      "eval_kl_divergence": -0.06794208288192749,
      "eval_loss": 0.4592094421386719,
      "eval_mae": 0.07020581513643265,
      "eval_rmse": 0.09485668689012527,
      "eval_runtime": 25.9387,
      "eval_samples_per_second": 181.119,
      "eval_steps_per_second": 2.853,
      "learning_rate": 0.001,
      "step": 3757
    },
    {
      "epoch": 18.0,
      "eval_explained_variance": 0.6493042707443237,
      "eval_kl_divergence": 0.04208216443657875,
      "eval_loss": 0.45573291182518005,
      "eval_mae": 0.06506813317537308,
      "eval_rmse": 0.08873652666807175,
      "eval_runtime": 25.6229,
      "eval_samples_per_second": 183.352,
      "eval_steps_per_second": 2.888,
      "learning_rate": 0.0001,
      "step": 3978
    },
    {
      "epoch": 18.099547511312217,
      "grad_norm": 0.048517756164073944,
      "learning_rate": 0.0001,
      "loss": 0.4758,
      "step": 4000
    },
    {
      "epoch": 19.0,
      "eval_explained_variance": 0.6507542729377747,
      "eval_kl_divergence": 0.04677804559469223,
      "eval_loss": 0.4555513262748718,
      "eval_mae": 0.06473750621080399,
      "eval_rmse": 0.08847790211439133,
      "eval_runtime": 25.7638,
      "eval_samples_per_second": 182.349,
      "eval_steps_per_second": 2.872,
      "learning_rate": 0.0001,
      "step": 4199
    },
    {
      "epoch": 20.0,
      "eval_explained_variance": 0.6518434882164001,
      "eval_kl_divergence": 0.0404924675822258,
      "eval_loss": 0.45553284883499146,
      "eval_mae": 0.06476090103387833,
      "eval_rmse": 0.08838176727294922,
      "eval_runtime": 25.6331,
      "eval_samples_per_second": 183.279,
      "eval_steps_per_second": 2.887,
      "learning_rate": 0.0001,
      "step": 4420
    },
    {
      "epoch": 20.361990950226243,
      "grad_norm": 0.04679996892809868,
      "learning_rate": 0.0001,
      "loss": 0.4741,
      "step": 4500
    },
    {
      "epoch": 21.0,
      "eval_explained_variance": 0.6532743573188782,
      "eval_kl_divergence": 0.047539714723825455,
      "eval_loss": 0.4555487334728241,
      "eval_mae": 0.06497333198785782,
      "eval_rmse": 0.08836204558610916,
      "eval_runtime": 25.803,
      "eval_samples_per_second": 182.072,
      "eval_steps_per_second": 2.868,
      "learning_rate": 0.0001,
      "step": 4641
    },
    {
      "epoch": 22.0,
      "eval_explained_variance": 0.6534684300422668,
      "eval_kl_divergence": 0.0570099912583828,
      "eval_loss": 0.45551028847694397,
      "eval_mae": 0.06458985060453415,
      "eval_rmse": 0.08831282705068588,
      "eval_runtime": 25.9625,
      "eval_samples_per_second": 180.953,
      "eval_steps_per_second": 2.85,
      "learning_rate": 0.0001,
      "step": 4862
    },
    {
      "epoch": 22.624434389140273,
      "grad_norm": 0.05471302196383476,
      "learning_rate": 0.0001,
      "loss": 0.4738,
      "step": 5000
    },
    {
      "epoch": 23.0,
      "eval_explained_variance": 0.6569964289665222,
      "eval_kl_divergence": 0.08867427706718445,
      "eval_loss": 0.45505577325820923,
      "eval_mae": 0.0640987753868103,
      "eval_rmse": 0.08740502595901489,
      "eval_runtime": 25.8915,
      "eval_samples_per_second": 181.45,
      "eval_steps_per_second": 2.858,
      "learning_rate": 0.0001,
      "step": 5083
    },
    {
      "epoch": 24.0,
      "eval_explained_variance": 0.6552526354789734,
      "eval_kl_divergence": 0.055539198219776154,
      "eval_loss": 0.4552234709262848,
      "eval_mae": 0.06417837738990784,
      "eval_rmse": 0.08780523389577866,
      "eval_runtime": 27.2231,
      "eval_samples_per_second": 172.574,
      "eval_steps_per_second": 2.718,
      "learning_rate": 0.0001,
      "step": 5304
    },
    {
      "epoch": 24.8868778280543,
      "grad_norm": 0.0545237734913826,
      "learning_rate": 0.0001,
      "loss": 0.4736,
      "step": 5500
    },
    {
      "epoch": 25.0,
      "eval_explained_variance": 0.6582456231117249,
      "eval_kl_divergence": 0.023763582110404968,
      "eval_loss": 0.45521080493927,
      "eval_mae": 0.06447087973356247,
      "eval_rmse": 0.08778873831033707,
      "eval_runtime": 25.7982,
      "eval_samples_per_second": 182.106,
      "eval_steps_per_second": 2.868,
      "learning_rate": 0.0001,
      "step": 5525
    },
    {
      "epoch": 26.0,
      "eval_explained_variance": 0.6571853756904602,
      "eval_kl_divergence": 0.040941931307315826,
      "eval_loss": 0.4557025730609894,
      "eval_mae": 0.06462270766496658,
      "eval_rmse": 0.08846313506364822,
      "eval_runtime": 25.5822,
      "eval_samples_per_second": 183.643,
      "eval_steps_per_second": 2.893,
      "learning_rate": 0.0001,
      "step": 5746
    },
    {
      "epoch": 27.0,
      "eval_explained_variance": 0.6576172709465027,
      "eval_kl_divergence": 0.05476689711213112,
      "eval_loss": 0.4550967216491699,
      "eval_mae": 0.06391049176454544,
      "eval_rmse": 0.08758416771888733,
      "eval_runtime": 26.0908,
      "eval_samples_per_second": 180.064,
      "eval_steps_per_second": 2.836,
      "learning_rate": 0.0001,
      "step": 5967
    },
    {
      "epoch": 27.149321266968325,
      "grad_norm": 0.05160004645586014,
      "learning_rate": 0.0001,
      "loss": 0.4731,
      "step": 6000
    },
    {
      "epoch": 28.0,
      "eval_explained_variance": 0.658767580986023,
      "eval_kl_divergence": 0.027325255796313286,
      "eval_loss": 0.45512688159942627,
      "eval_mae": 0.0641704872250557,
      "eval_rmse": 0.08764084428548813,
      "eval_runtime": 25.6818,
      "eval_samples_per_second": 182.931,
      "eval_steps_per_second": 2.881,
      "learning_rate": 0.0001,
      "step": 6188
    },
    {
      "epoch": 29.0,
      "eval_explained_variance": 0.6617770195007324,
      "eval_kl_divergence": 0.0744185745716095,
      "eval_loss": 0.45477041602134705,
      "eval_mae": 0.0634256973862648,
      "eval_rmse": 0.08693012595176697,
      "eval_runtime": 25.726,
      "eval_samples_per_second": 182.617,
      "eval_steps_per_second": 2.876,
      "learning_rate": 0.0001,
      "step": 6409
    },
    {
      "epoch": 29.41176470588235,
      "grad_norm": 0.07741276919841766,
      "learning_rate": 0.0001,
      "loss": 0.4727,
      "step": 6500
    },
    {
      "epoch": 30.0,
      "eval_explained_variance": 0.6594749093055725,
      "eval_kl_divergence": 0.049223385751247406,
      "eval_loss": 0.4549327790737152,
      "eval_mae": 0.06360659003257751,
      "eval_rmse": 0.0873405933380127,
      "eval_runtime": 25.4772,
      "eval_samples_per_second": 184.4,
      "eval_steps_per_second": 2.905,
      "learning_rate": 0.0001,
      "step": 6630
    },
    {
      "epoch": 31.0,
      "eval_explained_variance": 0.6613443493843079,
      "eval_kl_divergence": 0.06878047436475754,
      "eval_loss": 0.4547973871231079,
      "eval_mae": 0.06322694569826126,
      "eval_rmse": 0.08694975823163986,
      "eval_runtime": 25.8257,
      "eval_samples_per_second": 181.912,
      "eval_steps_per_second": 2.865,
      "learning_rate": 0.0001,
      "step": 6851
    },
    {
      "epoch": 31.67420814479638,
      "grad_norm": 0.055884115397930145,
      "learning_rate": 0.0001,
      "loss": 0.4732,
      "step": 7000
    },
    {
      "epoch": 32.0,
      "eval_explained_variance": 0.6602151393890381,
      "eval_kl_divergence": 0.027085499837994576,
      "eval_loss": 0.454988956451416,
      "eval_mae": 0.063857302069664,
      "eval_rmse": 0.08743549138307571,
      "eval_runtime": 25.6292,
      "eval_samples_per_second": 183.307,
      "eval_steps_per_second": 2.887,
      "learning_rate": 0.0001,
      "step": 7072
    },
    {
      "epoch": 33.0,
      "eval_explained_variance": 0.6580324172973633,
      "eval_kl_divergence": -0.017361771315336227,
      "eval_loss": 0.455375999212265,
      "eval_mae": 0.0646858736872673,
      "eval_rmse": 0.08816961199045181,
      "eval_runtime": 25.8246,
      "eval_samples_per_second": 181.919,
      "eval_steps_per_second": 2.865,
      "learning_rate": 0.0001,
      "step": 7293
    },
    {
      "epoch": 33.93665158371041,
      "grad_norm": 0.08047891408205032,
      "learning_rate": 0.0001,
      "loss": 0.4725,
      "step": 7500
    },
    {
      "epoch": 34.0,
      "eval_explained_variance": 0.6616186499595642,
      "eval_kl_divergence": 0.10939505696296692,
      "eval_loss": 0.45461305975914,
      "eval_mae": 0.0628495141863823,
      "eval_rmse": 0.08664888888597488,
      "eval_runtime": 25.7346,
      "eval_samples_per_second": 182.556,
      "eval_steps_per_second": 2.876,
      "learning_rate": 0.0001,
      "step": 7514
    },
    {
      "epoch": 35.0,
      "eval_explained_variance": 0.6582692265510559,
      "eval_kl_divergence": 0.05707371234893799,
      "eval_loss": 0.45498156547546387,
      "eval_mae": 0.06386271119117737,
      "eval_rmse": 0.08741921186447144,
      "eval_runtime": 25.7857,
      "eval_samples_per_second": 182.194,
      "eval_steps_per_second": 2.87,
      "learning_rate": 0.0001,
      "step": 7735
    },
    {
      "epoch": 36.0,
      "eval_explained_variance": 0.6615896224975586,
      "eval_kl_divergence": 0.14533284306526184,
      "eval_loss": 0.4548388123512268,
      "eval_mae": 0.0629100501537323,
      "eval_rmse": 0.08686337620019913,
      "eval_runtime": 29.7733,
      "eval_samples_per_second": 157.793,
      "eval_steps_per_second": 2.485,
      "learning_rate": 0.0001,
      "step": 7956
    },
    {
      "epoch": 36.199095022624434,
      "grad_norm": 0.07811417430639267,
      "learning_rate": 0.0001,
      "loss": 0.4727,
      "step": 8000
    },
    {
      "epoch": 37.0,
      "eval_explained_variance": 0.6586756110191345,
      "eval_kl_divergence": -0.015241213142871857,
      "eval_loss": 0.45526784658432007,
      "eval_mae": 0.06451455503702164,
      "eval_rmse": 0.08806425333023071,
      "eval_runtime": 25.6924,
      "eval_samples_per_second": 182.855,
      "eval_steps_per_second": 2.88,
      "learning_rate": 0.0001,
      "step": 8177
    },
    {
      "epoch": 38.0,
      "eval_explained_variance": 0.6612560153007507,
      "eval_kl_divergence": 0.049000147730112076,
      "eval_loss": 0.45479556918144226,
      "eval_mae": 0.06361590325832367,
      "eval_rmse": 0.08704841136932373,
      "eval_runtime": 26.1103,
      "eval_samples_per_second": 179.929,
      "eval_steps_per_second": 2.834,
      "learning_rate": 0.0001,
      "step": 8398
    },
    {
      "epoch": 38.46153846153846,
      "grad_norm": 0.062047556042671204,
      "learning_rate": 0.0001,
      "loss": 0.4727,
      "step": 8500
    },
    {
      "epoch": 39.0,
      "eval_explained_variance": 0.6610231995582581,
      "eval_kl_divergence": 0.07255241274833679,
      "eval_loss": 0.454780250787735,
      "eval_mae": 0.06311424821615219,
      "eval_rmse": 0.08698847889900208,
      "eval_runtime": 25.6403,
      "eval_samples_per_second": 183.227,
      "eval_steps_per_second": 2.886,
      "learning_rate": 0.0001,
      "step": 8619
    },
    {
      "epoch": 40.0,
      "eval_explained_variance": 0.6605435013771057,
      "eval_kl_divergence": 0.06372024863958359,
      "eval_loss": 0.45476558804512024,
      "eval_mae": 0.06323693692684174,
      "eval_rmse": 0.08702895045280457,
      "eval_runtime": 26.038,
      "eval_samples_per_second": 180.429,
      "eval_steps_per_second": 2.842,
      "learning_rate": 0.0001,
      "step": 8840
    },
    {
      "epoch": 40.723981900452486,
      "grad_norm": 0.08612842857837677,
      "learning_rate": 1e-05,
      "loss": 0.4721,
      "step": 9000
    },
    {
      "epoch": 41.0,
      "eval_explained_variance": 0.6628013253211975,
      "eval_kl_divergence": 0.039023660123348236,
      "eval_loss": 0.45470812916755676,
      "eval_mae": 0.0634213536977768,
      "eval_rmse": 0.08692529052495956,
      "eval_runtime": 25.9883,
      "eval_samples_per_second": 180.774,
      "eval_steps_per_second": 2.847,
      "learning_rate": 1e-05,
      "step": 9061
    },
    {
      "epoch": 42.0,
      "eval_explained_variance": 0.6656690239906311,
      "eval_kl_divergence": 0.11149828135967255,
      "eval_loss": 0.4543863534927368,
      "eval_mae": 0.06281669437885284,
      "eval_rmse": 0.08619723469018936,
      "eval_runtime": 26.3115,
      "eval_samples_per_second": 178.553,
      "eval_steps_per_second": 2.812,
      "learning_rate": 1e-05,
      "step": 9282
    },
    {
      "epoch": 42.98642533936652,
      "grad_norm": 0.06828662008047104,
      "learning_rate": 1e-05,
      "loss": 0.4721,
      "step": 9500
    },
    {
      "epoch": 43.0,
      "eval_explained_variance": 0.6645870804786682,
      "eval_kl_divergence": 0.05330301821231842,
      "eval_loss": 0.4545557498931885,
      "eval_mae": 0.06320130825042725,
      "eval_rmse": 0.0865868553519249,
      "eval_runtime": 25.8985,
      "eval_samples_per_second": 181.4,
      "eval_steps_per_second": 2.857,
      "learning_rate": 1e-05,
      "step": 9503
    },
    {
      "epoch": 44.0,
      "eval_explained_variance": 0.6648023128509521,
      "eval_kl_divergence": 0.13496889173984528,
      "eval_loss": 0.45448434352874756,
      "eval_mae": 0.06253467500209808,
      "eval_rmse": 0.08635282516479492,
      "eval_runtime": 26.0508,
      "eval_samples_per_second": 180.34,
      "eval_steps_per_second": 2.841,
      "learning_rate": 1e-05,
      "step": 9724
    },
    {
      "epoch": 45.0,
      "eval_explained_variance": 0.6624875068664551,
      "eval_kl_divergence": 0.004431928042322397,
      "eval_loss": 0.4550137519836426,
      "eval_mae": 0.06418145447969437,
      "eval_rmse": 0.0874209776520729,
      "eval_runtime": 25.8495,
      "eval_samples_per_second": 181.744,
      "eval_steps_per_second": 2.863,
      "learning_rate": 1e-05,
      "step": 9945
    },
    {
      "epoch": 45.248868778280546,
      "grad_norm": 0.07514863461256027,
      "learning_rate": 1e-05,
      "loss": 0.4716,
      "step": 10000
    },
    {
      "epoch": 46.0,
      "eval_explained_variance": 0.6642169952392578,
      "eval_kl_divergence": 0.03887256979942322,
      "eval_loss": 0.4545902609825134,
      "eval_mae": 0.06316760927438736,
      "eval_rmse": 0.08669499307870865,
      "eval_runtime": 25.9222,
      "eval_samples_per_second": 181.235,
      "eval_steps_per_second": 2.855,
      "learning_rate": 1e-05,
      "step": 10166
    },
    {
      "epoch": 47.0,
      "eval_explained_variance": 0.6651113629341125,
      "eval_kl_divergence": 0.037030890583992004,
      "eval_loss": 0.4544997215270996,
      "eval_mae": 0.06298934668302536,
      "eval_rmse": 0.0865601971745491,
      "eval_runtime": 25.9565,
      "eval_samples_per_second": 180.995,
      "eval_steps_per_second": 2.851,
      "learning_rate": 1e-05,
      "step": 10387
    },
    {
      "epoch": 47.51131221719457,
      "grad_norm": 0.057216282933950424,
      "learning_rate": 1e-05,
      "loss": 0.4722,
      "step": 10500
    },
    {
      "epoch": 48.0,
      "eval_explained_variance": 0.6645199060440063,
      "eval_kl_divergence": 0.019425788894295692,
      "eval_loss": 0.4546374976634979,
      "eval_mae": 0.06339576095342636,
      "eval_rmse": 0.08680880069732666,
      "eval_runtime": 25.7117,
      "eval_samples_per_second": 182.718,
      "eval_steps_per_second": 2.878,
      "learning_rate": 1e-05,
      "step": 10608
    },
    {
      "epoch": 49.0,
      "eval_explained_variance": 0.6666774153709412,
      "eval_kl_divergence": 0.0667150691151619,
      "eval_loss": 0.45436596870422363,
      "eval_mae": 0.06269881874322891,
      "eval_rmse": 0.08620164543390274,
      "eval_runtime": 27.6905,
      "eval_samples_per_second": 169.661,
      "eval_steps_per_second": 2.672,
      "learning_rate": 1.0000000000000002e-06,
      "step": 10829
    },
    {
      "epoch": 49.7737556561086,
      "grad_norm": 0.07466714084148407,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 0.4717,
      "step": 11000
    },
    {
      "epoch": 50.0,
      "eval_explained_variance": 0.6650940179824829,
      "eval_kl_divergence": 0.05483337119221687,
      "eval_loss": 0.45450592041015625,
      "eval_mae": 0.06310971826314926,
      "eval_rmse": 0.08650273084640503,
      "eval_runtime": 27.7128,
      "eval_samples_per_second": 169.524,
      "eval_steps_per_second": 2.67,
      "learning_rate": 1.0000000000000002e-06,
      "step": 11050
    },
    {
      "epoch": 51.0,
      "eval_explained_variance": 0.6651105284690857,
      "eval_kl_divergence": 0.04277108237147331,
      "eval_loss": 0.4544804096221924,
      "eval_mae": 0.06292647123336792,
      "eval_rmse": 0.08647629618644714,
      "eval_runtime": 26.6553,
      "eval_samples_per_second": 176.25,
      "eval_steps_per_second": 2.776,
      "learning_rate": 1.0000000000000002e-06,
      "step": 11271
    },
    {
      "epoch": 52.0,
      "eval_explained_variance": 0.667234480381012,
      "eval_kl_divergence": 0.12364839017391205,
      "eval_loss": 0.45421910285949707,
      "eval_mae": 0.06233237311244011,
      "eval_rmse": 0.08589440584182739,
      "eval_runtime": 25.8544,
      "eval_samples_per_second": 181.71,
      "eval_steps_per_second": 2.862,
      "learning_rate": 1.0000000000000002e-06,
      "step": 11492
    },
    {
      "epoch": 52.036199095022624,
      "grad_norm": 0.08442794531583786,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 0.4718,
      "step": 11500
    },
    {
      "epoch": 53.0,
      "eval_explained_variance": 0.6671742796897888,
      "eval_kl_divergence": 0.08869530260562897,
      "eval_loss": 0.4542272686958313,
      "eval_mae": 0.06253313273191452,
      "eval_rmse": 0.08594661206007004,
      "eval_runtime": 25.9744,
      "eval_samples_per_second": 180.871,
      "eval_steps_per_second": 2.849,
      "learning_rate": 1.0000000000000002e-06,
      "step": 11713
    },
    {
      "epoch": 54.0,
      "eval_explained_variance": 0.6653165221214294,
      "eval_kl_divergence": 0.09171402454376221,
      "eval_loss": 0.4543103575706482,
      "eval_mae": 0.0623968206346035,
      "eval_rmse": 0.08615261316299438,
      "eval_runtime": 26.0699,
      "eval_samples_per_second": 180.208,
      "eval_steps_per_second": 2.839,
      "learning_rate": 1.0000000000000002e-06,
      "step": 11934
    },
    {
      "epoch": 54.29864253393665,
      "grad_norm": 0.08775485306978226,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 0.4716,
      "step": 12000
    },
    {
      "epoch": 55.0,
      "eval_explained_variance": 0.6649713516235352,
      "eval_kl_divergence": 0.07737051695585251,
      "eval_loss": 0.45456644892692566,
      "eval_mae": 0.06305743753910065,
      "eval_rmse": 0.0865490511059761,
      "eval_runtime": 26.0104,
      "eval_samples_per_second": 180.62,
      "eval_steps_per_second": 2.845,
      "learning_rate": 1.0000000000000002e-06,
      "step": 12155
    },
    {
      "epoch": 56.0,
      "eval_explained_variance": 0.6649186611175537,
      "eval_kl_divergence": 0.04731013998389244,
      "eval_loss": 0.45458319783210754,
      "eval_mae": 0.06328658014535904,
      "eval_rmse": 0.08663744479417801,
      "eval_runtime": 25.8104,
      "eval_samples_per_second": 182.019,
      "eval_steps_per_second": 2.867,
      "learning_rate": 1.0000000000000002e-06,
      "step": 12376
    },
    {
      "epoch": 56.56108597285068,
      "grad_norm": 0.0692247599363327,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 0.4717,
      "step": 12500
    },
    {
      "epoch": 57.0,
      "eval_explained_variance": 0.6657507419586182,
      "eval_kl_divergence": -0.004581684246659279,
      "eval_loss": 0.4548773169517517,
      "eval_mae": 0.0639243796467781,
      "eval_rmse": 0.0871059000492096,
      "eval_runtime": 25.4962,
      "eval_samples_per_second": 184.262,
      "eval_steps_per_second": 2.902,
      "learning_rate": 1.0000000000000002e-06,
      "step": 12597
    },
    {
      "epoch": 58.0,
      "eval_explained_variance": 0.6655800342559814,
      "eval_kl_divergence": 0.0553017221391201,
      "eval_loss": 0.45440155267715454,
      "eval_mae": 0.06271661818027496,
      "eval_rmse": 0.08635643124580383,
      "eval_runtime": 26.1057,
      "eval_samples_per_second": 179.961,
      "eval_steps_per_second": 2.835,
      "learning_rate": 1.0000000000000002e-06,
      "step": 12818
    },
    {
      "epoch": 58.8235294117647,
      "grad_norm": 0.07922232896089554,
      "learning_rate": 1.0000000000000002e-07,
      "loss": 0.4716,
      "step": 13000
    },
    {
      "epoch": 59.0,
      "eval_explained_variance": 0.6654148101806641,
      "eval_kl_divergence": 0.03675610199570656,
      "eval_loss": 0.45448538661003113,
      "eval_mae": 0.06308572739362717,
      "eval_rmse": 0.08650225400924683,
      "eval_runtime": 25.8122,
      "eval_samples_per_second": 182.007,
      "eval_steps_per_second": 2.867,
      "learning_rate": 1.0000000000000002e-07,
      "step": 13039
    },
    {
      "epoch": 60.0,
      "eval_explained_variance": 0.6660366058349609,
      "eval_kl_divergence": 0.047148581594228745,
      "eval_loss": 0.4544091522693634,
      "eval_mae": 0.06294982880353928,
      "eval_rmse": 0.08633282780647278,
      "eval_runtime": 26.4937,
      "eval_samples_per_second": 177.325,
      "eval_steps_per_second": 2.793,
      "learning_rate": 1.0000000000000002e-07,
      "step": 13260
    },
    {
      "epoch": 61.0,
      "eval_explained_variance": 0.6669723987579346,
      "eval_kl_divergence": 0.09280110895633698,
      "eval_loss": 0.4542348086833954,
      "eval_mae": 0.062441930174827576,
      "eval_rmse": 0.08595842123031616,
      "eval_runtime": 26.0483,
      "eval_samples_per_second": 180.357,
      "eval_steps_per_second": 2.841,
      "learning_rate": 1.0000000000000002e-07,
      "step": 13481
    },
    {
      "epoch": 61.085972850678736,
      "grad_norm": 0.07845129072666168,
      "learning_rate": 1.0000000000000002e-07,
      "loss": 0.4718,
      "step": 13500
    },
    {
      "epoch": 62.0,
      "eval_explained_variance": 0.6661055088043213,
      "eval_kl_divergence": 0.028626998886466026,
      "eval_loss": 0.4545469284057617,
      "eval_mae": 0.06315190345048904,
      "eval_rmse": 0.0865735188126564,
      "eval_runtime": 25.8503,
      "eval_samples_per_second": 181.739,
      "eval_steps_per_second": 2.863,
      "learning_rate": 1.0000000000000002e-07,
      "step": 13702
    },
    {
      "epoch": 62.0,
      "learning_rate": 1.0000000000000002e-07,
      "step": 13702,
      "total_flos": 9.42369297866869e+19,
      "train_loss": 0.4754439868851833,
      "train_runtime": 8961.4221,
      "train_samples_per_second": 235.894,
      "train_steps_per_second": 3.699
    }
  ],
  "logging_steps": 500,
  "max_steps": 33150,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 150,
  "save_steps": 500,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 10,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 9.42369297866869e+19,
  "train_batch_size": 64,
  "trial_name": null,
  "trial_params": null
}