{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.002268602540834846,
  "eval_steps": 9,
  "global_step": 100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 2.2686025408348456e-05,
      "grad_norm": 1.6416054964065552,
      "learning_rate": 1e-05,
      "loss": 3.1299,
      "step": 1
    },
    {
      "epoch": 2.2686025408348456e-05,
      "eval_loss": 3.1315808296203613,
      "eval_runtime": 1113.4778,
      "eval_samples_per_second": 33.337,
      "eval_steps_per_second": 4.167,
      "step": 1
    },
    {
      "epoch": 4.537205081669691e-05,
      "grad_norm": 1.6501107215881348,
      "learning_rate": 2e-05,
      "loss": 3.0943,
      "step": 2
    },
    {
      "epoch": 6.805807622504538e-05,
      "grad_norm": 1.723808765411377,
      "learning_rate": 3e-05,
      "loss": 3.1309,
      "step": 3
    },
    {
      "epoch": 9.074410163339382e-05,
      "grad_norm": 1.7017780542373657,
      "learning_rate": 4e-05,
      "loss": 3.1083,
      "step": 4
    },
    {
      "epoch": 0.00011343012704174228,
      "grad_norm": 1.7527612447738647,
      "learning_rate": 5e-05,
      "loss": 3.0895,
      "step": 5
    },
    {
      "epoch": 0.00013611615245009076,
      "grad_norm": 1.946850061416626,
      "learning_rate": 6e-05,
      "loss": 3.0412,
      "step": 6
    },
    {
      "epoch": 0.0001588021778584392,
      "grad_norm": 1.6056472063064575,
      "learning_rate": 7e-05,
      "loss": 2.8686,
      "step": 7
    },
    {
      "epoch": 0.00018148820326678765,
      "grad_norm": 1.555307388305664,
      "learning_rate": 8e-05,
      "loss": 2.7655,
      "step": 8
    },
    {
      "epoch": 0.00020417422867513612,
      "grad_norm": 1.6594849824905396,
      "learning_rate": 9e-05,
      "loss": 2.7033,
      "step": 9
    },
    {
      "epoch": 0.00020417422867513612,
      "eval_loss": 2.648374319076538,
      "eval_runtime": 1114.7953,
      "eval_samples_per_second": 33.298,
      "eval_steps_per_second": 4.162,
      "step": 9
    },
    {
      "epoch": 0.00022686025408348456,
      "grad_norm": 1.9916863441467285,
      "learning_rate": 0.0001,
      "loss": 2.6444,
      "step": 10
    },
    {
      "epoch": 0.000249546279491833,
      "grad_norm": 2.3508129119873047,
      "learning_rate": 9.99695413509548e-05,
      "loss": 2.665,
      "step": 11
    },
    {
      "epoch": 0.0002722323049001815,
      "grad_norm": 2.1137266159057617,
      "learning_rate": 9.987820251299122e-05,
      "loss": 2.5167,
      "step": 12
    },
    {
      "epoch": 0.00029491833030852996,
      "grad_norm": 1.6255558729171753,
      "learning_rate": 9.972609476841367e-05,
      "loss": 2.4863,
      "step": 13
    },
    {
      "epoch": 0.0003176043557168784,
      "grad_norm": 1.564011573791504,
      "learning_rate": 9.951340343707852e-05,
      "loss": 2.3751,
      "step": 14
    },
    {
      "epoch": 0.00034029038112522685,
      "grad_norm": 1.4088207483291626,
      "learning_rate": 9.924038765061042e-05,
      "loss": 2.3232,
      "step": 15
    },
    {
      "epoch": 0.0003629764065335753,
      "grad_norm": 1.549394130706787,
      "learning_rate": 9.890738003669029e-05,
      "loss": 2.287,
      "step": 16
    },
    {
      "epoch": 0.0003856624319419238,
      "grad_norm": 1.0880142450332642,
      "learning_rate": 9.851478631379982e-05,
      "loss": 2.244,
      "step": 17
    },
    {
      "epoch": 0.00040834845735027224,
      "grad_norm": 1.453312635421753,
      "learning_rate": 9.806308479691595e-05,
      "loss": 2.2197,
      "step": 18
    },
    {
      "epoch": 0.00040834845735027224,
      "eval_loss": 2.2361209392547607,
      "eval_runtime": 1116.9114,
      "eval_samples_per_second": 33.235,
      "eval_steps_per_second": 4.154,
      "step": 18
    },
    {
      "epoch": 0.0004310344827586207,
      "grad_norm": 1.3305575847625732,
      "learning_rate": 9.755282581475769e-05,
      "loss": 2.2363,
      "step": 19
    },
    {
      "epoch": 0.00045372050816696913,
      "grad_norm": 1.5530980825424194,
      "learning_rate": 9.698463103929542e-05,
      "loss": 2.1967,
      "step": 20
    },
    {
      "epoch": 0.00047640653357531763,
      "grad_norm": 1.5624852180480957,
      "learning_rate": 9.635919272833938e-05,
      "loss": 2.2401,
      "step": 21
    },
    {
      "epoch": 0.000499092558983666,
      "grad_norm": 1.6178418397903442,
      "learning_rate": 9.567727288213005e-05,
      "loss": 2.1992,
      "step": 22
    },
    {
      "epoch": 0.0005217785843920145,
      "grad_norm": 1.6604396104812622,
      "learning_rate": 9.493970231495835e-05,
      "loss": 2.2365,
      "step": 23
    },
    {
      "epoch": 0.000544464609800363,
      "grad_norm": 1.4351677894592285,
      "learning_rate": 9.414737964294636e-05,
      "loss": 2.1485,
      "step": 24
    },
    {
      "epoch": 0.0005671506352087115,
      "grad_norm": 1.5888997316360474,
      "learning_rate": 9.330127018922194e-05,
      "loss": 2.1908,
      "step": 25
    },
    {
      "epoch": 0.0005898366606170599,
      "grad_norm": 1.4860813617706299,
      "learning_rate": 9.24024048078213e-05,
      "loss": 2.1644,
      "step": 26
    },
    {
      "epoch": 0.0006125226860254084,
      "grad_norm": 1.7865761518478394,
      "learning_rate": 9.145187862775209e-05,
      "loss": 2.0997,
      "step": 27
    },
    {
      "epoch": 0.0006125226860254084,
      "eval_loss": 2.132443428039551,
      "eval_runtime": 1115.3782,
      "eval_samples_per_second": 33.28,
      "eval_steps_per_second": 4.16,
      "step": 27
    },
    {
      "epoch": 0.0006352087114337568,
      "grad_norm": 1.6167287826538086,
      "learning_rate": 9.045084971874738e-05,
      "loss": 2.1694,
      "step": 28
    },
    {
      "epoch": 0.0006578947368421052,
      "grad_norm": 1.8921834230422974,
      "learning_rate": 8.940053768033609e-05,
      "loss": 2.0935,
      "step": 29
    },
    {
      "epoch": 0.0006805807622504537,
      "grad_norm": 1.3920313119888306,
      "learning_rate": 8.83022221559489e-05,
      "loss": 2.1124,
      "step": 30
    },
    {
      "epoch": 0.0007032667876588021,
      "grad_norm": 1.687180757522583,
      "learning_rate": 8.715724127386972e-05,
      "loss": 2.1407,
      "step": 31
    },
    {
      "epoch": 0.0007259528130671506,
      "grad_norm": 1.5223597288131714,
      "learning_rate": 8.596699001693255e-05,
      "loss": 2.0815,
      "step": 32
    },
    {
      "epoch": 0.0007486388384754991,
      "grad_norm": 1.0315338373184204,
      "learning_rate": 8.473291852294987e-05,
      "loss": 2.1111,
      "step": 33
    },
    {
      "epoch": 0.0007713248638838476,
      "grad_norm": 1.207932472229004,
      "learning_rate": 8.345653031794292e-05,
      "loss": 2.0821,
      "step": 34
    },
    {
      "epoch": 0.000794010889292196,
      "grad_norm": 1.1180214881896973,
      "learning_rate": 8.213938048432697e-05,
      "loss": 2.067,
      "step": 35
    },
    {
      "epoch": 0.0008166969147005445,
      "grad_norm": 0.9653541445732117,
      "learning_rate": 8.07830737662829e-05,
      "loss": 2.0803,
      "step": 36
    },
    {
      "epoch": 0.0008166969147005445,
      "eval_loss": 2.0600924491882324,
      "eval_runtime": 1114.2694,
      "eval_samples_per_second": 33.313,
      "eval_steps_per_second": 4.164,
      "step": 36
    },
    {
      "epoch": 0.0008393829401088929,
      "grad_norm": 1.055235743522644,
      "learning_rate": 7.938926261462366e-05,
      "loss": 2.0847,
      "step": 37
    },
    {
      "epoch": 0.0008620689655172414,
      "grad_norm": 1.2727781534194946,
      "learning_rate": 7.795964517353735e-05,
      "loss": 2.0415,
      "step": 38
    },
    {
      "epoch": 0.0008847549909255898,
      "grad_norm": 1.0464050769805908,
      "learning_rate": 7.649596321166024e-05,
      "loss": 2.0588,
      "step": 39
    },
    {
      "epoch": 0.0009074410163339383,
      "grad_norm": 1.3169907331466675,
      "learning_rate": 7.500000000000001e-05,
      "loss": 2.011,
      "step": 40
    },
    {
      "epoch": 0.0009301270417422867,
      "grad_norm": 1.089572787284851,
      "learning_rate": 7.347357813929454e-05,
      "loss": 2.0517,
      "step": 41
    },
    {
      "epoch": 0.0009528130671506353,
      "grad_norm": 1.1430696249008179,
      "learning_rate": 7.191855733945387e-05,
      "loss": 2.0246,
      "step": 42
    },
    {
      "epoch": 0.0009754990925589837,
      "grad_norm": 1.3180994987487793,
      "learning_rate": 7.033683215379002e-05,
      "loss": 2.0315,
      "step": 43
    },
    {
      "epoch": 0.000998185117967332,
      "grad_norm": 1.3543201684951782,
      "learning_rate": 6.873032967079561e-05,
      "loss": 2.0633,
      "step": 44
    },
    {
      "epoch": 0.0010208711433756805,
      "grad_norm": 1.6321227550506592,
      "learning_rate": 6.710100716628344e-05,
      "loss": 2.0392,
      "step": 45
    },
    {
      "epoch": 0.0010208711433756805,
      "eval_loss": 2.0032191276550293,
      "eval_runtime": 1114.225,
      "eval_samples_per_second": 33.315,
      "eval_steps_per_second": 4.164,
      "step": 45
    },
    {
      "epoch": 0.001043557168784029,
      "grad_norm": 2.1409361362457275,
      "learning_rate": 6.545084971874738e-05,
      "loss": 2.0119,
      "step": 46
    },
    {
      "epoch": 0.0010662431941923776,
      "grad_norm": 2.953794002532959,
      "learning_rate": 6.378186779084995e-05,
      "loss": 1.9544,
      "step": 47
    },
    {
      "epoch": 0.001088929219600726,
      "grad_norm": 2.7195370197296143,
      "learning_rate": 6.209609477998338e-05,
      "loss": 2.0433,
      "step": 48
    },
    {
      "epoch": 0.0011116152450090745,
      "grad_norm": 1.4999951124191284,
      "learning_rate": 6.0395584540887963e-05,
      "loss": 1.9779,
      "step": 49
    },
    {
      "epoch": 0.001134301270417423,
      "grad_norm": 2.223850727081299,
      "learning_rate": 5.868240888334653e-05,
      "loss": 1.9938,
      "step": 50
    },
    {
      "epoch": 0.0011569872958257714,
      "grad_norm": 2.376706600189209,
      "learning_rate": 5.695865504800327e-05,
      "loss": 1.9896,
      "step": 51
    },
    {
      "epoch": 0.0011796733212341198,
      "grad_norm": 2.9564199447631836,
      "learning_rate": 5.522642316338268e-05,
      "loss": 2.014,
      "step": 52
    },
    {
      "epoch": 0.0012023593466424683,
      "grad_norm": 1.6720558404922485,
      "learning_rate": 5.348782368720626e-05,
      "loss": 2.0453,
      "step": 53
    },
    {
      "epoch": 0.0012250453720508167,
      "grad_norm": 1.6735769510269165,
      "learning_rate": 5.174497483512506e-05,
      "loss": 1.9324,
      "step": 54
    },
    {
      "epoch": 0.0012250453720508167,
      "eval_loss": 1.9686158895492554,
      "eval_runtime": 1114.5532,
      "eval_samples_per_second": 33.305,
      "eval_steps_per_second": 4.163,
      "step": 54
    },
    {
      "epoch": 0.0012477313974591652,
      "grad_norm": 1.9759901762008667,
      "learning_rate": 5e-05,
      "loss": 1.97,
      "step": 55
    },
    {
      "epoch": 0.0012704174228675136,
      "grad_norm": 1.0385563373565674,
      "learning_rate": 4.825502516487497e-05,
      "loss": 2.0125,
      "step": 56
    },
    {
      "epoch": 0.001293103448275862,
      "grad_norm": 1.4511593580245972,
      "learning_rate": 4.6512176312793736e-05,
      "loss": 1.9829,
      "step": 57
    },
    {
      "epoch": 0.0013157894736842105,
      "grad_norm": 1.8236950635910034,
      "learning_rate": 4.477357683661734e-05,
      "loss": 1.9339,
      "step": 58
    },
    {
      "epoch": 0.001338475499092559,
      "grad_norm": 1.1144325733184814,
      "learning_rate": 4.3041344951996746e-05,
      "loss": 1.9466,
      "step": 59
    },
    {
      "epoch": 0.0013611615245009074,
      "grad_norm": 1.2293871641159058,
      "learning_rate": 4.131759111665349e-05,
      "loss": 1.9279,
      "step": 60
    },
    {
      "epoch": 0.0013838475499092558,
      "grad_norm": 1.463137149810791,
      "learning_rate": 3.960441545911204e-05,
      "loss": 1.9596,
      "step": 61
    },
    {
      "epoch": 0.0014065335753176043,
      "grad_norm": 1.4150505065917969,
      "learning_rate": 3.790390522001662e-05,
      "loss": 1.9864,
      "step": 62
    },
    {
      "epoch": 0.0014292196007259527,
      "grad_norm": 1.1374602317810059,
      "learning_rate": 3.6218132209150045e-05,
      "loss": 1.9059,
      "step": 63
    },
    {
      "epoch": 0.0014292196007259527,
      "eval_loss": 1.9304600954055786,
      "eval_runtime": 1115.0604,
      "eval_samples_per_second": 33.29,
      "eval_steps_per_second": 4.161,
      "step": 63
    },
    {
      "epoch": 0.0014519056261343012,
      "grad_norm": 1.5794055461883545,
      "learning_rate": 3.4549150281252636e-05,
      "loss": 1.9551,
      "step": 64
    },
    {
      "epoch": 0.0014745916515426498,
      "grad_norm": 1.5883877277374268,
      "learning_rate": 3.289899283371657e-05,
      "loss": 1.9923,
      "step": 65
    },
    {
      "epoch": 0.0014972776769509983,
      "grad_norm": 1.667925477027893,
      "learning_rate": 3.12696703292044e-05,
      "loss": 1.9198,
      "step": 66
    },
    {
      "epoch": 0.0015199637023593467,
      "grad_norm": 1.3011813163757324,
      "learning_rate": 2.9663167846209998e-05,
      "loss": 1.9227,
      "step": 67
    },
    {
      "epoch": 0.0015426497277676952,
      "grad_norm": 1.1233218908309937,
      "learning_rate": 2.8081442660546125e-05,
      "loss": 1.9375,
      "step": 68
    },
    {
      "epoch": 0.0015653357531760436,
      "grad_norm": 1.5612938404083252,
      "learning_rate": 2.6526421860705473e-05,
      "loss": 1.9055,
      "step": 69
    },
    {
      "epoch": 0.001588021778584392,
      "grad_norm": 1.4924774169921875,
      "learning_rate": 2.500000000000001e-05,
      "loss": 1.869,
      "step": 70
    },
    {
      "epoch": 0.0016107078039927405,
      "grad_norm": 2.727558135986328,
      "learning_rate": 2.350403678833976e-05,
      "loss": 1.9358,
      "step": 71
    },
    {
      "epoch": 0.001633393829401089,
      "grad_norm": 1.8907184600830078,
      "learning_rate": 2.2040354826462668e-05,
      "loss": 1.9428,
      "step": 72
    },
    {
      "epoch": 0.001633393829401089,
      "eval_loss": 1.9025388956069946,
      "eval_runtime": 1114.1295,
      "eval_samples_per_second": 33.317,
      "eval_steps_per_second": 4.165,
      "step": 72
    },
    {
      "epoch": 0.0016560798548094374,
      "grad_norm": 1.7879000902175903,
      "learning_rate": 2.061073738537635e-05,
      "loss": 1.9134,
      "step": 73
    },
    {
      "epoch": 0.0016787658802177858,
      "grad_norm": 3.1762635707855225,
      "learning_rate": 1.9216926233717085e-05,
      "loss": 1.9674,
      "step": 74
    },
    {
      "epoch": 0.0017014519056261343,
      "grad_norm": 4.063128471374512,
      "learning_rate": 1.7860619515673033e-05,
      "loss": 1.9046,
      "step": 75
    },
    {
      "epoch": 0.0017241379310344827,
      "grad_norm": 2.6128618717193604,
      "learning_rate": 1.6543469682057106e-05,
      "loss": 1.8579,
      "step": 76
    },
    {
      "epoch": 0.0017468239564428312,
      "grad_norm": 2.6873018741607666,
      "learning_rate": 1.526708147705013e-05,
      "loss": 1.8461,
      "step": 77
    },
    {
      "epoch": 0.0017695099818511796,
      "grad_norm": 1.5386942625045776,
      "learning_rate": 1.4033009983067452e-05,
      "loss": 1.8917,
      "step": 78
    },
    {
      "epoch": 0.001792196007259528,
      "grad_norm": 2.0306711196899414,
      "learning_rate": 1.2842758726130283e-05,
      "loss": 1.883,
      "step": 79
    },
    {
      "epoch": 0.0018148820326678765,
      "grad_norm": 1.8291230201721191,
      "learning_rate": 1.1697777844051105e-05,
      "loss": 1.8556,
      "step": 80
    },
    {
      "epoch": 0.001837568058076225,
      "grad_norm": 3.1512269973754883,
      "learning_rate": 1.0599462319663905e-05,
      "loss": 1.9065,
      "step": 81
    },
    {
      "epoch": 0.001837568058076225,
      "eval_loss": 1.8945270776748657,
      "eval_runtime": 1114.5926,
      "eval_samples_per_second": 33.304,
      "eval_steps_per_second": 4.163,
      "step": 81
    },
    {
      "epoch": 0.0018602540834845734,
      "grad_norm": 3.1626930236816406,
      "learning_rate": 9.549150281252633e-06,
      "loss": 1.8543,
      "step": 82
    },
    {
      "epoch": 0.0018829401088929219,
      "grad_norm": 2.0213286876678467,
      "learning_rate": 8.548121372247918e-06,
      "loss": 1.9083,
      "step": 83
    },
    {
      "epoch": 0.0019056261343012705,
      "grad_norm": 2.028878927230835,
      "learning_rate": 7.597595192178702e-06,
      "loss": 1.9163,
      "step": 84
    },
    {
      "epoch": 0.001928312159709619,
      "grad_norm": 1.7468281984329224,
      "learning_rate": 6.698729810778065e-06,
      "loss": 1.8624,
      "step": 85
    },
    {
      "epoch": 0.0019509981851179674,
      "grad_norm": 1.4500890970230103,
      "learning_rate": 5.852620357053651e-06,
      "loss": 1.8496,
      "step": 86
    },
    {
      "epoch": 0.001973684210526316,
      "grad_norm": 1.5511759519577026,
      "learning_rate": 5.060297685041659e-06,
      "loss": 1.8577,
      "step": 87
    },
    {
      "epoch": 0.001996370235934664,
      "grad_norm": 1.5159685611724854,
      "learning_rate": 4.322727117869951e-06,
      "loss": 1.8675,
      "step": 88
    },
    {
      "epoch": 0.0020190562613430127,
      "grad_norm": 1.6526339054107666,
      "learning_rate": 3.6408072716606346e-06,
      "loss": 1.8536,
      "step": 89
    },
    {
      "epoch": 0.002041742286751361,
      "grad_norm": 1.9124068021774292,
      "learning_rate": 3.0153689607045845e-06,
      "loss": 1.8886,
      "step": 90
    },
    {
      "epoch": 0.002041742286751361,
      "eval_loss": 1.878859281539917,
      "eval_runtime": 1114.48,
      "eval_samples_per_second": 33.307,
      "eval_steps_per_second": 4.163,
      "step": 90
    },
    {
      "epoch": 0.0020644283121597096,
      "grad_norm": 1.4601389169692993,
      "learning_rate": 2.4471741852423237e-06,
      "loss": 1.8853,
      "step": 91
    },
    {
      "epoch": 0.002087114337568058,
      "grad_norm": 1.3825609683990479,
      "learning_rate": 1.9369152030840556e-06,
      "loss": 1.9545,
      "step": 92
    },
    {
      "epoch": 0.0021098003629764065,
      "grad_norm": 1.46387779712677,
      "learning_rate": 1.4852136862001764e-06,
      "loss": 1.9272,
      "step": 93
    },
    {
      "epoch": 0.002132486388384755,
      "grad_norm": 1.3379498720169067,
      "learning_rate": 1.0926199633097157e-06,
      "loss": 1.8666,
      "step": 94
    },
    {
      "epoch": 0.0021551724137931034,
      "grad_norm": 1.5861835479736328,
      "learning_rate": 7.596123493895991e-07,
      "loss": 1.8307,
      "step": 95
    },
    {
      "epoch": 0.002177858439201452,
      "grad_norm": 1.2894798517227173,
      "learning_rate": 4.865965629214819e-07,
      "loss": 1.8439,
      "step": 96
    },
    {
      "epoch": 0.0022005444646098003,
      "grad_norm": 1.3515748977661133,
      "learning_rate": 2.7390523158633554e-07,
      "loss": 1.852,
      "step": 97
    },
    {
      "epoch": 0.002223230490018149,
      "grad_norm": 1.476943016052246,
      "learning_rate": 1.2179748700879012e-07,
      "loss": 1.9408,
      "step": 98
    },
    {
      "epoch": 0.002245916515426497,
      "grad_norm": 1.5151393413543701,
      "learning_rate": 3.04586490452119e-08,
      "loss": 1.8778,
      "step": 99
    },
    {
      "epoch": 0.002245916515426497,
      "eval_loss": 1.8763697147369385,
      "eval_runtime": 1114.5225,
      "eval_samples_per_second": 33.306,
      "eval_steps_per_second": 4.163,
      "step": 99
    },
    {
      "epoch": 0.002268602540834846,
      "grad_norm": 1.3483997583389282,
      "learning_rate": 0.0,
      "loss": 1.8508,
      "step": 100
    }
  ],
  "logging_steps": 1,
  "max_steps": 100,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 25,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 9677225695641600.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}