{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9997505612372163,
  "eval_steps": 500,
  "global_step": 1002,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0009977550511349464,
      "grad_norm": 3.95422100343339e+17,
      "learning_rate": 1.9801980198019803e-07,
      "loss": 1.1312,
      "step": 1
    },
    {
      "epoch": 0.004988775255674732,
      "grad_norm": 2182.5525466022195,
      "learning_rate": 9.900990099009902e-07,
      "loss": 1.1202,
      "step": 5
    },
    {
      "epoch": 0.009977550511349464,
      "grad_norm": 10.696306402986602,
      "learning_rate": 1.9801980198019803e-06,
      "loss": 1.0843,
      "step": 10
    },
    {
      "epoch": 0.014966325767024195,
      "grad_norm": 4.8421359026925295,
      "learning_rate": 2.9702970297029703e-06,
      "loss": 1.024,
      "step": 15
    },
    {
      "epoch": 0.01995510102269893,
      "grad_norm": 1.4664994361442427,
      "learning_rate": 3.960396039603961e-06,
      "loss": 0.9479,
      "step": 20
    },
    {
      "epoch": 0.024943876278373658,
      "grad_norm": 1.1625196109582225,
      "learning_rate": 4.950495049504951e-06,
      "loss": 0.8935,
      "step": 25
    },
    {
      "epoch": 0.02993265153404839,
      "grad_norm": 1.2801604519342376,
      "learning_rate": 5.940594059405941e-06,
      "loss": 0.871,
      "step": 30
    },
    {
      "epoch": 0.034921426789723126,
      "grad_norm": 2.033559906503939,
      "learning_rate": 6.930693069306931e-06,
      "loss": 0.8425,
      "step": 35
    },
    {
      "epoch": 0.03991020204539786,
      "grad_norm": 1.2072354289878107,
      "learning_rate": 7.920792079207921e-06,
      "loss": 0.8193,
      "step": 40
    },
    {
      "epoch": 0.04489897730107259,
      "grad_norm": 1.3137258088382902,
      "learning_rate": 8.910891089108911e-06,
      "loss": 0.8013,
      "step": 45
    },
    {
      "epoch": 0.049887752556747315,
      "grad_norm": 1.1213863664000594,
      "learning_rate": 9.900990099009901e-06,
      "loss": 0.7906,
      "step": 50
    },
    {
      "epoch": 0.05487652781242205,
      "grad_norm": 0.9999895583902438,
      "learning_rate": 1.0891089108910893e-05,
      "loss": 0.7642,
      "step": 55
    },
    {
      "epoch": 0.05986530306809678,
      "grad_norm": 1.3377086334649673,
      "learning_rate": 1.1881188118811881e-05,
      "loss": 0.7495,
      "step": 60
    },
    {
      "epoch": 0.06485407832377152,
      "grad_norm": 1.0583607289478394,
      "learning_rate": 1.2871287128712873e-05,
      "loss": 0.7328,
      "step": 65
    },
    {
      "epoch": 0.06984285357944625,
      "grad_norm": 1.3493827534349543,
      "learning_rate": 1.3861386138613861e-05,
      "loss": 0.7383,
      "step": 70
    },
    {
      "epoch": 0.07483162883512098,
      "grad_norm": 1.2261995345556986,
      "learning_rate": 1.4851485148514853e-05,
      "loss": 0.7281,
      "step": 75
    },
    {
      "epoch": 0.07982040409079572,
      "grad_norm": 1.3328058553211537,
      "learning_rate": 1.5841584158415843e-05,
      "loss": 0.7236,
      "step": 80
    },
    {
      "epoch": 0.08480917934647045,
      "grad_norm": 1.1145579124084846,
      "learning_rate": 1.683168316831683e-05,
      "loss": 0.7255,
      "step": 85
    },
    {
      "epoch": 0.08979795460214518,
      "grad_norm": 0.9193198348331784,
      "learning_rate": 1.7821782178217823e-05,
      "loss": 0.7181,
      "step": 90
    },
    {
      "epoch": 0.0947867298578199,
      "grad_norm": 0.9946484577080871,
      "learning_rate": 1.881188118811881e-05,
      "loss": 0.7103,
      "step": 95
    },
    {
      "epoch": 0.09977550511349463,
      "grad_norm": 1.041681712316516,
      "learning_rate": 1.9801980198019803e-05,
      "loss": 0.7007,
      "step": 100
    },
    {
      "epoch": 0.10476428036916936,
      "grad_norm": 2.164939078852322,
      "learning_rate": 1.9999027402586235e-05,
      "loss": 0.7064,
      "step": 105
    },
    {
      "epoch": 0.1097530556248441,
      "grad_norm": 2.7326170629817335,
      "learning_rate": 1.9995076549835638e-05,
      "loss": 0.7129,
      "step": 110
    },
    {
      "epoch": 0.11474183088051883,
      "grad_norm": 0.958937879949106,
      "learning_rate": 1.9988087854284224e-05,
      "loss": 0.6984,
      "step": 115
    },
    {
      "epoch": 0.11973060613619356,
      "grad_norm": 1.1161507946755316,
      "learning_rate": 1.997806344003363e-05,
      "loss": 0.7025,
      "step": 120
    },
    {
      "epoch": 0.12471938139186829,
      "grad_norm": 0.9783646600814512,
      "learning_rate": 1.996500635384337e-05,
      "loss": 0.6918,
      "step": 125
    },
    {
      "epoch": 0.12970815664754304,
      "grad_norm": 0.8060832238745128,
      "learning_rate": 1.994892056420485e-05,
      "loss": 0.6842,
      "step": 130
    },
    {
      "epoch": 0.13469693190321777,
      "grad_norm": 0.8669120420326126,
      "learning_rate": 1.992981096013517e-05,
      "loss": 0.6806,
      "step": 135
    },
    {
      "epoch": 0.1396857071588925,
      "grad_norm": 0.8551160872182698,
      "learning_rate": 1.990768334969122e-05,
      "loss": 0.6908,
      "step": 140
    },
    {
      "epoch": 0.14467448241456723,
      "grad_norm": 0.6818189908779505,
      "learning_rate": 1.9882544458204386e-05,
      "loss": 0.6888,
      "step": 145
    },
    {
      "epoch": 0.14966325767024197,
      "grad_norm": 0.7649549705168317,
      "learning_rate": 1.9854401926236518e-05,
      "loss": 0.6867,
      "step": 150
    },
    {
      "epoch": 0.1546520329259167,
      "grad_norm": 0.8499401555713652,
      "learning_rate": 1.9823264307257683e-05,
      "loss": 0.6707,
      "step": 155
    },
    {
      "epoch": 0.15964080818159143,
      "grad_norm": 0.7166408203324516,
      "learning_rate": 1.9789141065046495e-05,
      "loss": 0.676,
      "step": 160
    },
    {
      "epoch": 0.16462958343726616,
      "grad_norm": 0.6182479498389858,
      "learning_rate": 1.9752042570813733e-05,
      "loss": 0.6738,
      "step": 165
    },
    {
      "epoch": 0.1696183586929409,
      "grad_norm": 0.6690357471493384,
      "learning_rate": 1.9711980100050196e-05,
      "loss": 0.6672,
      "step": 170
    },
    {
      "epoch": 0.17460713394861563,
      "grad_norm": 0.5822226665191199,
      "learning_rate": 1.966896582909968e-05,
      "loss": 0.6736,
      "step": 175
    },
    {
      "epoch": 0.17959590920429036,
      "grad_norm": 0.7406095161368872,
      "learning_rate": 1.962301283145819e-05,
      "loss": 0.6761,
      "step": 180
    },
    {
      "epoch": 0.18458468445996506,
      "grad_norm": 0.7296907738291923,
      "learning_rate": 1.957413507380046e-05,
      "loss": 0.6678,
      "step": 185
    },
    {
      "epoch": 0.1895734597156398,
      "grad_norm": 0.8518753276369776,
      "learning_rate": 1.952234741173499e-05,
      "loss": 0.6733,
      "step": 190
    },
    {
      "epoch": 0.19456223497131453,
      "grad_norm": 0.5554147873181055,
      "learning_rate": 1.946766558528895e-05,
      "loss": 0.6621,
      "step": 195
    },
    {
      "epoch": 0.19955101022698926,
      "grad_norm": 0.6525658967181038,
      "learning_rate": 1.941010621412422e-05,
      "loss": 0.6649,
      "step": 200
    },
    {
      "epoch": 0.204539785482664,
      "grad_norm": 0.5780920597815026,
      "learning_rate": 1.9349686792486143e-05,
      "loss": 0.657,
      "step": 205
    },
    {
      "epoch": 0.20952856073833873,
      "grad_norm": 0.5578703671497164,
      "learning_rate": 1.9286425683886403e-05,
      "loss": 0.6687,
      "step": 210
    },
    {
      "epoch": 0.21451733599401346,
      "grad_norm": 0.72305301104437,
      "learning_rate": 1.9220342115521746e-05,
      "loss": 0.6624,
      "step": 215
    },
    {
      "epoch": 0.2195061112496882,
      "grad_norm": 0.6165020865206677,
      "learning_rate": 1.9151456172430186e-05,
      "loss": 0.6532,
      "step": 220
    },
    {
      "epoch": 0.22449488650536292,
      "grad_norm": 0.5606109731701377,
      "learning_rate": 1.9079788791386468e-05,
      "loss": 0.6562,
      "step": 225
    },
    {
      "epoch": 0.22948366176103766,
      "grad_norm": 0.6353820290325317,
      "learning_rate": 1.9005361754538677e-05,
      "loss": 0.6671,
      "step": 230
    },
    {
      "epoch": 0.2344724370167124,
      "grad_norm": 0.5815877946035953,
      "learning_rate": 1.8928197682787914e-05,
      "loss": 0.6593,
      "step": 235
    },
    {
      "epoch": 0.23946121227238712,
      "grad_norm": 0.6348680697801418,
      "learning_rate": 1.8848320028913017e-05,
      "loss": 0.6507,
      "step": 240
    },
    {
      "epoch": 0.24444998752806185,
      "grad_norm": 0.5695451117286802,
      "learning_rate": 1.8765753070442486e-05,
      "loss": 0.6523,
      "step": 245
    },
    {
      "epoch": 0.24943876278373658,
      "grad_norm": 0.5168318177147343,
      "learning_rate": 1.868052190227571e-05,
      "loss": 0.6591,
      "step": 250
    },
    {
      "epoch": 0.2544275380394113,
      "grad_norm": 0.7348069026040828,
      "learning_rate": 1.859265242905577e-05,
      "loss": 0.6541,
      "step": 255
    },
    {
      "epoch": 0.2594163132950861,
      "grad_norm": 0.5329392930102724,
      "learning_rate": 1.8502171357296144e-05,
      "loss": 0.6589,
      "step": 260
    },
    {
      "epoch": 0.2644050885507608,
      "grad_norm": 0.6628783134030882,
      "learning_rate": 1.84091061872637e-05,
      "loss": 0.6443,
      "step": 265
    },
    {
      "epoch": 0.26939386380643554,
      "grad_norm": 0.6959729166297904,
      "learning_rate": 1.8313485204620428e-05,
      "loss": 0.6459,
      "step": 270
    },
    {
      "epoch": 0.27438263906211025,
      "grad_norm": 0.5848246972834032,
      "learning_rate": 1.821533747182645e-05,
      "loss": 0.6606,
      "step": 275
    },
    {
      "epoch": 0.279371414317785,
      "grad_norm": 0.6475331258568309,
      "learning_rate": 1.811469281930698e-05,
      "loss": 0.656,
      "step": 280
    },
    {
      "epoch": 0.2843601895734597,
      "grad_norm": 0.5357406950163816,
      "learning_rate": 1.8011581836385828e-05,
      "loss": 0.6474,
      "step": 285
    },
    {
      "epoch": 0.28934896482913447,
      "grad_norm": 0.5973939212545811,
      "learning_rate": 1.790603586198827e-05,
      "loss": 0.6376,
      "step": 290
    },
    {
      "epoch": 0.2943377400848092,
      "grad_norm": 0.5096252662581786,
      "learning_rate": 1.7798086975116096e-05,
      "loss": 0.6487,
      "step": 295
    },
    {
      "epoch": 0.29932651534048393,
      "grad_norm": 0.545088543038122,
      "learning_rate": 1.7687767985097695e-05,
      "loss": 0.6526,
      "step": 300
    },
    {
      "epoch": 0.30431529059615864,
      "grad_norm": 0.707465419807657,
      "learning_rate": 1.7575112421616203e-05,
      "loss": 0.6465,
      "step": 305
    },
    {
      "epoch": 0.3093040658518334,
      "grad_norm": 0.520929461518716,
      "learning_rate": 1.7460154524518688e-05,
      "loss": 0.6346,
      "step": 310
    },
    {
      "epoch": 0.3142928411075081,
      "grad_norm": 0.5724374980096262,
      "learning_rate": 1.73429292334095e-05,
      "loss": 0.6533,
      "step": 315
    },
    {
      "epoch": 0.31928161636318286,
      "grad_norm": 0.545092535159253,
      "learning_rate": 1.722347217703094e-05,
      "loss": 0.6437,
      "step": 320
    },
    {
      "epoch": 0.32427039161885757,
      "grad_norm": 0.49712776699676936,
      "learning_rate": 1.710181966243447e-05,
      "loss": 0.6373,
      "step": 325
    },
    {
      "epoch": 0.3292591668745323,
      "grad_norm": 0.5463641929477563,
      "learning_rate": 1.6978008663945794e-05,
      "loss": 0.6496,
      "step": 330
    },
    {
      "epoch": 0.33424794213020703,
      "grad_norm": 0.5263242364290428,
      "learning_rate": 1.6852076811927066e-05,
      "loss": 0.6369,
      "step": 335
    },
    {
      "epoch": 0.3392367173858818,
      "grad_norm": 0.5461638677630304,
      "learning_rate": 1.672406238133978e-05,
      "loss": 0.639,
      "step": 340
    },
    {
      "epoch": 0.3442254926415565,
      "grad_norm": 0.5328798983853884,
      "learning_rate": 1.6594004280111697e-05,
      "loss": 0.6497,
      "step": 345
    },
    {
      "epoch": 0.34921426789723126,
      "grad_norm": 0.5449564175014876,
      "learning_rate": 1.6461942037311406e-05,
      "loss": 0.64,
      "step": 350
    },
    {
      "epoch": 0.35420304315290596,
      "grad_norm": 0.4924182140259062,
      "learning_rate": 1.6327915791134107e-05,
      "loss": 0.6396,
      "step": 355
    },
    {
      "epoch": 0.3591918184085807,
      "grad_norm": 0.6190239635709287,
      "learning_rate": 1.6191966276702235e-05,
      "loss": 0.6377,
      "step": 360
    },
    {
      "epoch": 0.3641805936642554,
      "grad_norm": 0.6147520812137072,
      "learning_rate": 1.6054134813684697e-05,
      "loss": 0.6375,
      "step": 365
    },
    {
      "epoch": 0.36916936891993013,
      "grad_norm": 0.5215763519986214,
      "learning_rate": 1.5914463293738402e-05,
      "loss": 0.6368,
      "step": 370
    },
    {
      "epoch": 0.3741581441756049,
      "grad_norm": 0.6214647949635035,
      "learning_rate": 1.5772994167775986e-05,
      "loss": 0.6303,
      "step": 375
    },
    {
      "epoch": 0.3791469194312796,
      "grad_norm": 0.6365612833821749,
      "learning_rate": 1.5629770433063523e-05,
      "loss": 0.6244,
      "step": 380
    },
    {
      "epoch": 0.38413569468695435,
      "grad_norm": 0.594264835461608,
      "learning_rate": 1.5484835620152198e-05,
      "loss": 0.6323,
      "step": 385
    },
    {
      "epoch": 0.38912446994262906,
      "grad_norm": 0.6107791643380025,
      "learning_rate": 1.533823377964791e-05,
      "loss": 0.6298,
      "step": 390
    },
    {
      "epoch": 0.3941132451983038,
      "grad_norm": 0.6001005800935538,
      "learning_rate": 1.5190009468822782e-05,
      "loss": 0.63,
      "step": 395
    },
    {
      "epoch": 0.3991020204539785,
      "grad_norm": 0.5176320349977592,
      "learning_rate": 1.5040207738072714e-05,
      "loss": 0.6296,
      "step": 400
    },
    {
      "epoch": 0.4040907957096533,
      "grad_norm": 0.5530769815557066,
      "learning_rate": 1.4888874117225013e-05,
      "loss": 0.6202,
      "step": 405
    },
    {
      "epoch": 0.409079570965328,
      "grad_norm": 0.4750983813132654,
      "learning_rate": 1.4736054601700361e-05,
      "loss": 0.6339,
      "step": 410
    },
    {
      "epoch": 0.41406834622100275,
      "grad_norm": 0.5280260411948464,
      "learning_rate": 1.4581795638533227e-05,
      "loss": 0.6244,
      "step": 415
    },
    {
      "epoch": 0.41905712147667745,
      "grad_norm": 0.49444720544930004,
      "learning_rate": 1.4426144112255057e-05,
      "loss": 0.6226,
      "step": 420
    },
    {
      "epoch": 0.4240458967323522,
      "grad_norm": 0.5416758041687645,
      "learning_rate": 1.426914733064444e-05,
      "loss": 0.6281,
      "step": 425
    },
    {
      "epoch": 0.4290346719880269,
      "grad_norm": 0.4913059879733367,
      "learning_rate": 1.4110853010348717e-05,
      "loss": 0.6327,
      "step": 430
    },
    {
      "epoch": 0.4340234472437017,
      "grad_norm": 0.5475336882998988,
      "learning_rate": 1.3951309262381231e-05,
      "loss": 0.6319,
      "step": 435
    },
    {
      "epoch": 0.4390122224993764,
      "grad_norm": 0.5887136176843448,
      "learning_rate": 1.3790564577498791e-05,
      "loss": 0.6323,
      "step": 440
    },
    {
      "epoch": 0.44400099775505114,
      "grad_norm": 0.53325274747872,
      "learning_rate": 1.3628667811463654e-05,
      "loss": 0.6165,
      "step": 445
    },
    {
      "epoch": 0.44898977301072585,
      "grad_norm": 0.5538441977213863,
      "learning_rate": 1.3465668170194633e-05,
      "loss": 0.6259,
      "step": 450
    },
    {
      "epoch": 0.4539785482664006,
      "grad_norm": 0.516406002882252,
      "learning_rate": 1.330161519481172e-05,
      "loss": 0.6251,
      "step": 455
    },
    {
      "epoch": 0.4589673235220753,
      "grad_norm": 0.5294430423934866,
      "learning_rate": 1.3136558746578888e-05,
      "loss": 0.6269,
      "step": 460
    },
    {
      "epoch": 0.46395609877775007,
      "grad_norm": 0.5548195323966518,
      "learning_rate": 1.2970548991749538e-05,
      "loss": 0.6239,
      "step": 465
    },
    {
      "epoch": 0.4689448740334248,
      "grad_norm": 0.48735736648704486,
      "learning_rate": 1.2803636386319288e-05,
      "loss": 0.62,
      "step": 470
    },
    {
      "epoch": 0.47393364928909953,
      "grad_norm": 0.5093962136183301,
      "learning_rate": 1.2635871660690677e-05,
      "loss": 0.6259,
      "step": 475
    },
    {
      "epoch": 0.47892242454477424,
      "grad_norm": 0.5220605413877938,
      "learning_rate": 1.2467305804254472e-05,
      "loss": 0.6233,
      "step": 480
    },
    {
      "epoch": 0.483911199800449,
      "grad_norm": 0.46987756163402217,
      "learning_rate": 1.2297990049892274e-05,
      "loss": 0.6224,
      "step": 485
    },
    {
      "epoch": 0.4888999750561237,
      "grad_norm": 0.4851271226507692,
      "learning_rate": 1.2127975858405096e-05,
      "loss": 0.6248,
      "step": 490
    },
    {
      "epoch": 0.49388875031179846,
      "grad_norm": 0.49812035008570954,
      "learning_rate": 1.1957314902872686e-05,
      "loss": 0.6162,
      "step": 495
    },
    {
      "epoch": 0.49887752556747317,
      "grad_norm": 0.4543789239256326,
      "learning_rate": 1.178605905294832e-05,
      "loss": 0.6191,
      "step": 500
    },
    {
      "epoch": 0.5038663008231479,
      "grad_norm": 0.49450863626445246,
      "learning_rate": 1.1614260359093869e-05,
      "loss": 0.6298,
      "step": 505
    },
    {
      "epoch": 0.5088550760788226,
      "grad_norm": 0.46204592956818197,
      "learning_rate": 1.144197103675988e-05,
      "loss": 0.6108,
      "step": 510
    },
    {
      "epoch": 0.5138438513344974,
      "grad_norm": 0.46446807942496315,
      "learning_rate": 1.1269243450515537e-05,
      "loss": 0.6255,
      "step": 515
    },
    {
      "epoch": 0.5188326265901722,
      "grad_norm": 0.4523344385336006,
      "learning_rate": 1.1096130098133296e-05,
      "loss": 0.621,
      "step": 520
    },
    {
      "epoch": 0.5238214018458468,
      "grad_norm": 0.5281185337565003,
      "learning_rate": 1.092268359463302e-05,
      "loss": 0.6181,
      "step": 525
    },
    {
      "epoch": 0.5288101771015216,
      "grad_norm": 0.5592357254092617,
      "learning_rate": 1.0748956656290512e-05,
      "loss": 0.625,
      "step": 530
    },
    {
      "epoch": 0.5337989523571963,
      "grad_norm": 0.49985683194766767,
      "learning_rate": 1.057500208461522e-05,
      "loss": 0.6088,
      "step": 535
    },
    {
      "epoch": 0.5387877276128711,
      "grad_norm": 0.5348402703139689,
      "learning_rate": 1.0400872750302095e-05,
      "loss": 0.6215,
      "step": 540
    },
    {
      "epoch": 0.5437765028685457,
      "grad_norm": 0.5016453093230498,
      "learning_rate": 1.0226621577162377e-05,
      "loss": 0.6067,
      "step": 545
    },
    {
      "epoch": 0.5487652781242205,
      "grad_norm": 0.5033968932851582,
      "learning_rate": 1.005230152603826e-05,
      "loss": 0.6056,
      "step": 550
    },
    {
      "epoch": 0.5537540533798953,
      "grad_norm": 0.4779633495557308,
      "learning_rate": 9.877965578706286e-06,
      "loss": 0.6158,
      "step": 555
    },
    {
      "epoch": 0.55874282863557,
      "grad_norm": 0.507768651916945,
      "learning_rate": 9.703666721774403e-06,
      "loss": 0.6168,
      "step": 560
    },
    {
      "epoch": 0.5637316038912447,
      "grad_norm": 0.4975220405187006,
      "learning_rate": 9.52945793057753e-06,
      "loss": 0.6133,
      "step": 565
    },
    {
      "epoch": 0.5687203791469194,
      "grad_norm": 0.567581970238524,
      "learning_rate": 9.355392153076541e-06,
      "loss": 0.6153,
      "step": 570
    },
    {
      "epoch": 0.5737091544025942,
      "grad_norm": 0.45994820207954157,
      "learning_rate": 9.18152229376561e-06,
      "loss": 0.6075,
      "step": 575
    },
    {
      "epoch": 0.5786979296582689,
      "grad_norm": 0.4776147923803636,
      "learning_rate": 9.007901197592722e-06,
      "loss": 0.6083,
      "step": 580
    },
    {
      "epoch": 0.5836867049139436,
      "grad_norm": 0.4458298111691603,
      "learning_rate": 8.834581633898307e-06,
      "loss": 0.6151,
      "step": 585
    },
    {
      "epoch": 0.5886754801696183,
      "grad_norm": 0.5015975267018272,
      "learning_rate": 8.661616280376846e-06,
      "loss": 0.6083,
      "step": 590
    },
    {
      "epoch": 0.5936642554252931,
      "grad_norm": 0.44736317209890847,
      "learning_rate": 8.489057707066335e-06,
      "loss": 0.6077,
      "step": 595
    },
    {
      "epoch": 0.5986530306809679,
      "grad_norm": 0.4542312795928054,
      "learning_rate": 8.316958360370462e-06,
      "loss": 0.6089,
      "step": 600
    },
    {
      "epoch": 0.6036418059366425,
      "grad_norm": 0.4669024055915673,
      "learning_rate": 8.145370547118374e-06,
      "loss": 0.614,
      "step": 605
    },
    {
      "epoch": 0.6086305811923173,
      "grad_norm": 0.460625150490194,
      "learning_rate": 7.974346418666854e-06,
      "loss": 0.6097,
      "step": 610
    },
    {
      "epoch": 0.613619356447992,
      "grad_norm": 0.45169077334743357,
      "learning_rate": 7.803937955049743e-06,
      "loss": 0.6134,
      "step": 615
    },
    {
      "epoch": 0.6186081317036668,
      "grad_norm": 0.5045442729073779,
      "learning_rate": 7.634196949179472e-06,
      "loss": 0.6056,
      "step": 620
    },
    {
      "epoch": 0.6235969069593414,
      "grad_norm": 0.4976507270581154,
      "learning_rate": 7.465174991105405e-06,
      "loss": 0.6087,
      "step": 625
    },
    {
      "epoch": 0.6285856822150162,
      "grad_norm": 0.47413589578954074,
      "learning_rate": 7.296923452333908e-06,
      "loss": 0.6073,
      "step": 630
    },
    {
      "epoch": 0.633574457470691,
      "grad_norm": 0.4468358705510705,
      "learning_rate": 7.129493470214775e-06,
      "loss": 0.6065,
      "step": 635
    },
    {
      "epoch": 0.6385632327263657,
      "grad_norm": 0.44813379558060285,
      "learning_rate": 6.962935932398862e-06,
      "loss": 0.5989,
      "step": 640
    },
    {
      "epoch": 0.6435520079820404,
      "grad_norm": 0.4267618712107622,
      "learning_rate": 6.797301461371626e-06,
      "loss": 0.5981,
      "step": 645
    },
    {
      "epoch": 0.6485407832377151,
      "grad_norm": 0.44491038507852154,
      "learning_rate": 6.632640399067197e-06,
      "loss": 0.602,
      "step": 650
    },
    {
      "epoch": 0.6535295584933899,
      "grad_norm": 0.455548462410925,
      "learning_rate": 6.469002791567792e-06,
      "loss": 0.6077,
      "step": 655
    },
    {
      "epoch": 0.6585183337490647,
      "grad_norm": 0.4655649758885719,
      "learning_rate": 6.306438373892985e-06,
      "loss": 0.6027,
      "step": 660
    },
    {
      "epoch": 0.6635071090047393,
      "grad_norm": 0.4603705069002276,
      "learning_rate": 6.144996554883556e-06,
      "loss": 0.6072,
      "step": 665
    },
    {
      "epoch": 0.6684958842604141,
      "grad_norm": 0.42809636369496656,
      "learning_rate": 5.98472640218449e-06,
      "loss": 0.5984,
      "step": 670
    },
    {
      "epoch": 0.6734846595160888,
      "grad_norm": 0.4311787554066561,
      "learning_rate": 5.825676627331614e-06,
      "loss": 0.5997,
      "step": 675
    },
    {
      "epoch": 0.6784734347717636,
      "grad_norm": 0.45825795981326356,
      "learning_rate": 5.667895570946554e-06,
      "loss": 0.6034,
      "step": 680
    },
    {
      "epoch": 0.6834622100274382,
      "grad_norm": 0.4167893564717864,
      "learning_rate": 5.5114311880443374e-06,
      "loss": 0.5975,
      "step": 685
    },
    {
      "epoch": 0.688450985283113,
      "grad_norm": 0.46394354368013807,
      "learning_rate": 5.356331033458276e-06,
      "loss": 0.6065,
      "step": 690
    },
    {
      "epoch": 0.6934397605387878,
      "grad_norm": 0.45003494825662715,
      "learning_rate": 5.202642247386409e-06,
      "loss": 0.6052,
      "step": 695
    },
    {
      "epoch": 0.6984285357944625,
      "grad_norm": 0.40702863232292363,
      "learning_rate": 5.0504115410640105e-06,
      "loss": 0.5985,
      "step": 700
    },
    {
      "epoch": 0.7034173110501372,
      "grad_norm": 0.42165174105900677,
      "learning_rate": 4.899685182566472e-06,
      "loss": 0.5917,
      "step": 705
    },
    {
      "epoch": 0.7084060863058119,
      "grad_norm": 0.5050037064515478,
      "learning_rate": 4.7505089827468335e-06,
      "loss": 0.5959,
      "step": 710
    },
    {
      "epoch": 0.7133948615614867,
      "grad_norm": 0.4558754163109762,
      "learning_rate": 4.602928281312351e-06,
      "loss": 0.5933,
      "step": 715
    },
    {
      "epoch": 0.7183836368171614,
      "grad_norm": 0.4071864016802162,
      "learning_rate": 4.456987933044185e-06,
      "loss": 0.5992,
      "step": 720
    },
    {
      "epoch": 0.7233724120728361,
      "grad_norm": 0.4248472014437075,
      "learning_rate": 4.3127322941645385e-06,
      "loss": 0.5937,
      "step": 725
    },
    {
      "epoch": 0.7283611873285109,
      "grad_norm": 0.40980252115955373,
      "learning_rate": 4.170205208855281e-06,
      "loss": 0.5968,
      "step": 730
    },
    {
      "epoch": 0.7333499625841856,
      "grad_norm": 0.4052569143394039,
      "learning_rate": 4.029449995932213e-06,
      "loss": 0.5926,
      "step": 735
    },
    {
      "epoch": 0.7383387378398603,
      "grad_norm": 0.41360853365570666,
      "learning_rate": 3.890509435679026e-06,
      "loss": 0.6021,
      "step": 740
    },
    {
      "epoch": 0.743327513095535,
      "grad_norm": 0.41835345554744635,
      "learning_rate": 3.7534257568448995e-06,
      "loss": 0.5952,
      "step": 745
    },
    {
      "epoch": 0.7483162883512098,
      "grad_norm": 0.401256370852048,
      "learning_rate": 3.6182406238097745e-06,
      "loss": 0.5972,
      "step": 750
    },
    {
      "epoch": 0.7533050636068845,
      "grad_norm": 0.4174244244132666,
      "learning_rate": 3.484995123921112e-06,
      "loss": 0.5945,
      "step": 755
    },
    {
      "epoch": 0.7582938388625592,
      "grad_norm": 0.4081805968439954,
      "learning_rate": 3.353729755006081e-06,
      "loss": 0.5952,
      "step": 760
    },
    {
      "epoch": 0.763282614118234,
      "grad_norm": 0.40126195224404465,
      "learning_rate": 3.2244844130628684e-06,
      "loss": 0.5869,
      "step": 765
    },
    {
      "epoch": 0.7682713893739087,
      "grad_norm": 0.4252743360297237,
      "learning_rate": 3.0972983801349464e-06,
      "loss": 0.6057,
      "step": 770
    },
    {
      "epoch": 0.7732601646295835,
      "grad_norm": 0.40849879013758245,
      "learning_rate": 2.9722103123719324e-06,
      "loss": 0.5987,
      "step": 775
    },
    {
      "epoch": 0.7782489398852581,
      "grad_norm": 0.4124888296503082,
      "learning_rate": 2.849258228280656e-06,
      "loss": 0.6048,
      "step": 780
    },
    {
      "epoch": 0.7832377151409329,
      "grad_norm": 0.408929858016356,
      "learning_rate": 2.728479497170066e-06,
      "loss": 0.591,
      "step": 785
    },
    {
      "epoch": 0.7882264903966076,
      "grad_norm": 0.40717905524554926,
      "learning_rate": 2.6099108277934105e-06,
      "loss": 0.5957,
      "step": 790
    },
    {
      "epoch": 0.7932152656522824,
      "grad_norm": 0.40906715914325326,
      "learning_rate": 2.4935882571912107e-06,
      "loss": 0.585,
      "step": 795
    },
    {
      "epoch": 0.798204040907957,
      "grad_norm": 0.39973439105002123,
      "learning_rate": 2.379547139738392e-06,
      "loss": 0.5881,
      "step": 800
    },
    {
      "epoch": 0.8031928161636318,
      "grad_norm": 0.39566194107090014,
      "learning_rate": 2.267822136398864e-06,
      "loss": 0.5948,
      "step": 805
    },
    {
      "epoch": 0.8081815914193066,
      "grad_norm": 0.3943529028329431,
      "learning_rate": 2.15844720419091e-06,
      "loss": 0.5928,
      "step": 810
    },
    {
      "epoch": 0.8131703666749813,
      "grad_norm": 0.396743086451483,
      "learning_rate": 2.0514555858664663e-06,
      "loss": 0.5955,
      "step": 815
    },
    {
      "epoch": 0.818159141930656,
      "grad_norm": 0.4158031464312053,
      "learning_rate": 1.9468797998075494e-06,
      "loss": 0.5938,
      "step": 820
    },
    {
      "epoch": 0.8231479171863307,
      "grad_norm": 0.4159354667890639,
      "learning_rate": 1.844751630142797e-06,
      "loss": 0.5811,
      "step": 825
    },
    {
      "epoch": 0.8281366924420055,
      "grad_norm": 0.38601272105412726,
      "learning_rate": 1.7451021170871974e-06,
      "loss": 0.5933,
      "step": 830
    },
    {
      "epoch": 0.8331254676976803,
      "grad_norm": 0.3986644463931031,
      "learning_rate": 1.6479615475079291e-06,
      "loss": 0.5892,
      "step": 835
    },
    {
      "epoch": 0.8381142429533549,
      "grad_norm": 0.40080909281458676,
      "learning_rate": 1.5533594457191326e-06,
      "loss": 0.5898,
      "step": 840
    },
    {
      "epoch": 0.8431030182090297,
      "grad_norm": 0.3942697489480343,
      "learning_rate": 1.4613245645084894e-06,
      "loss": 0.5863,
      "step": 845
    },
    {
      "epoch": 0.8480917934647044,
      "grad_norm": 0.39162896724772583,
      "learning_rate": 1.3718848763982596e-06,
      "loss": 0.5963,
      "step": 850
    },
    {
      "epoch": 0.8530805687203792,
      "grad_norm": 0.38744891578031804,
      "learning_rate": 1.2850675651434962e-06,
      "loss": 0.5931,
      "step": 855
    },
    {
      "epoch": 0.8580693439760538,
      "grad_norm": 0.3757895616733075,
      "learning_rate": 1.2008990174699685e-06,
      "loss": 0.5958,
      "step": 860
    },
    {
      "epoch": 0.8630581192317286,
      "grad_norm": 0.38105622554372953,
      "learning_rate": 1.1194048150543457e-06,
      "loss": 0.5928,
      "step": 865
    },
    {
      "epoch": 0.8680468944874034,
      "grad_norm": 0.38949843229532266,
      "learning_rate": 1.0406097267490644e-06,
      "loss": 0.5894,
      "step": 870
    },
    {
      "epoch": 0.8730356697430781,
      "grad_norm": 0.39133896634308507,
      "learning_rate": 9.645377010542212e-07,
      "loss": 0.5893,
      "step": 875
    },
    {
      "epoch": 0.8780244449987528,
      "grad_norm": 0.4015625907458179,
      "learning_rate": 8.91211858838823e-07,
      "loss": 0.5982,
      "step": 880
    },
    {
      "epoch": 0.8830132202544275,
      "grad_norm": 0.4047912248494648,
      "learning_rate": 8.206544863135612e-07,
      "loss": 0.5865,
      "step": 885
    },
    {
      "epoch": 0.8880019955101023,
      "grad_norm": 0.38503511137561774,
      "learning_rate": 7.528870282572864e-07,
      "loss": 0.5831,
      "step": 890
    },
    {
      "epoch": 0.892990770765777,
      "grad_norm": 0.387759644652555,
      "learning_rate": 6.879300814992007e-07,
      "loss": 0.5985,
      "step": 895
    },
    {
      "epoch": 0.8979795460214517,
      "grad_norm": 0.39050325202063846,
      "learning_rate": 6.258033886587911e-07,
      "loss": 0.5881,
      "step": 900
    },
    {
      "epoch": 0.9029683212771265,
      "grad_norm": 0.3870890888051975,
      "learning_rate": 5.66525832145377e-07,
      "loss": 0.5945,
      "step": 905
    },
    {
      "epoch": 0.9079570965328012,
      "grad_norm": 0.3856245616892951,
      "learning_rate": 5.101154284191035e-07,
      "loss": 0.5929,
      "step": 910
    },
    {
      "epoch": 0.912945871788476,
      "grad_norm": 0.3910109970295147,
      "learning_rate": 4.5658932251512856e-07,
      "loss": 0.6021,
      "step": 915
    },
    {
      "epoch": 0.9179346470441506,
      "grad_norm": 0.3676846272782438,
      "learning_rate": 4.059637828326657e-07,
      "loss": 0.5878,
      "step": 920
    },
    {
      "epoch": 0.9229234222998254,
      "grad_norm": 0.3819934536854667,
      "learning_rate": 3.5825419619046176e-07,
      "loss": 0.5936,
      "step": 925
    },
    {
      "epoch": 0.9279121975555001,
      "grad_norm": 0.3875995828243716,
      "learning_rate": 3.1347506315023036e-07,
      "loss": 0.6038,
      "step": 930
    },
    {
      "epoch": 0.9329009728111749,
      "grad_norm": 0.38002441832217876,
      "learning_rate": 2.716399936094294e-07,
      "loss": 0.5931,
      "step": 935
    },
    {
      "epoch": 0.9378897480668495,
      "grad_norm": 0.3848197669462124,
      "learning_rate": 2.327617026647533e-07,
      "loss": 0.595,
      "step": 940
    },
    {
      "epoch": 0.9428785233225243,
      "grad_norm": 0.38930339170989675,
      "learning_rate": 1.968520067475921e-07,
      "loss": 0.5938,
      "step": 945
    },
    {
      "epoch": 0.9478672985781991,
      "grad_norm": 0.3797874082101493,
      "learning_rate": 1.6392182003260427e-07,
      "loss": 0.5942,
      "step": 950
    },
    {
      "epoch": 0.9528560738338738,
      "grad_norm": 0.3803276424025686,
      "learning_rate": 1.3398115112054243e-07,
      "loss": 0.5876,
      "step": 955
    },
    {
      "epoch": 0.9578448490895485,
      "grad_norm": 0.3765573493263119,
      "learning_rate": 1.070390999962867e-07,
      "loss": 0.5922,
      "step": 960
    },
    {
      "epoch": 0.9628336243452232,
      "grad_norm": 0.3849948624629748,
      "learning_rate": 8.31038552630603e-08,
      "loss": 0.5945,
      "step": 965
    },
    {
      "epoch": 0.967822399600898,
      "grad_norm": 0.38879243314742995,
      "learning_rate": 6.218269165363166e-08,
      "loss": 0.5954,
      "step": 970
    },
    {
      "epoch": 0.9728111748565728,
      "grad_norm": 0.38003968946404176,
      "learning_rate": 4.42819678192774e-08,
      "loss": 0.5913,
      "step": 975
    },
    {
      "epoch": 0.9777999501122474,
      "grad_norm": 0.3869545513042188,
      "learning_rate": 2.9407124397169418e-08,
      "loss": 0.594,
      "step": 980
    },
    {
      "epoch": 0.9827887253679222,
      "grad_norm": 0.3851047915663657,
      "learning_rate": 1.7562682356786488e-08,
      "loss": 0.5925,
      "step": 985
    },
    {
      "epoch": 0.9877775006235969,
      "grad_norm": 0.38621262692876246,
      "learning_rate": 8.752241625831215e-09,
      "loss": 0.6004,
      "step": 990
    },
    {
      "epoch": 0.9927662758792717,
      "grad_norm": 0.3798867531020366,
      "learning_rate": 2.978479996098571e-09,
      "loss": 0.5909,
      "step": 995
    },
    {
      "epoch": 0.9977550511349463,
      "grad_norm": 0.38274768291794226,
      "learning_rate": 2.4315230959359726e-10,
      "loss": 0.5939,
      "step": 1000
    },
    {
      "epoch": 0.9997505612372163,
      "eval_loss": 0.5914663672447205,
      "eval_runtime": 139.1149,
      "eval_samples_per_second": 48.528,
      "eval_steps_per_second": 1.517,
      "step": 1002
    },
    {
      "epoch": 0.9997505612372163,
      "step": 1002,
      "total_flos": 838984280309760.0,
      "train_loss": 0.6422406448099666,
      "train_runtime": 10627.6191,
      "train_samples_per_second": 12.071,
      "train_steps_per_second": 0.094
    }
  ],
  "logging_steps": 5,
  "max_steps": 1002,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": false,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 838984280309760.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}