{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9997751405371643,
  "eval_steps": 500,
  "global_step": 2501,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00039975015615240474,
      "grad_norm": 20.49305969156486,
      "learning_rate": 0.0,
      "loss": 1.4182,
      "step": 1
    },
    {
      "epoch": 0.0007995003123048095,
      "grad_norm": 7.330716046588378,
      "learning_rate": 2.1274605355336317e-06,
      "loss": 1.1896,
      "step": 2
    },
    {
      "epoch": 0.0011992504684572142,
      "grad_norm": 7.321147643454242,
      "learning_rate": 3.3719451705849555e-06,
      "loss": 1.2164,
      "step": 3
    },
    {
      "epoch": 0.001599000624609619,
      "grad_norm": 7.042139118042208,
      "learning_rate": 4.254921071067263e-06,
      "loss": 1.1648,
      "step": 4
    },
    {
      "epoch": 0.0019987507807620237,
      "grad_norm": 6.373099042660797,
      "learning_rate": 4.939810388219653e-06,
      "loss": 1.1465,
      "step": 5
    },
    {
      "epoch": 0.0023985009369144284,
      "grad_norm": 5.62077818133428,
      "learning_rate": 5.499405706118587e-06,
      "loss": 1.0619,
      "step": 6
    },
    {
      "epoch": 0.002798251093066833,
      "grad_norm": 4.45535806939122,
      "learning_rate": 5.9725368059136466e-06,
      "loss": 1.0362,
      "step": 7
    },
    {
      "epoch": 0.003198001249219238,
      "grad_norm": 3.8132165605593507,
      "learning_rate": 6.382381606600895e-06,
      "loss": 1.0014,
      "step": 8
    },
    {
      "epoch": 0.0035977514053716427,
      "grad_norm": 3.9330068799244113,
      "learning_rate": 6.743890341169911e-06,
      "loss": 0.9904,
      "step": 9
    },
    {
      "epoch": 0.003997501561524047,
      "grad_norm": 2.9957750894753583,
      "learning_rate": 7.067270923753286e-06,
      "loss": 0.9742,
      "step": 10
    },
    {
      "epoch": 0.004397251717676453,
      "grad_norm": 3.415471551164685,
      "learning_rate": 7.359804244028083e-06,
      "loss": 0.9661,
      "step": 11
    },
    {
      "epoch": 0.004797001873828857,
      "grad_norm": 2.4512797847839005,
      "learning_rate": 7.626866241652219e-06,
      "loss": 0.9283,
      "step": 12
    },
    {
      "epoch": 0.005196752029981262,
      "grad_norm": 2.6317789513062326,
      "learning_rate": 7.87253946446637e-06,
      "loss": 0.9562,
      "step": 13
    },
    {
      "epoch": 0.005596502186133666,
      "grad_norm": 2.6999245489392827,
      "learning_rate": 8.099997341447279e-06,
      "loss": 0.941,
      "step": 14
    },
    {
      "epoch": 0.0059962523422860715,
      "grad_norm": 2.388119789544228,
      "learning_rate": 8.311755558804609e-06,
      "loss": 0.9228,
      "step": 15
    },
    {
      "epoch": 0.006396002498438476,
      "grad_norm": 2.581280877676045,
      "learning_rate": 8.509842142134527e-06,
      "loss": 0.9523,
      "step": 16
    },
    {
      "epoch": 0.006795752654590881,
      "grad_norm": 2.5089000485613586,
      "learning_rate": 8.695915885220267e-06,
      "loss": 0.9252,
      "step": 17
    },
    {
      "epoch": 0.007195502810743285,
      "grad_norm": 2.618137906743521,
      "learning_rate": 8.871350876703542e-06,
      "loss": 0.8894,
      "step": 18
    },
    {
      "epoch": 0.0075952529668956905,
      "grad_norm": 2.3417419716417913,
      "learning_rate": 9.037298142658738e-06,
      "loss": 0.8897,
      "step": 19
    },
    {
      "epoch": 0.007995003123048095,
      "grad_norm": 2.195867779648788,
      "learning_rate": 9.194731459286916e-06,
      "loss": 0.9039,
      "step": 20
    },
    {
      "epoch": 0.008394753279200499,
      "grad_norm": 2.0581100228446836,
      "learning_rate": 9.344481976498602e-06,
      "loss": 0.8556,
      "step": 21
    },
    {
      "epoch": 0.008794503435352905,
      "grad_norm": 2.4392407681043404,
      "learning_rate": 9.487264779561716e-06,
      "loss": 0.8812,
      "step": 22
    },
    {
      "epoch": 0.00919425359150531,
      "grad_norm": 2.2099866395571475,
      "learning_rate": 9.623699541552615e-06,
      "loss": 0.9446,
      "step": 23
    },
    {
      "epoch": 0.009594003747657714,
      "grad_norm": 2.1507205556387206,
      "learning_rate": 9.75432677718585e-06,
      "loss": 0.8886,
      "step": 24
    },
    {
      "epoch": 0.009993753903810118,
      "grad_norm": 2.3013014708320956,
      "learning_rate": 9.879620776439306e-06,
      "loss": 0.8529,
      "step": 25
    },
    {
      "epoch": 0.010393504059962524,
      "grad_norm": 2.285882449860825,
      "learning_rate": 1e-05,
      "loss": 0.8417,
      "step": 26
    },
    {
      "epoch": 0.010793254216114928,
      "grad_norm": 1.9915448915314513,
      "learning_rate": 1e-05,
      "loss": 0.8561,
      "step": 27
    },
    {
      "epoch": 0.011193004372267333,
      "grad_norm": 2.2696402850845043,
      "learning_rate": 1e-05,
      "loss": 0.8689,
      "step": 28
    },
    {
      "epoch": 0.011592754528419737,
      "grad_norm": 2.131012451749513,
      "learning_rate": 1e-05,
      "loss": 0.8567,
      "step": 29
    },
    {
      "epoch": 0.011992504684572143,
      "grad_norm": 2.096993220897277,
      "learning_rate": 1e-05,
      "loss": 0.8835,
      "step": 30
    },
    {
      "epoch": 0.012392254840724547,
      "grad_norm": 2.198269762976757,
      "learning_rate": 1e-05,
      "loss": 0.8862,
      "step": 31
    },
    {
      "epoch": 0.012792004996876952,
      "grad_norm": 2.0839825362133535,
      "learning_rate": 1e-05,
      "loss": 0.8875,
      "step": 32
    },
    {
      "epoch": 0.013191755153029356,
      "grad_norm": 1.9991800927145795,
      "learning_rate": 1e-05,
      "loss": 0.8445,
      "step": 33
    },
    {
      "epoch": 0.013591505309181762,
      "grad_norm": 2.0032411296850907,
      "learning_rate": 1e-05,
      "loss": 0.8764,
      "step": 34
    },
    {
      "epoch": 0.013991255465334166,
      "grad_norm": 1.9507918495293304,
      "learning_rate": 1e-05,
      "loss": 0.8582,
      "step": 35
    },
    {
      "epoch": 0.01439100562148657,
      "grad_norm": 2.0023997898203967,
      "learning_rate": 1e-05,
      "loss": 0.8519,
      "step": 36
    },
    {
      "epoch": 0.014790755777638975,
      "grad_norm": 2.0541803833578274,
      "learning_rate": 1e-05,
      "loss": 0.8421,
      "step": 37
    },
    {
      "epoch": 0.015190505933791381,
      "grad_norm": 1.938283236686647,
      "learning_rate": 1e-05,
      "loss": 0.8516,
      "step": 38
    },
    {
      "epoch": 0.015590256089943785,
      "grad_norm": 2.1456805772780516,
      "learning_rate": 1e-05,
      "loss": 0.8225,
      "step": 39
    },
    {
      "epoch": 0.01599000624609619,
      "grad_norm": 1.8806715378289758,
      "learning_rate": 1e-05,
      "loss": 0.8497,
      "step": 40
    },
    {
      "epoch": 0.016389756402248594,
      "grad_norm": 1.9522083836070796,
      "learning_rate": 1e-05,
      "loss": 0.8505,
      "step": 41
    },
    {
      "epoch": 0.016789506558400998,
      "grad_norm": 2.0610639175137995,
      "learning_rate": 1e-05,
      "loss": 0.854,
      "step": 42
    },
    {
      "epoch": 0.017189256714553403,
      "grad_norm": 2.4010930729432767,
      "learning_rate": 1e-05,
      "loss": 0.8615,
      "step": 43
    },
    {
      "epoch": 0.01758900687070581,
      "grad_norm": 2.0553296272990655,
      "learning_rate": 1e-05,
      "loss": 0.8648,
      "step": 44
    },
    {
      "epoch": 0.017988757026858215,
      "grad_norm": 2.252862113111941,
      "learning_rate": 1e-05,
      "loss": 0.8307,
      "step": 45
    },
    {
      "epoch": 0.01838850718301062,
      "grad_norm": 1.88104013439729,
      "learning_rate": 1e-05,
      "loss": 0.8256,
      "step": 46
    },
    {
      "epoch": 0.018788257339163023,
      "grad_norm": 2.0133210650698525,
      "learning_rate": 1e-05,
      "loss": 0.8453,
      "step": 47
    },
    {
      "epoch": 0.019188007495315428,
      "grad_norm": 1.9939902189053642,
      "learning_rate": 1e-05,
      "loss": 0.8619,
      "step": 48
    },
    {
      "epoch": 0.019587757651467832,
      "grad_norm": 1.9633142090028173,
      "learning_rate": 1e-05,
      "loss": 0.86,
      "step": 49
    },
    {
      "epoch": 0.019987507807620236,
      "grad_norm": 2.058843966951251,
      "learning_rate": 1e-05,
      "loss": 0.8311,
      "step": 50
    },
    {
      "epoch": 0.02038725796377264,
      "grad_norm": 2.05132864745567,
      "learning_rate": 1e-05,
      "loss": 0.8285,
      "step": 51
    },
    {
      "epoch": 0.020787008119925048,
      "grad_norm": 2.0941067459161378,
      "learning_rate": 1e-05,
      "loss": 0.877,
      "step": 52
    },
    {
      "epoch": 0.021186758276077453,
      "grad_norm": 2.0129143159738474,
      "learning_rate": 1e-05,
      "loss": 0.823,
      "step": 53
    },
    {
      "epoch": 0.021586508432229857,
      "grad_norm": 1.9842215206235763,
      "learning_rate": 1e-05,
      "loss": 0.8195,
      "step": 54
    },
    {
      "epoch": 0.02198625858838226,
      "grad_norm": 1.8543062862070547,
      "learning_rate": 1e-05,
      "loss": 0.8643,
      "step": 55
    },
    {
      "epoch": 0.022386008744534665,
      "grad_norm": 2.1174377231396075,
      "learning_rate": 1e-05,
      "loss": 0.8329,
      "step": 56
    },
    {
      "epoch": 0.02278575890068707,
      "grad_norm": 2.005630221141581,
      "learning_rate": 1e-05,
      "loss": 0.8236,
      "step": 57
    },
    {
      "epoch": 0.023185509056839474,
      "grad_norm": 1.9795318278321075,
      "learning_rate": 1e-05,
      "loss": 0.8057,
      "step": 58
    },
    {
      "epoch": 0.02358525921299188,
      "grad_norm": 2.017585835763583,
      "learning_rate": 1e-05,
      "loss": 0.8212,
      "step": 59
    },
    {
      "epoch": 0.023985009369144286,
      "grad_norm": 1.8425722271271452,
      "learning_rate": 1e-05,
      "loss": 0.818,
      "step": 60
    },
    {
      "epoch": 0.02438475952529669,
      "grad_norm": 1.9857819099716805,
      "learning_rate": 1e-05,
      "loss": 0.7973,
      "step": 61
    },
    {
      "epoch": 0.024784509681449095,
      "grad_norm": 2.0744991240215738,
      "learning_rate": 1e-05,
      "loss": 0.8019,
      "step": 62
    },
    {
      "epoch": 0.0251842598376015,
      "grad_norm": 1.8943917364477962,
      "learning_rate": 1e-05,
      "loss": 0.8552,
      "step": 63
    },
    {
      "epoch": 0.025584009993753903,
      "grad_norm": 1.9816027509430227,
      "learning_rate": 1e-05,
      "loss": 0.8269,
      "step": 64
    },
    {
      "epoch": 0.025983760149906308,
      "grad_norm": 1.9576425356250247,
      "learning_rate": 1e-05,
      "loss": 0.8304,
      "step": 65
    },
    {
      "epoch": 0.026383510306058712,
      "grad_norm": 1.9427350685537716,
      "learning_rate": 1e-05,
      "loss": 0.811,
      "step": 66
    },
    {
      "epoch": 0.02678326046221112,
      "grad_norm": 1.9357487317548925,
      "learning_rate": 1e-05,
      "loss": 0.825,
      "step": 67
    },
    {
      "epoch": 0.027183010618363524,
      "grad_norm": 1.762086283185755,
      "learning_rate": 1e-05,
      "loss": 0.7981,
      "step": 68
    },
    {
      "epoch": 0.02758276077451593,
      "grad_norm": 1.9388323406205603,
      "learning_rate": 1e-05,
      "loss": 0.8081,
      "step": 69
    },
    {
      "epoch": 0.027982510930668333,
      "grad_norm": 1.8258042605853673,
      "learning_rate": 1e-05,
      "loss": 0.8021,
      "step": 70
    },
    {
      "epoch": 0.028382261086820737,
      "grad_norm": 1.856150668605253,
      "learning_rate": 1e-05,
      "loss": 0.8051,
      "step": 71
    },
    {
      "epoch": 0.02878201124297314,
      "grad_norm": 1.8855813294300467,
      "learning_rate": 1e-05,
      "loss": 0.8117,
      "step": 72
    },
    {
      "epoch": 0.029181761399125546,
      "grad_norm": 2.0079801122839895,
      "learning_rate": 1e-05,
      "loss": 0.7964,
      "step": 73
    },
    {
      "epoch": 0.02958151155527795,
      "grad_norm": 2.0873757070352306,
      "learning_rate": 1e-05,
      "loss": 0.816,
      "step": 74
    },
    {
      "epoch": 0.029981261711430358,
      "grad_norm": 1.8907197391513775,
      "learning_rate": 1e-05,
      "loss": 0.8235,
      "step": 75
    },
    {
      "epoch": 0.030381011867582762,
      "grad_norm": 1.914652541775355,
      "learning_rate": 1e-05,
      "loss": 0.7986,
      "step": 76
    },
    {
      "epoch": 0.030780762023735166,
      "grad_norm": 1.7677395259116837,
      "learning_rate": 1e-05,
      "loss": 0.7986,
      "step": 77
    },
    {
      "epoch": 0.03118051217988757,
      "grad_norm": 1.9040858458030392,
      "learning_rate": 1e-05,
      "loss": 0.8107,
      "step": 78
    },
    {
      "epoch": 0.03158026233603998,
      "grad_norm": 2.0694145408812665,
      "learning_rate": 1e-05,
      "loss": 0.8074,
      "step": 79
    },
    {
      "epoch": 0.03198001249219238,
      "grad_norm": 2.0020681118574615,
      "learning_rate": 1e-05,
      "loss": 0.8386,
      "step": 80
    },
    {
      "epoch": 0.03237976264834479,
      "grad_norm": 2.004170360140752,
      "learning_rate": 1e-05,
      "loss": 0.7977,
      "step": 81
    },
    {
      "epoch": 0.03277951280449719,
      "grad_norm": 1.93749035776707,
      "learning_rate": 1e-05,
      "loss": 0.8548,
      "step": 82
    },
    {
      "epoch": 0.033179262960649596,
      "grad_norm": 1.9035434820317394,
      "learning_rate": 1e-05,
      "loss": 0.7785,
      "step": 83
    },
    {
      "epoch": 0.033579013116801996,
      "grad_norm": 1.9799617751704572,
      "learning_rate": 1e-05,
      "loss": 0.7879,
      "step": 84
    },
    {
      "epoch": 0.033978763272954404,
      "grad_norm": 1.8927709260092884,
      "learning_rate": 1e-05,
      "loss": 0.7612,
      "step": 85
    },
    {
      "epoch": 0.034378513429106805,
      "grad_norm": 2.2264229243266227,
      "learning_rate": 1e-05,
      "loss": 0.8269,
      "step": 86
    },
    {
      "epoch": 0.03477826358525921,
      "grad_norm": 1.876997565326989,
      "learning_rate": 1e-05,
      "loss": 0.8012,
      "step": 87
    },
    {
      "epoch": 0.03517801374141162,
      "grad_norm": 1.7809583166019867,
      "learning_rate": 1e-05,
      "loss": 0.8052,
      "step": 88
    },
    {
      "epoch": 0.03557776389756402,
      "grad_norm": 1.9712893391388047,
      "learning_rate": 1e-05,
      "loss": 0.7993,
      "step": 89
    },
    {
      "epoch": 0.03597751405371643,
      "grad_norm": 1.9372968741420127,
      "learning_rate": 1e-05,
      "loss": 0.8117,
      "step": 90
    },
    {
      "epoch": 0.03637726420986883,
      "grad_norm": 2.164836200403872,
      "learning_rate": 1e-05,
      "loss": 0.7864,
      "step": 91
    },
    {
      "epoch": 0.03677701436602124,
      "grad_norm": 1.7373997913716241,
      "learning_rate": 1e-05,
      "loss": 0.8251,
      "step": 92
    },
    {
      "epoch": 0.03717676452217364,
      "grad_norm": 2.103967084046517,
      "learning_rate": 1e-05,
      "loss": 0.8165,
      "step": 93
    },
    {
      "epoch": 0.037576514678326046,
      "grad_norm": 1.7879165031225093,
      "learning_rate": 1e-05,
      "loss": 0.7846,
      "step": 94
    },
    {
      "epoch": 0.037976264834478454,
      "grad_norm": 1.9660612554457355,
      "learning_rate": 1e-05,
      "loss": 0.7902,
      "step": 95
    },
    {
      "epoch": 0.038376014990630855,
      "grad_norm": 2.2137044073439562,
      "learning_rate": 1e-05,
      "loss": 0.8034,
      "step": 96
    },
    {
      "epoch": 0.03877576514678326,
      "grad_norm": 1.9958367800058237,
      "learning_rate": 1e-05,
      "loss": 0.7898,
      "step": 97
    },
    {
      "epoch": 0.039175515302935664,
      "grad_norm": 2.045824629222599,
      "learning_rate": 1e-05,
      "loss": 0.8099,
      "step": 98
    },
    {
      "epoch": 0.03957526545908807,
      "grad_norm": 1.8205572768000473,
      "learning_rate": 1e-05,
      "loss": 0.7681,
      "step": 99
    },
    {
      "epoch": 0.03997501561524047,
      "grad_norm": 1.7953721170489882,
      "learning_rate": 1e-05,
      "loss": 0.7785,
      "step": 100
    },
    {
      "epoch": 0.04037476577139288,
      "grad_norm": 2.0820275383295033,
      "learning_rate": 1e-05,
      "loss": 0.7796,
      "step": 101
    },
    {
      "epoch": 0.04077451592754528,
      "grad_norm": 1.8873082383685742,
      "learning_rate": 1e-05,
      "loss": 0.8114,
      "step": 102
    },
    {
      "epoch": 0.04117426608369769,
      "grad_norm": 1.835730525070756,
      "learning_rate": 1e-05,
      "loss": 0.7922,
      "step": 103
    },
    {
      "epoch": 0.041574016239850096,
      "grad_norm": 1.901905601702771,
      "learning_rate": 1e-05,
      "loss": 0.7897,
      "step": 104
    },
    {
      "epoch": 0.0419737663960025,
      "grad_norm": 1.9070024540497694,
      "learning_rate": 1e-05,
      "loss": 0.7873,
      "step": 105
    },
    {
      "epoch": 0.042373516552154905,
      "grad_norm": 1.8192542629843738,
      "learning_rate": 1e-05,
      "loss": 0.7964,
      "step": 106
    },
    {
      "epoch": 0.042773266708307306,
      "grad_norm": 1.761095319835913,
      "learning_rate": 1e-05,
      "loss": 0.8077,
      "step": 107
    },
    {
      "epoch": 0.043173016864459714,
      "grad_norm": 2.1923351222569782,
      "learning_rate": 1e-05,
      "loss": 0.7748,
      "step": 108
    },
    {
      "epoch": 0.043572767020612115,
      "grad_norm": 1.9443653068676072,
      "learning_rate": 1e-05,
      "loss": 0.7756,
      "step": 109
    },
    {
      "epoch": 0.04397251717676452,
      "grad_norm": 1.8685221447220506,
      "learning_rate": 1e-05,
      "loss": 0.7911,
      "step": 110
    },
    {
      "epoch": 0.04437226733291693,
      "grad_norm": 1.9558290712735347,
      "learning_rate": 1e-05,
      "loss": 0.8099,
      "step": 111
    },
    {
      "epoch": 0.04477201748906933,
      "grad_norm": 1.9636832330251544,
      "learning_rate": 1e-05,
      "loss": 0.8001,
      "step": 112
    },
    {
      "epoch": 0.04517176764522174,
      "grad_norm": 1.895809288568136,
      "learning_rate": 1e-05,
      "loss": 0.7885,
      "step": 113
    },
    {
      "epoch": 0.04557151780137414,
      "grad_norm": 1.845323434801175,
      "learning_rate": 1e-05,
      "loss": 0.8068,
      "step": 114
    },
    {
      "epoch": 0.04597126795752655,
      "grad_norm": 1.9124662277404483,
      "learning_rate": 1e-05,
      "loss": 0.7642,
      "step": 115
    },
    {
      "epoch": 0.04637101811367895,
      "grad_norm": 1.9205804627943646,
      "learning_rate": 1e-05,
      "loss": 0.7791,
      "step": 116
    },
    {
      "epoch": 0.046770768269831356,
      "grad_norm": 1.9085193765581783,
      "learning_rate": 1e-05,
      "loss": 0.7597,
      "step": 117
    },
    {
      "epoch": 0.04717051842598376,
      "grad_norm": 1.8565191092141953,
      "learning_rate": 1e-05,
      "loss": 0.77,
      "step": 118
    },
    {
      "epoch": 0.047570268582136165,
      "grad_norm": 1.8623906978111022,
      "learning_rate": 1e-05,
      "loss": 0.7972,
      "step": 119
    },
    {
      "epoch": 0.04797001873828857,
      "grad_norm": 1.7942447862510456,
      "learning_rate": 1e-05,
      "loss": 0.7559,
      "step": 120
    },
    {
      "epoch": 0.04836976889444097,
      "grad_norm": 1.7781705822911302,
      "learning_rate": 1e-05,
      "loss": 0.735,
      "step": 121
    },
    {
      "epoch": 0.04876951905059338,
      "grad_norm": 1.9080789385014194,
      "learning_rate": 1e-05,
      "loss": 0.7662,
      "step": 122
    },
    {
      "epoch": 0.04916926920674578,
      "grad_norm": 1.9559103045114001,
      "learning_rate": 1e-05,
      "loss": 0.8119,
      "step": 123
    },
    {
      "epoch": 0.04956901936289819,
      "grad_norm": 2.0458386261634174,
      "learning_rate": 1e-05,
      "loss": 0.8095,
      "step": 124
    },
    {
      "epoch": 0.04996876951905059,
      "grad_norm": 1.7193959524236515,
      "learning_rate": 1e-05,
      "loss": 0.7667,
      "step": 125
    },
    {
      "epoch": 0.050368519675203,
      "grad_norm": 2.0043593112214597,
      "learning_rate": 1e-05,
      "loss": 0.8034,
      "step": 126
    },
    {
      "epoch": 0.050768269831355406,
      "grad_norm": 1.9691307524793709,
      "learning_rate": 1e-05,
      "loss": 0.7948,
      "step": 127
    },
    {
      "epoch": 0.05116801998750781,
      "grad_norm": 2.442306637036888,
      "learning_rate": 1e-05,
      "loss": 0.8028,
      "step": 128
    },
    {
      "epoch": 0.051567770143660215,
      "grad_norm": 1.9006459134463918,
      "learning_rate": 1e-05,
      "loss": 0.7989,
      "step": 129
    },
    {
      "epoch": 0.051967520299812615,
      "grad_norm": 1.807646099197651,
      "learning_rate": 1e-05,
      "loss": 0.8066,
      "step": 130
    },
    {
      "epoch": 0.05236727045596502,
      "grad_norm": 1.7919636523405418,
      "learning_rate": 1e-05,
      "loss": 0.7785,
      "step": 131
    },
    {
      "epoch": 0.052767020612117424,
      "grad_norm": 2.1382546374278144,
      "learning_rate": 1e-05,
      "loss": 0.7665,
      "step": 132
    },
    {
      "epoch": 0.05316677076826983,
      "grad_norm": 1.7126355395648236,
      "learning_rate": 1e-05,
      "loss": 0.779,
      "step": 133
    },
    {
      "epoch": 0.05356652092442224,
      "grad_norm": 1.9486409099148192,
      "learning_rate": 1e-05,
      "loss": 0.7854,
      "step": 134
    },
    {
      "epoch": 0.05396627108057464,
      "grad_norm": 1.856636192444084,
      "learning_rate": 1e-05,
      "loss": 0.8027,
      "step": 135
    },
    {
      "epoch": 0.05436602123672705,
      "grad_norm": 1.8409653130504444,
      "learning_rate": 1e-05,
      "loss": 0.788,
      "step": 136
    },
    {
      "epoch": 0.05476577139287945,
      "grad_norm": 1.8456316642730528,
      "learning_rate": 1e-05,
      "loss": 0.7893,
      "step": 137
    },
    {
      "epoch": 0.05516552154903186,
      "grad_norm": 1.893870143924111,
      "learning_rate": 1e-05,
      "loss": 0.7742,
      "step": 138
    },
    {
      "epoch": 0.05556527170518426,
      "grad_norm": 1.7851716737977943,
      "learning_rate": 1e-05,
      "loss": 0.7821,
      "step": 139
    },
    {
      "epoch": 0.055965021861336665,
      "grad_norm": 1.9163991428985931,
      "learning_rate": 1e-05,
      "loss": 0.7771,
      "step": 140
    },
    {
      "epoch": 0.056364772017489066,
      "grad_norm": 1.7729240812506877,
      "learning_rate": 1e-05,
      "loss": 0.7737,
      "step": 141
    },
    {
      "epoch": 0.056764522173641474,
      "grad_norm": 1.9533839773081412,
      "learning_rate": 1e-05,
      "loss": 0.7896,
      "step": 142
    },
    {
      "epoch": 0.05716427232979388,
      "grad_norm": 2.059146874663336,
      "learning_rate": 1e-05,
      "loss": 0.7775,
      "step": 143
    },
    {
      "epoch": 0.05756402248594628,
      "grad_norm": 1.8716466315013232,
      "learning_rate": 1e-05,
      "loss": 0.7862,
      "step": 144
    },
    {
      "epoch": 0.05796377264209869,
      "grad_norm": 1.7315117230755348,
      "learning_rate": 1e-05,
      "loss": 0.7442,
      "step": 145
    },
    {
      "epoch": 0.05836352279825109,
      "grad_norm": 1.9093542317576682,
      "learning_rate": 1e-05,
      "loss": 0.7938,
      "step": 146
    },
    {
      "epoch": 0.0587632729544035,
      "grad_norm": 1.8299015050560241,
      "learning_rate": 1e-05,
      "loss": 0.8154,
      "step": 147
    },
    {
      "epoch": 0.0591630231105559,
      "grad_norm": 1.8511486177493874,
      "learning_rate": 1e-05,
      "loss": 0.7474,
      "step": 148
    },
    {
      "epoch": 0.05956277326670831,
      "grad_norm": 1.726034591984239,
      "learning_rate": 1e-05,
      "loss": 0.7696,
      "step": 149
    },
    {
      "epoch": 0.059962523422860715,
      "grad_norm": 1.9745205141708089,
      "learning_rate": 1e-05,
      "loss": 0.7668,
      "step": 150
    },
    {
      "epoch": 0.060362273579013116,
      "grad_norm": 2.0153787723235457,
      "learning_rate": 1e-05,
      "loss": 0.7906,
      "step": 151
    },
    {
      "epoch": 0.060762023735165524,
      "grad_norm": 2.0024313532634253,
      "learning_rate": 1e-05,
      "loss": 0.7872,
      "step": 152
    },
    {
      "epoch": 0.061161773891317925,
      "grad_norm": 1.910303886692456,
      "learning_rate": 1e-05,
      "loss": 0.7611,
      "step": 153
    },
    {
      "epoch": 0.06156152404747033,
      "grad_norm": 1.9910728628826024,
      "learning_rate": 1e-05,
      "loss": 0.7607,
      "step": 154
    },
    {
      "epoch": 0.061961274203622733,
      "grad_norm": 1.773308730622125,
      "learning_rate": 1e-05,
      "loss": 0.7675,
      "step": 155
    },
    {
      "epoch": 0.06236102435977514,
      "grad_norm": 1.9042186583336005,
      "learning_rate": 1e-05,
      "loss": 0.7887,
      "step": 156
    },
    {
      "epoch": 0.06276077451592754,
      "grad_norm": 1.7970382241982197,
      "learning_rate": 1e-05,
      "loss": 0.8083,
      "step": 157
    },
    {
      "epoch": 0.06316052467207996,
      "grad_norm": 2.0618496928392336,
      "learning_rate": 1e-05,
      "loss": 0.7758,
      "step": 158
    },
    {
      "epoch": 0.06356027482823236,
      "grad_norm": 1.6782428670916578,
      "learning_rate": 1e-05,
      "loss": 0.7843,
      "step": 159
    },
    {
      "epoch": 0.06396002498438476,
      "grad_norm": 1.8747884846908416,
      "learning_rate": 1e-05,
      "loss": 0.8043,
      "step": 160
    },
    {
      "epoch": 0.06435977514053716,
      "grad_norm": 1.9882944264354268,
      "learning_rate": 1e-05,
      "loss": 0.7596,
      "step": 161
    },
    {
      "epoch": 0.06475952529668957,
      "grad_norm": 1.7424985676143874,
      "learning_rate": 1e-05,
      "loss": 0.7759,
      "step": 162
    },
    {
      "epoch": 0.06515927545284197,
      "grad_norm": 1.88902955763096,
      "learning_rate": 1e-05,
      "loss": 0.8183,
      "step": 163
    },
    {
      "epoch": 0.06555902560899438,
      "grad_norm": 1.8424384081061504,
      "learning_rate": 1e-05,
      "loss": 0.8126,
      "step": 164
    },
    {
      "epoch": 0.06595877576514678,
      "grad_norm": 1.8392542050061131,
      "learning_rate": 1e-05,
      "loss": 0.7627,
      "step": 165
    },
    {
      "epoch": 0.06635852592129919,
      "grad_norm": 1.7725523241415098,
      "learning_rate": 1e-05,
      "loss": 0.7612,
      "step": 166
    },
    {
      "epoch": 0.06675827607745159,
      "grad_norm": 1.8978163803239059,
      "learning_rate": 1e-05,
      "loss": 0.7731,
      "step": 167
    },
    {
      "epoch": 0.06715802623360399,
      "grad_norm": 1.9268158549529644,
      "learning_rate": 1e-05,
      "loss": 0.8194,
      "step": 168
    },
    {
      "epoch": 0.06755777638975641,
      "grad_norm": 1.787163780210799,
      "learning_rate": 1e-05,
      "loss": 0.7456,
      "step": 169
    },
    {
      "epoch": 0.06795752654590881,
      "grad_norm": 1.9212309864130894,
      "learning_rate": 1e-05,
      "loss": 0.7946,
      "step": 170
    },
    {
      "epoch": 0.06835727670206121,
      "grad_norm": 1.6745954899703261,
      "learning_rate": 1e-05,
      "loss": 0.7712,
      "step": 171
    },
    {
      "epoch": 0.06875702685821361,
      "grad_norm": 1.6548990237082766,
      "learning_rate": 1e-05,
      "loss": 0.7608,
      "step": 172
    },
    {
      "epoch": 0.06915677701436602,
      "grad_norm": 1.7066764268551864,
      "learning_rate": 1e-05,
      "loss": 0.7562,
      "step": 173
    },
    {
      "epoch": 0.06955652717051843,
      "grad_norm": 1.8934288438820415,
      "learning_rate": 1e-05,
      "loss": 0.789,
      "step": 174
    },
    {
      "epoch": 0.06995627732667083,
      "grad_norm": 1.6558314975526751,
      "learning_rate": 1e-05,
      "loss": 0.7528,
      "step": 175
    },
    {
      "epoch": 0.07035602748282324,
      "grad_norm": 1.8647980627706955,
      "learning_rate": 1e-05,
      "loss": 0.7857,
      "step": 176
    },
    {
      "epoch": 0.07075577763897564,
      "grad_norm": 1.9113795712120902,
      "learning_rate": 1e-05,
      "loss": 0.7698,
      "step": 177
    },
    {
      "epoch": 0.07115552779512804,
      "grad_norm": 1.708624338124717,
      "learning_rate": 1e-05,
      "loss": 0.7754,
      "step": 178
    },
    {
      "epoch": 0.07155527795128044,
      "grad_norm": 1.7837669426992997,
      "learning_rate": 1e-05,
      "loss": 0.7744,
      "step": 179
    },
    {
      "epoch": 0.07195502810743286,
      "grad_norm": 1.9541288292237773,
      "learning_rate": 1e-05,
      "loss": 0.7688,
      "step": 180
    },
    {
      "epoch": 0.07235477826358526,
      "grad_norm": 1.8354570166591098,
      "learning_rate": 1e-05,
      "loss": 0.764,
      "step": 181
    },
    {
      "epoch": 0.07275452841973766,
      "grad_norm": 1.7198432702542275,
      "learning_rate": 1e-05,
      "loss": 0.746,
      "step": 182
    },
    {
      "epoch": 0.07315427857589007,
      "grad_norm": 1.690926126627673,
      "learning_rate": 1e-05,
      "loss": 0.7212,
      "step": 183
    },
    {
      "epoch": 0.07355402873204248,
      "grad_norm": 1.840024109126263,
      "learning_rate": 1e-05,
      "loss": 0.7791,
      "step": 184
    },
    {
      "epoch": 0.07395377888819488,
      "grad_norm": 2.1813163490660346,
      "learning_rate": 1e-05,
      "loss": 0.7682,
      "step": 185
    },
    {
      "epoch": 0.07435352904434728,
      "grad_norm": 2.0059916531504256,
      "learning_rate": 1e-05,
      "loss": 0.7873,
      "step": 186
    },
    {
      "epoch": 0.07475327920049969,
      "grad_norm": 1.785317603384044,
      "learning_rate": 1e-05,
      "loss": 0.7525,
      "step": 187
    },
    {
      "epoch": 0.07515302935665209,
      "grad_norm": 1.66578052363457,
      "learning_rate": 1e-05,
      "loss": 0.7691,
      "step": 188
    },
    {
      "epoch": 0.0755527795128045,
      "grad_norm": 2.085591303538594,
      "learning_rate": 1e-05,
      "loss": 0.7661,
      "step": 189
    },
    {
      "epoch": 0.07595252966895691,
      "grad_norm": 1.9333664918443236,
      "learning_rate": 1e-05,
      "loss": 0.7673,
      "step": 190
    },
    {
      "epoch": 0.07635227982510931,
      "grad_norm": 1.6793304720610025,
      "learning_rate": 1e-05,
      "loss": 0.7597,
      "step": 191
    },
    {
      "epoch": 0.07675202998126171,
      "grad_norm": 1.7807419843055707,
      "learning_rate": 1e-05,
      "loss": 0.7503,
      "step": 192
    },
    {
      "epoch": 0.07715178013741411,
      "grad_norm": 1.9825002719545026,
      "learning_rate": 1e-05,
      "loss": 0.7652,
      "step": 193
    },
    {
      "epoch": 0.07755153029356653,
      "grad_norm": 1.8756773387703474,
      "learning_rate": 1e-05,
      "loss": 0.7439,
      "step": 194
    },
    {
      "epoch": 0.07795128044971893,
      "grad_norm": 1.877400743721843,
      "learning_rate": 1e-05,
      "loss": 0.7663,
      "step": 195
    },
    {
      "epoch": 0.07835103060587133,
      "grad_norm": 1.8300973932630702,
      "learning_rate": 1e-05,
      "loss": 0.731,
      "step": 196
    },
    {
      "epoch": 0.07875078076202373,
      "grad_norm": 2.191823085861119,
      "learning_rate": 1e-05,
      "loss": 0.7877,
      "step": 197
    },
    {
      "epoch": 0.07915053091817614,
      "grad_norm": 1.934336222470183,
      "learning_rate": 1e-05,
      "loss": 0.758,
      "step": 198
    },
    {
      "epoch": 0.07955028107432854,
      "grad_norm": 1.818012668966327,
      "learning_rate": 1e-05,
      "loss": 0.7864,
      "step": 199
    },
    {
      "epoch": 0.07995003123048094,
      "grad_norm": 1.7838781487709665,
      "learning_rate": 1e-05,
      "loss": 0.7326,
      "step": 200
    },
    {
      "epoch": 0.08034978138663336,
      "grad_norm": 1.7579946402246913,
      "learning_rate": 1e-05,
      "loss": 0.7557,
      "step": 201
    },
    {
      "epoch": 0.08074953154278576,
      "grad_norm": 1.6373640538333298,
      "learning_rate": 1e-05,
      "loss": 0.7442,
      "step": 202
    },
    {
      "epoch": 0.08114928169893816,
      "grad_norm": 2.0953357187949533,
      "learning_rate": 1e-05,
      "loss": 0.7901,
      "step": 203
    },
    {
      "epoch": 0.08154903185509056,
      "grad_norm": 1.818240510263338,
      "learning_rate": 1e-05,
      "loss": 0.7743,
      "step": 204
    },
    {
      "epoch": 0.08194878201124298,
      "grad_norm": 1.7992700017474075,
      "learning_rate": 1e-05,
      "loss": 0.7507,
      "step": 205
    },
    {
      "epoch": 0.08234853216739538,
      "grad_norm": 1.8432926011112343,
      "learning_rate": 1e-05,
      "loss": 0.7573,
      "step": 206
    },
    {
      "epoch": 0.08274828232354778,
      "grad_norm": 1.7641388467536971,
      "learning_rate": 1e-05,
      "loss": 0.7599,
      "step": 207
    },
    {
      "epoch": 0.08314803247970019,
      "grad_norm": 1.9224306436640597,
      "learning_rate": 1e-05,
      "loss": 0.7654,
      "step": 208
    },
    {
      "epoch": 0.0835477826358526,
      "grad_norm": 1.9265893486944095,
      "learning_rate": 1e-05,
      "loss": 0.7785,
      "step": 209
    },
    {
      "epoch": 0.083947532792005,
      "grad_norm": 1.7515112147020495,
      "learning_rate": 1e-05,
      "loss": 0.778,
      "step": 210
    },
    {
      "epoch": 0.0843472829481574,
      "grad_norm": 1.7253461384598547,
      "learning_rate": 1e-05,
      "loss": 0.7559,
      "step": 211
    },
    {
      "epoch": 0.08474703310430981,
      "grad_norm": 1.7644580313587848,
      "learning_rate": 1e-05,
      "loss": 0.7976,
      "step": 212
    },
    {
      "epoch": 0.08514678326046221,
      "grad_norm": 1.796444865594844,
      "learning_rate": 1e-05,
      "loss": 0.7607,
      "step": 213
    },
    {
      "epoch": 0.08554653341661461,
      "grad_norm": 1.923645776726996,
      "learning_rate": 1e-05,
      "loss": 0.7563,
      "step": 214
    },
    {
      "epoch": 0.08594628357276703,
      "grad_norm": 1.7898995204859942,
      "learning_rate": 1e-05,
      "loss": 0.7591,
      "step": 215
    },
    {
      "epoch": 0.08634603372891943,
      "grad_norm": 1.9132681455622773,
      "learning_rate": 1e-05,
      "loss": 0.7908,
      "step": 216
    },
    {
      "epoch": 0.08674578388507183,
      "grad_norm": 1.9408258573699626,
      "learning_rate": 1e-05,
      "loss": 0.7529,
      "step": 217
    },
    {
      "epoch": 0.08714553404122423,
      "grad_norm": 2.0250444566567585,
      "learning_rate": 1e-05,
      "loss": 0.7734,
      "step": 218
    },
    {
      "epoch": 0.08754528419737664,
      "grad_norm": 1.7042606741823627,
      "learning_rate": 1e-05,
      "loss": 0.7689,
      "step": 219
    },
    {
      "epoch": 0.08794503435352904,
      "grad_norm": 1.804375629033402,
      "learning_rate": 1e-05,
      "loss": 0.7663,
      "step": 220
    },
    {
      "epoch": 0.08834478450968145,
      "grad_norm": 1.719065253896477,
      "learning_rate": 1e-05,
      "loss": 0.7575,
      "step": 221
    },
    {
      "epoch": 0.08874453466583386,
      "grad_norm": 1.9170142162325856,
      "learning_rate": 1e-05,
      "loss": 0.7443,
      "step": 222
    },
    {
      "epoch": 0.08914428482198626,
      "grad_norm": 2.167829571458521,
      "learning_rate": 1e-05,
      "loss": 0.7736,
      "step": 223
    },
    {
      "epoch": 0.08954403497813866,
      "grad_norm": 1.8180129308089426,
      "learning_rate": 1e-05,
      "loss": 0.7247,
      "step": 224
    },
    {
      "epoch": 0.08994378513429106,
      "grad_norm": 2.0077387807741682,
      "learning_rate": 1e-05,
      "loss": 0.7841,
      "step": 225
    },
    {
      "epoch": 0.09034353529044348,
      "grad_norm": 1.9476454091546247,
      "learning_rate": 1e-05,
      "loss": 0.7708,
      "step": 226
    },
    {
      "epoch": 0.09074328544659588,
      "grad_norm": 1.8150183190591023,
      "learning_rate": 1e-05,
      "loss": 0.7882,
      "step": 227
    },
    {
      "epoch": 0.09114303560274828,
      "grad_norm": 1.825574564296733,
      "learning_rate": 1e-05,
      "loss": 0.7339,
      "step": 228
    },
    {
      "epoch": 0.0915427857589007,
      "grad_norm": 1.90097509730215,
      "learning_rate": 1e-05,
      "loss": 0.7274,
      "step": 229
    },
    {
      "epoch": 0.0919425359150531,
      "grad_norm": 1.612789504161699,
      "learning_rate": 1e-05,
      "loss": 0.7607,
      "step": 230
    },
    {
      "epoch": 0.0923422860712055,
      "grad_norm": 1.8700041950426023,
      "learning_rate": 1e-05,
      "loss": 0.7686,
      "step": 231
    },
    {
      "epoch": 0.0927420362273579,
      "grad_norm": 1.8730773700415138,
      "learning_rate": 1e-05,
      "loss": 0.7844,
      "step": 232
    },
    {
      "epoch": 0.09314178638351031,
      "grad_norm": 1.789451142376696,
      "learning_rate": 1e-05,
      "loss": 0.7582,
      "step": 233
    },
    {
      "epoch": 0.09354153653966271,
      "grad_norm": 2.0366415001326255,
      "learning_rate": 1e-05,
      "loss": 0.7688,
      "step": 234
    },
    {
      "epoch": 0.09394128669581511,
      "grad_norm": 1.8785704977758508,
      "learning_rate": 1e-05,
      "loss": 0.7751,
      "step": 235
    },
    {
      "epoch": 0.09434103685196751,
      "grad_norm": 1.8657843446807385,
      "learning_rate": 1e-05,
      "loss": 0.7445,
      "step": 236
    },
    {
      "epoch": 0.09474078700811993,
      "grad_norm": 1.8110620108745092,
      "learning_rate": 1e-05,
      "loss": 0.7559,
      "step": 237
    },
    {
      "epoch": 0.09514053716427233,
      "grad_norm": 1.813423108037721,
      "learning_rate": 1e-05,
      "loss": 0.7758,
      "step": 238
    },
    {
      "epoch": 0.09554028732042473,
      "grad_norm": 1.6870109539038214,
      "learning_rate": 1e-05,
      "loss": 0.7563,
      "step": 239
    },
    {
      "epoch": 0.09594003747657714,
      "grad_norm": 1.6794326679644342,
      "learning_rate": 1e-05,
      "loss": 0.7542,
      "step": 240
    },
    {
      "epoch": 0.09633978763272955,
      "grad_norm": 1.7291398633671156,
      "learning_rate": 1e-05,
      "loss": 0.7472,
      "step": 241
    },
    {
      "epoch": 0.09673953778888195,
      "grad_norm": 1.8150081900021922,
      "learning_rate": 1e-05,
      "loss": 0.7615,
      "step": 242
    },
    {
      "epoch": 0.09713928794503435,
      "grad_norm": 1.8361638491195955,
      "learning_rate": 1e-05,
      "loss": 0.7302,
      "step": 243
    },
    {
      "epoch": 0.09753903810118676,
      "grad_norm": 1.7131746902697016,
      "learning_rate": 1e-05,
      "loss": 0.7163,
      "step": 244
    },
    {
      "epoch": 0.09793878825733916,
      "grad_norm": 1.7394013093173353,
      "learning_rate": 1e-05,
      "loss": 0.7484,
      "step": 245
    },
    {
      "epoch": 0.09833853841349156,
      "grad_norm": 1.7382955893830934,
      "learning_rate": 1e-05,
      "loss": 0.731,
      "step": 246
    },
    {
      "epoch": 0.09873828856964398,
      "grad_norm": 1.591332274183285,
      "learning_rate": 1e-05,
      "loss": 0.7469,
      "step": 247
    },
    {
      "epoch": 0.09913803872579638,
      "grad_norm": 1.849558190431649,
      "learning_rate": 1e-05,
      "loss": 0.7823,
      "step": 248
    },
    {
      "epoch": 0.09953778888194878,
      "grad_norm": 1.7288395334512376,
      "learning_rate": 1e-05,
      "loss": 0.7266,
      "step": 249
    },
    {
      "epoch": 0.09993753903810118,
      "grad_norm": 1.7916277321121894,
      "learning_rate": 1e-05,
      "loss": 0.7333,
      "step": 250
    },
    {
      "epoch": 0.1003372891942536,
      "grad_norm": 1.951768988796811,
      "learning_rate": 1e-05,
      "loss": 0.7455,
      "step": 251
    },
    {
      "epoch": 0.100737039350406,
      "grad_norm": 1.8480747554482382,
      "learning_rate": 1e-05,
      "loss": 0.7667,
      "step": 252
    },
    {
      "epoch": 0.1011367895065584,
      "grad_norm": 1.7853888921029415,
      "learning_rate": 1e-05,
      "loss": 0.7417,
      "step": 253
    },
    {
      "epoch": 0.10153653966271081,
      "grad_norm": 1.6144668644093096,
      "learning_rate": 1e-05,
      "loss": 0.7432,
      "step": 254
    },
    {
      "epoch": 0.10193628981886321,
      "grad_norm": 1.7433753438308537,
      "learning_rate": 1e-05,
      "loss": 0.7483,
      "step": 255
    },
    {
      "epoch": 0.10233603997501561,
      "grad_norm": 1.8443396116078046,
      "learning_rate": 1e-05,
      "loss": 0.7503,
      "step": 256
    },
    {
      "epoch": 0.10273579013116801,
      "grad_norm": 1.6623251505229968,
      "learning_rate": 1e-05,
      "loss": 0.7303,
      "step": 257
    },
    {
      "epoch": 0.10313554028732043,
      "grad_norm": 1.811015845672286,
      "learning_rate": 1e-05,
      "loss": 0.72,
      "step": 258
    },
    {
      "epoch": 0.10353529044347283,
      "grad_norm": 1.8003776396099338,
      "learning_rate": 1e-05,
      "loss": 0.7898,
      "step": 259
    },
    {
      "epoch": 0.10393504059962523,
      "grad_norm": 1.7026358585160868,
      "learning_rate": 1e-05,
      "loss": 0.7086,
      "step": 260
    },
    {
      "epoch": 0.10433479075577765,
      "grad_norm": 1.6118259886706663,
      "learning_rate": 1e-05,
      "loss": 0.7317,
      "step": 261
    },
    {
      "epoch": 0.10473454091193005,
      "grad_norm": 1.687489683149658,
      "learning_rate": 1e-05,
      "loss": 0.7732,
      "step": 262
    },
    {
      "epoch": 0.10513429106808245,
      "grad_norm": 1.7758082535749165,
      "learning_rate": 1e-05,
      "loss": 0.7191,
      "step": 263
    },
    {
      "epoch": 0.10553404122423485,
      "grad_norm": 1.8675218530132252,
      "learning_rate": 1e-05,
      "loss": 0.705,
      "step": 264
    },
    {
      "epoch": 0.10593379138038726,
      "grad_norm": 1.6596228807431015,
      "learning_rate": 1e-05,
      "loss": 0.7465,
      "step": 265
    },
    {
      "epoch": 0.10633354153653966,
      "grad_norm": 1.8870779583644572,
      "learning_rate": 1e-05,
      "loss": 0.7438,
      "step": 266
    },
    {
      "epoch": 0.10673329169269206,
      "grad_norm": 1.9202164795013357,
      "learning_rate": 1e-05,
      "loss": 0.782,
      "step": 267
    },
    {
      "epoch": 0.10713304184884448,
      "grad_norm": 1.6885020046294203,
      "learning_rate": 1e-05,
      "loss": 0.7378,
      "step": 268
    },
    {
      "epoch": 0.10753279200499688,
      "grad_norm": 1.8588819855719518,
      "learning_rate": 1e-05,
      "loss": 0.7372,
      "step": 269
    },
    {
      "epoch": 0.10793254216114928,
      "grad_norm": 1.8881781185651012,
      "learning_rate": 1e-05,
      "loss": 0.7375,
      "step": 270
    },
    {
      "epoch": 0.10833229231730168,
      "grad_norm": 1.7543582312931452,
      "learning_rate": 1e-05,
      "loss": 0.7543,
      "step": 271
    },
    {
      "epoch": 0.1087320424734541,
      "grad_norm": 1.6728798721678328,
      "learning_rate": 1e-05,
      "loss": 0.739,
      "step": 272
    },
    {
      "epoch": 0.1091317926296065,
      "grad_norm": 1.5537457356601752,
      "learning_rate": 1e-05,
      "loss": 0.7519,
      "step": 273
    },
    {
      "epoch": 0.1095315427857589,
      "grad_norm": 1.839860951481289,
      "learning_rate": 1e-05,
      "loss": 0.7727,
      "step": 274
    },
    {
      "epoch": 0.1099312929419113,
      "grad_norm": 1.818095042056017,
      "learning_rate": 1e-05,
      "loss": 0.7688,
      "step": 275
    },
    {
      "epoch": 0.11033104309806371,
      "grad_norm": 1.7469107717321677,
      "learning_rate": 1e-05,
      "loss": 0.7031,
      "step": 276
    },
    {
      "epoch": 0.11073079325421611,
      "grad_norm": 1.7968840389078484,
      "learning_rate": 1e-05,
      "loss": 0.7571,
      "step": 277
    },
    {
      "epoch": 0.11113054341036852,
      "grad_norm": 2.097489128535502,
      "learning_rate": 1e-05,
      "loss": 0.7691,
      "step": 278
    },
    {
      "epoch": 0.11153029356652093,
      "grad_norm": 1.684156035092815,
      "learning_rate": 1e-05,
      "loss": 0.7213,
      "step": 279
    },
    {
      "epoch": 0.11193004372267333,
      "grad_norm": 1.915192125304011,
      "learning_rate": 1e-05,
      "loss": 0.7522,
      "step": 280
    },
    {
      "epoch": 0.11232979387882573,
      "grad_norm": 1.7153595481816089,
      "learning_rate": 1e-05,
      "loss": 0.7269,
      "step": 281
    },
    {
      "epoch": 0.11272954403497813,
      "grad_norm": 1.8475125229397118,
      "learning_rate": 1e-05,
      "loss": 0.7614,
      "step": 282
    },
    {
      "epoch": 0.11312929419113055,
      "grad_norm": 1.651581058362321,
      "learning_rate": 1e-05,
      "loss": 0.7409,
      "step": 283
    },
    {
      "epoch": 0.11352904434728295,
      "grad_norm": 1.7583689863719578,
      "learning_rate": 1e-05,
      "loss": 0.7626,
      "step": 284
    },
    {
      "epoch": 0.11392879450343535,
      "grad_norm": 1.854945857967458,
      "learning_rate": 1e-05,
      "loss": 0.7498,
      "step": 285
    },
    {
      "epoch": 0.11432854465958776,
      "grad_norm": 1.787520375979372,
      "learning_rate": 1e-05,
      "loss": 0.7336,
      "step": 286
    },
    {
      "epoch": 0.11472829481574016,
      "grad_norm": 1.9427147424122047,
      "learning_rate": 1e-05,
      "loss": 0.7534,
      "step": 287
    },
    {
      "epoch": 0.11512804497189257,
      "grad_norm": 1.839760699809648,
      "learning_rate": 1e-05,
      "loss": 0.7332,
      "step": 288
    },
    {
      "epoch": 0.11552779512804497,
      "grad_norm": 1.7013698990185053,
      "learning_rate": 1e-05,
      "loss": 0.7338,
      "step": 289
    },
    {
      "epoch": 0.11592754528419738,
      "grad_norm": 1.7904047094553541,
      "learning_rate": 1e-05,
      "loss": 0.7509,
      "step": 290
    },
    {
      "epoch": 0.11632729544034978,
      "grad_norm": 1.6407823994313049,
      "learning_rate": 1e-05,
      "loss": 0.7006,
      "step": 291
    },
    {
      "epoch": 0.11672704559650218,
      "grad_norm": 1.7258864639717897,
      "learning_rate": 1e-05,
      "loss": 0.7457,
      "step": 292
    },
    {
      "epoch": 0.1171267957526546,
      "grad_norm": 1.8768560598599613,
      "learning_rate": 1e-05,
      "loss": 0.7216,
      "step": 293
    },
    {
      "epoch": 0.117526545908807,
      "grad_norm": 1.6933651098306757,
      "learning_rate": 1e-05,
      "loss": 0.7438,
      "step": 294
    },
    {
      "epoch": 0.1179262960649594,
      "grad_norm": 1.9384348390182065,
      "learning_rate": 1e-05,
      "loss": 0.7515,
      "step": 295
    },
    {
      "epoch": 0.1183260462211118,
      "grad_norm": 1.730352739047815,
      "learning_rate": 1e-05,
      "loss": 0.7509,
      "step": 296
    },
    {
      "epoch": 0.11872579637726421,
      "grad_norm": 1.5605786536715323,
      "learning_rate": 1e-05,
      "loss": 0.7508,
      "step": 297
    },
    {
      "epoch": 0.11912554653341662,
      "grad_norm": 1.7956570366632274,
      "learning_rate": 1e-05,
      "loss": 0.7588,
      "step": 298
    },
    {
      "epoch": 0.11952529668956902,
      "grad_norm": 1.8571730546772567,
      "learning_rate": 1e-05,
      "loss": 0.7534,
      "step": 299
    },
    {
      "epoch": 0.11992504684572143,
      "grad_norm": 1.7471169408396183,
      "learning_rate": 1e-05,
      "loss": 0.722,
      "step": 300
    },
    {
      "epoch": 0.12032479700187383,
      "grad_norm": 1.643862543810522,
      "learning_rate": 1e-05,
      "loss": 0.7499,
      "step": 301
    },
    {
      "epoch": 0.12072454715802623,
      "grad_norm": 1.8153568488691674,
      "learning_rate": 1e-05,
      "loss": 0.7685,
      "step": 302
    },
    {
      "epoch": 0.12112429731417863,
      "grad_norm": 2.0266515620841994,
      "learning_rate": 1e-05,
      "loss": 0.7472,
      "step": 303
    },
    {
      "epoch": 0.12152404747033105,
      "grad_norm": 1.7300413873666527,
      "learning_rate": 1e-05,
      "loss": 0.7162,
      "step": 304
    },
    {
      "epoch": 0.12192379762648345,
      "grad_norm": 1.8695972028228023,
      "learning_rate": 1e-05,
      "loss": 0.7566,
      "step": 305
    },
    {
      "epoch": 0.12232354778263585,
      "grad_norm": 1.6957236933319897,
      "learning_rate": 1e-05,
      "loss": 0.7469,
      "step": 306
    },
    {
      "epoch": 0.12272329793878825,
      "grad_norm": 1.964652612869123,
      "learning_rate": 1e-05,
      "loss": 0.7114,
      "step": 307
    },
    {
      "epoch": 0.12312304809494067,
      "grad_norm": 1.9467347963517243,
      "learning_rate": 1e-05,
      "loss": 0.7507,
      "step": 308
    },
    {
      "epoch": 0.12352279825109307,
      "grad_norm": 1.754601899154298,
      "learning_rate": 1e-05,
      "loss": 0.7559,
      "step": 309
    },
    {
      "epoch": 0.12392254840724547,
      "grad_norm": 1.5738351681491465,
      "learning_rate": 1e-05,
      "loss": 0.7541,
      "step": 310
    },
    {
      "epoch": 0.12432229856339788,
      "grad_norm": 1.7276439279370663,
      "learning_rate": 1e-05,
      "loss": 0.7432,
      "step": 311
    },
    {
      "epoch": 0.12472204871955028,
      "grad_norm": 1.7858645697744164,
      "learning_rate": 1e-05,
      "loss": 0.7419,
      "step": 312
    },
    {
      "epoch": 0.12512179887570268,
      "grad_norm": 1.7107254402619305,
      "learning_rate": 1e-05,
      "loss": 0.7476,
      "step": 313
    },
    {
      "epoch": 0.12552154903185508,
      "grad_norm": 1.7413570998227024,
      "learning_rate": 1e-05,
      "loss": 0.7319,
      "step": 314
    },
    {
      "epoch": 0.12592129918800749,
      "grad_norm": 1.739839089521152,
      "learning_rate": 1e-05,
      "loss": 0.7368,
      "step": 315
    },
    {
      "epoch": 0.1263210493441599,
      "grad_norm": 1.6554869984764495,
      "learning_rate": 1e-05,
      "loss": 0.7359,
      "step": 316
    },
    {
      "epoch": 0.12672079950031231,
      "grad_norm": 1.8681454553616739,
      "learning_rate": 1e-05,
      "loss": 0.7241,
      "step": 317
    },
    {
      "epoch": 0.12712054965646472,
      "grad_norm": 1.6891104723652408,
      "learning_rate": 1e-05,
      "loss": 0.7404,
      "step": 318
    },
    {
      "epoch": 0.12752029981261712,
      "grad_norm": 1.7651586417608864,
      "learning_rate": 1e-05,
      "loss": 0.7358,
      "step": 319
    },
    {
      "epoch": 0.12792004996876952,
      "grad_norm": 1.7706027062691332,
      "learning_rate": 1e-05,
      "loss": 0.7384,
      "step": 320
    },
    {
      "epoch": 0.12831980012492192,
      "grad_norm": 1.7669951006995865,
      "learning_rate": 1e-05,
      "loss": 0.7557,
      "step": 321
    },
    {
      "epoch": 0.12871955028107432,
      "grad_norm": 1.7374641195243086,
      "learning_rate": 1e-05,
      "loss": 0.7536,
      "step": 322
    },
    {
      "epoch": 0.12911930043722672,
      "grad_norm": 1.7718327410614154,
      "learning_rate": 1e-05,
      "loss": 0.7568,
      "step": 323
    },
    {
      "epoch": 0.12951905059337915,
      "grad_norm": 1.6903029883711453,
      "learning_rate": 1e-05,
      "loss": 0.7403,
      "step": 324
    },
    {
      "epoch": 0.12991880074953155,
      "grad_norm": 1.6216335167098181,
      "learning_rate": 1e-05,
      "loss": 0.7187,
      "step": 325
    },
    {
      "epoch": 0.13031855090568395,
      "grad_norm": 1.7498856630913506,
      "learning_rate": 1e-05,
      "loss": 0.7226,
      "step": 326
    },
    {
      "epoch": 0.13071830106183635,
      "grad_norm": 1.9981020060404384,
      "learning_rate": 1e-05,
      "loss": 0.7481,
      "step": 327
    },
    {
      "epoch": 0.13111805121798875,
      "grad_norm": 1.9378277044944963,
      "learning_rate": 1e-05,
      "loss": 0.7031,
      "step": 328
    },
    {
      "epoch": 0.13151780137414115,
      "grad_norm": 1.7649099056702466,
      "learning_rate": 1e-05,
      "loss": 0.7137,
      "step": 329
    },
    {
      "epoch": 0.13191755153029355,
      "grad_norm": 1.8856685645043738,
      "learning_rate": 1e-05,
      "loss": 0.7253,
      "step": 330
    },
    {
      "epoch": 0.13231730168644598,
      "grad_norm": 1.762055999577426,
      "learning_rate": 1e-05,
      "loss": 0.7101,
      "step": 331
    },
    {
      "epoch": 0.13271705184259838,
      "grad_norm": 1.828438550523217,
      "learning_rate": 1e-05,
      "loss": 0.7682,
      "step": 332
    },
    {
      "epoch": 0.13311680199875078,
      "grad_norm": 1.8709516343975598,
      "learning_rate": 1e-05,
      "loss": 0.7286,
      "step": 333
    },
    {
      "epoch": 0.13351655215490318,
      "grad_norm": 1.8166860764767307,
      "learning_rate": 1e-05,
      "loss": 0.7444,
      "step": 334
    },
    {
      "epoch": 0.13391630231105559,
      "grad_norm": 1.8133478188244072,
      "learning_rate": 1e-05,
      "loss": 0.7337,
      "step": 335
    },
    {
      "epoch": 0.13431605246720799,
      "grad_norm": 1.7098049882415904,
      "learning_rate": 1e-05,
      "loss": 0.7606,
      "step": 336
    },
    {
      "epoch": 0.1347158026233604,
      "grad_norm": 1.8042498156572027,
      "learning_rate": 1e-05,
      "loss": 0.7209,
      "step": 337
    },
    {
      "epoch": 0.13511555277951282,
      "grad_norm": 1.766675275845431,
      "learning_rate": 1e-05,
      "loss": 0.733,
      "step": 338
    },
    {
      "epoch": 0.13551530293566522,
      "grad_norm": 1.5775337664797868,
      "learning_rate": 1e-05,
      "loss": 0.7393,
      "step": 339
    },
    {
      "epoch": 0.13591505309181762,
      "grad_norm": 1.8694840010964464,
      "learning_rate": 1e-05,
      "loss": 0.7408,
      "step": 340
    },
    {
      "epoch": 0.13631480324797002,
      "grad_norm": 1.8096873691213606,
      "learning_rate": 1e-05,
      "loss": 0.7534,
      "step": 341
    },
    {
      "epoch": 0.13671455340412242,
      "grad_norm": 1.6502580567233411,
      "learning_rate": 1e-05,
      "loss": 0.7578,
      "step": 342
    },
    {
      "epoch": 0.13711430356027482,
      "grad_norm": 1.9614037564929945,
      "learning_rate": 1e-05,
      "loss": 0.7527,
      "step": 343
    },
    {
      "epoch": 0.13751405371642722,
      "grad_norm": 1.7406847882666459,
      "learning_rate": 1e-05,
      "loss": 0.728,
      "step": 344
    },
    {
      "epoch": 0.13791380387257965,
      "grad_norm": 1.7467007483110952,
      "learning_rate": 1e-05,
      "loss": 0.7822,
      "step": 345
    },
    {
      "epoch": 0.13831355402873205,
      "grad_norm": 1.636374471771333,
      "learning_rate": 1e-05,
      "loss": 0.7072,
      "step": 346
    },
    {
      "epoch": 0.13871330418488445,
      "grad_norm": 1.7450009337828545,
      "learning_rate": 1e-05,
      "loss": 0.7408,
      "step": 347
    },
    {
      "epoch": 0.13911305434103685,
      "grad_norm": 1.7733047643229822,
      "learning_rate": 1e-05,
      "loss": 0.7351,
      "step": 348
    },
    {
      "epoch": 0.13951280449718925,
      "grad_norm": 1.5632540389480507,
      "learning_rate": 1e-05,
      "loss": 0.7163,
      "step": 349
    },
    {
      "epoch": 0.13991255465334165,
      "grad_norm": 1.7497987546986988,
      "learning_rate": 1e-05,
      "loss": 0.7099,
      "step": 350
    },
    {
      "epoch": 0.14031230480949405,
      "grad_norm": 1.877658821880813,
      "learning_rate": 1e-05,
      "loss": 0.7325,
      "step": 351
    },
    {
      "epoch": 0.14071205496564648,
      "grad_norm": 1.80689927217722,
      "learning_rate": 1e-05,
      "loss": 0.7521,
      "step": 352
    },
    {
      "epoch": 0.14111180512179888,
      "grad_norm": 1.6714900011440958,
      "learning_rate": 1e-05,
      "loss": 0.7059,
      "step": 353
    },
    {
      "epoch": 0.14151155527795128,
      "grad_norm": 1.7761617433182106,
      "learning_rate": 1e-05,
      "loss": 0.7512,
      "step": 354
    },
    {
      "epoch": 0.14191130543410369,
      "grad_norm": 1.5846830539999572,
      "learning_rate": 1e-05,
      "loss": 0.7177,
      "step": 355
    },
    {
      "epoch": 0.14231105559025609,
      "grad_norm": 1.7026271275393148,
      "learning_rate": 1e-05,
      "loss": 0.7848,
      "step": 356
    },
    {
      "epoch": 0.1427108057464085,
      "grad_norm": 1.9987327727678361,
      "learning_rate": 1e-05,
      "loss": 0.7384,
      "step": 357
    },
    {
      "epoch": 0.1431105559025609,
      "grad_norm": 1.7768209090409974,
      "learning_rate": 1e-05,
      "loss": 0.7595,
      "step": 358
    },
    {
      "epoch": 0.14351030605871332,
      "grad_norm": 1.7294587567815942,
      "learning_rate": 1e-05,
      "loss": 0.748,
      "step": 359
    },
    {
      "epoch": 0.14391005621486572,
      "grad_norm": 1.7157436724018256,
      "learning_rate": 1e-05,
      "loss": 0.7251,
      "step": 360
    },
    {
      "epoch": 0.14430980637101812,
      "grad_norm": 1.6919299132012044,
      "learning_rate": 1e-05,
      "loss": 0.7494,
      "step": 361
    },
    {
      "epoch": 0.14470955652717052,
      "grad_norm": 1.9487713576268444,
      "learning_rate": 1e-05,
      "loss": 0.7647,
      "step": 362
    },
    {
      "epoch": 0.14510930668332292,
      "grad_norm": 1.7717709064587774,
      "learning_rate": 1e-05,
      "loss": 0.7483,
      "step": 363
    },
    {
      "epoch": 0.14550905683947532,
      "grad_norm": 1.826111140171263,
      "learning_rate": 1e-05,
      "loss": 0.7316,
      "step": 364
    },
    {
      "epoch": 0.14590880699562772,
      "grad_norm": 1.7077617303500272,
      "learning_rate": 1e-05,
      "loss": 0.7291,
      "step": 365
    },
    {
      "epoch": 0.14630855715178015,
      "grad_norm": 1.6929822357165039,
      "learning_rate": 1e-05,
      "loss": 0.7094,
      "step": 366
    },
    {
      "epoch": 0.14670830730793255,
      "grad_norm": 1.7799064662033766,
      "learning_rate": 1e-05,
      "loss": 0.7032,
      "step": 367
    },
    {
      "epoch": 0.14710805746408495,
      "grad_norm": 1.9407578734339872,
      "learning_rate": 1e-05,
      "loss": 0.7209,
      "step": 368
    },
    {
      "epoch": 0.14750780762023735,
      "grad_norm": 1.846205276266303,
      "learning_rate": 1e-05,
      "loss": 0.7347,
      "step": 369
    },
    {
      "epoch": 0.14790755777638975,
      "grad_norm": 1.7609310818626878,
      "learning_rate": 1e-05,
      "loss": 0.7351,
      "step": 370
    },
    {
      "epoch": 0.14830730793254215,
      "grad_norm": 1.9547981352586152,
      "learning_rate": 1e-05,
      "loss": 0.756,
      "step": 371
    },
    {
      "epoch": 0.14870705808869455,
      "grad_norm": 1.6663524213904166,
      "learning_rate": 1e-05,
      "loss": 0.6945,
      "step": 372
    },
    {
      "epoch": 0.14910680824484698,
      "grad_norm": 1.6756134212050295,
      "learning_rate": 1e-05,
      "loss": 0.7288,
      "step": 373
    },
    {
      "epoch": 0.14950655840099938,
      "grad_norm": 1.665071902309102,
      "learning_rate": 1e-05,
      "loss": 0.719,
      "step": 374
    },
    {
      "epoch": 0.14990630855715179,
      "grad_norm": 1.8821094644917384,
      "learning_rate": 1e-05,
      "loss": 0.7153,
      "step": 375
    },
    {
      "epoch": 0.15030605871330419,
      "grad_norm": 1.7349354443363862,
      "learning_rate": 1e-05,
      "loss": 0.7403,
      "step": 376
    },
    {
      "epoch": 0.1507058088694566,
      "grad_norm": 1.8715395478585213,
      "learning_rate": 1e-05,
      "loss": 0.7558,
      "step": 377
    },
    {
      "epoch": 0.151105559025609,
      "grad_norm": 1.536985494820639,
      "learning_rate": 1e-05,
      "loss": 0.7449,
      "step": 378
    },
    {
      "epoch": 0.1515053091817614,
      "grad_norm": 1.9135657153674617,
      "learning_rate": 1e-05,
      "loss": 0.7246,
      "step": 379
    },
    {
      "epoch": 0.15190505933791382,
      "grad_norm": 1.7466435425500306,
      "learning_rate": 1e-05,
      "loss": 0.7228,
      "step": 380
    },
    {
      "epoch": 0.15230480949406622,
      "grad_norm": 1.935804167886462,
      "learning_rate": 1e-05,
      "loss": 0.7254,
      "step": 381
    },
    {
      "epoch": 0.15270455965021862,
      "grad_norm": 1.6943920848252694,
      "learning_rate": 1e-05,
      "loss": 0.7356,
      "step": 382
    },
    {
      "epoch": 0.15310430980637102,
      "grad_norm": 1.745868295554399,
      "learning_rate": 1e-05,
      "loss": 0.7593,
      "step": 383
    },
    {
      "epoch": 0.15350405996252342,
      "grad_norm": 1.5387888465052533,
      "learning_rate": 1e-05,
      "loss": 0.7101,
      "step": 384
    },
    {
      "epoch": 0.15390381011867582,
      "grad_norm": 1.8279851287117728,
      "learning_rate": 1e-05,
      "loss": 0.722,
      "step": 385
    },
    {
      "epoch": 0.15430356027482822,
      "grad_norm": 1.65926804523217,
      "learning_rate": 1e-05,
      "loss": 0.7043,
      "step": 386
    },
    {
      "epoch": 0.15470331043098065,
      "grad_norm": 1.7096265688566235,
      "learning_rate": 1e-05,
      "loss": 0.7708,
      "step": 387
    },
    {
      "epoch": 0.15510306058713305,
      "grad_norm": 1.8353383265795475,
      "learning_rate": 1e-05,
      "loss": 0.707,
      "step": 388
    },
    {
      "epoch": 0.15550281074328545,
      "grad_norm": 1.644177791326519,
      "learning_rate": 1e-05,
      "loss": 0.6977,
      "step": 389
    },
    {
      "epoch": 0.15590256089943785,
      "grad_norm": 2.0162773198212465,
      "learning_rate": 1e-05,
      "loss": 0.7283,
      "step": 390
    },
    {
      "epoch": 0.15630231105559025,
      "grad_norm": 1.7156851400233653,
      "learning_rate": 1e-05,
      "loss": 0.7621,
      "step": 391
    },
    {
      "epoch": 0.15670206121174265,
      "grad_norm": 1.746666582280692,
      "learning_rate": 1e-05,
      "loss": 0.7283,
      "step": 392
    },
    {
      "epoch": 0.15710181136789506,
      "grad_norm": 1.700245674213327,
      "learning_rate": 1e-05,
      "loss": 0.7413,
      "step": 393
    },
    {
      "epoch": 0.15750156152404746,
      "grad_norm": 1.5707175246962728,
      "learning_rate": 1e-05,
      "loss": 0.7165,
      "step": 394
    },
    {
      "epoch": 0.15790131168019989,
      "grad_norm": 1.8426851478113166,
      "learning_rate": 1e-05,
      "loss": 0.7145,
      "step": 395
    },
    {
      "epoch": 0.15830106183635229,
      "grad_norm": 1.9121782471702617,
      "learning_rate": 1e-05,
      "loss": 0.743,
      "step": 396
    },
    {
      "epoch": 0.1587008119925047,
      "grad_norm": 1.7267257965465013,
      "learning_rate": 1e-05,
      "loss": 0.7433,
      "step": 397
    },
    {
      "epoch": 0.1591005621486571,
      "grad_norm": 1.7845785180167302,
      "learning_rate": 1e-05,
      "loss": 0.7576,
      "step": 398
    },
    {
      "epoch": 0.1595003123048095,
      "grad_norm": 1.8133386674315963,
      "learning_rate": 1e-05,
      "loss": 0.7351,
      "step": 399
    },
    {
      "epoch": 0.1599000624609619,
      "grad_norm": 1.9950614054341174,
      "learning_rate": 1e-05,
      "loss": 0.7232,
      "step": 400
    },
    {
      "epoch": 0.1602998126171143,
      "grad_norm": 1.7603978213636795,
      "learning_rate": 1e-05,
      "loss": 0.7433,
      "step": 401
    },
    {
      "epoch": 0.16069956277326672,
      "grad_norm": 1.8715479771420234,
      "learning_rate": 1e-05,
      "loss": 0.7428,
      "step": 402
    },
    {
      "epoch": 0.16109931292941912,
      "grad_norm": 1.8781914834132714,
      "learning_rate": 1e-05,
      "loss": 0.7171,
      "step": 403
    },
    {
      "epoch": 0.16149906308557152,
      "grad_norm": 1.7449463436984658,
      "learning_rate": 1e-05,
      "loss": 0.7414,
      "step": 404
    },
    {
      "epoch": 0.16189881324172392,
      "grad_norm": 1.799920554292975,
      "learning_rate": 1e-05,
      "loss": 0.7067,
      "step": 405
    },
    {
      "epoch": 0.16229856339787632,
      "grad_norm": 1.6900564144444201,
      "learning_rate": 1e-05,
      "loss": 0.7285,
      "step": 406
    },
    {
      "epoch": 0.16269831355402872,
      "grad_norm": 1.8142683018038417,
      "learning_rate": 1e-05,
      "loss": 0.7143,
      "step": 407
    },
    {
      "epoch": 0.16309806371018112,
      "grad_norm": 1.8781680232131117,
      "learning_rate": 1e-05,
      "loss": 0.6836,
      "step": 408
    },
    {
      "epoch": 0.16349781386633355,
      "grad_norm": 1.6170388197860064,
      "learning_rate": 1e-05,
      "loss": 0.7152,
      "step": 409
    },
    {
      "epoch": 0.16389756402248595,
      "grad_norm": 1.745490334538419,
      "learning_rate": 1e-05,
      "loss": 0.7771,
      "step": 410
    },
    {
      "epoch": 0.16429731417863835,
      "grad_norm": 1.5520887400584737,
      "learning_rate": 1e-05,
      "loss": 0.6734,
      "step": 411
    },
    {
      "epoch": 0.16469706433479075,
      "grad_norm": 1.8078365491328756,
      "learning_rate": 1e-05,
      "loss": 0.7215,
      "step": 412
    },
    {
      "epoch": 0.16509681449094316,
      "grad_norm": 1.7759643729895804,
      "learning_rate": 1e-05,
      "loss": 0.754,
      "step": 413
    },
    {
      "epoch": 0.16549656464709556,
      "grad_norm": 1.8421416622311213,
      "learning_rate": 1e-05,
      "loss": 0.6815,
      "step": 414
    },
    {
      "epoch": 0.16589631480324796,
      "grad_norm": 1.7395580401358068,
      "learning_rate": 1e-05,
      "loss": 0.7142,
      "step": 415
    },
    {
      "epoch": 0.16629606495940039,
      "grad_norm": 1.7953085435676785,
      "learning_rate": 1e-05,
      "loss": 0.7375,
      "step": 416
    },
    {
      "epoch": 0.1666958151155528,
      "grad_norm": 1.9233872571565698,
      "learning_rate": 1e-05,
      "loss": 0.774,
      "step": 417
    },
    {
      "epoch": 0.1670955652717052,
      "grad_norm": 1.7415787542718266,
      "learning_rate": 1e-05,
      "loss": 0.7195,
      "step": 418
    },
    {
      "epoch": 0.1674953154278576,
      "grad_norm": 1.8127193042183636,
      "learning_rate": 1e-05,
      "loss": 0.7498,
      "step": 419
    },
    {
      "epoch": 0.16789506558401,
      "grad_norm": 1.7382277427494657,
      "learning_rate": 1e-05,
      "loss": 0.6896,
      "step": 420
    },
    {
      "epoch": 0.1682948157401624,
      "grad_norm": 1.7790170948339075,
      "learning_rate": 1e-05,
      "loss": 0.7061,
      "step": 421
    },
    {
      "epoch": 0.1686945658963148,
      "grad_norm": 1.526541701867486,
      "learning_rate": 1e-05,
      "loss": 0.7396,
      "step": 422
    },
    {
      "epoch": 0.16909431605246722,
      "grad_norm": 1.690667786439268,
      "learning_rate": 1e-05,
      "loss": 0.7347,
      "step": 423
    },
    {
      "epoch": 0.16949406620861962,
      "grad_norm": 1.7617050265008887,
      "learning_rate": 1e-05,
      "loss": 0.7448,
      "step": 424
    },
    {
      "epoch": 0.16989381636477202,
      "grad_norm": 1.8200250205787152,
      "learning_rate": 1e-05,
      "loss": 0.7134,
      "step": 425
    },
    {
      "epoch": 0.17029356652092442,
      "grad_norm": 1.7787812049652842,
      "learning_rate": 1e-05,
      "loss": 0.7436,
      "step": 426
    },
    {
      "epoch": 0.17069331667707682,
      "grad_norm": 1.6938370230246556,
      "learning_rate": 1e-05,
      "loss": 0.7407,
      "step": 427
    },
    {
      "epoch": 0.17109306683322922,
      "grad_norm": 1.8459063265257856,
      "learning_rate": 1e-05,
      "loss": 0.7189,
      "step": 428
    },
    {
      "epoch": 0.17149281698938162,
      "grad_norm": 1.8216836145707946,
      "learning_rate": 1e-05,
      "loss": 0.7574,
      "step": 429
    },
    {
      "epoch": 0.17189256714553405,
      "grad_norm": 1.8130092901510682,
      "learning_rate": 1e-05,
      "loss": 0.7105,
      "step": 430
    },
    {
      "epoch": 0.17229231730168645,
      "grad_norm": 1.7241403854492727,
      "learning_rate": 1e-05,
      "loss": 0.713,
      "step": 431
    },
    {
      "epoch": 0.17269206745783885,
      "grad_norm": 2.0322663902540135,
      "learning_rate": 1e-05,
      "loss": 0.7267,
      "step": 432
    },
    {
      "epoch": 0.17309181761399126,
      "grad_norm": 1.788857840226604,
      "learning_rate": 1e-05,
      "loss": 0.7223,
      "step": 433
    },
    {
      "epoch": 0.17349156777014366,
      "grad_norm": 1.8025790608522094,
      "learning_rate": 1e-05,
      "loss": 0.732,
      "step": 434
    },
    {
      "epoch": 0.17389131792629606,
      "grad_norm": 1.7318666899945445,
      "learning_rate": 1e-05,
      "loss": 0.6884,
      "step": 435
    },
    {
      "epoch": 0.17429106808244846,
      "grad_norm": 1.7240294837434107,
      "learning_rate": 1e-05,
      "loss": 0.7248,
      "step": 436
    },
    {
      "epoch": 0.1746908182386009,
      "grad_norm": 1.7040545299197631,
      "learning_rate": 1e-05,
      "loss": 0.7313,
      "step": 437
    },
    {
      "epoch": 0.1750905683947533,
      "grad_norm": 1.822187848977882,
      "learning_rate": 1e-05,
      "loss": 0.7031,
      "step": 438
    },
    {
      "epoch": 0.1754903185509057,
      "grad_norm": 1.700373925069462,
      "learning_rate": 1e-05,
      "loss": 0.6928,
      "step": 439
    },
    {
      "epoch": 0.1758900687070581,
      "grad_norm": 1.6620762094561818,
      "learning_rate": 1e-05,
      "loss": 0.7246,
      "step": 440
    },
    {
      "epoch": 0.1762898188632105,
      "grad_norm": 1.6680804729694887,
      "learning_rate": 1e-05,
      "loss": 0.7334,
      "step": 441
    },
    {
      "epoch": 0.1766895690193629,
      "grad_norm": 1.6169129850499886,
      "learning_rate": 1e-05,
      "loss": 0.7524,
      "step": 442
    },
    {
      "epoch": 0.1770893191755153,
      "grad_norm": 1.5560799037159416,
      "learning_rate": 1e-05,
      "loss": 0.7448,
      "step": 443
    },
    {
      "epoch": 0.17748906933166772,
      "grad_norm": 1.694320592778541,
      "learning_rate": 1e-05,
      "loss": 0.6986,
      "step": 444
    },
    {
      "epoch": 0.17788881948782012,
      "grad_norm": 1.6543848235766305,
      "learning_rate": 1e-05,
      "loss": 0.7142,
      "step": 445
    },
    {
      "epoch": 0.17828856964397252,
      "grad_norm": 1.67421385957053,
      "learning_rate": 1e-05,
      "loss": 0.7086,
      "step": 446
    },
    {
      "epoch": 0.17868831980012492,
      "grad_norm": 1.760390799493787,
      "learning_rate": 1e-05,
      "loss": 0.712,
      "step": 447
    },
    {
      "epoch": 0.17908806995627732,
      "grad_norm": 1.6353213539208027,
      "learning_rate": 1e-05,
      "loss": 0.7221,
      "step": 448
    },
    {
      "epoch": 0.17948782011242972,
      "grad_norm": 1.8194514135945872,
      "learning_rate": 1e-05,
      "loss": 0.7245,
      "step": 449
    },
    {
      "epoch": 0.17988757026858213,
      "grad_norm": 1.5204615638215884,
      "learning_rate": 1e-05,
      "loss": 0.7084,
      "step": 450
    },
    {
      "epoch": 0.18028732042473455,
      "grad_norm": 1.6388949505964545,
      "learning_rate": 1e-05,
      "loss": 0.7287,
      "step": 451
    },
    {
      "epoch": 0.18068707058088695,
      "grad_norm": 1.7446533151028796,
      "learning_rate": 1e-05,
      "loss": 0.6953,
      "step": 452
    },
    {
      "epoch": 0.18108682073703936,
      "grad_norm": 1.962665464466675,
      "learning_rate": 1e-05,
      "loss": 0.7063,
      "step": 453
    },
    {
      "epoch": 0.18148657089319176,
      "grad_norm": 2.0223852759738423,
      "learning_rate": 1e-05,
      "loss": 0.7558,
      "step": 454
    },
    {
      "epoch": 0.18188632104934416,
      "grad_norm": 1.612067551815535,
      "learning_rate": 1e-05,
      "loss": 0.7343,
      "step": 455
    },
    {
      "epoch": 0.18228607120549656,
      "grad_norm": 1.685471014813826,
      "learning_rate": 1e-05,
      "loss": 0.7248,
      "step": 456
    },
    {
      "epoch": 0.18268582136164896,
      "grad_norm": 1.7024905505069505,
      "learning_rate": 1e-05,
      "loss": 0.7325,
      "step": 457
    },
    {
      "epoch": 0.1830855715178014,
      "grad_norm": 1.643148366315423,
      "learning_rate": 1e-05,
      "loss": 0.7294,
      "step": 458
    },
    {
      "epoch": 0.1834853216739538,
      "grad_norm": 1.7632783217202448,
      "learning_rate": 1e-05,
      "loss": 0.7296,
      "step": 459
    },
    {
      "epoch": 0.1838850718301062,
      "grad_norm": 1.7102619782705681,
      "learning_rate": 1e-05,
      "loss": 0.746,
      "step": 460
    },
    {
      "epoch": 0.1842848219862586,
      "grad_norm": 1.8260132455726845,
      "learning_rate": 1e-05,
      "loss": 0.7406,
      "step": 461
    },
    {
      "epoch": 0.184684572142411,
      "grad_norm": 1.6084931396488644,
      "learning_rate": 1e-05,
      "loss": 0.7027,
      "step": 462
    },
    {
      "epoch": 0.1850843222985634,
      "grad_norm": 1.7854207744844819,
      "learning_rate": 1e-05,
      "loss": 0.7184,
      "step": 463
    },
    {
      "epoch": 0.1854840724547158,
      "grad_norm": 1.7338845306283233,
      "learning_rate": 1e-05,
      "loss": 0.7044,
      "step": 464
    },
    {
      "epoch": 0.18588382261086822,
      "grad_norm": 1.8157911162787204,
      "learning_rate": 1e-05,
      "loss": 0.7304,
      "step": 465
    },
    {
      "epoch": 0.18628357276702062,
      "grad_norm": 1.8734257278519761,
      "learning_rate": 1e-05,
      "loss": 0.7546,
      "step": 466
    },
    {
      "epoch": 0.18668332292317302,
      "grad_norm": 1.675395420578761,
      "learning_rate": 1e-05,
      "loss": 0.6924,
      "step": 467
    },
    {
      "epoch": 0.18708307307932542,
      "grad_norm": 1.7801390700666362,
      "learning_rate": 1e-05,
      "loss": 0.725,
      "step": 468
    },
    {
      "epoch": 0.18748282323547782,
      "grad_norm": 1.8063464921591719,
      "learning_rate": 1e-05,
      "loss": 0.7468,
      "step": 469
    },
    {
      "epoch": 0.18788257339163023,
      "grad_norm": 1.5225369101584727,
      "learning_rate": 1e-05,
      "loss": 0.7165,
      "step": 470
    },
    {
      "epoch": 0.18828232354778263,
      "grad_norm": 1.6940911388144937,
      "learning_rate": 1e-05,
      "loss": 0.7455,
      "step": 471
    },
    {
      "epoch": 0.18868207370393503,
      "grad_norm": 1.811234350802702,
      "learning_rate": 1e-05,
      "loss": 0.7314,
      "step": 472
    },
    {
      "epoch": 0.18908182386008746,
      "grad_norm": 1.653468584997891,
      "learning_rate": 1e-05,
      "loss": 0.7075,
      "step": 473
    },
    {
      "epoch": 0.18948157401623986,
      "grad_norm": 1.8584851136695593,
      "learning_rate": 1e-05,
      "loss": 0.7225,
      "step": 474
    },
    {
      "epoch": 0.18988132417239226,
      "grad_norm": 1.5993816684627726,
      "learning_rate": 1e-05,
      "loss": 0.7369,
      "step": 475
    },
    {
      "epoch": 0.19028107432854466,
      "grad_norm": 1.7155970881119773,
      "learning_rate": 1e-05,
      "loss": 0.7146,
      "step": 476
    },
    {
      "epoch": 0.19068082448469706,
      "grad_norm": 1.885687133187401,
      "learning_rate": 1e-05,
      "loss": 0.7227,
      "step": 477
    },
    {
      "epoch": 0.19108057464084946,
      "grad_norm": 1.7524759106326926,
      "learning_rate": 1e-05,
      "loss": 0.7427,
      "step": 478
    },
    {
      "epoch": 0.19148032479700186,
      "grad_norm": 1.9512325916489017,
      "learning_rate": 1e-05,
      "loss": 0.7189,
      "step": 479
    },
    {
      "epoch": 0.1918800749531543,
      "grad_norm": 1.6480243216486983,
      "learning_rate": 1e-05,
      "loss": 0.7657,
      "step": 480
    },
    {
      "epoch": 0.1922798251093067,
      "grad_norm": 1.6067229919526649,
      "learning_rate": 1e-05,
      "loss": 0.7364,
      "step": 481
    },
    {
      "epoch": 0.1926795752654591,
      "grad_norm": 1.6304073514367885,
      "learning_rate": 1e-05,
      "loss": 0.675,
      "step": 482
    },
    {
      "epoch": 0.1930793254216115,
      "grad_norm": 1.8085714410708535,
      "learning_rate": 1e-05,
      "loss": 0.7715,
      "step": 483
    },
    {
      "epoch": 0.1934790755777639,
      "grad_norm": 1.882545570076211,
      "learning_rate": 1e-05,
      "loss": 0.7171,
      "step": 484
    },
    {
      "epoch": 0.1938788257339163,
      "grad_norm": 1.636809509849829,
      "learning_rate": 1e-05,
      "loss": 0.6753,
      "step": 485
    },
    {
      "epoch": 0.1942785758900687,
      "grad_norm": 1.706292094880572,
      "learning_rate": 1e-05,
      "loss": 0.7439,
      "step": 486
    },
    {
      "epoch": 0.19467832604622112,
      "grad_norm": 1.8762452835750751,
      "learning_rate": 1e-05,
      "loss": 0.7265,
      "step": 487
    },
    {
      "epoch": 0.19507807620237352,
      "grad_norm": 1.747952233086101,
      "learning_rate": 1e-05,
      "loss": 0.7135,
      "step": 488
    },
    {
      "epoch": 0.19547782635852592,
      "grad_norm": 1.607386508772767,
      "learning_rate": 1e-05,
      "loss": 0.7035,
      "step": 489
    },
    {
      "epoch": 0.19587757651467833,
      "grad_norm": 1.6882896178231153,
      "learning_rate": 1e-05,
      "loss": 0.7341,
      "step": 490
    },
    {
      "epoch": 0.19627732667083073,
      "grad_norm": 1.6176905604859015,
      "learning_rate": 1e-05,
      "loss": 0.7357,
      "step": 491
    },
    {
      "epoch": 0.19667707682698313,
      "grad_norm": 1.7844198103110938,
      "learning_rate": 1e-05,
      "loss": 0.7009,
      "step": 492
    },
    {
      "epoch": 0.19707682698313553,
      "grad_norm": 2.0760009053536455,
      "learning_rate": 1e-05,
      "loss": 0.7234,
      "step": 493
    },
    {
      "epoch": 0.19747657713928796,
      "grad_norm": 1.5983549222196693,
      "learning_rate": 1e-05,
      "loss": 0.7074,
      "step": 494
    },
    {
      "epoch": 0.19787632729544036,
      "grad_norm": 1.7871302798839634,
      "learning_rate": 1e-05,
      "loss": 0.7023,
      "step": 495
    },
    {
      "epoch": 0.19827607745159276,
      "grad_norm": 1.5944825999282126,
      "learning_rate": 1e-05,
      "loss": 0.7261,
      "step": 496
    },
    {
      "epoch": 0.19867582760774516,
      "grad_norm": 1.6913397245526427,
      "learning_rate": 1e-05,
      "loss": 0.7153,
      "step": 497
    },
    {
      "epoch": 0.19907557776389756,
      "grad_norm": 1.731113295133085,
      "learning_rate": 1e-05,
      "loss": 0.6795,
      "step": 498
    },
    {
      "epoch": 0.19947532792004996,
      "grad_norm": 1.804771522649473,
      "learning_rate": 1e-05,
      "loss": 0.7236,
      "step": 499
    },
    {
      "epoch": 0.19987507807620236,
      "grad_norm": 1.7422703102201624,
      "learning_rate": 1e-05,
      "loss": 0.7485,
      "step": 500
    },
    {
      "epoch": 0.2002748282323548,
      "grad_norm": 1.5980313465433518,
      "learning_rate": 1e-05,
      "loss": 0.7069,
      "step": 501
    },
    {
      "epoch": 0.2006745783885072,
      "grad_norm": 1.7193069882338974,
      "learning_rate": 1e-05,
      "loss": 0.7023,
      "step": 502
    },
    {
      "epoch": 0.2010743285446596,
      "grad_norm": 1.7572778816470649,
      "learning_rate": 1e-05,
      "loss": 0.7137,
      "step": 503
    },
    {
      "epoch": 0.201474078700812,
      "grad_norm": 1.6712665023449216,
      "learning_rate": 1e-05,
      "loss": 0.7215,
      "step": 504
    },
    {
      "epoch": 0.2018738288569644,
      "grad_norm": 1.8989302298844384,
      "learning_rate": 1e-05,
      "loss": 0.6977,
      "step": 505
    },
    {
      "epoch": 0.2022735790131168,
      "grad_norm": 1.7121156549594667,
      "learning_rate": 1e-05,
      "loss": 0.7304,
      "step": 506
    },
    {
      "epoch": 0.2026733291692692,
      "grad_norm": 1.6926698617414213,
      "learning_rate": 1e-05,
      "loss": 0.6846,
      "step": 507
    },
    {
      "epoch": 0.20307307932542162,
      "grad_norm": 1.5990093433535362,
      "learning_rate": 1e-05,
      "loss": 0.7625,
      "step": 508
    },
    {
      "epoch": 0.20347282948157402,
      "grad_norm": 1.6701032771082966,
      "learning_rate": 1e-05,
      "loss": 0.7266,
      "step": 509
    },
    {
      "epoch": 0.20387257963772643,
      "grad_norm": 1.9712154281701366,
      "learning_rate": 1e-05,
      "loss": 0.7471,
      "step": 510
    },
    {
      "epoch": 0.20427232979387883,
      "grad_norm": 1.6594745856651134,
      "learning_rate": 1e-05,
      "loss": 0.7278,
      "step": 511
    },
    {
      "epoch": 0.20467207995003123,
      "grad_norm": 1.5786952639709007,
      "learning_rate": 1e-05,
      "loss": 0.7151,
      "step": 512
    },
    {
      "epoch": 0.20507183010618363,
      "grad_norm": 1.741005807852279,
      "learning_rate": 1e-05,
      "loss": 0.7244,
      "step": 513
    },
    {
      "epoch": 0.20547158026233603,
      "grad_norm": 1.7385807214269327,
      "learning_rate": 1e-05,
      "loss": 0.7496,
      "step": 514
    },
    {
      "epoch": 0.20587133041848846,
      "grad_norm": 1.7155023472542281,
      "learning_rate": 1e-05,
      "loss": 0.7601,
      "step": 515
    },
    {
      "epoch": 0.20627108057464086,
      "grad_norm": 1.6575332509078542,
      "learning_rate": 1e-05,
      "loss": 0.6881,
      "step": 516
    },
    {
      "epoch": 0.20667083073079326,
      "grad_norm": 1.622442242385978,
      "learning_rate": 1e-05,
      "loss": 0.7319,
      "step": 517
    },
    {
      "epoch": 0.20707058088694566,
      "grad_norm": 1.6625308143000959,
      "learning_rate": 1e-05,
      "loss": 0.7083,
      "step": 518
    },
    {
      "epoch": 0.20747033104309806,
      "grad_norm": 1.6122097276139797,
      "learning_rate": 1e-05,
      "loss": 0.7064,
      "step": 519
    },
    {
      "epoch": 0.20787008119925046,
      "grad_norm": 1.8805094091870744,
      "learning_rate": 1e-05,
      "loss": 0.7321,
      "step": 520
    },
    {
      "epoch": 0.20826983135540286,
      "grad_norm": 1.576370726832372,
      "learning_rate": 1e-05,
      "loss": 0.6999,
      "step": 521
    },
    {
      "epoch": 0.2086695815115553,
      "grad_norm": 1.824716852049529,
      "learning_rate": 1e-05,
      "loss": 0.7458,
      "step": 522
    },
    {
      "epoch": 0.2090693316677077,
      "grad_norm": 1.801932293790391,
      "learning_rate": 1e-05,
      "loss": 0.7417,
      "step": 523
    },
    {
      "epoch": 0.2094690818238601,
      "grad_norm": 1.650358449015198,
      "learning_rate": 1e-05,
      "loss": 0.7096,
      "step": 524
    },
    {
      "epoch": 0.2098688319800125,
      "grad_norm": 1.5619415795282798,
      "learning_rate": 1e-05,
      "loss": 0.7466,
      "step": 525
    },
    {
      "epoch": 0.2102685821361649,
      "grad_norm": 1.6830511651970537,
      "learning_rate": 1e-05,
      "loss": 0.7602,
      "step": 526
    },
    {
      "epoch": 0.2106683322923173,
      "grad_norm": 1.5997478493394808,
      "learning_rate": 1e-05,
      "loss": 0.7349,
      "step": 527
    },
    {
      "epoch": 0.2110680824484697,
      "grad_norm": 1.7241269832512143,
      "learning_rate": 1e-05,
      "loss": 0.7376,
      "step": 528
    },
    {
      "epoch": 0.21146783260462212,
      "grad_norm": 2.0365804292252445,
      "learning_rate": 1e-05,
      "loss": 0.7169,
      "step": 529
    },
    {
      "epoch": 0.21186758276077453,
      "grad_norm": 1.784652404953272,
      "learning_rate": 1e-05,
      "loss": 0.6998,
      "step": 530
    },
    {
      "epoch": 0.21226733291692693,
      "grad_norm": 1.7370029406977778,
      "learning_rate": 1e-05,
      "loss": 0.7208,
      "step": 531
    },
    {
      "epoch": 0.21266708307307933,
      "grad_norm": 1.5741690433537776,
      "learning_rate": 1e-05,
      "loss": 0.7191,
      "step": 532
    },
    {
      "epoch": 0.21306683322923173,
      "grad_norm": 1.5692601081611668,
      "learning_rate": 1e-05,
      "loss": 0.7171,
      "step": 533
    },
    {
      "epoch": 0.21346658338538413,
      "grad_norm": 1.677714751203615,
      "learning_rate": 1e-05,
      "loss": 0.6989,
      "step": 534
    },
    {
      "epoch": 0.21386633354153653,
      "grad_norm": 1.578192252432523,
      "learning_rate": 1e-05,
      "loss": 0.7063,
      "step": 535
    },
    {
      "epoch": 0.21426608369768896,
      "grad_norm": 1.6650628459237204,
      "learning_rate": 1e-05,
      "loss": 0.7069,
      "step": 536
    },
    {
      "epoch": 0.21466583385384136,
      "grad_norm": 1.5792337273383872,
      "learning_rate": 1e-05,
      "loss": 0.7491,
      "step": 537
    },
    {
      "epoch": 0.21506558400999376,
      "grad_norm": 1.750020545272171,
      "learning_rate": 1e-05,
      "loss": 0.7531,
      "step": 538
    },
    {
      "epoch": 0.21546533416614616,
      "grad_norm": 1.7429129865365518,
      "learning_rate": 1e-05,
      "loss": 0.7003,
      "step": 539
    },
    {
      "epoch": 0.21586508432229856,
      "grad_norm": 1.5533771826539267,
      "learning_rate": 1e-05,
      "loss": 0.6621,
      "step": 540
    },
    {
      "epoch": 0.21626483447845096,
      "grad_norm": 1.523369086683254,
      "learning_rate": 1e-05,
      "loss": 0.7357,
      "step": 541
    },
    {
      "epoch": 0.21666458463460336,
      "grad_norm": 1.9119799371073138,
      "learning_rate": 1e-05,
      "loss": 0.7038,
      "step": 542
    },
    {
      "epoch": 0.21706433479075576,
      "grad_norm": 1.7481183714044488,
      "learning_rate": 1e-05,
      "loss": 0.7282,
      "step": 543
    },
    {
      "epoch": 0.2174640849469082,
      "grad_norm": 1.7705689543431538,
      "learning_rate": 1e-05,
      "loss": 0.7485,
      "step": 544
    },
    {
      "epoch": 0.2178638351030606,
      "grad_norm": 1.6241073709326839,
      "learning_rate": 1e-05,
      "loss": 0.696,
      "step": 545
    },
    {
      "epoch": 0.218263585259213,
      "grad_norm": 1.7358155888081748,
      "learning_rate": 1e-05,
      "loss": 0.7216,
      "step": 546
    },
    {
      "epoch": 0.2186633354153654,
      "grad_norm": 1.6941431104739717,
      "learning_rate": 1e-05,
      "loss": 0.731,
      "step": 547
    },
    {
      "epoch": 0.2190630855715178,
      "grad_norm": 1.7366633291313383,
      "learning_rate": 1e-05,
      "loss": 0.7346,
      "step": 548
    },
    {
      "epoch": 0.2194628357276702,
      "grad_norm": 1.9098667165838261,
      "learning_rate": 1e-05,
      "loss": 0.7325,
      "step": 549
    },
    {
      "epoch": 0.2198625858838226,
      "grad_norm": 1.8047784370626214,
      "learning_rate": 1e-05,
      "loss": 0.7192,
      "step": 550
    },
    {
      "epoch": 0.22026233603997503,
      "grad_norm": 1.6763903412552694,
      "learning_rate": 1e-05,
      "loss": 0.7071,
      "step": 551
    },
    {
      "epoch": 0.22066208619612743,
      "grad_norm": 1.836859070051344,
      "learning_rate": 1e-05,
      "loss": 0.7259,
      "step": 552
    },
    {
      "epoch": 0.22106183635227983,
      "grad_norm": 2.054809011524376,
      "learning_rate": 1e-05,
      "loss": 0.7031,
      "step": 553
    },
    {
      "epoch": 0.22146158650843223,
      "grad_norm": 1.5916377989757227,
      "learning_rate": 1e-05,
      "loss": 0.7237,
      "step": 554
    },
    {
      "epoch": 0.22186133666458463,
      "grad_norm": 1.5860337016563004,
      "learning_rate": 1e-05,
      "loss": 0.7234,
      "step": 555
    },
    {
      "epoch": 0.22226108682073703,
      "grad_norm": 1.7607306165393002,
      "learning_rate": 1e-05,
      "loss": 0.7089,
      "step": 556
    },
    {
      "epoch": 0.22266083697688943,
      "grad_norm": 1.6574648276943045,
      "learning_rate": 1e-05,
      "loss": 0.729,
      "step": 557
    },
    {
      "epoch": 0.22306058713304186,
      "grad_norm": 1.6093552566242912,
      "learning_rate": 1e-05,
      "loss": 0.7002,
      "step": 558
    },
    {
      "epoch": 0.22346033728919426,
      "grad_norm": 1.779782687541154,
      "learning_rate": 1e-05,
      "loss": 0.7344,
      "step": 559
    },
    {
      "epoch": 0.22386008744534666,
      "grad_norm": 1.6435314715097107,
      "learning_rate": 1e-05,
      "loss": 0.7202,
      "step": 560
    },
    {
      "epoch": 0.22425983760149906,
      "grad_norm": 1.8185977976100298,
      "learning_rate": 1e-05,
      "loss": 0.7253,
      "step": 561
    },
    {
      "epoch": 0.22465958775765146,
      "grad_norm": 1.7550859689280445,
      "learning_rate": 1e-05,
      "loss": 0.7254,
      "step": 562
    },
    {
      "epoch": 0.22505933791380386,
      "grad_norm": 1.7007244625479765,
      "learning_rate": 1e-05,
      "loss": 0.7372,
      "step": 563
    },
    {
      "epoch": 0.22545908806995626,
      "grad_norm": 1.5591137848598506,
      "learning_rate": 1e-05,
      "loss": 0.6972,
      "step": 564
    },
    {
      "epoch": 0.2258588382261087,
      "grad_norm": 1.7270282924460603,
      "learning_rate": 1e-05,
      "loss": 0.6975,
      "step": 565
    },
    {
      "epoch": 0.2262585883822611,
      "grad_norm": 1.6854487244131173,
      "learning_rate": 1e-05,
      "loss": 0.7194,
      "step": 566
    },
    {
      "epoch": 0.2266583385384135,
      "grad_norm": 1.572493790291653,
      "learning_rate": 1e-05,
      "loss": 0.7232,
      "step": 567
    },
    {
      "epoch": 0.2270580886945659,
      "grad_norm": 1.9188202696914822,
      "learning_rate": 1e-05,
      "loss": 0.7316,
      "step": 568
    },
    {
      "epoch": 0.2274578388507183,
      "grad_norm": 1.7343695362826097,
      "learning_rate": 1e-05,
      "loss": 0.7006,
      "step": 569
    },
    {
      "epoch": 0.2278575890068707,
      "grad_norm": 1.97818296525539,
      "learning_rate": 1e-05,
      "loss": 0.7349,
      "step": 570
    },
    {
      "epoch": 0.2282573391630231,
      "grad_norm": 1.681080587915219,
      "learning_rate": 1e-05,
      "loss": 0.6833,
      "step": 571
    },
    {
      "epoch": 0.22865708931917553,
      "grad_norm": 1.7846566821198069,
      "learning_rate": 1e-05,
      "loss": 0.7272,
      "step": 572
    },
    {
      "epoch": 0.22905683947532793,
      "grad_norm": 1.516914371127962,
      "learning_rate": 1e-05,
      "loss": 0.6906,
      "step": 573
    },
    {
      "epoch": 0.22945658963148033,
      "grad_norm": 1.6455428260867768,
      "learning_rate": 1e-05,
      "loss": 0.7131,
      "step": 574
    },
    {
      "epoch": 0.22985633978763273,
      "grad_norm": 1.5127886542195974,
      "learning_rate": 1e-05,
      "loss": 0.7239,
      "step": 575
    },
    {
      "epoch": 0.23025608994378513,
      "grad_norm": 1.52599529228992,
      "learning_rate": 1e-05,
      "loss": 0.7005,
      "step": 576
    },
    {
      "epoch": 0.23065584009993753,
      "grad_norm": 1.6013590221498826,
      "learning_rate": 1e-05,
      "loss": 0.7377,
      "step": 577
    },
    {
      "epoch": 0.23105559025608993,
      "grad_norm": 1.8267726508073143,
      "learning_rate": 1e-05,
      "loss": 0.716,
      "step": 578
    },
    {
      "epoch": 0.23145534041224236,
      "grad_norm": 1.4915142052063357,
      "learning_rate": 1e-05,
      "loss": 0.7307,
      "step": 579
    },
    {
      "epoch": 0.23185509056839476,
      "grad_norm": 1.8492541881358757,
      "learning_rate": 1e-05,
      "loss": 0.7114,
      "step": 580
    },
    {
      "epoch": 0.23225484072454716,
      "grad_norm": 1.943000871151022,
      "learning_rate": 1e-05,
      "loss": 0.7479,
      "step": 581
    },
    {
      "epoch": 0.23265459088069956,
      "grad_norm": 1.7644389416012218,
      "learning_rate": 1e-05,
      "loss": 0.7524,
      "step": 582
    },
    {
      "epoch": 0.23305434103685196,
      "grad_norm": 1.6537333533825642,
      "learning_rate": 1e-05,
      "loss": 0.7184,
      "step": 583
    },
    {
      "epoch": 0.23345409119300436,
      "grad_norm": 1.5553204587934113,
      "learning_rate": 1e-05,
      "loss": 0.6894,
      "step": 584
    },
    {
      "epoch": 0.23385384134915677,
      "grad_norm": 1.581254321838488,
      "learning_rate": 1e-05,
      "loss": 0.7126,
      "step": 585
    },
    {
      "epoch": 0.2342535915053092,
      "grad_norm": 1.6218608253159243,
      "learning_rate": 1e-05,
      "loss": 0.6946,
      "step": 586
    },
    {
      "epoch": 0.2346533416614616,
      "grad_norm": 1.5292369444657603,
      "learning_rate": 1e-05,
      "loss": 0.7312,
      "step": 587
    },
    {
      "epoch": 0.235053091817614,
      "grad_norm": 1.8723499624677071,
      "learning_rate": 1e-05,
      "loss": 0.719,
      "step": 588
    },
    {
      "epoch": 0.2354528419737664,
      "grad_norm": 1.535488063827333,
      "learning_rate": 1e-05,
      "loss": 0.6876,
      "step": 589
    },
    {
      "epoch": 0.2358525921299188,
      "grad_norm": 1.9149996843232184,
      "learning_rate": 1e-05,
      "loss": 0.7192,
      "step": 590
    },
    {
      "epoch": 0.2362523422860712,
      "grad_norm": 1.5240293502768125,
      "learning_rate": 1e-05,
      "loss": 0.718,
      "step": 591
    },
    {
      "epoch": 0.2366520924422236,
      "grad_norm": 1.79942766266334,
      "learning_rate": 1e-05,
      "loss": 0.7083,
      "step": 592
    },
    {
      "epoch": 0.23705184259837603,
      "grad_norm": 1.7961755851871346,
      "learning_rate": 1e-05,
      "loss": 0.7224,
      "step": 593
    },
    {
      "epoch": 0.23745159275452843,
      "grad_norm": 1.8182277438161092,
      "learning_rate": 1e-05,
      "loss": 0.6996,
      "step": 594
    },
    {
      "epoch": 0.23785134291068083,
      "grad_norm": 1.726028640302544,
      "learning_rate": 1e-05,
      "loss": 0.7114,
      "step": 595
    },
    {
      "epoch": 0.23825109306683323,
      "grad_norm": 1.8901737044224345,
      "learning_rate": 1e-05,
      "loss": 0.7419,
      "step": 596
    },
    {
      "epoch": 0.23865084322298563,
      "grad_norm": 1.766994158301685,
      "learning_rate": 1e-05,
      "loss": 0.7127,
      "step": 597
    },
    {
      "epoch": 0.23905059337913803,
      "grad_norm": 1.6416785092829995,
      "learning_rate": 1e-05,
      "loss": 0.7134,
      "step": 598
    },
    {
      "epoch": 0.23945034353529043,
      "grad_norm": 1.7007673649083466,
      "learning_rate": 1e-05,
      "loss": 0.6846,
      "step": 599
    },
    {
      "epoch": 0.23985009369144286,
      "grad_norm": 1.7175974281206636,
      "learning_rate": 1e-05,
      "loss": 0.7038,
      "step": 600
    },
    {
      "epoch": 0.24024984384759526,
      "grad_norm": 1.7818448813768715,
      "learning_rate": 1e-05,
      "loss": 0.721,
      "step": 601
    },
    {
      "epoch": 0.24064959400374766,
      "grad_norm": 1.5485412997423609,
      "learning_rate": 1e-05,
      "loss": 0.7141,
      "step": 602
    },
    {
      "epoch": 0.24104934415990006,
      "grad_norm": 1.7839483551250181,
      "learning_rate": 1e-05,
      "loss": 0.7147,
      "step": 603
    },
    {
      "epoch": 0.24144909431605246,
      "grad_norm": 1.533249031653407,
      "learning_rate": 1e-05,
      "loss": 0.6716,
      "step": 604
    },
    {
      "epoch": 0.24184884447220487,
      "grad_norm": 1.870179608479027,
      "learning_rate": 1e-05,
      "loss": 0.7342,
      "step": 605
    },
    {
      "epoch": 0.24224859462835727,
      "grad_norm": 1.8274463419398523,
      "learning_rate": 1e-05,
      "loss": 0.7125,
      "step": 606
    },
    {
      "epoch": 0.2426483447845097,
      "grad_norm": 1.6012697811461785,
      "learning_rate": 1e-05,
      "loss": 0.7135,
      "step": 607
    },
    {
      "epoch": 0.2430480949406621,
      "grad_norm": 1.9591387286948938,
      "learning_rate": 1e-05,
      "loss": 0.7219,
      "step": 608
    },
    {
      "epoch": 0.2434478450968145,
      "grad_norm": 1.6078810562341204,
      "learning_rate": 1e-05,
      "loss": 0.7088,
      "step": 609
    },
    {
      "epoch": 0.2438475952529669,
      "grad_norm": 1.7708878004342152,
      "learning_rate": 1e-05,
      "loss": 0.7165,
      "step": 610
    },
    {
      "epoch": 0.2442473454091193,
      "grad_norm": 1.717850154551207,
      "learning_rate": 1e-05,
      "loss": 0.6963,
      "step": 611
    },
    {
      "epoch": 0.2446470955652717,
      "grad_norm": 1.8835876895762014,
      "learning_rate": 1e-05,
      "loss": 0.743,
      "step": 612
    },
    {
      "epoch": 0.2450468457214241,
      "grad_norm": 1.742034421760323,
      "learning_rate": 1e-05,
      "loss": 0.7392,
      "step": 613
    },
    {
      "epoch": 0.2454465958775765,
      "grad_norm": 1.830731893632434,
      "learning_rate": 1e-05,
      "loss": 0.6902,
      "step": 614
    },
    {
      "epoch": 0.24584634603372893,
      "grad_norm": 1.7598108026615717,
      "learning_rate": 1e-05,
      "loss": 0.7228,
      "step": 615
    },
    {
      "epoch": 0.24624609618988133,
      "grad_norm": 1.6224825983072566,
      "learning_rate": 1e-05,
      "loss": 0.7347,
      "step": 616
    },
    {
      "epoch": 0.24664584634603373,
      "grad_norm": 1.6208291281047866,
      "learning_rate": 1e-05,
      "loss": 0.7189,
      "step": 617
    },
    {
      "epoch": 0.24704559650218613,
      "grad_norm": 1.484239831316526,
      "learning_rate": 1e-05,
      "loss": 0.6984,
      "step": 618
    },
    {
      "epoch": 0.24744534665833853,
      "grad_norm": 1.757406616260036,
      "learning_rate": 1e-05,
      "loss": 0.7049,
      "step": 619
    },
    {
      "epoch": 0.24784509681449093,
      "grad_norm": 1.9230511372858288,
      "learning_rate": 1e-05,
      "loss": 0.7422,
      "step": 620
    },
    {
      "epoch": 0.24824484697064333,
      "grad_norm": 1.679868156606925,
      "learning_rate": 1e-05,
      "loss": 0.7118,
      "step": 621
    },
    {
      "epoch": 0.24864459712679576,
      "grad_norm": 1.748427133075385,
      "learning_rate": 1e-05,
      "loss": 0.7442,
      "step": 622
    },
    {
      "epoch": 0.24904434728294816,
      "grad_norm": 1.7360658622518093,
      "learning_rate": 1e-05,
      "loss": 0.7174,
      "step": 623
    },
    {
      "epoch": 0.24944409743910056,
      "grad_norm": 1.7713944428822996,
      "learning_rate": 1e-05,
      "loss": 0.708,
      "step": 624
    },
    {
      "epoch": 0.24984384759525297,
      "grad_norm": 1.635960818285059,
      "learning_rate": 1e-05,
      "loss": 0.7704,
      "step": 625
    },
    {
      "epoch": 0.25024359775140537,
      "grad_norm": 1.5798772583229945,
      "learning_rate": 1e-05,
      "loss": 0.6598,
      "step": 626
    },
    {
      "epoch": 0.25064334790755777,
      "grad_norm": 2.120632058381591,
      "learning_rate": 1e-05,
      "loss": 0.7245,
      "step": 627
    },
    {
      "epoch": 0.25104309806371017,
      "grad_norm": 1.8916457384465695,
      "learning_rate": 1e-05,
      "loss": 0.7326,
      "step": 628
    },
    {
      "epoch": 0.25144284821986257,
      "grad_norm": 1.6883817764673787,
      "learning_rate": 1e-05,
      "loss": 0.6956,
      "step": 629
    },
    {
      "epoch": 0.25184259837601497,
      "grad_norm": 1.7153733766229569,
      "learning_rate": 1e-05,
      "loss": 0.7107,
      "step": 630
    },
    {
      "epoch": 0.25224234853216737,
      "grad_norm": 1.7447535112906825,
      "learning_rate": 1e-05,
      "loss": 0.6754,
      "step": 631
    },
    {
      "epoch": 0.2526420986883198,
      "grad_norm": 1.778737706356227,
      "learning_rate": 1e-05,
      "loss": 0.7064,
      "step": 632
    },
    {
      "epoch": 0.25304184884447223,
      "grad_norm": 1.9172063804279644,
      "learning_rate": 1e-05,
      "loss": 0.6881,
      "step": 633
    },
    {
      "epoch": 0.25344159900062463,
      "grad_norm": 1.7360367844339604,
      "learning_rate": 1e-05,
      "loss": 0.6719,
      "step": 634
    },
    {
      "epoch": 0.25384134915677703,
      "grad_norm": 1.5707085434141952,
      "learning_rate": 1e-05,
      "loss": 0.711,
      "step": 635
    },
    {
      "epoch": 0.25424109931292943,
      "grad_norm": 1.6538643969455924,
      "learning_rate": 1e-05,
      "loss": 0.7058,
      "step": 636
    },
    {
      "epoch": 0.25464084946908183,
      "grad_norm": 2.111986173510776,
      "learning_rate": 1e-05,
      "loss": 0.7296,
      "step": 637
    },
    {
      "epoch": 0.25504059962523423,
      "grad_norm": 1.9455976614263562,
      "learning_rate": 1e-05,
      "loss": 0.6743,
      "step": 638
    },
    {
      "epoch": 0.25544034978138663,
      "grad_norm": 1.6759862373913836,
      "learning_rate": 1e-05,
      "loss": 0.7378,
      "step": 639
    },
    {
      "epoch": 0.25584009993753903,
      "grad_norm": 1.720225534104099,
      "learning_rate": 1e-05,
      "loss": 0.6862,
      "step": 640
    },
    {
      "epoch": 0.25623985009369143,
      "grad_norm": 1.897040718820206,
      "learning_rate": 1e-05,
      "loss": 0.722,
      "step": 641
    },
    {
      "epoch": 0.25663960024984384,
      "grad_norm": 1.9798959879800733,
      "learning_rate": 1e-05,
      "loss": 0.7515,
      "step": 642
    },
    {
      "epoch": 0.25703935040599624,
      "grad_norm": 1.6574288898010099,
      "learning_rate": 1e-05,
      "loss": 0.6523,
      "step": 643
    },
    {
      "epoch": 0.25743910056214864,
      "grad_norm": 1.6233541956596138,
      "learning_rate": 1e-05,
      "loss": 0.7226,
      "step": 644
    },
    {
      "epoch": 0.25783885071830104,
      "grad_norm": 1.5727134965755878,
      "learning_rate": 1e-05,
      "loss": 0.7105,
      "step": 645
    },
    {
      "epoch": 0.25823860087445344,
      "grad_norm": 1.6797685410829346,
      "learning_rate": 1e-05,
      "loss": 0.7067,
      "step": 646
    },
    {
      "epoch": 0.2586383510306059,
      "grad_norm": 1.9065233537911392,
      "learning_rate": 1e-05,
      "loss": 0.7098,
      "step": 647
    },
    {
      "epoch": 0.2590381011867583,
      "grad_norm": 1.7058031874385124,
      "learning_rate": 1e-05,
      "loss": 0.7192,
      "step": 648
    },
    {
      "epoch": 0.2594378513429107,
      "grad_norm": 1.9064660593383356,
      "learning_rate": 1e-05,
      "loss": 0.7088,
      "step": 649
    },
    {
      "epoch": 0.2598376014990631,
      "grad_norm": 1.6860977112835878,
      "learning_rate": 1e-05,
      "loss": 0.7259,
      "step": 650
    },
    {
      "epoch": 0.2602373516552155,
      "grad_norm": 1.8957655796334885,
      "learning_rate": 1e-05,
      "loss": 0.709,
      "step": 651
    },
    {
      "epoch": 0.2606371018113679,
      "grad_norm": 1.8602045571073595,
      "learning_rate": 1e-05,
      "loss": 0.7205,
      "step": 652
    },
    {
      "epoch": 0.2610368519675203,
      "grad_norm": 1.8272741634622869,
      "learning_rate": 1e-05,
      "loss": 0.7051,
      "step": 653
    },
    {
      "epoch": 0.2614366021236727,
      "grad_norm": 1.7469207036110084,
      "learning_rate": 1e-05,
      "loss": 0.7067,
      "step": 654
    },
    {
      "epoch": 0.2618363522798251,
      "grad_norm": 1.6820494762392202,
      "learning_rate": 1e-05,
      "loss": 0.7245,
      "step": 655
    },
    {
      "epoch": 0.2622361024359775,
      "grad_norm": 1.6224897024084766,
      "learning_rate": 1e-05,
      "loss": 0.6739,
      "step": 656
    },
    {
      "epoch": 0.2626358525921299,
      "grad_norm": 1.7750741018494605,
      "learning_rate": 1e-05,
      "loss": 0.6982,
      "step": 657
    },
    {
      "epoch": 0.2630356027482823,
      "grad_norm": 1.8220018862239724,
      "learning_rate": 1e-05,
      "loss": 0.7172,
      "step": 658
    },
    {
      "epoch": 0.2634353529044347,
      "grad_norm": 1.6420566728338288,
      "learning_rate": 1e-05,
      "loss": 0.6568,
      "step": 659
    },
    {
      "epoch": 0.2638351030605871,
      "grad_norm": 1.7023900524303484,
      "learning_rate": 1e-05,
      "loss": 0.7134,
      "step": 660
    },
    {
      "epoch": 0.26423485321673956,
      "grad_norm": 1.73065490252686,
      "learning_rate": 1e-05,
      "loss": 0.7107,
      "step": 661
    },
    {
      "epoch": 0.26463460337289196,
      "grad_norm": 1.7947896755361128,
      "learning_rate": 1e-05,
      "loss": 0.7065,
      "step": 662
    },
    {
      "epoch": 0.26503435352904436,
      "grad_norm": 1.6531122005369585,
      "learning_rate": 1e-05,
      "loss": 0.6899,
      "step": 663
    },
    {
      "epoch": 0.26543410368519677,
      "grad_norm": 1.8470756903853145,
      "learning_rate": 1e-05,
      "loss": 0.7361,
      "step": 664
    },
    {
      "epoch": 0.26583385384134917,
      "grad_norm": 1.694543209279357,
      "learning_rate": 1e-05,
      "loss": 0.7367,
      "step": 665
    },
    {
      "epoch": 0.26623360399750157,
      "grad_norm": 1.658331411233925,
      "learning_rate": 1e-05,
      "loss": 0.7136,
      "step": 666
    },
    {
      "epoch": 0.26663335415365397,
      "grad_norm": 2.038637268221271,
      "learning_rate": 1e-05,
      "loss": 0.6788,
      "step": 667
    },
    {
      "epoch": 0.26703310430980637,
      "grad_norm": 1.905172783630616,
      "learning_rate": 1e-05,
      "loss": 0.7024,
      "step": 668
    },
    {
      "epoch": 0.26743285446595877,
      "grad_norm": 1.717579613490765,
      "learning_rate": 1e-05,
      "loss": 0.7229,
      "step": 669
    },
    {
      "epoch": 0.26783260462211117,
      "grad_norm": 1.7576202286870408,
      "learning_rate": 1e-05,
      "loss": 0.7149,
      "step": 670
    },
    {
      "epoch": 0.26823235477826357,
      "grad_norm": 1.7580916573275338,
      "learning_rate": 1e-05,
      "loss": 0.7178,
      "step": 671
    },
    {
      "epoch": 0.26863210493441597,
      "grad_norm": 1.7717539530608295,
      "learning_rate": 1e-05,
      "loss": 0.6945,
      "step": 672
    },
    {
      "epoch": 0.2690318550905684,
      "grad_norm": 1.7039573011103142,
      "learning_rate": 1e-05,
      "loss": 0.6915,
      "step": 673
    },
    {
      "epoch": 0.2694316052467208,
      "grad_norm": 1.6636316819957009,
      "learning_rate": 1e-05,
      "loss": 0.705,
      "step": 674
    },
    {
      "epoch": 0.26983135540287323,
      "grad_norm": 1.6883107195902396,
      "learning_rate": 1e-05,
      "loss": 0.704,
      "step": 675
    },
    {
      "epoch": 0.27023110555902563,
      "grad_norm": 1.6522185794706956,
      "learning_rate": 1e-05,
      "loss": 0.7175,
      "step": 676
    },
    {
      "epoch": 0.27063085571517803,
      "grad_norm": 1.72465086072946,
      "learning_rate": 1e-05,
      "loss": 0.7108,
      "step": 677
    },
    {
      "epoch": 0.27103060587133043,
      "grad_norm": 1.5772599250615227,
      "learning_rate": 1e-05,
      "loss": 0.695,
      "step": 678
    },
    {
      "epoch": 0.27143035602748283,
      "grad_norm": 1.5883133602213722,
      "learning_rate": 1e-05,
      "loss": 0.718,
      "step": 679
    },
    {
      "epoch": 0.27183010618363523,
      "grad_norm": 1.7074715239876535,
      "learning_rate": 1e-05,
      "loss": 0.7314,
      "step": 680
    },
    {
      "epoch": 0.27222985633978763,
      "grad_norm": 1.6861804186372407,
      "learning_rate": 1e-05,
      "loss": 0.7003,
      "step": 681
    },
    {
      "epoch": 0.27262960649594004,
      "grad_norm": 1.612639783762136,
      "learning_rate": 1e-05,
      "loss": 0.7066,
      "step": 682
    },
    {
      "epoch": 0.27302935665209244,
      "grad_norm": 1.6888173353860083,
      "learning_rate": 1e-05,
      "loss": 0.6706,
      "step": 683
    },
    {
      "epoch": 0.27342910680824484,
      "grad_norm": 1.7355039757786117,
      "learning_rate": 1e-05,
      "loss": 0.7107,
      "step": 684
    },
    {
      "epoch": 0.27382885696439724,
      "grad_norm": 1.6711461248031751,
      "learning_rate": 1e-05,
      "loss": 0.7224,
      "step": 685
    },
    {
      "epoch": 0.27422860712054964,
      "grad_norm": 1.5700286077128807,
      "learning_rate": 1e-05,
      "loss": 0.7035,
      "step": 686
    },
    {
      "epoch": 0.27462835727670204,
      "grad_norm": 1.548246601755345,
      "learning_rate": 1e-05,
      "loss": 0.726,
      "step": 687
    },
    {
      "epoch": 0.27502810743285444,
      "grad_norm": 1.8329175524427406,
      "learning_rate": 1e-05,
      "loss": 0.733,
      "step": 688
    },
    {
      "epoch": 0.2754278575890069,
      "grad_norm": 1.768155169356466,
      "learning_rate": 1e-05,
      "loss": 0.7122,
      "step": 689
    },
    {
      "epoch": 0.2758276077451593,
      "grad_norm": 1.680515181961395,
      "learning_rate": 1e-05,
      "loss": 0.6796,
      "step": 690
    },
    {
      "epoch": 0.2762273579013117,
      "grad_norm": 1.6170020761296497,
      "learning_rate": 1e-05,
      "loss": 0.724,
      "step": 691
    },
    {
      "epoch": 0.2766271080574641,
      "grad_norm": 1.8186486451191846,
      "learning_rate": 1e-05,
      "loss": 0.7436,
      "step": 692
    },
    {
      "epoch": 0.2770268582136165,
      "grad_norm": 1.8219521943254873,
      "learning_rate": 1e-05,
      "loss": 0.7269,
      "step": 693
    },
    {
      "epoch": 0.2774266083697689,
      "grad_norm": 1.7030515990699548,
      "learning_rate": 1e-05,
      "loss": 0.7011,
      "step": 694
    },
    {
      "epoch": 0.2778263585259213,
      "grad_norm": 1.6370360478015809,
      "learning_rate": 1e-05,
      "loss": 0.7071,
      "step": 695
    },
    {
      "epoch": 0.2782261086820737,
      "grad_norm": 1.8197386190703924,
      "learning_rate": 1e-05,
      "loss": 0.7401,
      "step": 696
    },
    {
      "epoch": 0.2786258588382261,
      "grad_norm": 1.635667475820524,
      "learning_rate": 1e-05,
      "loss": 0.72,
      "step": 697
    },
    {
      "epoch": 0.2790256089943785,
      "grad_norm": 1.6479232543348075,
      "learning_rate": 1e-05,
      "loss": 0.6543,
      "step": 698
    },
    {
      "epoch": 0.2794253591505309,
      "grad_norm": 1.7391541427451926,
      "learning_rate": 1e-05,
      "loss": 0.6861,
      "step": 699
    },
    {
      "epoch": 0.2798251093066833,
      "grad_norm": 1.4862650969696667,
      "learning_rate": 1e-05,
      "loss": 0.6698,
      "step": 700
    },
    {
      "epoch": 0.2802248594628357,
      "grad_norm": 1.5547467894907467,
      "learning_rate": 1e-05,
      "loss": 0.7038,
      "step": 701
    },
    {
      "epoch": 0.2806246096189881,
      "grad_norm": 1.7286571642595796,
      "learning_rate": 1e-05,
      "loss": 0.7038,
      "step": 702
    },
    {
      "epoch": 0.28102435977514056,
      "grad_norm": 1.6409902652637003,
      "learning_rate": 1e-05,
      "loss": 0.7051,
      "step": 703
    },
    {
      "epoch": 0.28142410993129297,
      "grad_norm": 1.6267126286156905,
      "learning_rate": 1e-05,
      "loss": 0.7176,
      "step": 704
    },
    {
      "epoch": 0.28182386008744537,
      "grad_norm": 1.577015935651375,
      "learning_rate": 1e-05,
      "loss": 0.6844,
      "step": 705
    },
    {
      "epoch": 0.28222361024359777,
      "grad_norm": 1.7895008494743625,
      "learning_rate": 1e-05,
      "loss": 0.7168,
      "step": 706
    },
    {
      "epoch": 0.28262336039975017,
      "grad_norm": 1.6226060928289636,
      "learning_rate": 1e-05,
      "loss": 0.7536,
      "step": 707
    },
    {
      "epoch": 0.28302311055590257,
      "grad_norm": 1.6579796075978475,
      "learning_rate": 1e-05,
      "loss": 0.7085,
      "step": 708
    },
    {
      "epoch": 0.28342286071205497,
      "grad_norm": 1.516046233613683,
      "learning_rate": 1e-05,
      "loss": 0.7095,
      "step": 709
    },
    {
      "epoch": 0.28382261086820737,
      "grad_norm": 1.7813010649110856,
      "learning_rate": 1e-05,
      "loss": 0.6955,
      "step": 710
    },
    {
      "epoch": 0.28422236102435977,
      "grad_norm": 1.8906634740893336,
      "learning_rate": 1e-05,
      "loss": 0.7107,
      "step": 711
    },
    {
      "epoch": 0.28462211118051217,
      "grad_norm": 1.83654914075961,
      "learning_rate": 1e-05,
      "loss": 0.7333,
      "step": 712
    },
    {
      "epoch": 0.2850218613366646,
      "grad_norm": 1.7449662399288721,
      "learning_rate": 1e-05,
      "loss": 0.7054,
      "step": 713
    },
    {
      "epoch": 0.285421611492817,
      "grad_norm": 1.837565780076373,
      "learning_rate": 1e-05,
      "loss": 0.7453,
      "step": 714
    },
    {
      "epoch": 0.2858213616489694,
      "grad_norm": 1.7578416629916203,
      "learning_rate": 1e-05,
      "loss": 0.6715,
      "step": 715
    },
    {
      "epoch": 0.2862211118051218,
      "grad_norm": 1.64461383510591,
      "learning_rate": 1e-05,
      "loss": 0.6907,
      "step": 716
    },
    {
      "epoch": 0.2866208619612742,
      "grad_norm": 1.711214129613999,
      "learning_rate": 1e-05,
      "loss": 0.73,
      "step": 717
    },
    {
      "epoch": 0.28702061211742663,
      "grad_norm": 1.7121509243526174,
      "learning_rate": 1e-05,
      "loss": 0.6855,
      "step": 718
    },
    {
      "epoch": 0.28742036227357903,
      "grad_norm": 1.4515160926158257,
      "learning_rate": 1e-05,
      "loss": 0.6684,
      "step": 719
    },
    {
      "epoch": 0.28782011242973143,
      "grad_norm": 1.729851086654193,
      "learning_rate": 1e-05,
      "loss": 0.6985,
      "step": 720
    },
    {
      "epoch": 0.28821986258588383,
      "grad_norm": 1.8834386726030998,
      "learning_rate": 1e-05,
      "loss": 0.694,
      "step": 721
    },
    {
      "epoch": 0.28861961274203624,
      "grad_norm": 1.7170052375347913,
      "learning_rate": 1e-05,
      "loss": 0.7057,
      "step": 722
    },
    {
      "epoch": 0.28901936289818864,
      "grad_norm": 1.6403088066458278,
      "learning_rate": 1e-05,
      "loss": 0.6778,
      "step": 723
    },
    {
      "epoch": 0.28941911305434104,
      "grad_norm": 1.734812761517908,
      "learning_rate": 1e-05,
      "loss": 0.7137,
      "step": 724
    },
    {
      "epoch": 0.28981886321049344,
      "grad_norm": 1.567238706484936,
      "learning_rate": 1e-05,
      "loss": 0.7318,
      "step": 725
    },
    {
      "epoch": 0.29021861336664584,
      "grad_norm": 1.746822600590452,
      "learning_rate": 1e-05,
      "loss": 0.6848,
      "step": 726
    },
    {
      "epoch": 0.29061836352279824,
      "grad_norm": 1.7434969659512656,
      "learning_rate": 1e-05,
      "loss": 0.6831,
      "step": 727
    },
    {
      "epoch": 0.29101811367895064,
      "grad_norm": 1.6828858463858387,
      "learning_rate": 1e-05,
      "loss": 0.7224,
      "step": 728
    },
    {
      "epoch": 0.29141786383510304,
      "grad_norm": 1.6879919017466698,
      "learning_rate": 1e-05,
      "loss": 0.7051,
      "step": 729
    },
    {
      "epoch": 0.29181761399125544,
      "grad_norm": 1.594862519032408,
      "learning_rate": 1e-05,
      "loss": 0.6919,
      "step": 730
    },
    {
      "epoch": 0.29221736414740784,
      "grad_norm": 1.7956830413919436,
      "learning_rate": 1e-05,
      "loss": 0.6927,
      "step": 731
    },
    {
      "epoch": 0.2926171143035603,
      "grad_norm": 1.570924917717118,
      "learning_rate": 1e-05,
      "loss": 0.7131,
      "step": 732
    },
    {
      "epoch": 0.2930168644597127,
      "grad_norm": 1.591939493284059,
      "learning_rate": 1e-05,
      "loss": 0.7222,
      "step": 733
    },
    {
      "epoch": 0.2934166146158651,
      "grad_norm": 1.5140045638264146,
      "learning_rate": 1e-05,
      "loss": 0.7242,
      "step": 734
    },
    {
      "epoch": 0.2938163647720175,
      "grad_norm": 1.6771049995672205,
      "learning_rate": 1e-05,
      "loss": 0.7211,
      "step": 735
    },
    {
      "epoch": 0.2942161149281699,
      "grad_norm": 1.7216861104470091,
      "learning_rate": 1e-05,
      "loss": 0.7273,
      "step": 736
    },
    {
      "epoch": 0.2946158650843223,
      "grad_norm": 1.6713494008152068,
      "learning_rate": 1e-05,
      "loss": 0.6845,
      "step": 737
    },
    {
      "epoch": 0.2950156152404747,
      "grad_norm": 1.7559820965084036,
      "learning_rate": 1e-05,
      "loss": 0.7047,
      "step": 738
    },
    {
      "epoch": 0.2954153653966271,
      "grad_norm": 1.8795711778215176,
      "learning_rate": 1e-05,
      "loss": 0.7399,
      "step": 739
    },
    {
      "epoch": 0.2958151155527795,
      "grad_norm": 1.558089439266122,
      "learning_rate": 1e-05,
      "loss": 0.7062,
      "step": 740
    },
    {
      "epoch": 0.2962148657089319,
      "grad_norm": 1.7147518573473688,
      "learning_rate": 1e-05,
      "loss": 0.7465,
      "step": 741
    },
    {
      "epoch": 0.2966146158650843,
      "grad_norm": 1.6453920055940947,
      "learning_rate": 1e-05,
      "loss": 0.7009,
      "step": 742
    },
    {
      "epoch": 0.2970143660212367,
      "grad_norm": 1.9020197739218356,
      "learning_rate": 1e-05,
      "loss": 0.7133,
      "step": 743
    },
    {
      "epoch": 0.2974141161773891,
      "grad_norm": 1.7517805896069318,
      "learning_rate": 1e-05,
      "loss": 0.7201,
      "step": 744
    },
    {
      "epoch": 0.2978138663335415,
      "grad_norm": 1.5903743306432354,
      "learning_rate": 1e-05,
      "loss": 0.7064,
      "step": 745
    },
    {
      "epoch": 0.29821361648969397,
      "grad_norm": 1.7312879512117134,
      "learning_rate": 1e-05,
      "loss": 0.7192,
      "step": 746
    },
    {
      "epoch": 0.29861336664584637,
      "grad_norm": 1.69441066735268,
      "learning_rate": 1e-05,
      "loss": 0.7391,
      "step": 747
    },
    {
      "epoch": 0.29901311680199877,
      "grad_norm": 1.705406294430854,
      "learning_rate": 1e-05,
      "loss": 0.737,
      "step": 748
    },
    {
      "epoch": 0.29941286695815117,
      "grad_norm": 1.7490995933585085,
      "learning_rate": 1e-05,
      "loss": 0.6993,
      "step": 749
    },
    {
      "epoch": 0.29981261711430357,
      "grad_norm": 1.4718885822594918,
      "learning_rate": 1e-05,
      "loss": 0.6832,
      "step": 750
    },
    {
      "epoch": 0.30021236727045597,
      "grad_norm": 1.652685595402195,
      "learning_rate": 1e-05,
      "loss": 0.7139,
      "step": 751
    },
    {
      "epoch": 0.30061211742660837,
      "grad_norm": 1.5209256882578208,
      "learning_rate": 1e-05,
      "loss": 0.7133,
      "step": 752
    },
    {
      "epoch": 0.3010118675827608,
      "grad_norm": 1.562746763748354,
      "learning_rate": 1e-05,
      "loss": 0.7363,
      "step": 753
    },
    {
      "epoch": 0.3014116177389132,
      "grad_norm": 1.8552684515482234,
      "learning_rate": 1e-05,
      "loss": 0.6865,
      "step": 754
    },
    {
      "epoch": 0.3018113678950656,
      "grad_norm": 1.4929508639101436,
      "learning_rate": 1e-05,
      "loss": 0.716,
      "step": 755
    },
    {
      "epoch": 0.302211118051218,
      "grad_norm": 1.8870847815446694,
      "learning_rate": 1e-05,
      "loss": 0.7031,
      "step": 756
    },
    {
      "epoch": 0.3026108682073704,
      "grad_norm": 1.6068992235686541,
      "learning_rate": 1e-05,
      "loss": 0.7213,
      "step": 757
    },
    {
      "epoch": 0.3030106183635228,
      "grad_norm": 1.5829149772191258,
      "learning_rate": 1e-05,
      "loss": 0.6852,
      "step": 758
    },
    {
      "epoch": 0.3034103685196752,
      "grad_norm": 1.6626546613277495,
      "learning_rate": 1e-05,
      "loss": 0.7285,
      "step": 759
    },
    {
      "epoch": 0.30381011867582763,
      "grad_norm": 1.6468656213355466,
      "learning_rate": 1e-05,
      "loss": 0.7083,
      "step": 760
    },
    {
      "epoch": 0.30420986883198003,
      "grad_norm": 1.9233392071315532,
      "learning_rate": 1e-05,
      "loss": 0.6886,
      "step": 761
    },
    {
      "epoch": 0.30460961898813244,
      "grad_norm": 1.60969065202275,
      "learning_rate": 1e-05,
      "loss": 0.6923,
      "step": 762
    },
    {
      "epoch": 0.30500936914428484,
      "grad_norm": 1.7196764812856018,
      "learning_rate": 1e-05,
      "loss": 0.7166,
      "step": 763
    },
    {
      "epoch": 0.30540911930043724,
      "grad_norm": 1.447760128138023,
      "learning_rate": 1e-05,
      "loss": 0.6752,
      "step": 764
    },
    {
      "epoch": 0.30580886945658964,
      "grad_norm": 1.6045878281013353,
      "learning_rate": 1e-05,
      "loss": 0.7035,
      "step": 765
    },
    {
      "epoch": 0.30620861961274204,
      "grad_norm": 1.6260309638103538,
      "learning_rate": 1e-05,
      "loss": 0.6597,
      "step": 766
    },
    {
      "epoch": 0.30660836976889444,
      "grad_norm": 1.7179753403598126,
      "learning_rate": 1e-05,
      "loss": 0.6892,
      "step": 767
    },
    {
      "epoch": 0.30700811992504684,
      "grad_norm": 1.74440246004376,
      "learning_rate": 1e-05,
      "loss": 0.7103,
      "step": 768
    },
    {
      "epoch": 0.30740787008119924,
      "grad_norm": 1.680879270766753,
      "learning_rate": 1e-05,
      "loss": 0.7257,
      "step": 769
    },
    {
      "epoch": 0.30780762023735164,
      "grad_norm": 1.6382468105371426,
      "learning_rate": 1e-05,
      "loss": 0.6832,
      "step": 770
    },
    {
      "epoch": 0.30820737039350404,
      "grad_norm": 1.9090516029271405,
      "learning_rate": 1e-05,
      "loss": 0.732,
      "step": 771
    },
    {
      "epoch": 0.30860712054965644,
      "grad_norm": 1.5696160019268368,
      "learning_rate": 1e-05,
      "loss": 0.7164,
      "step": 772
    },
    {
      "epoch": 0.30900687070580884,
      "grad_norm": 1.852894528532063,
      "learning_rate": 1e-05,
      "loss": 0.7353,
      "step": 773
    },
    {
      "epoch": 0.3094066208619613,
      "grad_norm": 1.7328471702800676,
      "learning_rate": 1e-05,
      "loss": 0.7107,
      "step": 774
    },
    {
      "epoch": 0.3098063710181137,
      "grad_norm": 1.732223440693821,
      "learning_rate": 1e-05,
      "loss": 0.6913,
      "step": 775
    },
    {
      "epoch": 0.3102061211742661,
      "grad_norm": 1.8071705507854883,
      "learning_rate": 1e-05,
      "loss": 0.7269,
      "step": 776
    },
    {
      "epoch": 0.3106058713304185,
      "grad_norm": 1.5011977732397217,
      "learning_rate": 1e-05,
      "loss": 0.7214,
      "step": 777
    },
    {
      "epoch": 0.3110056214865709,
      "grad_norm": 1.6865630671299834,
      "learning_rate": 1e-05,
      "loss": 0.6779,
      "step": 778
    },
    {
      "epoch": 0.3114053716427233,
      "grad_norm": 1.7279322289923353,
      "learning_rate": 1e-05,
      "loss": 0.7025,
      "step": 779
    },
    {
      "epoch": 0.3118051217988757,
      "grad_norm": 1.7686115341142978,
      "learning_rate": 1e-05,
      "loss": 0.6904,
      "step": 780
    },
    {
      "epoch": 0.3122048719550281,
      "grad_norm": 1.819840645025351,
      "learning_rate": 1e-05,
      "loss": 0.711,
      "step": 781
    },
    {
      "epoch": 0.3126046221111805,
      "grad_norm": 1.7431569144007397,
      "learning_rate": 1e-05,
      "loss": 0.7422,
      "step": 782
    },
    {
      "epoch": 0.3130043722673329,
      "grad_norm": 1.7758180094714218,
      "learning_rate": 1e-05,
      "loss": 0.6937,
      "step": 783
    },
    {
      "epoch": 0.3134041224234853,
      "grad_norm": 1.6481999807962442,
      "learning_rate": 1e-05,
      "loss": 0.6954,
      "step": 784
    },
    {
      "epoch": 0.3138038725796377,
      "grad_norm": 1.5629921506309767,
      "learning_rate": 1e-05,
      "loss": 0.7088,
      "step": 785
    },
    {
      "epoch": 0.3142036227357901,
      "grad_norm": 1.6470827213373251,
      "learning_rate": 1e-05,
      "loss": 0.6672,
      "step": 786
    },
    {
      "epoch": 0.3146033728919425,
      "grad_norm": 1.5133606308972407,
      "learning_rate": 1e-05,
      "loss": 0.7042,
      "step": 787
    },
    {
      "epoch": 0.3150031230480949,
      "grad_norm": 1.7254990261696204,
      "learning_rate": 1e-05,
      "loss": 0.6641,
      "step": 788
    },
    {
      "epoch": 0.31540287320424737,
      "grad_norm": 1.5745777706963786,
      "learning_rate": 1e-05,
      "loss": 0.6868,
      "step": 789
    },
    {
      "epoch": 0.31580262336039977,
      "grad_norm": 1.690975148040778,
      "learning_rate": 1e-05,
      "loss": 0.6663,
      "step": 790
    },
    {
      "epoch": 0.31620237351655217,
      "grad_norm": 1.7811704154295809,
      "learning_rate": 1e-05,
      "loss": 0.7142,
      "step": 791
    },
    {
      "epoch": 0.31660212367270457,
      "grad_norm": 1.6664753618913053,
      "learning_rate": 1e-05,
      "loss": 0.692,
      "step": 792
    },
    {
      "epoch": 0.317001873828857,
      "grad_norm": 1.769422560055031,
      "learning_rate": 1e-05,
      "loss": 0.6922,
      "step": 793
    },
    {
      "epoch": 0.3174016239850094,
      "grad_norm": 1.577314549532039,
      "learning_rate": 1e-05,
      "loss": 0.6786,
      "step": 794
    },
    {
      "epoch": 0.3178013741411618,
      "grad_norm": 1.5098556391695894,
      "learning_rate": 1e-05,
      "loss": 0.6627,
      "step": 795
    },
    {
      "epoch": 0.3182011242973142,
      "grad_norm": 1.6682432233388615,
      "learning_rate": 1e-05,
      "loss": 0.7176,
      "step": 796
    },
    {
      "epoch": 0.3186008744534666,
      "grad_norm": 1.8209439572965311,
      "learning_rate": 1e-05,
      "loss": 0.6747,
      "step": 797
    },
    {
      "epoch": 0.319000624609619,
      "grad_norm": 1.4295590935261258,
      "learning_rate": 1e-05,
      "loss": 0.7069,
      "step": 798
    },
    {
      "epoch": 0.3194003747657714,
      "grad_norm": 1.5946428941021893,
      "learning_rate": 1e-05,
      "loss": 0.6773,
      "step": 799
    },
    {
      "epoch": 0.3198001249219238,
      "grad_norm": 1.5644620110231418,
      "learning_rate": 1e-05,
      "loss": 0.691,
      "step": 800
    },
    {
      "epoch": 0.3201998750780762,
      "grad_norm": 1.6193883101853943,
      "learning_rate": 1e-05,
      "loss": 0.723,
      "step": 801
    },
    {
      "epoch": 0.3205996252342286,
      "grad_norm": 1.5793656005180412,
      "learning_rate": 1e-05,
      "loss": 0.7046,
      "step": 802
    },
    {
      "epoch": 0.32099937539038104,
      "grad_norm": 1.6612561800755314,
      "learning_rate": 1e-05,
      "loss": 0.7088,
      "step": 803
    },
    {
      "epoch": 0.32139912554653344,
      "grad_norm": 1.5962769798922196,
      "learning_rate": 1e-05,
      "loss": 0.6533,
      "step": 804
    },
    {
      "epoch": 0.32179887570268584,
      "grad_norm": 1.6237821457015755,
      "learning_rate": 1e-05,
      "loss": 0.699,
      "step": 805
    },
    {
      "epoch": 0.32219862585883824,
      "grad_norm": 1.5847084672801703,
      "learning_rate": 1e-05,
      "loss": 0.6646,
      "step": 806
    },
    {
      "epoch": 0.32259837601499064,
      "grad_norm": 1.816584586554567,
      "learning_rate": 1e-05,
      "loss": 0.6879,
      "step": 807
    },
    {
      "epoch": 0.32299812617114304,
      "grad_norm": 1.6650717585197765,
      "learning_rate": 1e-05,
      "loss": 0.714,
      "step": 808
    },
    {
      "epoch": 0.32339787632729544,
      "grad_norm": 1.7919556359030309,
      "learning_rate": 1e-05,
      "loss": 0.7102,
      "step": 809
    },
    {
      "epoch": 0.32379762648344784,
      "grad_norm": 1.6088489977992577,
      "learning_rate": 1e-05,
      "loss": 0.6734,
      "step": 810
    },
    {
      "epoch": 0.32419737663960024,
      "grad_norm": 1.7332281130317044,
      "learning_rate": 1e-05,
      "loss": 0.7144,
      "step": 811
    },
    {
      "epoch": 0.32459712679575264,
      "grad_norm": 1.6432153877835112,
      "learning_rate": 1e-05,
      "loss": 0.6988,
      "step": 812
    },
    {
      "epoch": 0.32499687695190504,
      "grad_norm": 1.6534765912988536,
      "learning_rate": 1e-05,
      "loss": 0.6883,
      "step": 813
    },
    {
      "epoch": 0.32539662710805745,
      "grad_norm": 1.7459917589516554,
      "learning_rate": 1e-05,
      "loss": 0.6856,
      "step": 814
    },
    {
      "epoch": 0.32579637726420985,
      "grad_norm": 1.7091070691241657,
      "learning_rate": 1e-05,
      "loss": 0.6861,
      "step": 815
    },
    {
      "epoch": 0.32619612742036225,
      "grad_norm": 1.5093439383980598,
      "learning_rate": 1e-05,
      "loss": 0.6817,
      "step": 816
    },
    {
      "epoch": 0.3265958775765147,
      "grad_norm": 1.5672656642735963,
      "learning_rate": 1e-05,
      "loss": 0.6757,
      "step": 817
    },
    {
      "epoch": 0.3269956277326671,
      "grad_norm": 1.6890807741988398,
      "learning_rate": 1e-05,
      "loss": 0.7023,
      "step": 818
    },
    {
      "epoch": 0.3273953778888195,
      "grad_norm": 1.5786134052285596,
      "learning_rate": 1e-05,
      "loss": 0.7083,
      "step": 819
    },
    {
      "epoch": 0.3277951280449719,
      "grad_norm": 1.907861282670531,
      "learning_rate": 1e-05,
      "loss": 0.6663,
      "step": 820
    },
    {
      "epoch": 0.3281948782011243,
      "grad_norm": 1.5975811054823599,
      "learning_rate": 1e-05,
      "loss": 0.7041,
      "step": 821
    },
    {
      "epoch": 0.3285946283572767,
      "grad_norm": 1.5798280361615689,
      "learning_rate": 1e-05,
      "loss": 0.6935,
      "step": 822
    },
    {
      "epoch": 0.3289943785134291,
      "grad_norm": 1.743024199483766,
      "learning_rate": 1e-05,
      "loss": 0.6995,
      "step": 823
    },
    {
      "epoch": 0.3293941286695815,
      "grad_norm": 1.5928932363997121,
      "learning_rate": 1e-05,
      "loss": 0.7022,
      "step": 824
    },
    {
      "epoch": 0.3297938788257339,
      "grad_norm": 1.7391939906388085,
      "learning_rate": 1e-05,
      "loss": 0.6796,
      "step": 825
    },
    {
      "epoch": 0.3301936289818863,
      "grad_norm": 1.6676658903371009,
      "learning_rate": 1e-05,
      "loss": 0.7052,
      "step": 826
    },
    {
      "epoch": 0.3305933791380387,
      "grad_norm": 1.6265400694359868,
      "learning_rate": 1e-05,
      "loss": 0.6859,
      "step": 827
    },
    {
      "epoch": 0.3309931292941911,
      "grad_norm": 1.7229475844332947,
      "learning_rate": 1e-05,
      "loss": 0.6946,
      "step": 828
    },
    {
      "epoch": 0.3313928794503435,
      "grad_norm": 1.6581096952853065,
      "learning_rate": 1e-05,
      "loss": 0.6898,
      "step": 829
    },
    {
      "epoch": 0.3317926296064959,
      "grad_norm": 1.7556881935719784,
      "learning_rate": 1e-05,
      "loss": 0.6745,
      "step": 830
    },
    {
      "epoch": 0.33219237976264837,
      "grad_norm": 1.738446002820396,
      "learning_rate": 1e-05,
      "loss": 0.6834,
      "step": 831
    },
    {
      "epoch": 0.33259212991880077,
      "grad_norm": 1.7433842854983184,
      "learning_rate": 1e-05,
      "loss": 0.6794,
      "step": 832
    },
    {
      "epoch": 0.3329918800749532,
      "grad_norm": 1.7948684704323223,
      "learning_rate": 1e-05,
      "loss": 0.7351,
      "step": 833
    },
    {
      "epoch": 0.3333916302311056,
      "grad_norm": 1.7702120682482814,
      "learning_rate": 1e-05,
      "loss": 0.7051,
      "step": 834
    },
    {
      "epoch": 0.333791380387258,
      "grad_norm": 1.6768280865897798,
      "learning_rate": 1e-05,
      "loss": 0.6799,
      "step": 835
    },
    {
      "epoch": 0.3341911305434104,
      "grad_norm": 1.770442823878533,
      "learning_rate": 1e-05,
      "loss": 0.714,
      "step": 836
    },
    {
      "epoch": 0.3345908806995628,
      "grad_norm": 1.6867981929956228,
      "learning_rate": 1e-05,
      "loss": 0.7087,
      "step": 837
    },
    {
      "epoch": 0.3349906308557152,
      "grad_norm": 1.8705272205675254,
      "learning_rate": 1e-05,
      "loss": 0.6965,
      "step": 838
    },
    {
      "epoch": 0.3353903810118676,
      "grad_norm": 1.7459910524390494,
      "learning_rate": 1e-05,
      "loss": 0.6834,
      "step": 839
    },
    {
      "epoch": 0.33579013116802,
      "grad_norm": 1.8572382083577992,
      "learning_rate": 1e-05,
      "loss": 0.709,
      "step": 840
    },
    {
      "epoch": 0.3361898813241724,
      "grad_norm": 1.5932195974362298,
      "learning_rate": 1e-05,
      "loss": 0.6806,
      "step": 841
    },
    {
      "epoch": 0.3365896314803248,
      "grad_norm": 1.8004142609523603,
      "learning_rate": 1e-05,
      "loss": 0.6952,
      "step": 842
    },
    {
      "epoch": 0.3369893816364772,
      "grad_norm": 1.685036845919439,
      "learning_rate": 1e-05,
      "loss": 0.6692,
      "step": 843
    },
    {
      "epoch": 0.3373891317926296,
      "grad_norm": 1.8965732861656348,
      "learning_rate": 1e-05,
      "loss": 0.6817,
      "step": 844
    },
    {
      "epoch": 0.33778888194878204,
      "grad_norm": 1.5799372154199194,
      "learning_rate": 1e-05,
      "loss": 0.6969,
      "step": 845
    },
    {
      "epoch": 0.33818863210493444,
      "grad_norm": 1.5017521556879205,
      "learning_rate": 1e-05,
      "loss": 0.7579,
      "step": 846
    },
    {
      "epoch": 0.33858838226108684,
      "grad_norm": 1.706561300290336,
      "learning_rate": 1e-05,
      "loss": 0.6943,
      "step": 847
    },
    {
      "epoch": 0.33898813241723924,
      "grad_norm": 1.8474224108335693,
      "learning_rate": 1e-05,
      "loss": 0.692,
      "step": 848
    },
    {
      "epoch": 0.33938788257339164,
      "grad_norm": 1.6257798314113936,
      "learning_rate": 1e-05,
      "loss": 0.6954,
      "step": 849
    },
    {
      "epoch": 0.33978763272954404,
      "grad_norm": 1.7263484334217303,
      "learning_rate": 1e-05,
      "loss": 0.6737,
      "step": 850
    },
    {
      "epoch": 0.34018738288569644,
      "grad_norm": 1.5590375072440437,
      "learning_rate": 1e-05,
      "loss": 0.6981,
      "step": 851
    },
    {
      "epoch": 0.34058713304184884,
      "grad_norm": 1.6158962378697181,
      "learning_rate": 1e-05,
      "loss": 0.7182,
      "step": 852
    },
    {
      "epoch": 0.34098688319800124,
      "grad_norm": 1.8418383951893669,
      "learning_rate": 1e-05,
      "loss": 0.6865,
      "step": 853
    },
    {
      "epoch": 0.34138663335415365,
      "grad_norm": 1.613750519285955,
      "learning_rate": 1e-05,
      "loss": 0.6786,
      "step": 854
    },
    {
      "epoch": 0.34178638351030605,
      "grad_norm": 1.5090773763086345,
      "learning_rate": 1e-05,
      "loss": 0.7034,
      "step": 855
    },
    {
      "epoch": 0.34218613366645845,
      "grad_norm": 1.642924801231754,
      "learning_rate": 1e-05,
      "loss": 0.7098,
      "step": 856
    },
    {
      "epoch": 0.34258588382261085,
      "grad_norm": 1.5983447082076352,
      "learning_rate": 1e-05,
      "loss": 0.681,
      "step": 857
    },
    {
      "epoch": 0.34298563397876325,
      "grad_norm": 1.582140231281219,
      "learning_rate": 1e-05,
      "loss": 0.6935,
      "step": 858
    },
    {
      "epoch": 0.3433853841349157,
      "grad_norm": 1.7702610243995218,
      "learning_rate": 1e-05,
      "loss": 0.7216,
      "step": 859
    },
    {
      "epoch": 0.3437851342910681,
      "grad_norm": 1.5983117563074196,
      "learning_rate": 1e-05,
      "loss": 0.6795,
      "step": 860
    },
    {
      "epoch": 0.3441848844472205,
      "grad_norm": 1.764590136067351,
      "learning_rate": 1e-05,
      "loss": 0.6953,
      "step": 861
    },
    {
      "epoch": 0.3445846346033729,
      "grad_norm": 1.5922583693106742,
      "learning_rate": 1e-05,
      "loss": 0.6823,
      "step": 862
    },
    {
      "epoch": 0.3449843847595253,
      "grad_norm": 1.5346390108940478,
      "learning_rate": 1e-05,
      "loss": 0.6786,
      "step": 863
    },
    {
      "epoch": 0.3453841349156777,
      "grad_norm": 1.5676041711426654,
      "learning_rate": 1e-05,
      "loss": 0.697,
      "step": 864
    },
    {
      "epoch": 0.3457838850718301,
      "grad_norm": 1.7177984836693552,
      "learning_rate": 1e-05,
      "loss": 0.7008,
      "step": 865
    },
    {
      "epoch": 0.3461836352279825,
      "grad_norm": 1.5166656185107248,
      "learning_rate": 1e-05,
      "loss": 0.6772,
      "step": 866
    },
    {
      "epoch": 0.3465833853841349,
      "grad_norm": 1.439835370466626,
      "learning_rate": 1e-05,
      "loss": 0.6959,
      "step": 867
    },
    {
      "epoch": 0.3469831355402873,
      "grad_norm": 1.678366439827458,
      "learning_rate": 1e-05,
      "loss": 0.7153,
      "step": 868
    },
    {
      "epoch": 0.3473828856964397,
      "grad_norm": 1.6655601893650727,
      "learning_rate": 1e-05,
      "loss": 0.7085,
      "step": 869
    },
    {
      "epoch": 0.3477826358525921,
      "grad_norm": 1.6259968605699122,
      "learning_rate": 1e-05,
      "loss": 0.7101,
      "step": 870
    },
    {
      "epoch": 0.3481823860087445,
      "grad_norm": 1.4612479869228308,
      "learning_rate": 1e-05,
      "loss": 0.6812,
      "step": 871
    },
    {
      "epoch": 0.3485821361648969,
      "grad_norm": 1.6600452260410288,
      "learning_rate": 1e-05,
      "loss": 0.6822,
      "step": 872
    },
    {
      "epoch": 0.3489818863210493,
      "grad_norm": 1.6397505327284536,
      "learning_rate": 1e-05,
      "loss": 0.6834,
      "step": 873
    },
    {
      "epoch": 0.3493816364772018,
      "grad_norm": 1.668928219987776,
      "learning_rate": 1e-05,
      "loss": 0.6782,
      "step": 874
    },
    {
      "epoch": 0.3497813866333542,
      "grad_norm": 1.7580625721666878,
      "learning_rate": 1e-05,
      "loss": 0.6736,
      "step": 875
    },
    {
      "epoch": 0.3501811367895066,
      "grad_norm": 1.6960918804714176,
      "learning_rate": 1e-05,
      "loss": 0.675,
      "step": 876
    },
    {
      "epoch": 0.350580886945659,
      "grad_norm": 1.4979666618139205,
      "learning_rate": 1e-05,
      "loss": 0.7089,
      "step": 877
    },
    {
      "epoch": 0.3509806371018114,
      "grad_norm": 1.786868134691783,
      "learning_rate": 1e-05,
      "loss": 0.7191,
      "step": 878
    },
    {
      "epoch": 0.3513803872579638,
      "grad_norm": 1.6035156204750785,
      "learning_rate": 1e-05,
      "loss": 0.6964,
      "step": 879
    },
    {
      "epoch": 0.3517801374141162,
      "grad_norm": 1.6860496144545964,
      "learning_rate": 1e-05,
      "loss": 0.6837,
      "step": 880
    },
    {
      "epoch": 0.3521798875702686,
      "grad_norm": 1.5942874927514366,
      "learning_rate": 1e-05,
      "loss": 0.7023,
      "step": 881
    },
    {
      "epoch": 0.352579637726421,
      "grad_norm": 1.5654404218710058,
      "learning_rate": 1e-05,
      "loss": 0.6916,
      "step": 882
    },
    {
      "epoch": 0.3529793878825734,
      "grad_norm": 1.6983164034997411,
      "learning_rate": 1e-05,
      "loss": 0.6603,
      "step": 883
    },
    {
      "epoch": 0.3533791380387258,
      "grad_norm": 1.6429560258494182,
      "learning_rate": 1e-05,
      "loss": 0.682,
      "step": 884
    },
    {
      "epoch": 0.3537788881948782,
      "grad_norm": 1.534177330870945,
      "learning_rate": 1e-05,
      "loss": 0.6814,
      "step": 885
    },
    {
      "epoch": 0.3541786383510306,
      "grad_norm": 1.4921649287191232,
      "learning_rate": 1e-05,
      "loss": 0.68,
      "step": 886
    },
    {
      "epoch": 0.354578388507183,
      "grad_norm": 1.5920831515513465,
      "learning_rate": 1e-05,
      "loss": 0.657,
      "step": 887
    },
    {
      "epoch": 0.35497813866333544,
      "grad_norm": 1.6155489466268953,
      "learning_rate": 1e-05,
      "loss": 0.6983,
      "step": 888
    },
    {
      "epoch": 0.35537788881948784,
      "grad_norm": 1.7329819705383023,
      "learning_rate": 1e-05,
      "loss": 0.6657,
      "step": 889
    },
    {
      "epoch": 0.35577763897564024,
      "grad_norm": 1.7094066082015411,
      "learning_rate": 1e-05,
      "loss": 0.7137,
      "step": 890
    },
    {
      "epoch": 0.35617738913179264,
      "grad_norm": 1.5947749035139382,
      "learning_rate": 1e-05,
      "loss": 0.6881,
      "step": 891
    },
    {
      "epoch": 0.35657713928794504,
      "grad_norm": 1.5844770895473033,
      "learning_rate": 1e-05,
      "loss": 0.7022,
      "step": 892
    },
    {
      "epoch": 0.35697688944409744,
      "grad_norm": 1.789000624859824,
      "learning_rate": 1e-05,
      "loss": 0.695,
      "step": 893
    },
    {
      "epoch": 0.35737663960024985,
      "grad_norm": 1.7163506058389388,
      "learning_rate": 1e-05,
      "loss": 0.6978,
      "step": 894
    },
    {
      "epoch": 0.35777638975640225,
      "grad_norm": 1.6787751426572401,
      "learning_rate": 1e-05,
      "loss": 0.7262,
      "step": 895
    },
    {
      "epoch": 0.35817613991255465,
      "grad_norm": 1.6555761891747716,
      "learning_rate": 1e-05,
      "loss": 0.666,
      "step": 896
    },
    {
      "epoch": 0.35857589006870705,
      "grad_norm": 1.7084709972779863,
      "learning_rate": 1e-05,
      "loss": 0.6675,
      "step": 897
    },
    {
      "epoch": 0.35897564022485945,
      "grad_norm": 1.6354745212229276,
      "learning_rate": 1e-05,
      "loss": 0.6849,
      "step": 898
    },
    {
      "epoch": 0.35937539038101185,
      "grad_norm": 1.6668475056428447,
      "learning_rate": 1e-05,
      "loss": 0.6821,
      "step": 899
    },
    {
      "epoch": 0.35977514053716425,
      "grad_norm": 1.7524263480817013,
      "learning_rate": 1e-05,
      "loss": 0.6945,
      "step": 900
    },
    {
      "epoch": 0.36017489069331665,
      "grad_norm": 1.6767097352612261,
      "learning_rate": 1e-05,
      "loss": 0.6889,
      "step": 901
    },
    {
      "epoch": 0.3605746408494691,
      "grad_norm": 1.673836545826427,
      "learning_rate": 1e-05,
      "loss": 0.6928,
      "step": 902
    },
    {
      "epoch": 0.3609743910056215,
      "grad_norm": 1.5935123740769723,
      "learning_rate": 1e-05,
      "loss": 0.6686,
      "step": 903
    },
    {
      "epoch": 0.3613741411617739,
      "grad_norm": 1.8064294726799297,
      "learning_rate": 1e-05,
      "loss": 0.6858,
      "step": 904
    },
    {
      "epoch": 0.3617738913179263,
      "grad_norm": 1.6940945073274336,
      "learning_rate": 1e-05,
      "loss": 0.7547,
      "step": 905
    },
    {
      "epoch": 0.3621736414740787,
      "grad_norm": 1.5753349226745974,
      "learning_rate": 1e-05,
      "loss": 0.6615,
      "step": 906
    },
    {
      "epoch": 0.3625733916302311,
      "grad_norm": 1.6806732930847943,
      "learning_rate": 1e-05,
      "loss": 0.6786,
      "step": 907
    },
    {
      "epoch": 0.3629731417863835,
      "grad_norm": 1.6658337834503982,
      "learning_rate": 1e-05,
      "loss": 0.6846,
      "step": 908
    },
    {
      "epoch": 0.3633728919425359,
      "grad_norm": 1.6467915697241204,
      "learning_rate": 1e-05,
      "loss": 0.6945,
      "step": 909
    },
    {
      "epoch": 0.3637726420986883,
      "grad_norm": 1.7420956866980544,
      "learning_rate": 1e-05,
      "loss": 0.7159,
      "step": 910
    },
    {
      "epoch": 0.3641723922548407,
      "grad_norm": 1.635035939349001,
      "learning_rate": 1e-05,
      "loss": 0.6963,
      "step": 911
    },
    {
      "epoch": 0.3645721424109931,
      "grad_norm": 1.6973211543214117,
      "learning_rate": 1e-05,
      "loss": 0.6577,
      "step": 912
    },
    {
      "epoch": 0.3649718925671455,
      "grad_norm": 1.6607777357462292,
      "learning_rate": 1e-05,
      "loss": 0.6842,
      "step": 913
    },
    {
      "epoch": 0.3653716427232979,
      "grad_norm": 1.7418926086583806,
      "learning_rate": 1e-05,
      "loss": 0.6991,
      "step": 914
    },
    {
      "epoch": 0.3657713928794503,
      "grad_norm": 1.6501323575501627,
      "learning_rate": 1e-05,
      "loss": 0.7088,
      "step": 915
    },
    {
      "epoch": 0.3661711430356028,
      "grad_norm": 1.6093367661262625,
      "learning_rate": 1e-05,
      "loss": 0.7297,
      "step": 916
    },
    {
      "epoch": 0.3665708931917552,
      "grad_norm": 1.462091367671034,
      "learning_rate": 1e-05,
      "loss": 0.6942,
      "step": 917
    },
    {
      "epoch": 0.3669706433479076,
      "grad_norm": 1.6528984218069995,
      "learning_rate": 1e-05,
      "loss": 0.6934,
      "step": 918
    },
    {
      "epoch": 0.36737039350406,
      "grad_norm": 1.574337944389676,
      "learning_rate": 1e-05,
      "loss": 0.6747,
      "step": 919
    },
    {
      "epoch": 0.3677701436602124,
      "grad_norm": 1.4803363258647573,
      "learning_rate": 1e-05,
      "loss": 0.6513,
      "step": 920
    },
    {
      "epoch": 0.3681698938163648,
      "grad_norm": 1.835508537889516,
      "learning_rate": 1e-05,
      "loss": 0.7239,
      "step": 921
    },
    {
      "epoch": 0.3685696439725172,
      "grad_norm": 1.6016238725412701,
      "learning_rate": 1e-05,
      "loss": 0.6782,
      "step": 922
    },
    {
      "epoch": 0.3689693941286696,
      "grad_norm": 1.5869322117262747,
      "learning_rate": 1e-05,
      "loss": 0.6995,
      "step": 923
    },
    {
      "epoch": 0.369369144284822,
      "grad_norm": 1.6998783643128887,
      "learning_rate": 1e-05,
      "loss": 0.7072,
      "step": 924
    },
    {
      "epoch": 0.3697688944409744,
      "grad_norm": 1.589775486489199,
      "learning_rate": 1e-05,
      "loss": 0.6917,
      "step": 925
    },
    {
      "epoch": 0.3701686445971268,
      "grad_norm": 2.0915919796147517,
      "learning_rate": 1e-05,
      "loss": 0.7029,
      "step": 926
    },
    {
      "epoch": 0.3705683947532792,
      "grad_norm": 1.5841042609748108,
      "learning_rate": 1e-05,
      "loss": 0.6918,
      "step": 927
    },
    {
      "epoch": 0.3709681449094316,
      "grad_norm": 1.545975228749495,
      "learning_rate": 1e-05,
      "loss": 0.7102,
      "step": 928
    },
    {
      "epoch": 0.371367895065584,
      "grad_norm": 1.6989152983966804,
      "learning_rate": 1e-05,
      "loss": 0.6805,
      "step": 929
    },
    {
      "epoch": 0.37176764522173644,
      "grad_norm": 1.4197504791894617,
      "learning_rate": 1e-05,
      "loss": 0.6858,
      "step": 930
    },
    {
      "epoch": 0.37216739537788884,
      "grad_norm": 1.7581726808652625,
      "learning_rate": 1e-05,
      "loss": 0.6977,
      "step": 931
    },
    {
      "epoch": 0.37256714553404124,
      "grad_norm": 1.5176969049509679,
      "learning_rate": 1e-05,
      "loss": 0.6956,
      "step": 932
    },
    {
      "epoch": 0.37296689569019364,
      "grad_norm": 1.66342829324755,
      "learning_rate": 1e-05,
      "loss": 0.6813,
      "step": 933
    },
    {
      "epoch": 0.37336664584634605,
      "grad_norm": 1.596665918418445,
      "learning_rate": 1e-05,
      "loss": 0.6544,
      "step": 934
    },
    {
      "epoch": 0.37376639600249845,
      "grad_norm": 1.6839821802503196,
      "learning_rate": 1e-05,
      "loss": 0.6798,
      "step": 935
    },
    {
      "epoch": 0.37416614615865085,
      "grad_norm": 1.7338577820629366,
      "learning_rate": 1e-05,
      "loss": 0.6698,
      "step": 936
    },
    {
      "epoch": 0.37456589631480325,
      "grad_norm": 1.6509192679852238,
      "learning_rate": 1e-05,
      "loss": 0.6769,
      "step": 937
    },
    {
      "epoch": 0.37496564647095565,
      "grad_norm": 1.6903323635887535,
      "learning_rate": 1e-05,
      "loss": 0.6862,
      "step": 938
    },
    {
      "epoch": 0.37536539662710805,
      "grad_norm": 1.6032991179931093,
      "learning_rate": 1e-05,
      "loss": 0.7042,
      "step": 939
    },
    {
      "epoch": 0.37576514678326045,
      "grad_norm": 1.5216712096687894,
      "learning_rate": 1e-05,
      "loss": 0.6617,
      "step": 940
    },
    {
      "epoch": 0.37616489693941285,
      "grad_norm": 1.614063827498683,
      "learning_rate": 1e-05,
      "loss": 0.6754,
      "step": 941
    },
    {
      "epoch": 0.37656464709556525,
      "grad_norm": 1.6711515072393124,
      "learning_rate": 1e-05,
      "loss": 0.7322,
      "step": 942
    },
    {
      "epoch": 0.37696439725171765,
      "grad_norm": 1.4453846231399006,
      "learning_rate": 1e-05,
      "loss": 0.6503,
      "step": 943
    },
    {
      "epoch": 0.37736414740787005,
      "grad_norm": 1.6040668119481436,
      "learning_rate": 1e-05,
      "loss": 0.6994,
      "step": 944
    },
    {
      "epoch": 0.3777638975640225,
      "grad_norm": 1.546475296403079,
      "learning_rate": 1e-05,
      "loss": 0.6894,
      "step": 945
    },
    {
      "epoch": 0.3781636477201749,
      "grad_norm": 1.4492174640015676,
      "learning_rate": 1e-05,
      "loss": 0.6903,
      "step": 946
    },
    {
      "epoch": 0.3785633978763273,
      "grad_norm": 1.525269221538459,
      "learning_rate": 1e-05,
      "loss": 0.6742,
      "step": 947
    },
    {
      "epoch": 0.3789631480324797,
      "grad_norm": 1.622126537401399,
      "learning_rate": 1e-05,
      "loss": 0.6981,
      "step": 948
    },
    {
      "epoch": 0.3793628981886321,
      "grad_norm": 1.7506502543429348,
      "learning_rate": 1e-05,
      "loss": 0.6599,
      "step": 949
    },
    {
      "epoch": 0.3797626483447845,
      "grad_norm": 1.4662907812264239,
      "learning_rate": 1e-05,
      "loss": 0.6636,
      "step": 950
    },
    {
      "epoch": 0.3801623985009369,
      "grad_norm": 1.5858205180239755,
      "learning_rate": 1e-05,
      "loss": 0.6618,
      "step": 951
    },
    {
      "epoch": 0.3805621486570893,
      "grad_norm": 1.626705406299477,
      "learning_rate": 1e-05,
      "loss": 0.7132,
      "step": 952
    },
    {
      "epoch": 0.3809618988132417,
      "grad_norm": 1.7243380816801397,
      "learning_rate": 1e-05,
      "loss": 0.6719,
      "step": 953
    },
    {
      "epoch": 0.3813616489693941,
      "grad_norm": 1.5065151431074701,
      "learning_rate": 1e-05,
      "loss": 0.688,
      "step": 954
    },
    {
      "epoch": 0.3817613991255465,
      "grad_norm": 1.8267887610556885,
      "learning_rate": 1e-05,
      "loss": 0.7021,
      "step": 955
    },
    {
      "epoch": 0.3821611492816989,
      "grad_norm": 1.7963625206701217,
      "learning_rate": 1e-05,
      "loss": 0.7112,
      "step": 956
    },
    {
      "epoch": 0.3825608994378513,
      "grad_norm": 1.9110694214799737,
      "learning_rate": 1e-05,
      "loss": 0.7053,
      "step": 957
    },
    {
      "epoch": 0.3829606495940037,
      "grad_norm": 1.7329912226428952,
      "learning_rate": 1e-05,
      "loss": 0.6589,
      "step": 958
    },
    {
      "epoch": 0.3833603997501562,
      "grad_norm": 1.7000858891306778,
      "learning_rate": 1e-05,
      "loss": 0.672,
      "step": 959
    },
    {
      "epoch": 0.3837601499063086,
      "grad_norm": 1.6888632180121697,
      "learning_rate": 1e-05,
      "loss": 0.7035,
      "step": 960
    },
    {
      "epoch": 0.384159900062461,
      "grad_norm": 1.613975316010457,
      "learning_rate": 1e-05,
      "loss": 0.6856,
      "step": 961
    },
    {
      "epoch": 0.3845596502186134,
      "grad_norm": 1.6725335119003806,
      "learning_rate": 1e-05,
      "loss": 0.6936,
      "step": 962
    },
    {
      "epoch": 0.3849594003747658,
      "grad_norm": 1.680524531567659,
      "learning_rate": 1e-05,
      "loss": 0.6971,
      "step": 963
    },
    {
      "epoch": 0.3853591505309182,
      "grad_norm": 1.7258700068303505,
      "learning_rate": 1e-05,
      "loss": 0.6928,
      "step": 964
    },
    {
      "epoch": 0.3857589006870706,
      "grad_norm": 1.5208385873274421,
      "learning_rate": 1e-05,
      "loss": 0.6731,
      "step": 965
    },
    {
      "epoch": 0.386158650843223,
      "grad_norm": 1.6113646368831702,
      "learning_rate": 1e-05,
      "loss": 0.7041,
      "step": 966
    },
    {
      "epoch": 0.3865584009993754,
      "grad_norm": 1.6148211482443708,
      "learning_rate": 1e-05,
      "loss": 0.6612,
      "step": 967
    },
    {
      "epoch": 0.3869581511555278,
      "grad_norm": 1.6241782462358245,
      "learning_rate": 1e-05,
      "loss": 0.6799,
      "step": 968
    },
    {
      "epoch": 0.3873579013116802,
      "grad_norm": 1.5407414503590569,
      "learning_rate": 1e-05,
      "loss": 0.6575,
      "step": 969
    },
    {
      "epoch": 0.3877576514678326,
      "grad_norm": 1.8662805374261446,
      "learning_rate": 1e-05,
      "loss": 0.6883,
      "step": 970
    },
    {
      "epoch": 0.388157401623985,
      "grad_norm": 1.5490019967648543,
      "learning_rate": 1e-05,
      "loss": 0.6782,
      "step": 971
    },
    {
      "epoch": 0.3885571517801374,
      "grad_norm": 1.5379631568249805,
      "learning_rate": 1e-05,
      "loss": 0.7046,
      "step": 972
    },
    {
      "epoch": 0.38895690193628984,
      "grad_norm": 1.7462178713238086,
      "learning_rate": 1e-05,
      "loss": 0.718,
      "step": 973
    },
    {
      "epoch": 0.38935665209244225,
      "grad_norm": 1.5505413193434423,
      "learning_rate": 1e-05,
      "loss": 0.6824,
      "step": 974
    },
    {
      "epoch": 0.38975640224859465,
      "grad_norm": 1.6185255974563704,
      "learning_rate": 1e-05,
      "loss": 0.7126,
      "step": 975
    },
    {
      "epoch": 0.39015615240474705,
      "grad_norm": 1.5830299304756812,
      "learning_rate": 1e-05,
      "loss": 0.7153,
      "step": 976
    },
    {
      "epoch": 0.39055590256089945,
      "grad_norm": 1.8618307097682534,
      "learning_rate": 1e-05,
      "loss": 0.6654,
      "step": 977
    },
    {
      "epoch": 0.39095565271705185,
      "grad_norm": 1.6123732062120777,
      "learning_rate": 1e-05,
      "loss": 0.6918,
      "step": 978
    },
    {
      "epoch": 0.39135540287320425,
      "grad_norm": 1.710270224549345,
      "learning_rate": 1e-05,
      "loss": 0.7118,
      "step": 979
    },
    {
      "epoch": 0.39175515302935665,
      "grad_norm": 1.6367148573991823,
      "learning_rate": 1e-05,
      "loss": 0.6791,
      "step": 980
    },
    {
      "epoch": 0.39215490318550905,
      "grad_norm": 1.9400530365908417,
      "learning_rate": 1e-05,
      "loss": 0.6768,
      "step": 981
    },
    {
      "epoch": 0.39255465334166145,
      "grad_norm": 1.729218782720605,
      "learning_rate": 1e-05,
      "loss": 0.6558,
      "step": 982
    },
    {
      "epoch": 0.39295440349781385,
      "grad_norm": 1.806787569558739,
      "learning_rate": 1e-05,
      "loss": 0.6575,
      "step": 983
    },
    {
      "epoch": 0.39335415365396625,
      "grad_norm": 1.7759015504959175,
      "learning_rate": 1e-05,
      "loss": 0.698,
      "step": 984
    },
    {
      "epoch": 0.39375390381011866,
      "grad_norm": 1.7265441896992588,
      "learning_rate": 1e-05,
      "loss": 0.6729,
      "step": 985
    },
    {
      "epoch": 0.39415365396627106,
      "grad_norm": 1.6895931654576486,
      "learning_rate": 1e-05,
      "loss": 0.6722,
      "step": 986
    },
    {
      "epoch": 0.3945534041224235,
      "grad_norm": 1.898300837095642,
      "learning_rate": 1e-05,
      "loss": 0.6727,
      "step": 987
    },
    {
      "epoch": 0.3949531542785759,
      "grad_norm": 1.5904814691421467,
      "learning_rate": 1e-05,
      "loss": 0.7051,
      "step": 988
    },
    {
      "epoch": 0.3953529044347283,
      "grad_norm": 1.588810554660312,
      "learning_rate": 1e-05,
      "loss": 0.6639,
      "step": 989
    },
    {
      "epoch": 0.3957526545908807,
      "grad_norm": 1.5557562962511176,
      "learning_rate": 1e-05,
      "loss": 0.7072,
      "step": 990
    },
    {
      "epoch": 0.3961524047470331,
      "grad_norm": 1.5095659564575428,
      "learning_rate": 1e-05,
      "loss": 0.6707,
      "step": 991
    },
    {
      "epoch": 0.3965521549031855,
      "grad_norm": 1.7270948391672056,
      "learning_rate": 1e-05,
      "loss": 0.7122,
      "step": 992
    },
    {
      "epoch": 0.3969519050593379,
      "grad_norm": 1.4412816837530809,
      "learning_rate": 1e-05,
      "loss": 0.6827,
      "step": 993
    },
    {
      "epoch": 0.3973516552154903,
      "grad_norm": 1.5920457208894483,
      "learning_rate": 1e-05,
      "loss": 0.6893,
      "step": 994
    },
    {
      "epoch": 0.3977514053716427,
      "grad_norm": 1.7534249300044165,
      "learning_rate": 1e-05,
      "loss": 0.6758,
      "step": 995
    },
    {
      "epoch": 0.3981511555277951,
      "grad_norm": 1.7314075730701786,
      "learning_rate": 1e-05,
      "loss": 0.6811,
      "step": 996
    },
    {
      "epoch": 0.3985509056839475,
      "grad_norm": 1.6180748927676252,
      "learning_rate": 1e-05,
      "loss": 0.6939,
      "step": 997
    },
    {
      "epoch": 0.3989506558400999,
      "grad_norm": 1.7142587043406825,
      "learning_rate": 1e-05,
      "loss": 0.6873,
      "step": 998
    },
    {
      "epoch": 0.3993504059962523,
      "grad_norm": 1.729136862586418,
      "learning_rate": 1e-05,
      "loss": 0.7011,
      "step": 999
    },
    {
      "epoch": 0.3997501561524047,
      "grad_norm": 1.4735102829422244,
      "learning_rate": 1e-05,
      "loss": 0.6833,
      "step": 1000
    },
    {
      "epoch": 0.4001499063085572,
      "grad_norm": 1.670176616876768,
      "learning_rate": 1e-05,
      "loss": 0.6975,
      "step": 1001
    },
    {
      "epoch": 0.4005496564647096,
      "grad_norm": 1.6829280353277531,
      "learning_rate": 1e-05,
      "loss": 0.7098,
      "step": 1002
    },
    {
      "epoch": 0.400949406620862,
      "grad_norm": 1.5269508749533958,
      "learning_rate": 1e-05,
      "loss": 0.6742,
      "step": 1003
    },
    {
      "epoch": 0.4013491567770144,
      "grad_norm": 1.469319257389962,
      "learning_rate": 1e-05,
      "loss": 0.6784,
      "step": 1004
    },
    {
      "epoch": 0.4017489069331668,
      "grad_norm": 1.8849665619197529,
      "learning_rate": 1e-05,
      "loss": 0.7034,
      "step": 1005
    },
    {
      "epoch": 0.4021486570893192,
      "grad_norm": 1.6650061424567462,
      "learning_rate": 1e-05,
      "loss": 0.688,
      "step": 1006
    },
    {
      "epoch": 0.4025484072454716,
      "grad_norm": 1.6214178712987624,
      "learning_rate": 1e-05,
      "loss": 0.6977,
      "step": 1007
    },
    {
      "epoch": 0.402948157401624,
      "grad_norm": 1.7689305648491143,
      "learning_rate": 1e-05,
      "loss": 0.6815,
      "step": 1008
    },
    {
      "epoch": 0.4033479075577764,
      "grad_norm": 1.6074991122908102,
      "learning_rate": 1e-05,
      "loss": 0.6615,
      "step": 1009
    },
    {
      "epoch": 0.4037476577139288,
      "grad_norm": 1.7527832963689385,
      "learning_rate": 1e-05,
      "loss": 0.6657,
      "step": 1010
    },
    {
      "epoch": 0.4041474078700812,
      "grad_norm": 1.8413836462856503,
      "learning_rate": 1e-05,
      "loss": 0.7123,
      "step": 1011
    },
    {
      "epoch": 0.4045471580262336,
      "grad_norm": 1.6048861810737518,
      "learning_rate": 1e-05,
      "loss": 0.6709,
      "step": 1012
    },
    {
      "epoch": 0.404946908182386,
      "grad_norm": 1.613187220555055,
      "learning_rate": 1e-05,
      "loss": 0.6692,
      "step": 1013
    },
    {
      "epoch": 0.4053466583385384,
      "grad_norm": 1.5503580484128583,
      "learning_rate": 1e-05,
      "loss": 0.7013,
      "step": 1014
    },
    {
      "epoch": 0.4057464084946908,
      "grad_norm": 1.5780594555096525,
      "learning_rate": 1e-05,
      "loss": 0.7268,
      "step": 1015
    },
    {
      "epoch": 0.40614615865084325,
      "grad_norm": 1.7438326756879514,
      "learning_rate": 1e-05,
      "loss": 0.7553,
      "step": 1016
    },
    {
      "epoch": 0.40654590880699565,
      "grad_norm": 1.6384209851130074,
      "learning_rate": 1e-05,
      "loss": 0.6551,
      "step": 1017
    },
    {
      "epoch": 0.40694565896314805,
      "grad_norm": 1.5898894787584856,
      "learning_rate": 1e-05,
      "loss": 0.7102,
      "step": 1018
    },
    {
      "epoch": 0.40734540911930045,
      "grad_norm": 1.670443435503422,
      "learning_rate": 1e-05,
      "loss": 0.6885,
      "step": 1019
    },
    {
      "epoch": 0.40774515927545285,
      "grad_norm": 1.6359274086599749,
      "learning_rate": 1e-05,
      "loss": 0.6814,
      "step": 1020
    },
    {
      "epoch": 0.40814490943160525,
      "grad_norm": 1.632205390843587,
      "learning_rate": 1e-05,
      "loss": 0.6887,
      "step": 1021
    },
    {
      "epoch": 0.40854465958775765,
      "grad_norm": 1.5629864722078168,
      "learning_rate": 1e-05,
      "loss": 0.6715,
      "step": 1022
    },
    {
      "epoch": 0.40894440974391005,
      "grad_norm": 1.7240301253402364,
      "learning_rate": 1e-05,
      "loss": 0.7144,
      "step": 1023
    },
    {
      "epoch": 0.40934415990006245,
      "grad_norm": 1.5074134962629189,
      "learning_rate": 1e-05,
      "loss": 0.6612,
      "step": 1024
    },
    {
      "epoch": 0.40974391005621486,
      "grad_norm": 1.6557628562969655,
      "learning_rate": 1e-05,
      "loss": 0.6932,
      "step": 1025
    },
    {
      "epoch": 0.41014366021236726,
      "grad_norm": 1.5091360241857688,
      "learning_rate": 1e-05,
      "loss": 0.6814,
      "step": 1026
    },
    {
      "epoch": 0.41054341036851966,
      "grad_norm": 1.6302015117856743,
      "learning_rate": 1e-05,
      "loss": 0.6855,
      "step": 1027
    },
    {
      "epoch": 0.41094316052467206,
      "grad_norm": 1.5919669107805918,
      "learning_rate": 1e-05,
      "loss": 0.6357,
      "step": 1028
    },
    {
      "epoch": 0.41134291068082446,
      "grad_norm": 1.6157651462019607,
      "learning_rate": 1e-05,
      "loss": 0.6929,
      "step": 1029
    },
    {
      "epoch": 0.4117426608369769,
      "grad_norm": 1.5918661552426905,
      "learning_rate": 1e-05,
      "loss": 0.6546,
      "step": 1030
    },
    {
      "epoch": 0.4121424109931293,
      "grad_norm": 1.7251764395839408,
      "learning_rate": 1e-05,
      "loss": 0.6918,
      "step": 1031
    },
    {
      "epoch": 0.4125421611492817,
      "grad_norm": 1.4823249069211888,
      "learning_rate": 1e-05,
      "loss": 0.6785,
      "step": 1032
    },
    {
      "epoch": 0.4129419113054341,
      "grad_norm": 1.751144627970719,
      "learning_rate": 1e-05,
      "loss": 0.6724,
      "step": 1033
    },
    {
      "epoch": 0.4133416614615865,
      "grad_norm": 1.7239889918538298,
      "learning_rate": 1e-05,
      "loss": 0.6774,
      "step": 1034
    },
    {
      "epoch": 0.4137414116177389,
      "grad_norm": 1.5026807589444833,
      "learning_rate": 1e-05,
      "loss": 0.6634,
      "step": 1035
    },
    {
      "epoch": 0.4141411617738913,
      "grad_norm": 1.5572227221729924,
      "learning_rate": 1e-05,
      "loss": 0.7055,
      "step": 1036
    },
    {
      "epoch": 0.4145409119300437,
      "grad_norm": 1.650697182399444,
      "learning_rate": 1e-05,
      "loss": 0.6707,
      "step": 1037
    },
    {
      "epoch": 0.4149406620861961,
      "grad_norm": 1.584922902820623,
      "learning_rate": 1e-05,
      "loss": 0.6737,
      "step": 1038
    },
    {
      "epoch": 0.4153404122423485,
      "grad_norm": 1.5869935024017887,
      "learning_rate": 1e-05,
      "loss": 0.6925,
      "step": 1039
    },
    {
      "epoch": 0.4157401623985009,
      "grad_norm": 1.7518681677280592,
      "learning_rate": 1e-05,
      "loss": 0.686,
      "step": 1040
    },
    {
      "epoch": 0.4161399125546533,
      "grad_norm": 1.9481391952172888,
      "learning_rate": 1e-05,
      "loss": 0.713,
      "step": 1041
    },
    {
      "epoch": 0.4165396627108057,
      "grad_norm": 1.609440442682902,
      "learning_rate": 1e-05,
      "loss": 0.6687,
      "step": 1042
    },
    {
      "epoch": 0.4169394128669581,
      "grad_norm": 1.6863306858127158,
      "learning_rate": 1e-05,
      "loss": 0.6606,
      "step": 1043
    },
    {
      "epoch": 0.4173391630231106,
      "grad_norm": 1.5829458854516925,
      "learning_rate": 1e-05,
      "loss": 0.6825,
      "step": 1044
    },
    {
      "epoch": 0.417738913179263,
      "grad_norm": 1.6792584216003463,
      "learning_rate": 1e-05,
      "loss": 0.6712,
      "step": 1045
    },
    {
      "epoch": 0.4181386633354154,
      "grad_norm": 1.644425567297127,
      "learning_rate": 1e-05,
      "loss": 0.6819,
      "step": 1046
    },
    {
      "epoch": 0.4185384134915678,
      "grad_norm": 1.8145090711775373,
      "learning_rate": 1e-05,
      "loss": 0.6636,
      "step": 1047
    },
    {
      "epoch": 0.4189381636477202,
      "grad_norm": 1.5054985062152395,
      "learning_rate": 1e-05,
      "loss": 0.6557,
      "step": 1048
    },
    {
      "epoch": 0.4193379138038726,
      "grad_norm": 1.6613304820552064,
      "learning_rate": 1e-05,
      "loss": 0.6759,
      "step": 1049
    },
    {
      "epoch": 0.419737663960025,
      "grad_norm": 1.8518954385765032,
      "learning_rate": 1e-05,
      "loss": 0.7045,
      "step": 1050
    },
    {
      "epoch": 0.4201374141161774,
      "grad_norm": 1.690260535867446,
      "learning_rate": 1e-05,
      "loss": 0.6795,
      "step": 1051
    },
    {
      "epoch": 0.4205371642723298,
      "grad_norm": 1.8851894701546772,
      "learning_rate": 1e-05,
      "loss": 0.6879,
      "step": 1052
    },
    {
      "epoch": 0.4209369144284822,
      "grad_norm": 1.8354085889227092,
      "learning_rate": 1e-05,
      "loss": 0.6895,
      "step": 1053
    },
    {
      "epoch": 0.4213366645846346,
      "grad_norm": 1.7952159808290378,
      "learning_rate": 1e-05,
      "loss": 0.6829,
      "step": 1054
    },
    {
      "epoch": 0.421736414740787,
      "grad_norm": 1.6597293246203921,
      "learning_rate": 1e-05,
      "loss": 0.6909,
      "step": 1055
    },
    {
      "epoch": 0.4221361648969394,
      "grad_norm": 1.6004397974637048,
      "learning_rate": 1e-05,
      "loss": 0.6966,
      "step": 1056
    },
    {
      "epoch": 0.4225359150530918,
      "grad_norm": 1.6070529040350532,
      "learning_rate": 1e-05,
      "loss": 0.6697,
      "step": 1057
    },
    {
      "epoch": 0.42293566520924425,
      "grad_norm": 1.6683715512004689,
      "learning_rate": 1e-05,
      "loss": 0.6878,
      "step": 1058
    },
    {
      "epoch": 0.42333541536539665,
      "grad_norm": 1.7119137192299054,
      "learning_rate": 1e-05,
      "loss": 0.732,
      "step": 1059
    },
    {
      "epoch": 0.42373516552154905,
      "grad_norm": 1.4984919366887919,
      "learning_rate": 1e-05,
      "loss": 0.6881,
      "step": 1060
    },
    {
      "epoch": 0.42413491567770145,
      "grad_norm": 1.7051080155781029,
      "learning_rate": 1e-05,
      "loss": 0.6751,
      "step": 1061
    },
    {
      "epoch": 0.42453466583385385,
      "grad_norm": 1.5747020555556501,
      "learning_rate": 1e-05,
      "loss": 0.7117,
      "step": 1062
    },
    {
      "epoch": 0.42493441599000625,
      "grad_norm": 1.997682288871927,
      "learning_rate": 1e-05,
      "loss": 0.7103,
      "step": 1063
    },
    {
      "epoch": 0.42533416614615865,
      "grad_norm": 1.6853634079281146,
      "learning_rate": 1e-05,
      "loss": 0.688,
      "step": 1064
    },
    {
      "epoch": 0.42573391630231106,
      "grad_norm": 1.6683865083374638,
      "learning_rate": 1e-05,
      "loss": 0.668,
      "step": 1065
    },
    {
      "epoch": 0.42613366645846346,
      "grad_norm": 1.6096292638165235,
      "learning_rate": 1e-05,
      "loss": 0.7114,
      "step": 1066
    },
    {
      "epoch": 0.42653341661461586,
      "grad_norm": 1.7800825363445003,
      "learning_rate": 1e-05,
      "loss": 0.6883,
      "step": 1067
    },
    {
      "epoch": 0.42693316677076826,
      "grad_norm": 1.868522423854644,
      "learning_rate": 1e-05,
      "loss": 0.7044,
      "step": 1068
    },
    {
      "epoch": 0.42733291692692066,
      "grad_norm": 1.932821288588685,
      "learning_rate": 1e-05,
      "loss": 0.6369,
      "step": 1069
    },
    {
      "epoch": 0.42773266708307306,
      "grad_norm": 1.6091852393452057,
      "learning_rate": 1e-05,
      "loss": 0.6882,
      "step": 1070
    },
    {
      "epoch": 0.42813241723922546,
      "grad_norm": 1.5261126248320758,
      "learning_rate": 1e-05,
      "loss": 0.6644,
      "step": 1071
    },
    {
      "epoch": 0.4285321673953779,
      "grad_norm": 1.5066742964018331,
      "learning_rate": 1e-05,
      "loss": 0.6886,
      "step": 1072
    },
    {
      "epoch": 0.4289319175515303,
      "grad_norm": 1.9425153203969994,
      "learning_rate": 1e-05,
      "loss": 0.7034,
      "step": 1073
    },
    {
      "epoch": 0.4293316677076827,
      "grad_norm": 1.730153553093051,
      "learning_rate": 1e-05,
      "loss": 0.7124,
      "step": 1074
    },
    {
      "epoch": 0.4297314178638351,
      "grad_norm": 1.7848356274858688,
      "learning_rate": 1e-05,
      "loss": 0.6814,
      "step": 1075
    },
    {
      "epoch": 0.4301311680199875,
      "grad_norm": 1.4934154824031807,
      "learning_rate": 1e-05,
      "loss": 0.7122,
      "step": 1076
    },
    {
      "epoch": 0.4305309181761399,
      "grad_norm": 1.9200705063630634,
      "learning_rate": 1e-05,
      "loss": 0.6913,
      "step": 1077
    },
    {
      "epoch": 0.4309306683322923,
      "grad_norm": 1.6317921099650343,
      "learning_rate": 1e-05,
      "loss": 0.7127,
      "step": 1078
    },
    {
      "epoch": 0.4313304184884447,
      "grad_norm": 1.6480886023082346,
      "learning_rate": 1e-05,
      "loss": 0.7081,
      "step": 1079
    },
    {
      "epoch": 0.4317301686445971,
      "grad_norm": 1.6126682105476489,
      "learning_rate": 1e-05,
      "loss": 0.6549,
      "step": 1080
    },
    {
      "epoch": 0.4321299188007495,
      "grad_norm": 1.4402443801403717,
      "learning_rate": 1e-05,
      "loss": 0.6879,
      "step": 1081
    },
    {
      "epoch": 0.4325296689569019,
      "grad_norm": 1.617785391265536,
      "learning_rate": 1e-05,
      "loss": 0.6718,
      "step": 1082
    },
    {
      "epoch": 0.4329294191130543,
      "grad_norm": 1.924357222813559,
      "learning_rate": 1e-05,
      "loss": 0.6978,
      "step": 1083
    },
    {
      "epoch": 0.4333291692692067,
      "grad_norm": 1.771837023465481,
      "learning_rate": 1e-05,
      "loss": 0.7056,
      "step": 1084
    },
    {
      "epoch": 0.4337289194253591,
      "grad_norm": 1.6710889118488217,
      "learning_rate": 1e-05,
      "loss": 0.6375,
      "step": 1085
    },
    {
      "epoch": 0.43412866958151153,
      "grad_norm": 1.567385128458316,
      "learning_rate": 1e-05,
      "loss": 0.6844,
      "step": 1086
    },
    {
      "epoch": 0.434528419737664,
      "grad_norm": 1.684516147765862,
      "learning_rate": 1e-05,
      "loss": 0.6749,
      "step": 1087
    },
    {
      "epoch": 0.4349281698938164,
      "grad_norm": 1.8006154665780454,
      "learning_rate": 1e-05,
      "loss": 0.6871,
      "step": 1088
    },
    {
      "epoch": 0.4353279200499688,
      "grad_norm": 1.5981804628202976,
      "learning_rate": 1e-05,
      "loss": 0.6667,
      "step": 1089
    },
    {
      "epoch": 0.4357276702061212,
      "grad_norm": 1.7875260090739309,
      "learning_rate": 1e-05,
      "loss": 0.6852,
      "step": 1090
    },
    {
      "epoch": 0.4361274203622736,
      "grad_norm": 1.6204856571536108,
      "learning_rate": 1e-05,
      "loss": 0.6893,
      "step": 1091
    },
    {
      "epoch": 0.436527170518426,
      "grad_norm": 1.5469162610258949,
      "learning_rate": 1e-05,
      "loss": 0.6833,
      "step": 1092
    },
    {
      "epoch": 0.4369269206745784,
      "grad_norm": 1.6465325396048704,
      "learning_rate": 1e-05,
      "loss": 0.6904,
      "step": 1093
    },
    {
      "epoch": 0.4373266708307308,
      "grad_norm": 1.7207557181619229,
      "learning_rate": 1e-05,
      "loss": 0.6591,
      "step": 1094
    },
    {
      "epoch": 0.4377264209868832,
      "grad_norm": 1.6298204478599188,
      "learning_rate": 1e-05,
      "loss": 0.6735,
      "step": 1095
    },
    {
      "epoch": 0.4381261711430356,
      "grad_norm": 1.6772691952601142,
      "learning_rate": 1e-05,
      "loss": 0.6776,
      "step": 1096
    },
    {
      "epoch": 0.438525921299188,
      "grad_norm": 1.5231547466430666,
      "learning_rate": 1e-05,
      "loss": 0.7161,
      "step": 1097
    },
    {
      "epoch": 0.4389256714553404,
      "grad_norm": 1.543643426201662,
      "learning_rate": 1e-05,
      "loss": 0.6292,
      "step": 1098
    },
    {
      "epoch": 0.4393254216114928,
      "grad_norm": 1.8467756494943983,
      "learning_rate": 1e-05,
      "loss": 0.6871,
      "step": 1099
    },
    {
      "epoch": 0.4397251717676452,
      "grad_norm": 1.7436496782520663,
      "learning_rate": 1e-05,
      "loss": 0.6696,
      "step": 1100
    },
    {
      "epoch": 0.44012492192379765,
      "grad_norm": 1.5060845975986117,
      "learning_rate": 1e-05,
      "loss": 0.6642,
      "step": 1101
    },
    {
      "epoch": 0.44052467207995005,
      "grad_norm": 1.8871075543865266,
      "learning_rate": 1e-05,
      "loss": 0.6722,
      "step": 1102
    },
    {
      "epoch": 0.44092442223610245,
      "grad_norm": 1.619626218561734,
      "learning_rate": 1e-05,
      "loss": 0.6719,
      "step": 1103
    },
    {
      "epoch": 0.44132417239225485,
      "grad_norm": 1.6001321442574636,
      "learning_rate": 1e-05,
      "loss": 0.6642,
      "step": 1104
    },
    {
      "epoch": 0.44172392254840726,
      "grad_norm": 1.6758279548530426,
      "learning_rate": 1e-05,
      "loss": 0.6686,
      "step": 1105
    },
    {
      "epoch": 0.44212367270455966,
      "grad_norm": 1.5482889754900304,
      "learning_rate": 1e-05,
      "loss": 0.7125,
      "step": 1106
    },
    {
      "epoch": 0.44252342286071206,
      "grad_norm": 1.7698024809867456,
      "learning_rate": 1e-05,
      "loss": 0.6801,
      "step": 1107
    },
    {
      "epoch": 0.44292317301686446,
      "grad_norm": 1.4937506906401095,
      "learning_rate": 1e-05,
      "loss": 0.7334,
      "step": 1108
    },
    {
      "epoch": 0.44332292317301686,
      "grad_norm": 1.5562078975042095,
      "learning_rate": 1e-05,
      "loss": 0.6584,
      "step": 1109
    },
    {
      "epoch": 0.44372267332916926,
      "grad_norm": 1.7635881528823554,
      "learning_rate": 1e-05,
      "loss": 0.6857,
      "step": 1110
    },
    {
      "epoch": 0.44412242348532166,
      "grad_norm": 1.5044911725335084,
      "learning_rate": 1e-05,
      "loss": 0.6937,
      "step": 1111
    },
    {
      "epoch": 0.44452217364147406,
      "grad_norm": 1.4847964616142924,
      "learning_rate": 1e-05,
      "loss": 0.6861,
      "step": 1112
    },
    {
      "epoch": 0.44492192379762646,
      "grad_norm": 1.620797715929281,
      "learning_rate": 1e-05,
      "loss": 0.6827,
      "step": 1113
    },
    {
      "epoch": 0.44532167395377886,
      "grad_norm": 1.5897103932154832,
      "learning_rate": 1e-05,
      "loss": 0.6947,
      "step": 1114
    },
    {
      "epoch": 0.4457214241099313,
      "grad_norm": 1.5254041963361433,
      "learning_rate": 1e-05,
      "loss": 0.6924,
      "step": 1115
    },
    {
      "epoch": 0.4461211742660837,
      "grad_norm": 1.6271540041273018,
      "learning_rate": 1e-05,
      "loss": 0.7242,
      "step": 1116
    },
    {
      "epoch": 0.4465209244222361,
      "grad_norm": 1.6625738310298117,
      "learning_rate": 1e-05,
      "loss": 0.6851,
      "step": 1117
    },
    {
      "epoch": 0.4469206745783885,
      "grad_norm": 1.6235017702032843,
      "learning_rate": 1e-05,
      "loss": 0.7059,
      "step": 1118
    },
    {
      "epoch": 0.4473204247345409,
      "grad_norm": 1.8059350912513763,
      "learning_rate": 1e-05,
      "loss": 0.6899,
      "step": 1119
    },
    {
      "epoch": 0.4477201748906933,
      "grad_norm": 1.643763650189443,
      "learning_rate": 1e-05,
      "loss": 0.6793,
      "step": 1120
    },
    {
      "epoch": 0.4481199250468457,
      "grad_norm": 1.4724291063525232,
      "learning_rate": 1e-05,
      "loss": 0.6838,
      "step": 1121
    },
    {
      "epoch": 0.4485196752029981,
      "grad_norm": 1.663570010876078,
      "learning_rate": 1e-05,
      "loss": 0.6896,
      "step": 1122
    },
    {
      "epoch": 0.4489194253591505,
      "grad_norm": 1.7309679416666481,
      "learning_rate": 1e-05,
      "loss": 0.6697,
      "step": 1123
    },
    {
      "epoch": 0.4493191755153029,
      "grad_norm": 1.9624828894239634,
      "learning_rate": 1e-05,
      "loss": 0.6684,
      "step": 1124
    },
    {
      "epoch": 0.4497189256714553,
      "grad_norm": 1.5472067687797875,
      "learning_rate": 1e-05,
      "loss": 0.693,
      "step": 1125
    },
    {
      "epoch": 0.45011867582760773,
      "grad_norm": 1.4391129128013567,
      "learning_rate": 1e-05,
      "loss": 0.6791,
      "step": 1126
    },
    {
      "epoch": 0.45051842598376013,
      "grad_norm": 1.5243639983666843,
      "learning_rate": 1e-05,
      "loss": 0.6914,
      "step": 1127
    },
    {
      "epoch": 0.45091817613991253,
      "grad_norm": 1.631009988621479,
      "learning_rate": 1e-05,
      "loss": 0.6877,
      "step": 1128
    },
    {
      "epoch": 0.451317926296065,
      "grad_norm": 1.61120436348595,
      "learning_rate": 1e-05,
      "loss": 0.6403,
      "step": 1129
    },
    {
      "epoch": 0.4517176764522174,
      "grad_norm": 1.527405525521232,
      "learning_rate": 1e-05,
      "loss": 0.6483,
      "step": 1130
    },
    {
      "epoch": 0.4521174266083698,
      "grad_norm": 1.511031586725498,
      "learning_rate": 1e-05,
      "loss": 0.6825,
      "step": 1131
    },
    {
      "epoch": 0.4525171767645222,
      "grad_norm": 1.6214799931552992,
      "learning_rate": 1e-05,
      "loss": 0.6616,
      "step": 1132
    },
    {
      "epoch": 0.4529169269206746,
      "grad_norm": 1.5066803678398772,
      "learning_rate": 1e-05,
      "loss": 0.655,
      "step": 1133
    },
    {
      "epoch": 0.453316677076827,
      "grad_norm": 1.3967527204381855,
      "learning_rate": 1e-05,
      "loss": 0.6751,
      "step": 1134
    },
    {
      "epoch": 0.4537164272329794,
      "grad_norm": 1.629854553044,
      "learning_rate": 1e-05,
      "loss": 0.6655,
      "step": 1135
    },
    {
      "epoch": 0.4541161773891318,
      "grad_norm": 1.5258788138861417,
      "learning_rate": 1e-05,
      "loss": 0.6969,
      "step": 1136
    },
    {
      "epoch": 0.4545159275452842,
      "grad_norm": 1.6607241048786574,
      "learning_rate": 1e-05,
      "loss": 0.6974,
      "step": 1137
    },
    {
      "epoch": 0.4549156777014366,
      "grad_norm": 1.7033131028347175,
      "learning_rate": 1e-05,
      "loss": 0.719,
      "step": 1138
    },
    {
      "epoch": 0.455315427857589,
      "grad_norm": 1.495273130112764,
      "learning_rate": 1e-05,
      "loss": 0.6765,
      "step": 1139
    },
    {
      "epoch": 0.4557151780137414,
      "grad_norm": 1.4842959122033872,
      "learning_rate": 1e-05,
      "loss": 0.6927,
      "step": 1140
    },
    {
      "epoch": 0.4561149281698938,
      "grad_norm": 1.715476307686631,
      "learning_rate": 1e-05,
      "loss": 0.6639,
      "step": 1141
    },
    {
      "epoch": 0.4565146783260462,
      "grad_norm": 1.5831256097652984,
      "learning_rate": 1e-05,
      "loss": 0.6883,
      "step": 1142
    },
    {
      "epoch": 0.45691442848219865,
      "grad_norm": 1.5288776609112087,
      "learning_rate": 1e-05,
      "loss": 0.6519,
      "step": 1143
    },
    {
      "epoch": 0.45731417863835105,
      "grad_norm": 1.6205337619220554,
      "learning_rate": 1e-05,
      "loss": 0.68,
      "step": 1144
    },
    {
      "epoch": 0.45771392879450346,
      "grad_norm": 1.579252288559505,
      "learning_rate": 1e-05,
      "loss": 0.713,
      "step": 1145
    },
    {
      "epoch": 0.45811367895065586,
      "grad_norm": 1.7651867507571377,
      "learning_rate": 1e-05,
      "loss": 0.6514,
      "step": 1146
    },
    {
      "epoch": 0.45851342910680826,
      "grad_norm": 1.4431970126297577,
      "learning_rate": 1e-05,
      "loss": 0.6599,
      "step": 1147
    },
    {
      "epoch": 0.45891317926296066,
      "grad_norm": 1.5891382225642674,
      "learning_rate": 1e-05,
      "loss": 0.6718,
      "step": 1148
    },
    {
      "epoch": 0.45931292941911306,
      "grad_norm": 1.5845397244570574,
      "learning_rate": 1e-05,
      "loss": 0.6971,
      "step": 1149
    },
    {
      "epoch": 0.45971267957526546,
      "grad_norm": 1.519040214399309,
      "learning_rate": 1e-05,
      "loss": 0.6479,
      "step": 1150
    },
    {
      "epoch": 0.46011242973141786,
      "grad_norm": 1.629114496806486,
      "learning_rate": 1e-05,
      "loss": 0.699,
      "step": 1151
    },
    {
      "epoch": 0.46051217988757026,
      "grad_norm": 1.4486030262229026,
      "learning_rate": 1e-05,
      "loss": 0.6828,
      "step": 1152
    },
    {
      "epoch": 0.46091193004372266,
      "grad_norm": 1.6673973377057234,
      "learning_rate": 1e-05,
      "loss": 0.6987,
      "step": 1153
    },
    {
      "epoch": 0.46131168019987506,
      "grad_norm": 1.4771124385084786,
      "learning_rate": 1e-05,
      "loss": 0.6945,
      "step": 1154
    },
    {
      "epoch": 0.46171143035602746,
      "grad_norm": 1.5156257748343942,
      "learning_rate": 1e-05,
      "loss": 0.6926,
      "step": 1155
    },
    {
      "epoch": 0.46211118051217986,
      "grad_norm": 1.6674307808338715,
      "learning_rate": 1e-05,
      "loss": 0.7332,
      "step": 1156
    },
    {
      "epoch": 0.46251093066833227,
      "grad_norm": 1.6292909617052982,
      "learning_rate": 1e-05,
      "loss": 0.661,
      "step": 1157
    },
    {
      "epoch": 0.4629106808244847,
      "grad_norm": 1.5151468014030471,
      "learning_rate": 1e-05,
      "loss": 0.6945,
      "step": 1158
    },
    {
      "epoch": 0.4633104309806371,
      "grad_norm": 1.9314338478709012,
      "learning_rate": 1e-05,
      "loss": 0.6631,
      "step": 1159
    },
    {
      "epoch": 0.4637101811367895,
      "grad_norm": 1.5757269728019876,
      "learning_rate": 1e-05,
      "loss": 0.6759,
      "step": 1160
    },
    {
      "epoch": 0.4641099312929419,
      "grad_norm": 1.5156906019074996,
      "learning_rate": 1e-05,
      "loss": 0.6951,
      "step": 1161
    },
    {
      "epoch": 0.4645096814490943,
      "grad_norm": 1.6578048607425406,
      "learning_rate": 1e-05,
      "loss": 0.6929,
      "step": 1162
    },
    {
      "epoch": 0.4649094316052467,
      "grad_norm": 1.5529179644160809,
      "learning_rate": 1e-05,
      "loss": 0.6925,
      "step": 1163
    },
    {
      "epoch": 0.4653091817613991,
      "grad_norm": 1.8338864550660516,
      "learning_rate": 1e-05,
      "loss": 0.7279,
      "step": 1164
    },
    {
      "epoch": 0.4657089319175515,
      "grad_norm": 1.553216284709936,
      "learning_rate": 1e-05,
      "loss": 0.6738,
      "step": 1165
    },
    {
      "epoch": 0.46610868207370393,
      "grad_norm": 1.6160807633969825,
      "learning_rate": 1e-05,
      "loss": 0.6661,
      "step": 1166
    },
    {
      "epoch": 0.46650843222985633,
      "grad_norm": 1.5368544752820346,
      "learning_rate": 1e-05,
      "loss": 0.6749,
      "step": 1167
    },
    {
      "epoch": 0.46690818238600873,
      "grad_norm": 1.4527152726411967,
      "learning_rate": 1e-05,
      "loss": 0.6981,
      "step": 1168
    },
    {
      "epoch": 0.46730793254216113,
      "grad_norm": 1.7047937295180478,
      "learning_rate": 1e-05,
      "loss": 0.6898,
      "step": 1169
    },
    {
      "epoch": 0.46770768269831353,
      "grad_norm": 1.5591363893450947,
      "learning_rate": 1e-05,
      "loss": 0.6479,
      "step": 1170
    },
    {
      "epoch": 0.46810743285446593,
      "grad_norm": 1.612121960399981,
      "learning_rate": 1e-05,
      "loss": 0.6792,
      "step": 1171
    },
    {
      "epoch": 0.4685071830106184,
      "grad_norm": 1.6283496143152532,
      "learning_rate": 1e-05,
      "loss": 0.6784,
      "step": 1172
    },
    {
      "epoch": 0.4689069331667708,
      "grad_norm": 1.7403769281944441,
      "learning_rate": 1e-05,
      "loss": 0.6622,
      "step": 1173
    },
    {
      "epoch": 0.4693066833229232,
      "grad_norm": 1.7828724540722916,
      "learning_rate": 1e-05,
      "loss": 0.6855,
      "step": 1174
    },
    {
      "epoch": 0.4697064334790756,
      "grad_norm": 1.4181546574180537,
      "learning_rate": 1e-05,
      "loss": 0.7068,
      "step": 1175
    },
    {
      "epoch": 0.470106183635228,
      "grad_norm": 1.5548747213901961,
      "learning_rate": 1e-05,
      "loss": 0.6979,
      "step": 1176
    },
    {
      "epoch": 0.4705059337913804,
      "grad_norm": 1.5058154580033447,
      "learning_rate": 1e-05,
      "loss": 0.659,
      "step": 1177
    },
    {
      "epoch": 0.4709056839475328,
      "grad_norm": 1.5879150474440118,
      "learning_rate": 1e-05,
      "loss": 0.6761,
      "step": 1178
    },
    {
      "epoch": 0.4713054341036852,
      "grad_norm": 1.5498814533449112,
      "learning_rate": 1e-05,
      "loss": 0.6826,
      "step": 1179
    },
    {
      "epoch": 0.4717051842598376,
      "grad_norm": 1.6246312503720144,
      "learning_rate": 1e-05,
      "loss": 0.7019,
      "step": 1180
    },
    {
      "epoch": 0.47210493441599,
      "grad_norm": 1.736892491937903,
      "learning_rate": 1e-05,
      "loss": 0.652,
      "step": 1181
    },
    {
      "epoch": 0.4725046845721424,
      "grad_norm": 1.5937251981292866,
      "learning_rate": 1e-05,
      "loss": 0.6838,
      "step": 1182
    },
    {
      "epoch": 0.4729044347282948,
      "grad_norm": 1.7419456934590625,
      "learning_rate": 1e-05,
      "loss": 0.6704,
      "step": 1183
    },
    {
      "epoch": 0.4733041848844472,
      "grad_norm": 1.48580774929883,
      "learning_rate": 1e-05,
      "loss": 0.6758,
      "step": 1184
    },
    {
      "epoch": 0.4737039350405996,
      "grad_norm": 1.6990637212765458,
      "learning_rate": 1e-05,
      "loss": 0.665,
      "step": 1185
    },
    {
      "epoch": 0.47410368519675206,
      "grad_norm": 1.6163917459710209,
      "learning_rate": 1e-05,
      "loss": 0.6738,
      "step": 1186
    },
    {
      "epoch": 0.47450343535290446,
      "grad_norm": 1.4702160247806257,
      "learning_rate": 1e-05,
      "loss": 0.67,
      "step": 1187
    },
    {
      "epoch": 0.47490318550905686,
      "grad_norm": 1.5693262067678853,
      "learning_rate": 1e-05,
      "loss": 0.6635,
      "step": 1188
    },
    {
      "epoch": 0.47530293566520926,
      "grad_norm": 1.9408489692866955,
      "learning_rate": 1e-05,
      "loss": 0.6908,
      "step": 1189
    },
    {
      "epoch": 0.47570268582136166,
      "grad_norm": 1.635635936774693,
      "learning_rate": 1e-05,
      "loss": 0.683,
      "step": 1190
    },
    {
      "epoch": 0.47610243597751406,
      "grad_norm": 1.6426134564764512,
      "learning_rate": 1e-05,
      "loss": 0.7017,
      "step": 1191
    },
    {
      "epoch": 0.47650218613366646,
      "grad_norm": 1.6708952345148917,
      "learning_rate": 1e-05,
      "loss": 0.6874,
      "step": 1192
    },
    {
      "epoch": 0.47690193628981886,
      "grad_norm": 1.6131368317759298,
      "learning_rate": 1e-05,
      "loss": 0.6879,
      "step": 1193
    },
    {
      "epoch": 0.47730168644597126,
      "grad_norm": 1.6683442558067758,
      "learning_rate": 1e-05,
      "loss": 0.6963,
      "step": 1194
    },
    {
      "epoch": 0.47770143660212366,
      "grad_norm": 1.6282559313386125,
      "learning_rate": 1e-05,
      "loss": 0.7408,
      "step": 1195
    },
    {
      "epoch": 0.47810118675827606,
      "grad_norm": 1.6030867468240741,
      "learning_rate": 1e-05,
      "loss": 0.6922,
      "step": 1196
    },
    {
      "epoch": 0.47850093691442847,
      "grad_norm": 1.5745849502754097,
      "learning_rate": 1e-05,
      "loss": 0.6702,
      "step": 1197
    },
    {
      "epoch": 0.47890068707058087,
      "grad_norm": 1.5789664076070526,
      "learning_rate": 1e-05,
      "loss": 0.6933,
      "step": 1198
    },
    {
      "epoch": 0.47930043722673327,
      "grad_norm": 1.5494228701861832,
      "learning_rate": 1e-05,
      "loss": 0.6553,
      "step": 1199
    },
    {
      "epoch": 0.4797001873828857,
      "grad_norm": 1.5402061191804894,
      "learning_rate": 1e-05,
      "loss": 0.6863,
      "step": 1200
    },
    {
      "epoch": 0.4800999375390381,
      "grad_norm": 1.5070818148407648,
      "learning_rate": 1e-05,
      "loss": 0.679,
      "step": 1201
    },
    {
      "epoch": 0.4804996876951905,
      "grad_norm": 1.6109322082743511,
      "learning_rate": 1e-05,
      "loss": 0.6406,
      "step": 1202
    },
    {
      "epoch": 0.4808994378513429,
      "grad_norm": 1.7533630154630329,
      "learning_rate": 1e-05,
      "loss": 0.7089,
      "step": 1203
    },
    {
      "epoch": 0.4812991880074953,
      "grad_norm": 1.4405538544246703,
      "learning_rate": 1e-05,
      "loss": 0.6938,
      "step": 1204
    },
    {
      "epoch": 0.4816989381636477,
      "grad_norm": 1.6301896952368848,
      "learning_rate": 1e-05,
      "loss": 0.6787,
      "step": 1205
    },
    {
      "epoch": 0.48209868831980013,
      "grad_norm": 1.6569441064108819,
      "learning_rate": 1e-05,
      "loss": 0.6907,
      "step": 1206
    },
    {
      "epoch": 0.48249843847595253,
      "grad_norm": 1.8557877682946113,
      "learning_rate": 1e-05,
      "loss": 0.6648,
      "step": 1207
    },
    {
      "epoch": 0.48289818863210493,
      "grad_norm": 1.6580442727675722,
      "learning_rate": 1e-05,
      "loss": 0.7252,
      "step": 1208
    },
    {
      "epoch": 0.48329793878825733,
      "grad_norm": 1.6848702399043098,
      "learning_rate": 1e-05,
      "loss": 0.69,
      "step": 1209
    },
    {
      "epoch": 0.48369768894440973,
      "grad_norm": 1.5462064815084824,
      "learning_rate": 1e-05,
      "loss": 0.6717,
      "step": 1210
    },
    {
      "epoch": 0.48409743910056213,
      "grad_norm": 1.6839689469659176,
      "learning_rate": 1e-05,
      "loss": 0.6993,
      "step": 1211
    },
    {
      "epoch": 0.48449718925671453,
      "grad_norm": 1.529352728722555,
      "learning_rate": 1e-05,
      "loss": 0.6443,
      "step": 1212
    },
    {
      "epoch": 0.48489693941286693,
      "grad_norm": 1.6582856902912861,
      "learning_rate": 1e-05,
      "loss": 0.7012,
      "step": 1213
    },
    {
      "epoch": 0.4852966895690194,
      "grad_norm": 1.6366793913079472,
      "learning_rate": 1e-05,
      "loss": 0.6802,
      "step": 1214
    },
    {
      "epoch": 0.4856964397251718,
      "grad_norm": 1.5789033479946049,
      "learning_rate": 1e-05,
      "loss": 0.6938,
      "step": 1215
    },
    {
      "epoch": 0.4860961898813242,
      "grad_norm": 1.4889736575020307,
      "learning_rate": 1e-05,
      "loss": 0.6689,
      "step": 1216
    },
    {
      "epoch": 0.4864959400374766,
      "grad_norm": 1.684529359874824,
      "learning_rate": 1e-05,
      "loss": 0.6895,
      "step": 1217
    },
    {
      "epoch": 0.486895690193629,
      "grad_norm": 1.4769911279429362,
      "learning_rate": 1e-05,
      "loss": 0.6606,
      "step": 1218
    },
    {
      "epoch": 0.4872954403497814,
      "grad_norm": 1.6334445153395682,
      "learning_rate": 1e-05,
      "loss": 0.7014,
      "step": 1219
    },
    {
      "epoch": 0.4876951905059338,
      "grad_norm": 1.5382575287035436,
      "learning_rate": 1e-05,
      "loss": 0.6765,
      "step": 1220
    },
    {
      "epoch": 0.4880949406620862,
      "grad_norm": 1.52688187939701,
      "learning_rate": 1e-05,
      "loss": 0.6654,
      "step": 1221
    },
    {
      "epoch": 0.4884946908182386,
      "grad_norm": 1.6043902210394017,
      "learning_rate": 1e-05,
      "loss": 0.6796,
      "step": 1222
    },
    {
      "epoch": 0.488894440974391,
      "grad_norm": 1.6820677404440425,
      "learning_rate": 1e-05,
      "loss": 0.692,
      "step": 1223
    },
    {
      "epoch": 0.4892941911305434,
      "grad_norm": 1.4736822473039999,
      "learning_rate": 1e-05,
      "loss": 0.6638,
      "step": 1224
    },
    {
      "epoch": 0.4896939412866958,
      "grad_norm": 1.7431416531485575,
      "learning_rate": 1e-05,
      "loss": 0.6772,
      "step": 1225
    },
    {
      "epoch": 0.4900936914428482,
      "grad_norm": 1.9342890793606,
      "learning_rate": 1e-05,
      "loss": 0.6715,
      "step": 1226
    },
    {
      "epoch": 0.4904934415990006,
      "grad_norm": 1.5874312633977397,
      "learning_rate": 1e-05,
      "loss": 0.6963,
      "step": 1227
    },
    {
      "epoch": 0.490893191755153,
      "grad_norm": 1.6024510658526803,
      "learning_rate": 1e-05,
      "loss": 0.6854,
      "step": 1228
    },
    {
      "epoch": 0.49129294191130546,
      "grad_norm": 1.645909089537496,
      "learning_rate": 1e-05,
      "loss": 0.67,
      "step": 1229
    },
    {
      "epoch": 0.49169269206745786,
      "grad_norm": 1.4726346896457498,
      "learning_rate": 1e-05,
      "loss": 0.6838,
      "step": 1230
    },
    {
      "epoch": 0.49209244222361026,
      "grad_norm": 1.6509853729257407,
      "learning_rate": 1e-05,
      "loss": 0.6848,
      "step": 1231
    },
    {
      "epoch": 0.49249219237976266,
      "grad_norm": 1.761578635723992,
      "learning_rate": 1e-05,
      "loss": 0.6882,
      "step": 1232
    },
    {
      "epoch": 0.49289194253591506,
      "grad_norm": 1.610761132521736,
      "learning_rate": 1e-05,
      "loss": 0.6915,
      "step": 1233
    },
    {
      "epoch": 0.49329169269206746,
      "grad_norm": 1.6823369710693086,
      "learning_rate": 1e-05,
      "loss": 0.6818,
      "step": 1234
    },
    {
      "epoch": 0.49369144284821986,
      "grad_norm": 1.5848525426463769,
      "learning_rate": 1e-05,
      "loss": 0.6673,
      "step": 1235
    },
    {
      "epoch": 0.49409119300437226,
      "grad_norm": 1.6556712728542944,
      "learning_rate": 1e-05,
      "loss": 0.6535,
      "step": 1236
    },
    {
      "epoch": 0.49449094316052467,
      "grad_norm": 1.5245620636943376,
      "learning_rate": 1e-05,
      "loss": 0.6865,
      "step": 1237
    },
    {
      "epoch": 0.49489069331667707,
      "grad_norm": 1.4911598667101271,
      "learning_rate": 1e-05,
      "loss": 0.6808,
      "step": 1238
    },
    {
      "epoch": 0.49529044347282947,
      "grad_norm": 1.563207707975372,
      "learning_rate": 1e-05,
      "loss": 0.6839,
      "step": 1239
    },
    {
      "epoch": 0.49569019362898187,
      "grad_norm": 1.4534745144081374,
      "learning_rate": 1e-05,
      "loss": 0.6412,
      "step": 1240
    },
    {
      "epoch": 0.49608994378513427,
      "grad_norm": 1.5361669091862395,
      "learning_rate": 1e-05,
      "loss": 0.679,
      "step": 1241
    },
    {
      "epoch": 0.49648969394128667,
      "grad_norm": 1.6524308538161114,
      "learning_rate": 1e-05,
      "loss": 0.6691,
      "step": 1242
    },
    {
      "epoch": 0.4968894440974391,
      "grad_norm": 1.6337641752501686,
      "learning_rate": 1e-05,
      "loss": 0.7227,
      "step": 1243
    },
    {
      "epoch": 0.4972891942535915,
      "grad_norm": 1.6112364897195388,
      "learning_rate": 1e-05,
      "loss": 0.6314,
      "step": 1244
    },
    {
      "epoch": 0.4976889444097439,
      "grad_norm": 1.7095522574035118,
      "learning_rate": 1e-05,
      "loss": 0.6717,
      "step": 1245
    },
    {
      "epoch": 0.49808869456589633,
      "grad_norm": 1.4431167710798578,
      "learning_rate": 1e-05,
      "loss": 0.6348,
      "step": 1246
    },
    {
      "epoch": 0.49848844472204873,
      "grad_norm": 1.5895017686184187,
      "learning_rate": 1e-05,
      "loss": 0.7396,
      "step": 1247
    },
    {
      "epoch": 0.49888819487820113,
      "grad_norm": 1.6431882808878444,
      "learning_rate": 1e-05,
      "loss": 0.681,
      "step": 1248
    },
    {
      "epoch": 0.49928794503435353,
      "grad_norm": 1.5711251369726165,
      "learning_rate": 1e-05,
      "loss": 0.6714,
      "step": 1249
    },
    {
      "epoch": 0.49968769519050593,
      "grad_norm": 1.6437713007725419,
      "learning_rate": 1e-05,
      "loss": 0.6709,
      "step": 1250
    },
    {
      "epoch": 0.5000874453466584,
      "grad_norm": 1.6513677561406377,
      "learning_rate": 1e-05,
      "loss": 0.6532,
      "step": 1251
    },
    {
      "epoch": 0.5004871955028107,
      "grad_norm": 1.79173267587707,
      "learning_rate": 1e-05,
      "loss": 0.6867,
      "step": 1252
    },
    {
      "epoch": 0.5008869456589632,
      "grad_norm": 1.56684354525142,
      "learning_rate": 1e-05,
      "loss": 0.6927,
      "step": 1253
    },
    {
      "epoch": 0.5012866958151155,
      "grad_norm": 1.6212464556520023,
      "learning_rate": 1e-05,
      "loss": 0.6616,
      "step": 1254
    },
    {
      "epoch": 0.501686445971268,
      "grad_norm": 1.4411077505155223,
      "learning_rate": 1e-05,
      "loss": 0.649,
      "step": 1255
    },
    {
      "epoch": 0.5020861961274203,
      "grad_norm": 1.7344264007751555,
      "learning_rate": 1e-05,
      "loss": 0.674,
      "step": 1256
    },
    {
      "epoch": 0.5024859462835728,
      "grad_norm": 1.468627300673945,
      "learning_rate": 1e-05,
      "loss": 0.6681,
      "step": 1257
    },
    {
      "epoch": 0.5028856964397251,
      "grad_norm": 1.7656267140894752,
      "learning_rate": 1e-05,
      "loss": 0.6507,
      "step": 1258
    },
    {
      "epoch": 0.5032854465958776,
      "grad_norm": 1.7786776410256142,
      "learning_rate": 1e-05,
      "loss": 0.6878,
      "step": 1259
    },
    {
      "epoch": 0.5036851967520299,
      "grad_norm": 1.599241742682699,
      "learning_rate": 1e-05,
      "loss": 0.6772,
      "step": 1260
    },
    {
      "epoch": 0.5040849469081824,
      "grad_norm": 1.431722040257904,
      "learning_rate": 1e-05,
      "loss": 0.6695,
      "step": 1261
    },
    {
      "epoch": 0.5044846970643347,
      "grad_norm": 1.8204596637712946,
      "learning_rate": 1e-05,
      "loss": 0.6804,
      "step": 1262
    },
    {
      "epoch": 0.5048844472204872,
      "grad_norm": 1.5429101781898185,
      "learning_rate": 1e-05,
      "loss": 0.6836,
      "step": 1263
    },
    {
      "epoch": 0.5052841973766397,
      "grad_norm": 1.7341153371827285,
      "learning_rate": 1e-05,
      "loss": 0.6621,
      "step": 1264
    },
    {
      "epoch": 0.505683947532792,
      "grad_norm": 1.6542737340499563,
      "learning_rate": 1e-05,
      "loss": 0.6643,
      "step": 1265
    },
    {
      "epoch": 0.5060836976889445,
      "grad_norm": 1.52990323245866,
      "learning_rate": 1e-05,
      "loss": 0.6725,
      "step": 1266
    },
    {
      "epoch": 0.5064834478450968,
      "grad_norm": 1.4875692748489746,
      "learning_rate": 1e-05,
      "loss": 0.633,
      "step": 1267
    },
    {
      "epoch": 0.5068831980012493,
      "grad_norm": 1.5851907351127836,
      "learning_rate": 1e-05,
      "loss": 0.661,
      "step": 1268
    },
    {
      "epoch": 0.5072829481574016,
      "grad_norm": 1.5903504672137534,
      "learning_rate": 1e-05,
      "loss": 0.6783,
      "step": 1269
    },
    {
      "epoch": 0.5076826983135541,
      "grad_norm": 1.7647930069352655,
      "learning_rate": 1e-05,
      "loss": 0.6442,
      "step": 1270
    },
    {
      "epoch": 0.5080824484697064,
      "grad_norm": 1.6889362101635477,
      "learning_rate": 1e-05,
      "loss": 0.7172,
      "step": 1271
    },
    {
      "epoch": 0.5084821986258589,
      "grad_norm": 1.5635587066929586,
      "learning_rate": 1e-05,
      "loss": 0.6479,
      "step": 1272
    },
    {
      "epoch": 0.5088819487820112,
      "grad_norm": 1.4989001710307244,
      "learning_rate": 1e-05,
      "loss": 0.6945,
      "step": 1273
    },
    {
      "epoch": 0.5092816989381637,
      "grad_norm": 1.637810575691394,
      "learning_rate": 1e-05,
      "loss": 0.7288,
      "step": 1274
    },
    {
      "epoch": 0.509681449094316,
      "grad_norm": 1.5262665906273536,
      "learning_rate": 1e-05,
      "loss": 0.6574,
      "step": 1275
    },
    {
      "epoch": 0.5100811992504685,
      "grad_norm": 1.664056304760008,
      "learning_rate": 1e-05,
      "loss": 0.6893,
      "step": 1276
    },
    {
      "epoch": 0.5104809494066208,
      "grad_norm": 1.6147984281674803,
      "learning_rate": 1e-05,
      "loss": 0.6901,
      "step": 1277
    },
    {
      "epoch": 0.5108806995627733,
      "grad_norm": 1.530948323834402,
      "learning_rate": 1e-05,
      "loss": 0.6771,
      "step": 1278
    },
    {
      "epoch": 0.5112804497189257,
      "grad_norm": 1.455917330658133,
      "learning_rate": 1e-05,
      "loss": 0.6817,
      "step": 1279
    },
    {
      "epoch": 0.5116801998750781,
      "grad_norm": 1.549268238997898,
      "learning_rate": 1e-05,
      "loss": 0.679,
      "step": 1280
    },
    {
      "epoch": 0.5120799500312305,
      "grad_norm": 1.4473268297231856,
      "learning_rate": 1e-05,
      "loss": 0.6644,
      "step": 1281
    },
    {
      "epoch": 0.5124797001873829,
      "grad_norm": 1.692208442256474,
      "learning_rate": 1e-05,
      "loss": 0.6818,
      "step": 1282
    },
    {
      "epoch": 0.5128794503435353,
      "grad_norm": 1.6069668384036604,
      "learning_rate": 1e-05,
      "loss": 0.6914,
      "step": 1283
    },
    {
      "epoch": 0.5132792004996877,
      "grad_norm": 1.4858787951798198,
      "learning_rate": 1e-05,
      "loss": 0.681,
      "step": 1284
    },
    {
      "epoch": 0.5136789506558401,
      "grad_norm": 1.7940385225769153,
      "learning_rate": 1e-05,
      "loss": 0.6802,
      "step": 1285
    },
    {
      "epoch": 0.5140787008119925,
      "grad_norm": 1.4215391410736173,
      "learning_rate": 1e-05,
      "loss": 0.6722,
      "step": 1286
    },
    {
      "epoch": 0.5144784509681449,
      "grad_norm": 1.6148158066940246,
      "learning_rate": 1e-05,
      "loss": 0.6912,
      "step": 1287
    },
    {
      "epoch": 0.5148782011242973,
      "grad_norm": 1.6989213258928468,
      "learning_rate": 1e-05,
      "loss": 0.6587,
      "step": 1288
    },
    {
      "epoch": 0.5152779512804497,
      "grad_norm": 1.6258992086093003,
      "learning_rate": 1e-05,
      "loss": 0.6775,
      "step": 1289
    },
    {
      "epoch": 0.5156777014366021,
      "grad_norm": 1.6172294350819334,
      "learning_rate": 1e-05,
      "loss": 0.6789,
      "step": 1290
    },
    {
      "epoch": 0.5160774515927545,
      "grad_norm": 1.4948866813156423,
      "learning_rate": 1e-05,
      "loss": 0.6832,
      "step": 1291
    },
    {
      "epoch": 0.5164772017489069,
      "grad_norm": 1.644310397971209,
      "learning_rate": 1e-05,
      "loss": 0.6296,
      "step": 1292
    },
    {
      "epoch": 0.5168769519050593,
      "grad_norm": 1.6366374261243055,
      "learning_rate": 1e-05,
      "loss": 0.6737,
      "step": 1293
    },
    {
      "epoch": 0.5172767020612118,
      "grad_norm": 1.6639848505787225,
      "learning_rate": 1e-05,
      "loss": 0.6717,
      "step": 1294
    },
    {
      "epoch": 0.5176764522173641,
      "grad_norm": 1.6380065469870544,
      "learning_rate": 1e-05,
      "loss": 0.6501,
      "step": 1295
    },
    {
      "epoch": 0.5180762023735166,
      "grad_norm": 1.7379843394638455,
      "learning_rate": 1e-05,
      "loss": 0.6699,
      "step": 1296
    },
    {
      "epoch": 0.5184759525296689,
      "grad_norm": 1.7309544141388689,
      "learning_rate": 1e-05,
      "loss": 0.658,
      "step": 1297
    },
    {
      "epoch": 0.5188757026858214,
      "grad_norm": 1.577042257964921,
      "learning_rate": 1e-05,
      "loss": 0.6404,
      "step": 1298
    },
    {
      "epoch": 0.5192754528419737,
      "grad_norm": 1.7413721448622579,
      "learning_rate": 1e-05,
      "loss": 0.7118,
      "step": 1299
    },
    {
      "epoch": 0.5196752029981262,
      "grad_norm": 1.6142993134476626,
      "learning_rate": 1e-05,
      "loss": 0.6823,
      "step": 1300
    },
    {
      "epoch": 0.5200749531542785,
      "grad_norm": 1.8006301223386778,
      "learning_rate": 1e-05,
      "loss": 0.6722,
      "step": 1301
    },
    {
      "epoch": 0.520474703310431,
      "grad_norm": 1.5691413070086697,
      "learning_rate": 1e-05,
      "loss": 0.7007,
      "step": 1302
    },
    {
      "epoch": 0.5208744534665833,
      "grad_norm": 1.552484936933304,
      "learning_rate": 1e-05,
      "loss": 0.6691,
      "step": 1303
    },
    {
      "epoch": 0.5212742036227358,
      "grad_norm": 1.722510026479379,
      "learning_rate": 1e-05,
      "loss": 0.627,
      "step": 1304
    },
    {
      "epoch": 0.5216739537788881,
      "grad_norm": 1.672535646779043,
      "learning_rate": 1e-05,
      "loss": 0.6658,
      "step": 1305
    },
    {
      "epoch": 0.5220737039350406,
      "grad_norm": 1.7084886823286278,
      "learning_rate": 1e-05,
      "loss": 0.6726,
      "step": 1306
    },
    {
      "epoch": 0.5224734540911931,
      "grad_norm": 1.6427110139879992,
      "learning_rate": 1e-05,
      "loss": 0.7093,
      "step": 1307
    },
    {
      "epoch": 0.5228732042473454,
      "grad_norm": 1.6639394385151351,
      "learning_rate": 1e-05,
      "loss": 0.6878,
      "step": 1308
    },
    {
      "epoch": 0.5232729544034979,
      "grad_norm": 1.6714705088495818,
      "learning_rate": 1e-05,
      "loss": 0.7041,
      "step": 1309
    },
    {
      "epoch": 0.5236727045596502,
      "grad_norm": 1.6141668398826163,
      "learning_rate": 1e-05,
      "loss": 0.6845,
      "step": 1310
    },
    {
      "epoch": 0.5240724547158027,
      "grad_norm": 1.5188817782210073,
      "learning_rate": 1e-05,
      "loss": 0.6584,
      "step": 1311
    },
    {
      "epoch": 0.524472204871955,
      "grad_norm": 1.5516698532130633,
      "learning_rate": 1e-05,
      "loss": 0.6742,
      "step": 1312
    },
    {
      "epoch": 0.5248719550281075,
      "grad_norm": 1.5863742118021795,
      "learning_rate": 1e-05,
      "loss": 0.6666,
      "step": 1313
    },
    {
      "epoch": 0.5252717051842598,
      "grad_norm": 1.6313977858577478,
      "learning_rate": 1e-05,
      "loss": 0.7078,
      "step": 1314
    },
    {
      "epoch": 0.5256714553404123,
      "grad_norm": 1.513803239930418,
      "learning_rate": 1e-05,
      "loss": 0.6595,
      "step": 1315
    },
    {
      "epoch": 0.5260712054965646,
      "grad_norm": 1.5234331608797913,
      "learning_rate": 1e-05,
      "loss": 0.6742,
      "step": 1316
    },
    {
      "epoch": 0.5264709556527171,
      "grad_norm": 1.63900129918612,
      "learning_rate": 1e-05,
      "loss": 0.6748,
      "step": 1317
    },
    {
      "epoch": 0.5268707058088694,
      "grad_norm": 1.4892888785767713,
      "learning_rate": 1e-05,
      "loss": 0.6591,
      "step": 1318
    },
    {
      "epoch": 0.5272704559650219,
      "grad_norm": 1.8548721943746624,
      "learning_rate": 1e-05,
      "loss": 0.6758,
      "step": 1319
    },
    {
      "epoch": 0.5276702061211742,
      "grad_norm": 1.618325689005901,
      "learning_rate": 1e-05,
      "loss": 0.6778,
      "step": 1320
    },
    {
      "epoch": 0.5280699562773267,
      "grad_norm": 1.5214011138557721,
      "learning_rate": 1e-05,
      "loss": 0.6813,
      "step": 1321
    },
    {
      "epoch": 0.5284697064334791,
      "grad_norm": 1.3955011429624984,
      "learning_rate": 1e-05,
      "loss": 0.6832,
      "step": 1322
    },
    {
      "epoch": 0.5288694565896315,
      "grad_norm": 1.659030323652183,
      "learning_rate": 1e-05,
      "loss": 0.6644,
      "step": 1323
    },
    {
      "epoch": 0.5292692067457839,
      "grad_norm": 1.5513496277697034,
      "learning_rate": 1e-05,
      "loss": 0.6623,
      "step": 1324
    },
    {
      "epoch": 0.5296689569019363,
      "grad_norm": 1.8913687092073717,
      "learning_rate": 1e-05,
      "loss": 0.6758,
      "step": 1325
    },
    {
      "epoch": 0.5300687070580887,
      "grad_norm": 1.75722032925575,
      "learning_rate": 1e-05,
      "loss": 0.6755,
      "step": 1326
    },
    {
      "epoch": 0.5304684572142411,
      "grad_norm": 1.8247126968066962,
      "learning_rate": 1e-05,
      "loss": 0.6776,
      "step": 1327
    },
    {
      "epoch": 0.5308682073703935,
      "grad_norm": 1.6355541951371235,
      "learning_rate": 1e-05,
      "loss": 0.67,
      "step": 1328
    },
    {
      "epoch": 0.5312679575265459,
      "grad_norm": 1.6226355172174318,
      "learning_rate": 1e-05,
      "loss": 0.6968,
      "step": 1329
    },
    {
      "epoch": 0.5316677076826983,
      "grad_norm": 1.5021567231341062,
      "learning_rate": 1e-05,
      "loss": 0.623,
      "step": 1330
    },
    {
      "epoch": 0.5320674578388507,
      "grad_norm": 1.6495588327024173,
      "learning_rate": 1e-05,
      "loss": 0.69,
      "step": 1331
    },
    {
      "epoch": 0.5324672079950031,
      "grad_norm": 1.5789002501227831,
      "learning_rate": 1e-05,
      "loss": 0.668,
      "step": 1332
    },
    {
      "epoch": 0.5328669581511555,
      "grad_norm": 1.6458768127319656,
      "learning_rate": 1e-05,
      "loss": 0.6725,
      "step": 1333
    },
    {
      "epoch": 0.5332667083073079,
      "grad_norm": 1.579025711657423,
      "learning_rate": 1e-05,
      "loss": 0.6759,
      "step": 1334
    },
    {
      "epoch": 0.5336664584634604,
      "grad_norm": 1.6911332401395327,
      "learning_rate": 1e-05,
      "loss": 0.7081,
      "step": 1335
    },
    {
      "epoch": 0.5340662086196127,
      "grad_norm": 1.4453066851166403,
      "learning_rate": 1e-05,
      "loss": 0.6812,
      "step": 1336
    },
    {
      "epoch": 0.5344659587757652,
      "grad_norm": 1.5918141060442932,
      "learning_rate": 1e-05,
      "loss": 0.6734,
      "step": 1337
    },
    {
      "epoch": 0.5348657089319175,
      "grad_norm": 1.4821032094755424,
      "learning_rate": 1e-05,
      "loss": 0.6788,
      "step": 1338
    },
    {
      "epoch": 0.53526545908807,
      "grad_norm": 1.760594877032826,
      "learning_rate": 1e-05,
      "loss": 0.663,
      "step": 1339
    },
    {
      "epoch": 0.5356652092442223,
      "grad_norm": 1.6159899887485574,
      "learning_rate": 1e-05,
      "loss": 0.7064,
      "step": 1340
    },
    {
      "epoch": 0.5360649594003748,
      "grad_norm": 1.5261061488737881,
      "learning_rate": 1e-05,
      "loss": 0.7149,
      "step": 1341
    },
    {
      "epoch": 0.5364647095565271,
      "grad_norm": 1.5998722715706002,
      "learning_rate": 1e-05,
      "loss": 0.6641,
      "step": 1342
    },
    {
      "epoch": 0.5368644597126796,
      "grad_norm": 1.671786790880295,
      "learning_rate": 1e-05,
      "loss": 0.6574,
      "step": 1343
    },
    {
      "epoch": 0.5372642098688319,
      "grad_norm": 1.6288934026820716,
      "learning_rate": 1e-05,
      "loss": 0.6728,
      "step": 1344
    },
    {
      "epoch": 0.5376639600249844,
      "grad_norm": 1.5804718544707699,
      "learning_rate": 1e-05,
      "loss": 0.6916,
      "step": 1345
    },
    {
      "epoch": 0.5380637101811367,
      "grad_norm": 1.4979221974773176,
      "learning_rate": 1e-05,
      "loss": 0.6818,
      "step": 1346
    },
    {
      "epoch": 0.5384634603372892,
      "grad_norm": 1.5862677801589296,
      "learning_rate": 1e-05,
      "loss": 0.6678,
      "step": 1347
    },
    {
      "epoch": 0.5388632104934415,
      "grad_norm": 1.4679525251764638,
      "learning_rate": 1e-05,
      "loss": 0.6789,
      "step": 1348
    },
    {
      "epoch": 0.539262960649594,
      "grad_norm": 1.562376522499121,
      "learning_rate": 1e-05,
      "loss": 0.646,
      "step": 1349
    },
    {
      "epoch": 0.5396627108057465,
      "grad_norm": 1.7179013507932714,
      "learning_rate": 1e-05,
      "loss": 0.6698,
      "step": 1350
    },
    {
      "epoch": 0.5400624609618988,
      "grad_norm": 1.4826801383737158,
      "learning_rate": 1e-05,
      "loss": 0.6912,
      "step": 1351
    },
    {
      "epoch": 0.5404622111180513,
      "grad_norm": 1.482102781562081,
      "learning_rate": 1e-05,
      "loss": 0.7301,
      "step": 1352
    },
    {
      "epoch": 0.5408619612742036,
      "grad_norm": 1.5873402080774106,
      "learning_rate": 1e-05,
      "loss": 0.6749,
      "step": 1353
    },
    {
      "epoch": 0.5412617114303561,
      "grad_norm": 1.5127029722850953,
      "learning_rate": 1e-05,
      "loss": 0.6898,
      "step": 1354
    },
    {
      "epoch": 0.5416614615865084,
      "grad_norm": 1.8734338627352825,
      "learning_rate": 1e-05,
      "loss": 0.6876,
      "step": 1355
    },
    {
      "epoch": 0.5420612117426609,
      "grad_norm": 1.5241313055659833,
      "learning_rate": 1e-05,
      "loss": 0.691,
      "step": 1356
    },
    {
      "epoch": 0.5424609618988132,
      "grad_norm": 1.4844505768442378,
      "learning_rate": 1e-05,
      "loss": 0.6473,
      "step": 1357
    },
    {
      "epoch": 0.5428607120549657,
      "grad_norm": 1.5800800895454803,
      "learning_rate": 1e-05,
      "loss": 0.6785,
      "step": 1358
    },
    {
      "epoch": 0.543260462211118,
      "grad_norm": 1.4882204731394728,
      "learning_rate": 1e-05,
      "loss": 0.6404,
      "step": 1359
    },
    {
      "epoch": 0.5436602123672705,
      "grad_norm": 1.6970208994188622,
      "learning_rate": 1e-05,
      "loss": 0.6759,
      "step": 1360
    },
    {
      "epoch": 0.5440599625234228,
      "grad_norm": 1.5710878073152204,
      "learning_rate": 1e-05,
      "loss": 0.6919,
      "step": 1361
    },
    {
      "epoch": 0.5444597126795753,
      "grad_norm": 1.5188510856441533,
      "learning_rate": 1e-05,
      "loss": 0.6727,
      "step": 1362
    },
    {
      "epoch": 0.5448594628357276,
      "grad_norm": 1.7193777542271993,
      "learning_rate": 1e-05,
      "loss": 0.6591,
      "step": 1363
    },
    {
      "epoch": 0.5452592129918801,
      "grad_norm": 1.6303676551270754,
      "learning_rate": 1e-05,
      "loss": 0.6768,
      "step": 1364
    },
    {
      "epoch": 0.5456589631480325,
      "grad_norm": 1.5418012105128174,
      "learning_rate": 1e-05,
      "loss": 0.6782,
      "step": 1365
    },
    {
      "epoch": 0.5460587133041849,
      "grad_norm": 1.4712128943511669,
      "learning_rate": 1e-05,
      "loss": 0.6985,
      "step": 1366
    },
    {
      "epoch": 0.5464584634603373,
      "grad_norm": 1.6555474689017589,
      "learning_rate": 1e-05,
      "loss": 0.672,
      "step": 1367
    },
    {
      "epoch": 0.5468582136164897,
      "grad_norm": 1.492510514298103,
      "learning_rate": 1e-05,
      "loss": 0.646,
      "step": 1368
    },
    {
      "epoch": 0.5472579637726421,
      "grad_norm": 1.6152534836853532,
      "learning_rate": 1e-05,
      "loss": 0.6636,
      "step": 1369
    },
    {
      "epoch": 0.5476577139287945,
      "grad_norm": 1.6597302248343477,
      "learning_rate": 1e-05,
      "loss": 0.6808,
      "step": 1370
    },
    {
      "epoch": 0.5480574640849469,
      "grad_norm": 1.7162965291819507,
      "learning_rate": 1e-05,
      "loss": 0.6795,
      "step": 1371
    },
    {
      "epoch": 0.5484572142410993,
      "grad_norm": 1.707195925851256,
      "learning_rate": 1e-05,
      "loss": 0.6863,
      "step": 1372
    },
    {
      "epoch": 0.5488569643972517,
      "grad_norm": 1.5421349637864805,
      "learning_rate": 1e-05,
      "loss": 0.6246,
      "step": 1373
    },
    {
      "epoch": 0.5492567145534041,
      "grad_norm": 1.653429557455115,
      "learning_rate": 1e-05,
      "loss": 0.6659,
      "step": 1374
    },
    {
      "epoch": 0.5496564647095565,
      "grad_norm": 1.4650675025583224,
      "learning_rate": 1e-05,
      "loss": 0.6178,
      "step": 1375
    },
    {
      "epoch": 0.5500562148657089,
      "grad_norm": 1.6003499039345555,
      "learning_rate": 1e-05,
      "loss": 0.6663,
      "step": 1376
    },
    {
      "epoch": 0.5504559650218613,
      "grad_norm": 1.7005284122639919,
      "learning_rate": 1e-05,
      "loss": 0.6299,
      "step": 1377
    },
    {
      "epoch": 0.5508557151780138,
      "grad_norm": 1.7088732749011428,
      "learning_rate": 1e-05,
      "loss": 0.6953,
      "step": 1378
    },
    {
      "epoch": 0.5512554653341661,
      "grad_norm": 1.5068482510919543,
      "learning_rate": 1e-05,
      "loss": 0.6823,
      "step": 1379
    },
    {
      "epoch": 0.5516552154903186,
      "grad_norm": 1.5728359948928985,
      "learning_rate": 1e-05,
      "loss": 0.6715,
      "step": 1380
    },
    {
      "epoch": 0.5520549656464709,
      "grad_norm": 1.8259033909354516,
      "learning_rate": 1e-05,
      "loss": 0.6383,
      "step": 1381
    },
    {
      "epoch": 0.5524547158026234,
      "grad_norm": 1.4688185764213078,
      "learning_rate": 1e-05,
      "loss": 0.6705,
      "step": 1382
    },
    {
      "epoch": 0.5528544659587757,
      "grad_norm": 1.5994983840921524,
      "learning_rate": 1e-05,
      "loss": 0.6839,
      "step": 1383
    },
    {
      "epoch": 0.5532542161149282,
      "grad_norm": 1.7248881543663748,
      "learning_rate": 1e-05,
      "loss": 0.6607,
      "step": 1384
    },
    {
      "epoch": 0.5536539662710805,
      "grad_norm": 1.4785228615457786,
      "learning_rate": 1e-05,
      "loss": 0.683,
      "step": 1385
    },
    {
      "epoch": 0.554053716427233,
      "grad_norm": 1.5890188553603677,
      "learning_rate": 1e-05,
      "loss": 0.6738,
      "step": 1386
    },
    {
      "epoch": 0.5544534665833853,
      "grad_norm": 1.8274477549341712,
      "learning_rate": 1e-05,
      "loss": 0.6799,
      "step": 1387
    },
    {
      "epoch": 0.5548532167395378,
      "grad_norm": 1.6211176006708814,
      "learning_rate": 1e-05,
      "loss": 0.6483,
      "step": 1388
    },
    {
      "epoch": 0.5552529668956901,
      "grad_norm": 1.670713306457706,
      "learning_rate": 1e-05,
      "loss": 0.6714,
      "step": 1389
    },
    {
      "epoch": 0.5556527170518426,
      "grad_norm": 1.7110758769264258,
      "learning_rate": 1e-05,
      "loss": 0.6967,
      "step": 1390
    },
    {
      "epoch": 0.556052467207995,
      "grad_norm": 1.7239532942085867,
      "learning_rate": 1e-05,
      "loss": 0.6764,
      "step": 1391
    },
    {
      "epoch": 0.5564522173641474,
      "grad_norm": 1.753733450026205,
      "learning_rate": 1e-05,
      "loss": 0.6965,
      "step": 1392
    },
    {
      "epoch": 0.5568519675202999,
      "grad_norm": 1.5889202493297463,
      "learning_rate": 1e-05,
      "loss": 0.667,
      "step": 1393
    },
    {
      "epoch": 0.5572517176764522,
      "grad_norm": 1.4928823222861278,
      "learning_rate": 1e-05,
      "loss": 0.6494,
      "step": 1394
    },
    {
      "epoch": 0.5576514678326047,
      "grad_norm": 1.7079141710774122,
      "learning_rate": 1e-05,
      "loss": 0.6465,
      "step": 1395
    },
    {
      "epoch": 0.558051217988757,
      "grad_norm": 1.772233735161886,
      "learning_rate": 1e-05,
      "loss": 0.6664,
      "step": 1396
    },
    {
      "epoch": 0.5584509681449095,
      "grad_norm": 1.6875278556754156,
      "learning_rate": 1e-05,
      "loss": 0.6975,
      "step": 1397
    },
    {
      "epoch": 0.5588507183010618,
      "grad_norm": 1.6688781073345171,
      "learning_rate": 1e-05,
      "loss": 0.6601,
      "step": 1398
    },
    {
      "epoch": 0.5592504684572143,
      "grad_norm": 1.6136814004291238,
      "learning_rate": 1e-05,
      "loss": 0.6929,
      "step": 1399
    },
    {
      "epoch": 0.5596502186133666,
      "grad_norm": 1.3825524297980512,
      "learning_rate": 1e-05,
      "loss": 0.6553,
      "step": 1400
    },
    {
      "epoch": 0.5600499687695191,
      "grad_norm": 1.5769427851174425,
      "learning_rate": 1e-05,
      "loss": 0.6957,
      "step": 1401
    },
    {
      "epoch": 0.5604497189256714,
      "grad_norm": 1.6977000285648784,
      "learning_rate": 1e-05,
      "loss": 0.7023,
      "step": 1402
    },
    {
      "epoch": 0.5608494690818239,
      "grad_norm": 1.4759482012340948,
      "learning_rate": 1e-05,
      "loss": 0.6453,
      "step": 1403
    },
    {
      "epoch": 0.5612492192379762,
      "grad_norm": 1.8130389198934118,
      "learning_rate": 1e-05,
      "loss": 0.6671,
      "step": 1404
    },
    {
      "epoch": 0.5616489693941287,
      "grad_norm": 1.5790317500742017,
      "learning_rate": 1e-05,
      "loss": 0.6642,
      "step": 1405
    },
    {
      "epoch": 0.5620487195502811,
      "grad_norm": 1.5397910949166655,
      "learning_rate": 1e-05,
      "loss": 0.6426,
      "step": 1406
    },
    {
      "epoch": 0.5624484697064335,
      "grad_norm": 1.5059069305872532,
      "learning_rate": 1e-05,
      "loss": 0.6924,
      "step": 1407
    },
    {
      "epoch": 0.5628482198625859,
      "grad_norm": 1.625410745996425,
      "learning_rate": 1e-05,
      "loss": 0.6533,
      "step": 1408
    },
    {
      "epoch": 0.5632479700187383,
      "grad_norm": 1.823448424312438,
      "learning_rate": 1e-05,
      "loss": 0.6595,
      "step": 1409
    },
    {
      "epoch": 0.5636477201748907,
      "grad_norm": 1.6176170807304449,
      "learning_rate": 1e-05,
      "loss": 0.6542,
      "step": 1410
    },
    {
      "epoch": 0.5640474703310431,
      "grad_norm": 1.4851016868448823,
      "learning_rate": 1e-05,
      "loss": 0.6251,
      "step": 1411
    },
    {
      "epoch": 0.5644472204871955,
      "grad_norm": 1.644449886532571,
      "learning_rate": 1e-05,
      "loss": 0.6547,
      "step": 1412
    },
    {
      "epoch": 0.5648469706433479,
      "grad_norm": 1.7319153063612498,
      "learning_rate": 1e-05,
      "loss": 0.6907,
      "step": 1413
    },
    {
      "epoch": 0.5652467207995003,
      "grad_norm": 1.8134623478628011,
      "learning_rate": 1e-05,
      "loss": 0.69,
      "step": 1414
    },
    {
      "epoch": 0.5656464709556527,
      "grad_norm": 1.7905912863426774,
      "learning_rate": 1e-05,
      "loss": 0.6609,
      "step": 1415
    },
    {
      "epoch": 0.5660462211118051,
      "grad_norm": 1.5817213902986655,
      "learning_rate": 1e-05,
      "loss": 0.6725,
      "step": 1416
    },
    {
      "epoch": 0.5664459712679575,
      "grad_norm": 1.6243188842546632,
      "learning_rate": 1e-05,
      "loss": 0.6673,
      "step": 1417
    },
    {
      "epoch": 0.5668457214241099,
      "grad_norm": 1.507037756257546,
      "learning_rate": 1e-05,
      "loss": 0.6753,
      "step": 1418
    },
    {
      "epoch": 0.5672454715802623,
      "grad_norm": 1.6037086110479946,
      "learning_rate": 1e-05,
      "loss": 0.7,
      "step": 1419
    },
    {
      "epoch": 0.5676452217364147,
      "grad_norm": 1.8063915908200285,
      "learning_rate": 1e-05,
      "loss": 0.6565,
      "step": 1420
    },
    {
      "epoch": 0.5680449718925672,
      "grad_norm": 1.6990719897886697,
      "learning_rate": 1e-05,
      "loss": 0.6192,
      "step": 1421
    },
    {
      "epoch": 0.5684447220487195,
      "grad_norm": 1.488740836529076,
      "learning_rate": 1e-05,
      "loss": 0.6417,
      "step": 1422
    },
    {
      "epoch": 0.568844472204872,
      "grad_norm": 1.6803750689687718,
      "learning_rate": 1e-05,
      "loss": 0.6784,
      "step": 1423
    },
    {
      "epoch": 0.5692442223610243,
      "grad_norm": 1.667229665368929,
      "learning_rate": 1e-05,
      "loss": 0.6167,
      "step": 1424
    },
    {
      "epoch": 0.5696439725171768,
      "grad_norm": 1.6134182959221224,
      "learning_rate": 1e-05,
      "loss": 0.6847,
      "step": 1425
    },
    {
      "epoch": 0.5700437226733291,
      "grad_norm": 1.708611306126972,
      "learning_rate": 1e-05,
      "loss": 0.7077,
      "step": 1426
    },
    {
      "epoch": 0.5704434728294816,
      "grad_norm": 1.8325386181042576,
      "learning_rate": 1e-05,
      "loss": 0.6732,
      "step": 1427
    },
    {
      "epoch": 0.570843222985634,
      "grad_norm": 1.5496036257787948,
      "learning_rate": 1e-05,
      "loss": 0.6658,
      "step": 1428
    },
    {
      "epoch": 0.5712429731417864,
      "grad_norm": 1.5504267257560271,
      "learning_rate": 1e-05,
      "loss": 0.6728,
      "step": 1429
    },
    {
      "epoch": 0.5716427232979387,
      "grad_norm": 1.6620002690509526,
      "learning_rate": 1e-05,
      "loss": 0.6755,
      "step": 1430
    },
    {
      "epoch": 0.5720424734540912,
      "grad_norm": 1.66141430433107,
      "learning_rate": 1e-05,
      "loss": 0.6794,
      "step": 1431
    },
    {
      "epoch": 0.5724422236102436,
      "grad_norm": 1.541762975996479,
      "learning_rate": 1e-05,
      "loss": 0.6363,
      "step": 1432
    },
    {
      "epoch": 0.572841973766396,
      "grad_norm": 1.6053123349589338,
      "learning_rate": 1e-05,
      "loss": 0.6664,
      "step": 1433
    },
    {
      "epoch": 0.5732417239225484,
      "grad_norm": 1.6211173995297459,
      "learning_rate": 1e-05,
      "loss": 0.6657,
      "step": 1434
    },
    {
      "epoch": 0.5736414740787008,
      "grad_norm": 1.611695230445069,
      "learning_rate": 1e-05,
      "loss": 0.6643,
      "step": 1435
    },
    {
      "epoch": 0.5740412242348533,
      "grad_norm": 1.501026730792994,
      "learning_rate": 1e-05,
      "loss": 0.6208,
      "step": 1436
    },
    {
      "epoch": 0.5744409743910056,
      "grad_norm": 1.6631937767910485,
      "learning_rate": 1e-05,
      "loss": 0.7131,
      "step": 1437
    },
    {
      "epoch": 0.5748407245471581,
      "grad_norm": 1.6486319792462591,
      "learning_rate": 1e-05,
      "loss": 0.6777,
      "step": 1438
    },
    {
      "epoch": 0.5752404747033104,
      "grad_norm": 1.627337343025857,
      "learning_rate": 1e-05,
      "loss": 0.6562,
      "step": 1439
    },
    {
      "epoch": 0.5756402248594629,
      "grad_norm": 1.5371551524433393,
      "learning_rate": 1e-05,
      "loss": 0.6569,
      "step": 1440
    },
    {
      "epoch": 0.5760399750156152,
      "grad_norm": 1.5349484524069843,
      "learning_rate": 1e-05,
      "loss": 0.6852,
      "step": 1441
    },
    {
      "epoch": 0.5764397251717677,
      "grad_norm": 1.619435421922222,
      "learning_rate": 1e-05,
      "loss": 0.6434,
      "step": 1442
    },
    {
      "epoch": 0.57683947532792,
      "grad_norm": 1.6351908680930345,
      "learning_rate": 1e-05,
      "loss": 0.6704,
      "step": 1443
    },
    {
      "epoch": 0.5772392254840725,
      "grad_norm": 1.4595634330650544,
      "learning_rate": 1e-05,
      "loss": 0.6518,
      "step": 1444
    },
    {
      "epoch": 0.5776389756402248,
      "grad_norm": 1.7478013440449163,
      "learning_rate": 1e-05,
      "loss": 0.662,
      "step": 1445
    },
    {
      "epoch": 0.5780387257963773,
      "grad_norm": 1.662022264208697,
      "learning_rate": 1e-05,
      "loss": 0.6834,
      "step": 1446
    },
    {
      "epoch": 0.5784384759525296,
      "grad_norm": 1.476694912775175,
      "learning_rate": 1e-05,
      "loss": 0.6759,
      "step": 1447
    },
    {
      "epoch": 0.5788382261086821,
      "grad_norm": 1.625684956340185,
      "learning_rate": 1e-05,
      "loss": 0.6905,
      "step": 1448
    },
    {
      "epoch": 0.5792379762648345,
      "grad_norm": 1.4174435372739753,
      "learning_rate": 1e-05,
      "loss": 0.646,
      "step": 1449
    },
    {
      "epoch": 0.5796377264209869,
      "grad_norm": 1.8197631110629622,
      "learning_rate": 1e-05,
      "loss": 0.6238,
      "step": 1450
    },
    {
      "epoch": 0.5800374765771393,
      "grad_norm": 1.5593467467597615,
      "learning_rate": 1e-05,
      "loss": 0.6835,
      "step": 1451
    },
    {
      "epoch": 0.5804372267332917,
      "grad_norm": 1.4120406656008078,
      "learning_rate": 1e-05,
      "loss": 0.6919,
      "step": 1452
    },
    {
      "epoch": 0.5808369768894441,
      "grad_norm": 1.6405838310605274,
      "learning_rate": 1e-05,
      "loss": 0.6661,
      "step": 1453
    },
    {
      "epoch": 0.5812367270455965,
      "grad_norm": 1.461180469356057,
      "learning_rate": 1e-05,
      "loss": 0.7016,
      "step": 1454
    },
    {
      "epoch": 0.5816364772017489,
      "grad_norm": 1.7057206427890805,
      "learning_rate": 1e-05,
      "loss": 0.6848,
      "step": 1455
    },
    {
      "epoch": 0.5820362273579013,
      "grad_norm": 1.4932192995425215,
      "learning_rate": 1e-05,
      "loss": 0.6598,
      "step": 1456
    },
    {
      "epoch": 0.5824359775140537,
      "grad_norm": 1.5654812517222736,
      "learning_rate": 1e-05,
      "loss": 0.7031,
      "step": 1457
    },
    {
      "epoch": 0.5828357276702061,
      "grad_norm": 1.649161429282501,
      "learning_rate": 1e-05,
      "loss": 0.6974,
      "step": 1458
    },
    {
      "epoch": 0.5832354778263585,
      "grad_norm": 1.590268539677322,
      "learning_rate": 1e-05,
      "loss": 0.655,
      "step": 1459
    },
    {
      "epoch": 0.5836352279825109,
      "grad_norm": 1.6629619003685954,
      "learning_rate": 1e-05,
      "loss": 0.6845,
      "step": 1460
    },
    {
      "epoch": 0.5840349781386633,
      "grad_norm": 1.511961281188545,
      "learning_rate": 1e-05,
      "loss": 0.6829,
      "step": 1461
    },
    {
      "epoch": 0.5844347282948157,
      "grad_norm": 1.69933543880204,
      "learning_rate": 1e-05,
      "loss": 0.6869,
      "step": 1462
    },
    {
      "epoch": 0.5848344784509681,
      "grad_norm": 1.7614582282622988,
      "learning_rate": 1e-05,
      "loss": 0.6916,
      "step": 1463
    },
    {
      "epoch": 0.5852342286071206,
      "grad_norm": 1.5932568033935535,
      "learning_rate": 1e-05,
      "loss": 0.6476,
      "step": 1464
    },
    {
      "epoch": 0.5856339787632729,
      "grad_norm": 1.6415603779472536,
      "learning_rate": 1e-05,
      "loss": 0.6612,
      "step": 1465
    },
    {
      "epoch": 0.5860337289194254,
      "grad_norm": 1.4110546698969342,
      "learning_rate": 1e-05,
      "loss": 0.6846,
      "step": 1466
    },
    {
      "epoch": 0.5864334790755777,
      "grad_norm": 1.667240240681491,
      "learning_rate": 1e-05,
      "loss": 0.6845,
      "step": 1467
    },
    {
      "epoch": 0.5868332292317302,
      "grad_norm": 1.6968808163111888,
      "learning_rate": 1e-05,
      "loss": 0.7089,
      "step": 1468
    },
    {
      "epoch": 0.5872329793878825,
      "grad_norm": 1.65529785611551,
      "learning_rate": 1e-05,
      "loss": 0.6505,
      "step": 1469
    },
    {
      "epoch": 0.587632729544035,
      "grad_norm": 1.537295255006108,
      "learning_rate": 1e-05,
      "loss": 0.6745,
      "step": 1470
    },
    {
      "epoch": 0.5880324797001873,
      "grad_norm": 1.5060085714394802,
      "learning_rate": 1e-05,
      "loss": 0.6839,
      "step": 1471
    },
    {
      "epoch": 0.5884322298563398,
      "grad_norm": 1.624141868468652,
      "learning_rate": 1e-05,
      "loss": 0.6202,
      "step": 1472
    },
    {
      "epoch": 0.5888319800124922,
      "grad_norm": 1.7354448430142075,
      "learning_rate": 1e-05,
      "loss": 0.6846,
      "step": 1473
    },
    {
      "epoch": 0.5892317301686446,
      "grad_norm": 1.4447280479765905,
      "learning_rate": 1e-05,
      "loss": 0.6747,
      "step": 1474
    },
    {
      "epoch": 0.589631480324797,
      "grad_norm": 1.5618959399609056,
      "learning_rate": 1e-05,
      "loss": 0.6262,
      "step": 1475
    },
    {
      "epoch": 0.5900312304809494,
      "grad_norm": 1.6607744033553729,
      "learning_rate": 1e-05,
      "loss": 0.6755,
      "step": 1476
    },
    {
      "epoch": 0.5904309806371019,
      "grad_norm": 1.531993325338453,
      "learning_rate": 1e-05,
      "loss": 0.6671,
      "step": 1477
    },
    {
      "epoch": 0.5908307307932542,
      "grad_norm": 1.442908262997772,
      "learning_rate": 1e-05,
      "loss": 0.6585,
      "step": 1478
    },
    {
      "epoch": 0.5912304809494067,
      "grad_norm": 1.4823134455959792,
      "learning_rate": 1e-05,
      "loss": 0.6852,
      "step": 1479
    },
    {
      "epoch": 0.591630231105559,
      "grad_norm": 1.5630146062860713,
      "learning_rate": 1e-05,
      "loss": 0.6837,
      "step": 1480
    },
    {
      "epoch": 0.5920299812617115,
      "grad_norm": 1.6430010718856907,
      "learning_rate": 1e-05,
      "loss": 0.6349,
      "step": 1481
    },
    {
      "epoch": 0.5924297314178638,
      "grad_norm": 1.6518271417809567,
      "learning_rate": 1e-05,
      "loss": 0.6816,
      "step": 1482
    },
    {
      "epoch": 0.5928294815740163,
      "grad_norm": 1.5162698370474954,
      "learning_rate": 1e-05,
      "loss": 0.6753,
      "step": 1483
    },
    {
      "epoch": 0.5932292317301686,
      "grad_norm": 1.5103499124480635,
      "learning_rate": 1e-05,
      "loss": 0.6865,
      "step": 1484
    },
    {
      "epoch": 0.5936289818863211,
      "grad_norm": 1.5936052767153683,
      "learning_rate": 1e-05,
      "loss": 0.6817,
      "step": 1485
    },
    {
      "epoch": 0.5940287320424734,
      "grad_norm": 1.5638169255398635,
      "learning_rate": 1e-05,
      "loss": 0.6289,
      "step": 1486
    },
    {
      "epoch": 0.5944284821986259,
      "grad_norm": 1.5002496176266575,
      "learning_rate": 1e-05,
      "loss": 0.6578,
      "step": 1487
    },
    {
      "epoch": 0.5948282323547782,
      "grad_norm": 1.6436851619398911,
      "learning_rate": 1e-05,
      "loss": 0.6844,
      "step": 1488
    },
    {
      "epoch": 0.5952279825109307,
      "grad_norm": 1.4957805480202986,
      "learning_rate": 1e-05,
      "loss": 0.6455,
      "step": 1489
    },
    {
      "epoch": 0.595627732667083,
      "grad_norm": 1.4787007476801326,
      "learning_rate": 1e-05,
      "loss": 0.6439,
      "step": 1490
    },
    {
      "epoch": 0.5960274828232355,
      "grad_norm": 1.6441143555061268,
      "learning_rate": 1e-05,
      "loss": 0.686,
      "step": 1491
    },
    {
      "epoch": 0.5964272329793879,
      "grad_norm": 1.5115230149002734,
      "learning_rate": 1e-05,
      "loss": 0.6755,
      "step": 1492
    },
    {
      "epoch": 0.5968269831355403,
      "grad_norm": 1.5822485029017626,
      "learning_rate": 1e-05,
      "loss": 0.6569,
      "step": 1493
    },
    {
      "epoch": 0.5972267332916927,
      "grad_norm": 1.586656682763863,
      "learning_rate": 1e-05,
      "loss": 0.709,
      "step": 1494
    },
    {
      "epoch": 0.5976264834478451,
      "grad_norm": 1.7305501274332071,
      "learning_rate": 1e-05,
      "loss": 0.6605,
      "step": 1495
    },
    {
      "epoch": 0.5980262336039975,
      "grad_norm": 1.4987547732721782,
      "learning_rate": 1e-05,
      "loss": 0.6465,
      "step": 1496
    },
    {
      "epoch": 0.5984259837601499,
      "grad_norm": 1.687914180805796,
      "learning_rate": 1e-05,
      "loss": 0.6652,
      "step": 1497
    },
    {
      "epoch": 0.5988257339163023,
      "grad_norm": 1.4983072939123836,
      "learning_rate": 1e-05,
      "loss": 0.6423,
      "step": 1498
    },
    {
      "epoch": 0.5992254840724547,
      "grad_norm": 1.667937068939125,
      "learning_rate": 1e-05,
      "loss": 0.658,
      "step": 1499
    },
    {
      "epoch": 0.5996252342286071,
      "grad_norm": 1.441741329566671,
      "learning_rate": 1e-05,
      "loss": 0.675,
      "step": 1500
    },
    {
      "epoch": 0.6000249843847595,
      "grad_norm": 1.6305592033967091,
      "learning_rate": 1e-05,
      "loss": 0.6955,
      "step": 1501
    },
    {
      "epoch": 0.6004247345409119,
      "grad_norm": 1.4821715566499594,
      "learning_rate": 1e-05,
      "loss": 0.6715,
      "step": 1502
    },
    {
      "epoch": 0.6008244846970643,
      "grad_norm": 1.555355590239941,
      "learning_rate": 1e-05,
      "loss": 0.6779,
      "step": 1503
    },
    {
      "epoch": 0.6012242348532167,
      "grad_norm": 1.6064749559860618,
      "learning_rate": 1e-05,
      "loss": 0.6578,
      "step": 1504
    },
    {
      "epoch": 0.6016239850093691,
      "grad_norm": 1.5691800970099645,
      "learning_rate": 1e-05,
      "loss": 0.6347,
      "step": 1505
    },
    {
      "epoch": 0.6020237351655215,
      "grad_norm": 1.639579568012626,
      "learning_rate": 1e-05,
      "loss": 0.6733,
      "step": 1506
    },
    {
      "epoch": 0.602423485321674,
      "grad_norm": 1.4503866113762036,
      "learning_rate": 1e-05,
      "loss": 0.6281,
      "step": 1507
    },
    {
      "epoch": 0.6028232354778263,
      "grad_norm": 1.707738420668784,
      "learning_rate": 1e-05,
      "loss": 0.7084,
      "step": 1508
    },
    {
      "epoch": 0.6032229856339788,
      "grad_norm": 1.6779763004713042,
      "learning_rate": 1e-05,
      "loss": 0.6723,
      "step": 1509
    },
    {
      "epoch": 0.6036227357901311,
      "grad_norm": 1.6353901210629775,
      "learning_rate": 1e-05,
      "loss": 0.6599,
      "step": 1510
    },
    {
      "epoch": 0.6040224859462836,
      "grad_norm": 1.7178661400034558,
      "learning_rate": 1e-05,
      "loss": 0.6408,
      "step": 1511
    },
    {
      "epoch": 0.604422236102436,
      "grad_norm": 1.6898862752758084,
      "learning_rate": 1e-05,
      "loss": 0.6894,
      "step": 1512
    },
    {
      "epoch": 0.6048219862585884,
      "grad_norm": 1.5717656680300833,
      "learning_rate": 1e-05,
      "loss": 0.6841,
      "step": 1513
    },
    {
      "epoch": 0.6052217364147408,
      "grad_norm": 1.5890375192880055,
      "learning_rate": 1e-05,
      "loss": 0.6511,
      "step": 1514
    },
    {
      "epoch": 0.6056214865708932,
      "grad_norm": 1.6237013575063308,
      "learning_rate": 1e-05,
      "loss": 0.6569,
      "step": 1515
    },
    {
      "epoch": 0.6060212367270456,
      "grad_norm": 1.4959555455639868,
      "learning_rate": 1e-05,
      "loss": 0.6804,
      "step": 1516
    },
    {
      "epoch": 0.606420986883198,
      "grad_norm": 1.6180913817250417,
      "learning_rate": 1e-05,
      "loss": 0.6309,
      "step": 1517
    },
    {
      "epoch": 0.6068207370393504,
      "grad_norm": 1.629906251249176,
      "learning_rate": 1e-05,
      "loss": 0.6653,
      "step": 1518
    },
    {
      "epoch": 0.6072204871955028,
      "grad_norm": 1.5378124850208248,
      "learning_rate": 1e-05,
      "loss": 0.6671,
      "step": 1519
    },
    {
      "epoch": 0.6076202373516553,
      "grad_norm": 1.5098747303504487,
      "learning_rate": 1e-05,
      "loss": 0.667,
      "step": 1520
    },
    {
      "epoch": 0.6080199875078076,
      "grad_norm": 1.4824195943787197,
      "learning_rate": 1e-05,
      "loss": 0.6385,
      "step": 1521
    },
    {
      "epoch": 0.6084197376639601,
      "grad_norm": 1.4310047487539332,
      "learning_rate": 1e-05,
      "loss": 0.676,
      "step": 1522
    },
    {
      "epoch": 0.6088194878201124,
      "grad_norm": 1.451580200940819,
      "learning_rate": 1e-05,
      "loss": 0.6862,
      "step": 1523
    },
    {
      "epoch": 0.6092192379762649,
      "grad_norm": 1.566429441779468,
      "learning_rate": 1e-05,
      "loss": 0.642,
      "step": 1524
    },
    {
      "epoch": 0.6096189881324172,
      "grad_norm": 1.573772952185539,
      "learning_rate": 1e-05,
      "loss": 0.6733,
      "step": 1525
    },
    {
      "epoch": 0.6100187382885697,
      "grad_norm": 1.7010010690045714,
      "learning_rate": 1e-05,
      "loss": 0.6611,
      "step": 1526
    },
    {
      "epoch": 0.610418488444722,
      "grad_norm": 1.8280173652971845,
      "learning_rate": 1e-05,
      "loss": 0.6591,
      "step": 1527
    },
    {
      "epoch": 0.6108182386008745,
      "grad_norm": 1.6524376819278266,
      "learning_rate": 1e-05,
      "loss": 0.6951,
      "step": 1528
    },
    {
      "epoch": 0.6112179887570268,
      "grad_norm": 1.5885402508754234,
      "learning_rate": 1e-05,
      "loss": 0.6962,
      "step": 1529
    },
    {
      "epoch": 0.6116177389131793,
      "grad_norm": 1.4837930404404132,
      "learning_rate": 1e-05,
      "loss": 0.674,
      "step": 1530
    },
    {
      "epoch": 0.6120174890693316,
      "grad_norm": 1.5678272213317674,
      "learning_rate": 1e-05,
      "loss": 0.6547,
      "step": 1531
    },
    {
      "epoch": 0.6124172392254841,
      "grad_norm": 1.6227171374056273,
      "learning_rate": 1e-05,
      "loss": 0.7229,
      "step": 1532
    },
    {
      "epoch": 0.6128169893816364,
      "grad_norm": 1.5032128734215846,
      "learning_rate": 1e-05,
      "loss": 0.6593,
      "step": 1533
    },
    {
      "epoch": 0.6132167395377889,
      "grad_norm": 1.7807455495265099,
      "learning_rate": 1e-05,
      "loss": 0.6727,
      "step": 1534
    },
    {
      "epoch": 0.6136164896939413,
      "grad_norm": 1.71296927666722,
      "learning_rate": 1e-05,
      "loss": 0.6181,
      "step": 1535
    },
    {
      "epoch": 0.6140162398500937,
      "grad_norm": 1.5510936885812592,
      "learning_rate": 1e-05,
      "loss": 0.6589,
      "step": 1536
    },
    {
      "epoch": 0.6144159900062461,
      "grad_norm": 1.3914996875130998,
      "learning_rate": 1e-05,
      "loss": 0.6557,
      "step": 1537
    },
    {
      "epoch": 0.6148157401623985,
      "grad_norm": 1.5453897520583413,
      "learning_rate": 1e-05,
      "loss": 0.6338,
      "step": 1538
    },
    {
      "epoch": 0.6152154903185509,
      "grad_norm": 1.5166352848865128,
      "learning_rate": 1e-05,
      "loss": 0.6661,
      "step": 1539
    },
    {
      "epoch": 0.6156152404747033,
      "grad_norm": 1.5871532902878875,
      "learning_rate": 1e-05,
      "loss": 0.6411,
      "step": 1540
    },
    {
      "epoch": 0.6160149906308557,
      "grad_norm": 1.5310121345485868,
      "learning_rate": 1e-05,
      "loss": 0.6687,
      "step": 1541
    },
    {
      "epoch": 0.6164147407870081,
      "grad_norm": 1.7745271581106326,
      "learning_rate": 1e-05,
      "loss": 0.7061,
      "step": 1542
    },
    {
      "epoch": 0.6168144909431605,
      "grad_norm": 2.06501599245731,
      "learning_rate": 1e-05,
      "loss": 0.7179,
      "step": 1543
    },
    {
      "epoch": 0.6172142410993129,
      "grad_norm": 1.6086648080614203,
      "learning_rate": 1e-05,
      "loss": 0.6512,
      "step": 1544
    },
    {
      "epoch": 0.6176139912554653,
      "grad_norm": 1.4343170105335519,
      "learning_rate": 1e-05,
      "loss": 0.6515,
      "step": 1545
    },
    {
      "epoch": 0.6180137414116177,
      "grad_norm": 1.689192576828202,
      "learning_rate": 1e-05,
      "loss": 0.6943,
      "step": 1546
    },
    {
      "epoch": 0.6184134915677701,
      "grad_norm": 1.9469442272887227,
      "learning_rate": 1e-05,
      "loss": 0.6769,
      "step": 1547
    },
    {
      "epoch": 0.6188132417239226,
      "grad_norm": 1.669696424355407,
      "learning_rate": 1e-05,
      "loss": 0.6283,
      "step": 1548
    },
    {
      "epoch": 0.619212991880075,
      "grad_norm": 1.5260883568928256,
      "learning_rate": 1e-05,
      "loss": 0.6839,
      "step": 1549
    },
    {
      "epoch": 0.6196127420362274,
      "grad_norm": 1.4769231684101003,
      "learning_rate": 1e-05,
      "loss": 0.6517,
      "step": 1550
    },
    {
      "epoch": 0.6200124921923797,
      "grad_norm": 1.6253550904045446,
      "learning_rate": 1e-05,
      "loss": 0.7157,
      "step": 1551
    },
    {
      "epoch": 0.6204122423485322,
      "grad_norm": 1.7799425072504516,
      "learning_rate": 1e-05,
      "loss": 0.6812,
      "step": 1552
    },
    {
      "epoch": 0.6208119925046846,
      "grad_norm": 1.5787007419048318,
      "learning_rate": 1e-05,
      "loss": 0.6525,
      "step": 1553
    },
    {
      "epoch": 0.621211742660837,
      "grad_norm": 1.5713395733787479,
      "learning_rate": 1e-05,
      "loss": 0.6845,
      "step": 1554
    },
    {
      "epoch": 0.6216114928169894,
      "grad_norm": 1.6784600054469676,
      "learning_rate": 1e-05,
      "loss": 0.6942,
      "step": 1555
    },
    {
      "epoch": 0.6220112429731418,
      "grad_norm": 1.7853291395096924,
      "learning_rate": 1e-05,
      "loss": 0.6419,
      "step": 1556
    },
    {
      "epoch": 0.6224109931292942,
      "grad_norm": 1.6294382057562218,
      "learning_rate": 1e-05,
      "loss": 0.6458,
      "step": 1557
    },
    {
      "epoch": 0.6228107432854466,
      "grad_norm": 1.6030796522363802,
      "learning_rate": 1e-05,
      "loss": 0.6665,
      "step": 1558
    },
    {
      "epoch": 0.623210493441599,
      "grad_norm": 1.5308126834885747,
      "learning_rate": 1e-05,
      "loss": 0.6696,
      "step": 1559
    },
    {
      "epoch": 0.6236102435977514,
      "grad_norm": 1.6488905942305967,
      "learning_rate": 1e-05,
      "loss": 0.6958,
      "step": 1560
    },
    {
      "epoch": 0.6240099937539038,
      "grad_norm": 1.5392892696050156,
      "learning_rate": 1e-05,
      "loss": 0.6719,
      "step": 1561
    },
    {
      "epoch": 0.6244097439100562,
      "grad_norm": 1.5181304349249718,
      "learning_rate": 1e-05,
      "loss": 0.6731,
      "step": 1562
    },
    {
      "epoch": 0.6248094940662087,
      "grad_norm": 1.4253290667629592,
      "learning_rate": 1e-05,
      "loss": 0.6779,
      "step": 1563
    },
    {
      "epoch": 0.625209244222361,
      "grad_norm": 1.684243653397264,
      "learning_rate": 1e-05,
      "loss": 0.6689,
      "step": 1564
    },
    {
      "epoch": 0.6256089943785135,
      "grad_norm": 1.407223523491484,
      "learning_rate": 1e-05,
      "loss": 0.6514,
      "step": 1565
    },
    {
      "epoch": 0.6260087445346658,
      "grad_norm": 1.6298543597025394,
      "learning_rate": 1e-05,
      "loss": 0.648,
      "step": 1566
    },
    {
      "epoch": 0.6264084946908183,
      "grad_norm": 1.656573911403153,
      "learning_rate": 1e-05,
      "loss": 0.667,
      "step": 1567
    },
    {
      "epoch": 0.6268082448469706,
      "grad_norm": 1.732824739031198,
      "learning_rate": 1e-05,
      "loss": 0.6721,
      "step": 1568
    },
    {
      "epoch": 0.6272079950031231,
      "grad_norm": 1.5183197319460828,
      "learning_rate": 1e-05,
      "loss": 0.6641,
      "step": 1569
    },
    {
      "epoch": 0.6276077451592754,
      "grad_norm": 1.4859619127267656,
      "learning_rate": 1e-05,
      "loss": 0.6628,
      "step": 1570
    },
    {
      "epoch": 0.6280074953154279,
      "grad_norm": 1.6007929070163358,
      "learning_rate": 1e-05,
      "loss": 0.6866,
      "step": 1571
    },
    {
      "epoch": 0.6284072454715802,
      "grad_norm": 1.4651357573843748,
      "learning_rate": 1e-05,
      "loss": 0.6713,
      "step": 1572
    },
    {
      "epoch": 0.6288069956277327,
      "grad_norm": 1.5209685312357488,
      "learning_rate": 1e-05,
      "loss": 0.6653,
      "step": 1573
    },
    {
      "epoch": 0.629206745783885,
      "grad_norm": 1.5492799745555255,
      "learning_rate": 1e-05,
      "loss": 0.6678,
      "step": 1574
    },
    {
      "epoch": 0.6296064959400375,
      "grad_norm": 1.5413186533163552,
      "learning_rate": 1e-05,
      "loss": 0.6633,
      "step": 1575
    },
    {
      "epoch": 0.6300062460961898,
      "grad_norm": 1.5902766514208908,
      "learning_rate": 1e-05,
      "loss": 0.6564,
      "step": 1576
    },
    {
      "epoch": 0.6304059962523423,
      "grad_norm": 1.5623796611526726,
      "learning_rate": 1e-05,
      "loss": 0.6564,
      "step": 1577
    },
    {
      "epoch": 0.6308057464084947,
      "grad_norm": 1.7197514674621432,
      "learning_rate": 1e-05,
      "loss": 0.6587,
      "step": 1578
    },
    {
      "epoch": 0.6312054965646471,
      "grad_norm": 1.943066003431675,
      "learning_rate": 1e-05,
      "loss": 0.6988,
      "step": 1579
    },
    {
      "epoch": 0.6316052467207995,
      "grad_norm": 1.6457337606621578,
      "learning_rate": 1e-05,
      "loss": 0.667,
      "step": 1580
    },
    {
      "epoch": 0.6320049968769519,
      "grad_norm": 1.6250329244113721,
      "learning_rate": 1e-05,
      "loss": 0.6839,
      "step": 1581
    },
    {
      "epoch": 0.6324047470331043,
      "grad_norm": 1.358021775185758,
      "learning_rate": 1e-05,
      "loss": 0.6748,
      "step": 1582
    },
    {
      "epoch": 0.6328044971892567,
      "grad_norm": 1.5125549312862645,
      "learning_rate": 1e-05,
      "loss": 0.6545,
      "step": 1583
    },
    {
      "epoch": 0.6332042473454091,
      "grad_norm": 1.6990819642200887,
      "learning_rate": 1e-05,
      "loss": 0.6638,
      "step": 1584
    },
    {
      "epoch": 0.6336039975015615,
      "grad_norm": 1.537249742706955,
      "learning_rate": 1e-05,
      "loss": 0.6904,
      "step": 1585
    },
    {
      "epoch": 0.634003747657714,
      "grad_norm": 1.5521265347234094,
      "learning_rate": 1e-05,
      "loss": 0.6515,
      "step": 1586
    },
    {
      "epoch": 0.6344034978138663,
      "grad_norm": 1.4728391586207166,
      "learning_rate": 1e-05,
      "loss": 0.6325,
      "step": 1587
    },
    {
      "epoch": 0.6348032479700187,
      "grad_norm": 1.697416473703726,
      "learning_rate": 1e-05,
      "loss": 0.6751,
      "step": 1588
    },
    {
      "epoch": 0.6352029981261711,
      "grad_norm": 1.5150795425301342,
      "learning_rate": 1e-05,
      "loss": 0.6532,
      "step": 1589
    },
    {
      "epoch": 0.6356027482823235,
      "grad_norm": 1.658873884805235,
      "learning_rate": 1e-05,
      "loss": 0.6409,
      "step": 1590
    },
    {
      "epoch": 0.636002498438476,
      "grad_norm": 1.7550376465713993,
      "learning_rate": 1e-05,
      "loss": 0.6686,
      "step": 1591
    },
    {
      "epoch": 0.6364022485946284,
      "grad_norm": 1.8852062360391757,
      "learning_rate": 1e-05,
      "loss": 0.6501,
      "step": 1592
    },
    {
      "epoch": 0.6368019987507808,
      "grad_norm": 1.6982829930477503,
      "learning_rate": 1e-05,
      "loss": 0.6512,
      "step": 1593
    },
    {
      "epoch": 0.6372017489069332,
      "grad_norm": 1.5484150231298353,
      "learning_rate": 1e-05,
      "loss": 0.6528,
      "step": 1594
    },
    {
      "epoch": 0.6376014990630856,
      "grad_norm": 1.5381202809198782,
      "learning_rate": 1e-05,
      "loss": 0.6872,
      "step": 1595
    },
    {
      "epoch": 0.638001249219238,
      "grad_norm": 1.7857702908648085,
      "learning_rate": 1e-05,
      "loss": 0.6596,
      "step": 1596
    },
    {
      "epoch": 0.6384009993753904,
      "grad_norm": 1.6132913536973645,
      "learning_rate": 1e-05,
      "loss": 0.7033,
      "step": 1597
    },
    {
      "epoch": 0.6388007495315428,
      "grad_norm": 1.5617107742252805,
      "learning_rate": 1e-05,
      "loss": 0.639,
      "step": 1598
    },
    {
      "epoch": 0.6392004996876952,
      "grad_norm": 1.6762365748072026,
      "learning_rate": 1e-05,
      "loss": 0.6575,
      "step": 1599
    },
    {
      "epoch": 0.6396002498438476,
      "grad_norm": 1.4502467804677213,
      "learning_rate": 1e-05,
      "loss": 0.6514,
      "step": 1600
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.7337929026646903,
      "learning_rate": 1e-05,
      "loss": 0.6672,
      "step": 1601
    },
    {
      "epoch": 0.6403997501561524,
      "grad_norm": 1.5987693670890302,
      "learning_rate": 1e-05,
      "loss": 0.6644,
      "step": 1602
    },
    {
      "epoch": 0.6407995003123048,
      "grad_norm": 1.5620322949272796,
      "learning_rate": 1e-05,
      "loss": 0.6773,
      "step": 1603
    },
    {
      "epoch": 0.6411992504684572,
      "grad_norm": 1.5067865975588235,
      "learning_rate": 1e-05,
      "loss": 0.661,
      "step": 1604
    },
    {
      "epoch": 0.6415990006246096,
      "grad_norm": 1.426083177921382,
      "learning_rate": 1e-05,
      "loss": 0.6685,
      "step": 1605
    },
    {
      "epoch": 0.6419987507807621,
      "grad_norm": 1.4428008104926244,
      "learning_rate": 1e-05,
      "loss": 0.6745,
      "step": 1606
    },
    {
      "epoch": 0.6423985009369144,
      "grad_norm": 1.5475530916170255,
      "learning_rate": 1e-05,
      "loss": 0.6804,
      "step": 1607
    },
    {
      "epoch": 0.6427982510930669,
      "grad_norm": 1.4559810857746192,
      "learning_rate": 1e-05,
      "loss": 0.6785,
      "step": 1608
    },
    {
      "epoch": 0.6431980012492192,
      "grad_norm": 1.628290917912768,
      "learning_rate": 1e-05,
      "loss": 0.6356,
      "step": 1609
    },
    {
      "epoch": 0.6435977514053717,
      "grad_norm": 1.556114937468919,
      "learning_rate": 1e-05,
      "loss": 0.6634,
      "step": 1610
    },
    {
      "epoch": 0.643997501561524,
      "grad_norm": 1.6756595235881113,
      "learning_rate": 1e-05,
      "loss": 0.6715,
      "step": 1611
    },
    {
      "epoch": 0.6443972517176765,
      "grad_norm": 1.5446617886167613,
      "learning_rate": 1e-05,
      "loss": 0.6563,
      "step": 1612
    },
    {
      "epoch": 0.6447970018738288,
      "grad_norm": 1.465172125177697,
      "learning_rate": 1e-05,
      "loss": 0.6514,
      "step": 1613
    },
    {
      "epoch": 0.6451967520299813,
      "grad_norm": 1.9661169979013198,
      "learning_rate": 1e-05,
      "loss": 0.6888,
      "step": 1614
    },
    {
      "epoch": 0.6455965021861336,
      "grad_norm": 1.496669546733499,
      "learning_rate": 1e-05,
      "loss": 0.6625,
      "step": 1615
    },
    {
      "epoch": 0.6459962523422861,
      "grad_norm": 1.53202795927648,
      "learning_rate": 1e-05,
      "loss": 0.6482,
      "step": 1616
    },
    {
      "epoch": 0.6463960024984384,
      "grad_norm": 1.6181817700909713,
      "learning_rate": 1e-05,
      "loss": 0.6242,
      "step": 1617
    },
    {
      "epoch": 0.6467957526545909,
      "grad_norm": 1.6653965234291617,
      "learning_rate": 1e-05,
      "loss": 0.6758,
      "step": 1618
    },
    {
      "epoch": 0.6471955028107433,
      "grad_norm": 1.6559370848621018,
      "learning_rate": 1e-05,
      "loss": 0.6723,
      "step": 1619
    },
    {
      "epoch": 0.6475952529668957,
      "grad_norm": 1.6803312951261247,
      "learning_rate": 1e-05,
      "loss": 0.6611,
      "step": 1620
    },
    {
      "epoch": 0.6479950031230481,
      "grad_norm": 1.5118959515171742,
      "learning_rate": 1e-05,
      "loss": 0.682,
      "step": 1621
    },
    {
      "epoch": 0.6483947532792005,
      "grad_norm": 1.7609914144126741,
      "learning_rate": 1e-05,
      "loss": 0.6622,
      "step": 1622
    },
    {
      "epoch": 0.6487945034353529,
      "grad_norm": 1.4296845060146797,
      "learning_rate": 1e-05,
      "loss": 0.6735,
      "step": 1623
    },
    {
      "epoch": 0.6491942535915053,
      "grad_norm": 1.5295864522257843,
      "learning_rate": 1e-05,
      "loss": 0.6575,
      "step": 1624
    },
    {
      "epoch": 0.6495940037476577,
      "grad_norm": 1.4099960369205986,
      "learning_rate": 1e-05,
      "loss": 0.654,
      "step": 1625
    },
    {
      "epoch": 0.6499937539038101,
      "grad_norm": 1.490562021838816,
      "learning_rate": 1e-05,
      "loss": 0.637,
      "step": 1626
    },
    {
      "epoch": 0.6503935040599625,
      "grad_norm": 1.5948303771535335,
      "learning_rate": 1e-05,
      "loss": 0.6483,
      "step": 1627
    },
    {
      "epoch": 0.6507932542161149,
      "grad_norm": 1.6074088407894422,
      "learning_rate": 1e-05,
      "loss": 0.6927,
      "step": 1628
    },
    {
      "epoch": 0.6511930043722673,
      "grad_norm": 1.5905069732410848,
      "learning_rate": 1e-05,
      "loss": 0.6643,
      "step": 1629
    },
    {
      "epoch": 0.6515927545284197,
      "grad_norm": 1.5480522820217861,
      "learning_rate": 1e-05,
      "loss": 0.6707,
      "step": 1630
    },
    {
      "epoch": 0.6519925046845721,
      "grad_norm": 1.4906972744185811,
      "learning_rate": 1e-05,
      "loss": 0.665,
      "step": 1631
    },
    {
      "epoch": 0.6523922548407245,
      "grad_norm": 1.491611361378563,
      "learning_rate": 1e-05,
      "loss": 0.6466,
      "step": 1632
    },
    {
      "epoch": 0.652792004996877,
      "grad_norm": 1.814608385798308,
      "learning_rate": 1e-05,
      "loss": 0.6807,
      "step": 1633
    },
    {
      "epoch": 0.6531917551530294,
      "grad_norm": 1.5272490058919908,
      "learning_rate": 1e-05,
      "loss": 0.6919,
      "step": 1634
    },
    {
      "epoch": 0.6535915053091818,
      "grad_norm": 1.4095151810287534,
      "learning_rate": 1e-05,
      "loss": 0.6402,
      "step": 1635
    },
    {
      "epoch": 0.6539912554653342,
      "grad_norm": 1.4862608593192592,
      "learning_rate": 1e-05,
      "loss": 0.6422,
      "step": 1636
    },
    {
      "epoch": 0.6543910056214866,
      "grad_norm": 1.521630060747995,
      "learning_rate": 1e-05,
      "loss": 0.6797,
      "step": 1637
    },
    {
      "epoch": 0.654790755777639,
      "grad_norm": 1.8869061882778084,
      "learning_rate": 1e-05,
      "loss": 0.6903,
      "step": 1638
    },
    {
      "epoch": 0.6551905059337914,
      "grad_norm": 1.556562529979887,
      "learning_rate": 1e-05,
      "loss": 0.6683,
      "step": 1639
    },
    {
      "epoch": 0.6555902560899438,
      "grad_norm": 1.4793143778502624,
      "learning_rate": 1e-05,
      "loss": 0.666,
      "step": 1640
    },
    {
      "epoch": 0.6559900062460962,
      "grad_norm": 1.658990170664833,
      "learning_rate": 1e-05,
      "loss": 0.6589,
      "step": 1641
    },
    {
      "epoch": 0.6563897564022486,
      "grad_norm": 1.7346834852550175,
      "learning_rate": 1e-05,
      "loss": 0.6545,
      "step": 1642
    },
    {
      "epoch": 0.656789506558401,
      "grad_norm": 1.7457633404058401,
      "learning_rate": 1e-05,
      "loss": 0.633,
      "step": 1643
    },
    {
      "epoch": 0.6571892567145534,
      "grad_norm": 1.5699081543593438,
      "learning_rate": 1e-05,
      "loss": 0.6544,
      "step": 1644
    },
    {
      "epoch": 0.6575890068707058,
      "grad_norm": 1.5928294849969797,
      "learning_rate": 1e-05,
      "loss": 0.6734,
      "step": 1645
    },
    {
      "epoch": 0.6579887570268582,
      "grad_norm": 1.6021671248384195,
      "learning_rate": 1e-05,
      "loss": 0.6878,
      "step": 1646
    },
    {
      "epoch": 0.6583885071830106,
      "grad_norm": 1.622509616751175,
      "learning_rate": 1e-05,
      "loss": 0.7035,
      "step": 1647
    },
    {
      "epoch": 0.658788257339163,
      "grad_norm": 1.5156667522802707,
      "learning_rate": 1e-05,
      "loss": 0.6423,
      "step": 1648
    },
    {
      "epoch": 0.6591880074953155,
      "grad_norm": 1.4936508607537273,
      "learning_rate": 1e-05,
      "loss": 0.6801,
      "step": 1649
    },
    {
      "epoch": 0.6595877576514678,
      "grad_norm": 1.4706278396061643,
      "learning_rate": 1e-05,
      "loss": 0.6785,
      "step": 1650
    },
    {
      "epoch": 0.6599875078076203,
      "grad_norm": 1.7736807198982356,
      "learning_rate": 1e-05,
      "loss": 0.6611,
      "step": 1651
    },
    {
      "epoch": 0.6603872579637726,
      "grad_norm": 1.5011448045001792,
      "learning_rate": 1e-05,
      "loss": 0.6787,
      "step": 1652
    },
    {
      "epoch": 0.6607870081199251,
      "grad_norm": 1.7104626881096383,
      "learning_rate": 1e-05,
      "loss": 0.6628,
      "step": 1653
    },
    {
      "epoch": 0.6611867582760774,
      "grad_norm": 1.4769885011282122,
      "learning_rate": 1e-05,
      "loss": 0.6842,
      "step": 1654
    },
    {
      "epoch": 0.6615865084322299,
      "grad_norm": 1.4818726950445642,
      "learning_rate": 1e-05,
      "loss": 0.6471,
      "step": 1655
    },
    {
      "epoch": 0.6619862585883822,
      "grad_norm": 1.5373305000445747,
      "learning_rate": 1e-05,
      "loss": 0.6639,
      "step": 1656
    },
    {
      "epoch": 0.6623860087445347,
      "grad_norm": 1.6224280420442159,
      "learning_rate": 1e-05,
      "loss": 0.6788,
      "step": 1657
    },
    {
      "epoch": 0.662785758900687,
      "grad_norm": 1.569754085882989,
      "learning_rate": 1e-05,
      "loss": 0.6964,
      "step": 1658
    },
    {
      "epoch": 0.6631855090568395,
      "grad_norm": 1.472280124335414,
      "learning_rate": 1e-05,
      "loss": 0.6843,
      "step": 1659
    },
    {
      "epoch": 0.6635852592129918,
      "grad_norm": 1.455885902857535,
      "learning_rate": 1e-05,
      "loss": 0.6306,
      "step": 1660
    },
    {
      "epoch": 0.6639850093691443,
      "grad_norm": 1.578911168413255,
      "learning_rate": 1e-05,
      "loss": 0.7005,
      "step": 1661
    },
    {
      "epoch": 0.6643847595252967,
      "grad_norm": 1.509991514870195,
      "learning_rate": 1e-05,
      "loss": 0.6559,
      "step": 1662
    },
    {
      "epoch": 0.6647845096814491,
      "grad_norm": 1.3973522441683301,
      "learning_rate": 1e-05,
      "loss": 0.6481,
      "step": 1663
    },
    {
      "epoch": 0.6651842598376015,
      "grad_norm": 1.4908530790893286,
      "learning_rate": 1e-05,
      "loss": 0.6651,
      "step": 1664
    },
    {
      "epoch": 0.6655840099937539,
      "grad_norm": 1.5159145906554352,
      "learning_rate": 1e-05,
      "loss": 0.7152,
      "step": 1665
    },
    {
      "epoch": 0.6659837601499063,
      "grad_norm": 1.7684752949067755,
      "learning_rate": 1e-05,
      "loss": 0.6468,
      "step": 1666
    },
    {
      "epoch": 0.6663835103060587,
      "grad_norm": 1.5192021906758701,
      "learning_rate": 1e-05,
      "loss": 0.6817,
      "step": 1667
    },
    {
      "epoch": 0.6667832604622111,
      "grad_norm": 1.7614457048835812,
      "learning_rate": 1e-05,
      "loss": 0.6758,
      "step": 1668
    },
    {
      "epoch": 0.6671830106183635,
      "grad_norm": 1.723901606635999,
      "learning_rate": 1e-05,
      "loss": 0.6913,
      "step": 1669
    },
    {
      "epoch": 0.667582760774516,
      "grad_norm": 1.5391091600037863,
      "learning_rate": 1e-05,
      "loss": 0.6828,
      "step": 1670
    },
    {
      "epoch": 0.6679825109306683,
      "grad_norm": 1.6394170498498355,
      "learning_rate": 1e-05,
      "loss": 0.6706,
      "step": 1671
    },
    {
      "epoch": 0.6683822610868208,
      "grad_norm": 1.5594805779313554,
      "learning_rate": 1e-05,
      "loss": 0.6812,
      "step": 1672
    },
    {
      "epoch": 0.6687820112429731,
      "grad_norm": 1.5396533464572204,
      "learning_rate": 1e-05,
      "loss": 0.6383,
      "step": 1673
    },
    {
      "epoch": 0.6691817613991256,
      "grad_norm": 1.4499540614398765,
      "learning_rate": 1e-05,
      "loss": 0.6711,
      "step": 1674
    },
    {
      "epoch": 0.6695815115552779,
      "grad_norm": 1.5077175594930954,
      "learning_rate": 1e-05,
      "loss": 0.6578,
      "step": 1675
    },
    {
      "epoch": 0.6699812617114304,
      "grad_norm": 1.632203934722814,
      "learning_rate": 1e-05,
      "loss": 0.6786,
      "step": 1676
    },
    {
      "epoch": 0.6703810118675828,
      "grad_norm": 1.6041277235784341,
      "learning_rate": 1e-05,
      "loss": 0.6605,
      "step": 1677
    },
    {
      "epoch": 0.6707807620237352,
      "grad_norm": 1.4834815699369317,
      "learning_rate": 1e-05,
      "loss": 0.6782,
      "step": 1678
    },
    {
      "epoch": 0.6711805121798876,
      "grad_norm": 1.4685007257418659,
      "learning_rate": 1e-05,
      "loss": 0.6603,
      "step": 1679
    },
    {
      "epoch": 0.67158026233604,
      "grad_norm": 1.7070163398512255,
      "learning_rate": 1e-05,
      "loss": 0.6346,
      "step": 1680
    },
    {
      "epoch": 0.6719800124921924,
      "grad_norm": 1.4281844625947477,
      "learning_rate": 1e-05,
      "loss": 0.6321,
      "step": 1681
    },
    {
      "epoch": 0.6723797626483448,
      "grad_norm": 1.4685385942768132,
      "learning_rate": 1e-05,
      "loss": 0.6566,
      "step": 1682
    },
    {
      "epoch": 0.6727795128044972,
      "grad_norm": 1.4917791387175352,
      "learning_rate": 1e-05,
      "loss": 0.6467,
      "step": 1683
    },
    {
      "epoch": 0.6731792629606496,
      "grad_norm": 1.4963783886271356,
      "learning_rate": 1e-05,
      "loss": 0.6862,
      "step": 1684
    },
    {
      "epoch": 0.673579013116802,
      "grad_norm": 1.4176927232336427,
      "learning_rate": 1e-05,
      "loss": 0.6656,
      "step": 1685
    },
    {
      "epoch": 0.6739787632729544,
      "grad_norm": 1.618971369487075,
      "learning_rate": 1e-05,
      "loss": 0.676,
      "step": 1686
    },
    {
      "epoch": 0.6743785134291068,
      "grad_norm": 1.5857546449376396,
      "learning_rate": 1e-05,
      "loss": 0.64,
      "step": 1687
    },
    {
      "epoch": 0.6747782635852592,
      "grad_norm": 1.5143658633270092,
      "learning_rate": 1e-05,
      "loss": 0.6735,
      "step": 1688
    },
    {
      "epoch": 0.6751780137414116,
      "grad_norm": 1.4403815316338948,
      "learning_rate": 1e-05,
      "loss": 0.6757,
      "step": 1689
    },
    {
      "epoch": 0.6755777638975641,
      "grad_norm": 1.5478382863811853,
      "learning_rate": 1e-05,
      "loss": 0.6479,
      "step": 1690
    },
    {
      "epoch": 0.6759775140537164,
      "grad_norm": 1.443779012828402,
      "learning_rate": 1e-05,
      "loss": 0.6569,
      "step": 1691
    },
    {
      "epoch": 0.6763772642098689,
      "grad_norm": 1.4518245680660713,
      "learning_rate": 1e-05,
      "loss": 0.6527,
      "step": 1692
    },
    {
      "epoch": 0.6767770143660212,
      "grad_norm": 1.5670315682279663,
      "learning_rate": 1e-05,
      "loss": 0.6442,
      "step": 1693
    },
    {
      "epoch": 0.6771767645221737,
      "grad_norm": 1.5172662866439517,
      "learning_rate": 1e-05,
      "loss": 0.651,
      "step": 1694
    },
    {
      "epoch": 0.677576514678326,
      "grad_norm": 1.4984456269983435,
      "learning_rate": 1e-05,
      "loss": 0.6638,
      "step": 1695
    },
    {
      "epoch": 0.6779762648344785,
      "grad_norm": 1.5241208844304162,
      "learning_rate": 1e-05,
      "loss": 0.6584,
      "step": 1696
    },
    {
      "epoch": 0.6783760149906308,
      "grad_norm": 1.5941433711425432,
      "learning_rate": 1e-05,
      "loss": 0.6394,
      "step": 1697
    },
    {
      "epoch": 0.6787757651467833,
      "grad_norm": 1.5365251490944174,
      "learning_rate": 1e-05,
      "loss": 0.6353,
      "step": 1698
    },
    {
      "epoch": 0.6791755153029356,
      "grad_norm": 1.7401613665561806,
      "learning_rate": 1e-05,
      "loss": 0.6542,
      "step": 1699
    },
    {
      "epoch": 0.6795752654590881,
      "grad_norm": 1.7089338244988967,
      "learning_rate": 1e-05,
      "loss": 0.6443,
      "step": 1700
    },
    {
      "epoch": 0.6799750156152404,
      "grad_norm": 1.3379071016238688,
      "learning_rate": 1e-05,
      "loss": 0.6626,
      "step": 1701
    },
    {
      "epoch": 0.6803747657713929,
      "grad_norm": 1.569088840291465,
      "learning_rate": 1e-05,
      "loss": 0.6612,
      "step": 1702
    },
    {
      "epoch": 0.6807745159275452,
      "grad_norm": 1.489582961291543,
      "learning_rate": 1e-05,
      "loss": 0.6626,
      "step": 1703
    },
    {
      "epoch": 0.6811742660836977,
      "grad_norm": 1.6724784750693016,
      "learning_rate": 1e-05,
      "loss": 0.6694,
      "step": 1704
    },
    {
      "epoch": 0.6815740162398501,
      "grad_norm": 1.6610902188577623,
      "learning_rate": 1e-05,
      "loss": 0.6839,
      "step": 1705
    },
    {
      "epoch": 0.6819737663960025,
      "grad_norm": 1.5231028879610757,
      "learning_rate": 1e-05,
      "loss": 0.678,
      "step": 1706
    },
    {
      "epoch": 0.682373516552155,
      "grad_norm": 1.5478361360750503,
      "learning_rate": 1e-05,
      "loss": 0.6783,
      "step": 1707
    },
    {
      "epoch": 0.6827732667083073,
      "grad_norm": 1.6545781908792556,
      "learning_rate": 1e-05,
      "loss": 0.6753,
      "step": 1708
    },
    {
      "epoch": 0.6831730168644597,
      "grad_norm": 1.6916888111393258,
      "learning_rate": 1e-05,
      "loss": 0.6555,
      "step": 1709
    },
    {
      "epoch": 0.6835727670206121,
      "grad_norm": 1.4445256495680545,
      "learning_rate": 1e-05,
      "loss": 0.6824,
      "step": 1710
    },
    {
      "epoch": 0.6839725171767645,
      "grad_norm": 1.4600766762415873,
      "learning_rate": 1e-05,
      "loss": 0.6401,
      "step": 1711
    },
    {
      "epoch": 0.6843722673329169,
      "grad_norm": 1.6658425844434197,
      "learning_rate": 1e-05,
      "loss": 0.6994,
      "step": 1712
    },
    {
      "epoch": 0.6847720174890694,
      "grad_norm": 1.470866302809402,
      "learning_rate": 1e-05,
      "loss": 0.637,
      "step": 1713
    },
    {
      "epoch": 0.6851717676452217,
      "grad_norm": 1.5054336244115012,
      "learning_rate": 1e-05,
      "loss": 0.6316,
      "step": 1714
    },
    {
      "epoch": 0.6855715178013742,
      "grad_norm": 1.5778991852452404,
      "learning_rate": 1e-05,
      "loss": 0.6498,
      "step": 1715
    },
    {
      "epoch": 0.6859712679575265,
      "grad_norm": 1.5035624103205165,
      "learning_rate": 1e-05,
      "loss": 0.6666,
      "step": 1716
    },
    {
      "epoch": 0.686371018113679,
      "grad_norm": 1.7659428347261157,
      "learning_rate": 1e-05,
      "loss": 0.6608,
      "step": 1717
    },
    {
      "epoch": 0.6867707682698314,
      "grad_norm": 1.709791954439492,
      "learning_rate": 1e-05,
      "loss": 0.6537,
      "step": 1718
    },
    {
      "epoch": 0.6871705184259838,
      "grad_norm": 1.5665667740984632,
      "learning_rate": 1e-05,
      "loss": 0.6772,
      "step": 1719
    },
    {
      "epoch": 0.6875702685821362,
      "grad_norm": 1.5989870702891336,
      "learning_rate": 1e-05,
      "loss": 0.6545,
      "step": 1720
    },
    {
      "epoch": 0.6879700187382886,
      "grad_norm": 1.5480877014107757,
      "learning_rate": 1e-05,
      "loss": 0.635,
      "step": 1721
    },
    {
      "epoch": 0.688369768894441,
      "grad_norm": 1.6362230544107768,
      "learning_rate": 1e-05,
      "loss": 0.6671,
      "step": 1722
    },
    {
      "epoch": 0.6887695190505934,
      "grad_norm": 1.6493401915106711,
      "learning_rate": 1e-05,
      "loss": 0.6695,
      "step": 1723
    },
    {
      "epoch": 0.6891692692067458,
      "grad_norm": 1.5960079480279723,
      "learning_rate": 1e-05,
      "loss": 0.6598,
      "step": 1724
    },
    {
      "epoch": 0.6895690193628982,
      "grad_norm": 1.572108680093444,
      "learning_rate": 1e-05,
      "loss": 0.6765,
      "step": 1725
    },
    {
      "epoch": 0.6899687695190506,
      "grad_norm": 1.5920764733187003,
      "learning_rate": 1e-05,
      "loss": 0.6521,
      "step": 1726
    },
    {
      "epoch": 0.690368519675203,
      "grad_norm": 1.6789880890931559,
      "learning_rate": 1e-05,
      "loss": 0.6974,
      "step": 1727
    },
    {
      "epoch": 0.6907682698313554,
      "grad_norm": 1.594774857265331,
      "learning_rate": 1e-05,
      "loss": 0.6619,
      "step": 1728
    },
    {
      "epoch": 0.6911680199875078,
      "grad_norm": 1.8159347087484499,
      "learning_rate": 1e-05,
      "loss": 0.701,
      "step": 1729
    },
    {
      "epoch": 0.6915677701436602,
      "grad_norm": 1.6585298141082985,
      "learning_rate": 1e-05,
      "loss": 0.6623,
      "step": 1730
    },
    {
      "epoch": 0.6919675202998126,
      "grad_norm": 1.5877068752211851,
      "learning_rate": 1e-05,
      "loss": 0.6841,
      "step": 1731
    },
    {
      "epoch": 0.692367270455965,
      "grad_norm": 1.4622322326812887,
      "learning_rate": 1e-05,
      "loss": 0.6339,
      "step": 1732
    },
    {
      "epoch": 0.6927670206121175,
      "grad_norm": 1.625639960777709,
      "learning_rate": 1e-05,
      "loss": 0.646,
      "step": 1733
    },
    {
      "epoch": 0.6931667707682698,
      "grad_norm": 1.6596134294065714,
      "learning_rate": 1e-05,
      "loss": 0.6744,
      "step": 1734
    },
    {
      "epoch": 0.6935665209244223,
      "grad_norm": 1.5759937868933223,
      "learning_rate": 1e-05,
      "loss": 0.696,
      "step": 1735
    },
    {
      "epoch": 0.6939662710805746,
      "grad_norm": 1.5247792454575617,
      "learning_rate": 1e-05,
      "loss": 0.614,
      "step": 1736
    },
    {
      "epoch": 0.6943660212367271,
      "grad_norm": 1.665453329372504,
      "learning_rate": 1e-05,
      "loss": 0.6894,
      "step": 1737
    },
    {
      "epoch": 0.6947657713928794,
      "grad_norm": 1.50558443451952,
      "learning_rate": 1e-05,
      "loss": 0.6885,
      "step": 1738
    },
    {
      "epoch": 0.6951655215490319,
      "grad_norm": 1.641265391065479,
      "learning_rate": 1e-05,
      "loss": 0.6461,
      "step": 1739
    },
    {
      "epoch": 0.6955652717051842,
      "grad_norm": 1.5629764292603652,
      "learning_rate": 1e-05,
      "loss": 0.6553,
      "step": 1740
    },
    {
      "epoch": 0.6959650218613367,
      "grad_norm": 1.6675560430570502,
      "learning_rate": 1e-05,
      "loss": 0.674,
      "step": 1741
    },
    {
      "epoch": 0.696364772017489,
      "grad_norm": 1.6765961150381303,
      "learning_rate": 1e-05,
      "loss": 0.6916,
      "step": 1742
    },
    {
      "epoch": 0.6967645221736415,
      "grad_norm": 1.6782728879417927,
      "learning_rate": 1e-05,
      "loss": 0.6621,
      "step": 1743
    },
    {
      "epoch": 0.6971642723297938,
      "grad_norm": 1.352719153690687,
      "learning_rate": 1e-05,
      "loss": 0.6522,
      "step": 1744
    },
    {
      "epoch": 0.6975640224859463,
      "grad_norm": 1.684522159019821,
      "learning_rate": 1e-05,
      "loss": 0.6712,
      "step": 1745
    },
    {
      "epoch": 0.6979637726420986,
      "grad_norm": 1.6418680545548483,
      "learning_rate": 1e-05,
      "loss": 0.6837,
      "step": 1746
    },
    {
      "epoch": 0.6983635227982511,
      "grad_norm": 1.7231812230676797,
      "learning_rate": 1e-05,
      "loss": 0.6945,
      "step": 1747
    },
    {
      "epoch": 0.6987632729544035,
      "grad_norm": 1.693446206037145,
      "learning_rate": 1e-05,
      "loss": 0.6716,
      "step": 1748
    },
    {
      "epoch": 0.6991630231105559,
      "grad_norm": 1.5041091200763126,
      "learning_rate": 1e-05,
      "loss": 0.6767,
      "step": 1749
    },
    {
      "epoch": 0.6995627732667083,
      "grad_norm": 1.454589603507209,
      "learning_rate": 1e-05,
      "loss": 0.6737,
      "step": 1750
    },
    {
      "epoch": 0.6999625234228607,
      "grad_norm": 1.6502738831287092,
      "learning_rate": 1e-05,
      "loss": 0.6578,
      "step": 1751
    },
    {
      "epoch": 0.7003622735790132,
      "grad_norm": 1.4332797742662235,
      "learning_rate": 1e-05,
      "loss": 0.6353,
      "step": 1752
    },
    {
      "epoch": 0.7007620237351655,
      "grad_norm": 1.447766942825855,
      "learning_rate": 1e-05,
      "loss": 0.6278,
      "step": 1753
    },
    {
      "epoch": 0.701161773891318,
      "grad_norm": 1.6842669196516702,
      "learning_rate": 1e-05,
      "loss": 0.6974,
      "step": 1754
    },
    {
      "epoch": 0.7015615240474703,
      "grad_norm": 1.4475908333540737,
      "learning_rate": 1e-05,
      "loss": 0.6447,
      "step": 1755
    },
    {
      "epoch": 0.7019612742036228,
      "grad_norm": 1.7738485741978973,
      "learning_rate": 1e-05,
      "loss": 0.6889,
      "step": 1756
    },
    {
      "epoch": 0.7023610243597751,
      "grad_norm": 1.5391485903256177,
      "learning_rate": 1e-05,
      "loss": 0.6472,
      "step": 1757
    },
    {
      "epoch": 0.7027607745159276,
      "grad_norm": 1.5714366279138812,
      "learning_rate": 1e-05,
      "loss": 0.6633,
      "step": 1758
    },
    {
      "epoch": 0.7031605246720799,
      "grad_norm": 1.7365252559001636,
      "learning_rate": 1e-05,
      "loss": 0.6768,
      "step": 1759
    },
    {
      "epoch": 0.7035602748282324,
      "grad_norm": 1.4191655373184813,
      "learning_rate": 1e-05,
      "loss": 0.6396,
      "step": 1760
    },
    {
      "epoch": 0.7039600249843848,
      "grad_norm": 1.4107150282904142,
      "learning_rate": 1e-05,
      "loss": 0.6697,
      "step": 1761
    },
    {
      "epoch": 0.7043597751405372,
      "grad_norm": 1.6402320967242257,
      "learning_rate": 1e-05,
      "loss": 0.6665,
      "step": 1762
    },
    {
      "epoch": 0.7047595252966896,
      "grad_norm": 1.6828485896000984,
      "learning_rate": 1e-05,
      "loss": 0.6542,
      "step": 1763
    },
    {
      "epoch": 0.705159275452842,
      "grad_norm": 1.3931959556161937,
      "learning_rate": 1e-05,
      "loss": 0.6756,
      "step": 1764
    },
    {
      "epoch": 0.7055590256089944,
      "grad_norm": 1.658546902315787,
      "learning_rate": 1e-05,
      "loss": 0.6755,
      "step": 1765
    },
    {
      "epoch": 0.7059587757651468,
      "grad_norm": 1.4559757899729628,
      "learning_rate": 1e-05,
      "loss": 0.6644,
      "step": 1766
    },
    {
      "epoch": 0.7063585259212992,
      "grad_norm": 1.5617378176904486,
      "learning_rate": 1e-05,
      "loss": 0.6287,
      "step": 1767
    },
    {
      "epoch": 0.7067582760774516,
      "grad_norm": 1.634522761136526,
      "learning_rate": 1e-05,
      "loss": 0.664,
      "step": 1768
    },
    {
      "epoch": 0.707158026233604,
      "grad_norm": 1.6496419667603797,
      "learning_rate": 1e-05,
      "loss": 0.6919,
      "step": 1769
    },
    {
      "epoch": 0.7075577763897564,
      "grad_norm": 1.6128367101564756,
      "learning_rate": 1e-05,
      "loss": 0.6418,
      "step": 1770
    },
    {
      "epoch": 0.7079575265459088,
      "grad_norm": 1.4985400658233452,
      "learning_rate": 1e-05,
      "loss": 0.7075,
      "step": 1771
    },
    {
      "epoch": 0.7083572767020612,
      "grad_norm": 1.656820000863295,
      "learning_rate": 1e-05,
      "loss": 0.6935,
      "step": 1772
    },
    {
      "epoch": 0.7087570268582136,
      "grad_norm": 1.528126924743938,
      "learning_rate": 1e-05,
      "loss": 0.6731,
      "step": 1773
    },
    {
      "epoch": 0.709156777014366,
      "grad_norm": 1.4166668823735846,
      "learning_rate": 1e-05,
      "loss": 0.6479,
      "step": 1774
    },
    {
      "epoch": 0.7095565271705184,
      "grad_norm": 1.5337047017389451,
      "learning_rate": 1e-05,
      "loss": 0.6758,
      "step": 1775
    },
    {
      "epoch": 0.7099562773266709,
      "grad_norm": 1.5139366942819268,
      "learning_rate": 1e-05,
      "loss": 0.7068,
      "step": 1776
    },
    {
      "epoch": 0.7103560274828232,
      "grad_norm": 1.5245032035504569,
      "learning_rate": 1e-05,
      "loss": 0.6044,
      "step": 1777
    },
    {
      "epoch": 0.7107557776389757,
      "grad_norm": 1.5626718822007395,
      "learning_rate": 1e-05,
      "loss": 0.6647,
      "step": 1778
    },
    {
      "epoch": 0.711155527795128,
      "grad_norm": 1.5049468039796694,
      "learning_rate": 1e-05,
      "loss": 0.6891,
      "step": 1779
    },
    {
      "epoch": 0.7115552779512805,
      "grad_norm": 1.8197288771974305,
      "learning_rate": 1e-05,
      "loss": 0.6872,
      "step": 1780
    },
    {
      "epoch": 0.7119550281074328,
      "grad_norm": 1.5927679452540497,
      "learning_rate": 1e-05,
      "loss": 0.6833,
      "step": 1781
    },
    {
      "epoch": 0.7123547782635853,
      "grad_norm": 1.4107828647710023,
      "learning_rate": 1e-05,
      "loss": 0.6423,
      "step": 1782
    },
    {
      "epoch": 0.7127545284197376,
      "grad_norm": 1.6234877245583446,
      "learning_rate": 1e-05,
      "loss": 0.6447,
      "step": 1783
    },
    {
      "epoch": 0.7131542785758901,
      "grad_norm": 1.5882600240143527,
      "learning_rate": 1e-05,
      "loss": 0.6661,
      "step": 1784
    },
    {
      "epoch": 0.7135540287320424,
      "grad_norm": 1.7020178071046037,
      "learning_rate": 1e-05,
      "loss": 0.6645,
      "step": 1785
    },
    {
      "epoch": 0.7139537788881949,
      "grad_norm": 1.618418704263144,
      "learning_rate": 1e-05,
      "loss": 0.6695,
      "step": 1786
    },
    {
      "epoch": 0.7143535290443472,
      "grad_norm": 1.5441712273546495,
      "learning_rate": 1e-05,
      "loss": 0.661,
      "step": 1787
    },
    {
      "epoch": 0.7147532792004997,
      "grad_norm": 1.4890210889991906,
      "learning_rate": 1e-05,
      "loss": 0.6459,
      "step": 1788
    },
    {
      "epoch": 0.7151530293566521,
      "grad_norm": 1.5149047984129216,
      "learning_rate": 1e-05,
      "loss": 0.6451,
      "step": 1789
    },
    {
      "epoch": 0.7155527795128045,
      "grad_norm": 1.732801076051805,
      "learning_rate": 1e-05,
      "loss": 0.6627,
      "step": 1790
    },
    {
      "epoch": 0.715952529668957,
      "grad_norm": 1.628149751607664,
      "learning_rate": 1e-05,
      "loss": 0.6519,
      "step": 1791
    },
    {
      "epoch": 0.7163522798251093,
      "grad_norm": 1.5728444850243397,
      "learning_rate": 1e-05,
      "loss": 0.6168,
      "step": 1792
    },
    {
      "epoch": 0.7167520299812618,
      "grad_norm": 1.631529413847903,
      "learning_rate": 1e-05,
      "loss": 0.6436,
      "step": 1793
    },
    {
      "epoch": 0.7171517801374141,
      "grad_norm": 1.5862765557294616,
      "learning_rate": 1e-05,
      "loss": 0.6557,
      "step": 1794
    },
    {
      "epoch": 0.7175515302935666,
      "grad_norm": 1.5899786121966892,
      "learning_rate": 1e-05,
      "loss": 0.6527,
      "step": 1795
    },
    {
      "epoch": 0.7179512804497189,
      "grad_norm": 1.8001416386386386,
      "learning_rate": 1e-05,
      "loss": 0.6852,
      "step": 1796
    },
    {
      "epoch": 0.7183510306058714,
      "grad_norm": 1.5964296066038761,
      "learning_rate": 1e-05,
      "loss": 0.6567,
      "step": 1797
    },
    {
      "epoch": 0.7187507807620237,
      "grad_norm": 1.695730093656103,
      "learning_rate": 1e-05,
      "loss": 0.674,
      "step": 1798
    },
    {
      "epoch": 0.7191505309181762,
      "grad_norm": 1.6060524532436735,
      "learning_rate": 1e-05,
      "loss": 0.6448,
      "step": 1799
    },
    {
      "epoch": 0.7195502810743285,
      "grad_norm": 1.5700499602491815,
      "learning_rate": 1e-05,
      "loss": 0.6545,
      "step": 1800
    },
    {
      "epoch": 0.719950031230481,
      "grad_norm": 1.7469583901060217,
      "learning_rate": 1e-05,
      "loss": 0.6592,
      "step": 1801
    },
    {
      "epoch": 0.7203497813866333,
      "grad_norm": 1.5853976767091118,
      "learning_rate": 1e-05,
      "loss": 0.6365,
      "step": 1802
    },
    {
      "epoch": 0.7207495315427858,
      "grad_norm": 1.4435666324185272,
      "learning_rate": 1e-05,
      "loss": 0.6248,
      "step": 1803
    },
    {
      "epoch": 0.7211492816989382,
      "grad_norm": 1.6027787763670067,
      "learning_rate": 1e-05,
      "loss": 0.6831,
      "step": 1804
    },
    {
      "epoch": 0.7215490318550906,
      "grad_norm": 1.783468934966159,
      "learning_rate": 1e-05,
      "loss": 0.6498,
      "step": 1805
    },
    {
      "epoch": 0.721948782011243,
      "grad_norm": 1.598575363016485,
      "learning_rate": 1e-05,
      "loss": 0.6819,
      "step": 1806
    },
    {
      "epoch": 0.7223485321673954,
      "grad_norm": 1.3956826529272905,
      "learning_rate": 1e-05,
      "loss": 0.642,
      "step": 1807
    },
    {
      "epoch": 0.7227482823235478,
      "grad_norm": 1.5327067359965991,
      "learning_rate": 1e-05,
      "loss": 0.6656,
      "step": 1808
    },
    {
      "epoch": 0.7231480324797002,
      "grad_norm": 1.5495533181748313,
      "learning_rate": 1e-05,
      "loss": 0.6541,
      "step": 1809
    },
    {
      "epoch": 0.7235477826358526,
      "grad_norm": 1.5744919781166353,
      "learning_rate": 1e-05,
      "loss": 0.6572,
      "step": 1810
    },
    {
      "epoch": 0.723947532792005,
      "grad_norm": 1.5581044274954026,
      "learning_rate": 1e-05,
      "loss": 0.6107,
      "step": 1811
    },
    {
      "epoch": 0.7243472829481574,
      "grad_norm": 1.6696558170871652,
      "learning_rate": 1e-05,
      "loss": 0.6656,
      "step": 1812
    },
    {
      "epoch": 0.7247470331043098,
      "grad_norm": 1.5447004943600882,
      "learning_rate": 1e-05,
      "loss": 0.6625,
      "step": 1813
    },
    {
      "epoch": 0.7251467832604622,
      "grad_norm": 1.598450979478771,
      "learning_rate": 1e-05,
      "loss": 0.6338,
      "step": 1814
    },
    {
      "epoch": 0.7255465334166146,
      "grad_norm": 1.5838422637419673,
      "learning_rate": 1e-05,
      "loss": 0.6765,
      "step": 1815
    },
    {
      "epoch": 0.725946283572767,
      "grad_norm": 1.4198366739637063,
      "learning_rate": 1e-05,
      "loss": 0.668,
      "step": 1816
    },
    {
      "epoch": 0.7263460337289194,
      "grad_norm": 1.4882335879639659,
      "learning_rate": 1e-05,
      "loss": 0.6866,
      "step": 1817
    },
    {
      "epoch": 0.7267457838850718,
      "grad_norm": 1.6440419974533853,
      "learning_rate": 1e-05,
      "loss": 0.6605,
      "step": 1818
    },
    {
      "epoch": 0.7271455340412243,
      "grad_norm": 1.4628053818718905,
      "learning_rate": 1e-05,
      "loss": 0.6743,
      "step": 1819
    },
    {
      "epoch": 0.7275452841973766,
      "grad_norm": 1.5028756995790347,
      "learning_rate": 1e-05,
      "loss": 0.6585,
      "step": 1820
    },
    {
      "epoch": 0.7279450343535291,
      "grad_norm": 1.6068118686385335,
      "learning_rate": 1e-05,
      "loss": 0.6623,
      "step": 1821
    },
    {
      "epoch": 0.7283447845096814,
      "grad_norm": 1.5349208509119805,
      "learning_rate": 1e-05,
      "loss": 0.6283,
      "step": 1822
    },
    {
      "epoch": 0.7287445346658339,
      "grad_norm": 1.5430762516888425,
      "learning_rate": 1e-05,
      "loss": 0.6851,
      "step": 1823
    },
    {
      "epoch": 0.7291442848219862,
      "grad_norm": 1.6162401513821592,
      "learning_rate": 1e-05,
      "loss": 0.6636,
      "step": 1824
    },
    {
      "epoch": 0.7295440349781387,
      "grad_norm": 1.43208449060294,
      "learning_rate": 1e-05,
      "loss": 0.6198,
      "step": 1825
    },
    {
      "epoch": 0.729943785134291,
      "grad_norm": 1.44646291403646,
      "learning_rate": 1e-05,
      "loss": 0.6733,
      "step": 1826
    },
    {
      "epoch": 0.7303435352904435,
      "grad_norm": 1.2629614481504405,
      "learning_rate": 1e-05,
      "loss": 0.6685,
      "step": 1827
    },
    {
      "epoch": 0.7307432854465958,
      "grad_norm": 1.6608527090756935,
      "learning_rate": 1e-05,
      "loss": 0.6943,
      "step": 1828
    },
    {
      "epoch": 0.7311430356027483,
      "grad_norm": 1.7491858861915595,
      "learning_rate": 1e-05,
      "loss": 0.6661,
      "step": 1829
    },
    {
      "epoch": 0.7315427857589006,
      "grad_norm": 1.3919142496985664,
      "learning_rate": 1e-05,
      "loss": 0.661,
      "step": 1830
    },
    {
      "epoch": 0.7319425359150531,
      "grad_norm": 1.5535542825656476,
      "learning_rate": 1e-05,
      "loss": 0.6253,
      "step": 1831
    },
    {
      "epoch": 0.7323422860712056,
      "grad_norm": 1.5247409192118315,
      "learning_rate": 1e-05,
      "loss": 0.6589,
      "step": 1832
    },
    {
      "epoch": 0.7327420362273579,
      "grad_norm": 1.5946680842903107,
      "learning_rate": 1e-05,
      "loss": 0.6741,
      "step": 1833
    },
    {
      "epoch": 0.7331417863835104,
      "grad_norm": 1.5416355061671638,
      "learning_rate": 1e-05,
      "loss": 0.6898,
      "step": 1834
    },
    {
      "epoch": 0.7335415365396627,
      "grad_norm": 1.5561000643801612,
      "learning_rate": 1e-05,
      "loss": 0.6919,
      "step": 1835
    },
    {
      "epoch": 0.7339412866958152,
      "grad_norm": 1.6247058817190632,
      "learning_rate": 1e-05,
      "loss": 0.6968,
      "step": 1836
    },
    {
      "epoch": 0.7343410368519675,
      "grad_norm": 1.5339340992890538,
      "learning_rate": 1e-05,
      "loss": 0.6513,
      "step": 1837
    },
    {
      "epoch": 0.73474078700812,
      "grad_norm": 1.7205484372873419,
      "learning_rate": 1e-05,
      "loss": 0.6662,
      "step": 1838
    },
    {
      "epoch": 0.7351405371642723,
      "grad_norm": 1.6352164690995903,
      "learning_rate": 1e-05,
      "loss": 0.6418,
      "step": 1839
    },
    {
      "epoch": 0.7355402873204248,
      "grad_norm": 1.5833211946199772,
      "learning_rate": 1e-05,
      "loss": 0.6778,
      "step": 1840
    },
    {
      "epoch": 0.7359400374765771,
      "grad_norm": 1.7418878434371912,
      "learning_rate": 1e-05,
      "loss": 0.6421,
      "step": 1841
    },
    {
      "epoch": 0.7363397876327296,
      "grad_norm": 1.5844906960426635,
      "learning_rate": 1e-05,
      "loss": 0.6875,
      "step": 1842
    },
    {
      "epoch": 0.7367395377888819,
      "grad_norm": 1.6618892579909628,
      "learning_rate": 1e-05,
      "loss": 0.6711,
      "step": 1843
    },
    {
      "epoch": 0.7371392879450344,
      "grad_norm": 1.6127732852850953,
      "learning_rate": 1e-05,
      "loss": 0.6774,
      "step": 1844
    },
    {
      "epoch": 0.7375390381011867,
      "grad_norm": 1.637935871808077,
      "learning_rate": 1e-05,
      "loss": 0.6792,
      "step": 1845
    },
    {
      "epoch": 0.7379387882573392,
      "grad_norm": 1.4397509774164203,
      "learning_rate": 1e-05,
      "loss": 0.6075,
      "step": 1846
    },
    {
      "epoch": 0.7383385384134916,
      "grad_norm": 1.4297239504959416,
      "learning_rate": 1e-05,
      "loss": 0.6727,
      "step": 1847
    },
    {
      "epoch": 0.738738288569644,
      "grad_norm": 1.4461632345797428,
      "learning_rate": 1e-05,
      "loss": 0.681,
      "step": 1848
    },
    {
      "epoch": 0.7391380387257964,
      "grad_norm": 1.7561318635788092,
      "learning_rate": 1e-05,
      "loss": 0.6534,
      "step": 1849
    },
    {
      "epoch": 0.7395377888819488,
      "grad_norm": 1.5862876958182677,
      "learning_rate": 1e-05,
      "loss": 0.6888,
      "step": 1850
    },
    {
      "epoch": 0.7399375390381012,
      "grad_norm": 1.6090091986998662,
      "learning_rate": 1e-05,
      "loss": 0.6552,
      "step": 1851
    },
    {
      "epoch": 0.7403372891942536,
      "grad_norm": 1.6185657047857602,
      "learning_rate": 1e-05,
      "loss": 0.6581,
      "step": 1852
    },
    {
      "epoch": 0.740737039350406,
      "grad_norm": 1.6242649703721104,
      "learning_rate": 1e-05,
      "loss": 0.6555,
      "step": 1853
    },
    {
      "epoch": 0.7411367895065584,
      "grad_norm": 1.7440444766479497,
      "learning_rate": 1e-05,
      "loss": 0.6325,
      "step": 1854
    },
    {
      "epoch": 0.7415365396627108,
      "grad_norm": 1.5629117221584747,
      "learning_rate": 1e-05,
      "loss": 0.6423,
      "step": 1855
    },
    {
      "epoch": 0.7419362898188632,
      "grad_norm": 1.4945257398399645,
      "learning_rate": 1e-05,
      "loss": 0.6518,
      "step": 1856
    },
    {
      "epoch": 0.7423360399750156,
      "grad_norm": 1.5796100800386992,
      "learning_rate": 1e-05,
      "loss": 0.6475,
      "step": 1857
    },
    {
      "epoch": 0.742735790131168,
      "grad_norm": 1.7103253297600614,
      "learning_rate": 1e-05,
      "loss": 0.6203,
      "step": 1858
    },
    {
      "epoch": 0.7431355402873204,
      "grad_norm": 1.4690227927498662,
      "learning_rate": 1e-05,
      "loss": 0.6829,
      "step": 1859
    },
    {
      "epoch": 0.7435352904434729,
      "grad_norm": 1.5565096637323232,
      "learning_rate": 1e-05,
      "loss": 0.6336,
      "step": 1860
    },
    {
      "epoch": 0.7439350405996252,
      "grad_norm": 1.7469433705964648,
      "learning_rate": 1e-05,
      "loss": 0.6571,
      "step": 1861
    },
    {
      "epoch": 0.7443347907557777,
      "grad_norm": 1.5346107392290222,
      "learning_rate": 1e-05,
      "loss": 0.658,
      "step": 1862
    },
    {
      "epoch": 0.74473454091193,
      "grad_norm": 1.5088872976549164,
      "learning_rate": 1e-05,
      "loss": 0.6566,
      "step": 1863
    },
    {
      "epoch": 0.7451342910680825,
      "grad_norm": 1.5248134912830544,
      "learning_rate": 1e-05,
      "loss": 0.6786,
      "step": 1864
    },
    {
      "epoch": 0.7455340412242348,
      "grad_norm": 1.562382445225885,
      "learning_rate": 1e-05,
      "loss": 0.6362,
      "step": 1865
    },
    {
      "epoch": 0.7459337913803873,
      "grad_norm": 1.5321631126851576,
      "learning_rate": 1e-05,
      "loss": 0.6511,
      "step": 1866
    },
    {
      "epoch": 0.7463335415365396,
      "grad_norm": 1.5793305284414598,
      "learning_rate": 1e-05,
      "loss": 0.6572,
      "step": 1867
    },
    {
      "epoch": 0.7467332916926921,
      "grad_norm": 1.5625536794344441,
      "learning_rate": 1e-05,
      "loss": 0.6408,
      "step": 1868
    },
    {
      "epoch": 0.7471330418488444,
      "grad_norm": 1.519886965185533,
      "learning_rate": 1e-05,
      "loss": 0.6292,
      "step": 1869
    },
    {
      "epoch": 0.7475327920049969,
      "grad_norm": 1.5812790098542873,
      "learning_rate": 1e-05,
      "loss": 0.6739,
      "step": 1870
    },
    {
      "epoch": 0.7479325421611492,
      "grad_norm": 1.6416380924799758,
      "learning_rate": 1e-05,
      "loss": 0.6892,
      "step": 1871
    },
    {
      "epoch": 0.7483322923173017,
      "grad_norm": 1.4658911000022954,
      "learning_rate": 1e-05,
      "loss": 0.6685,
      "step": 1872
    },
    {
      "epoch": 0.748732042473454,
      "grad_norm": 1.514412299078549,
      "learning_rate": 1e-05,
      "loss": 0.6353,
      "step": 1873
    },
    {
      "epoch": 0.7491317926296065,
      "grad_norm": 1.5554685843805223,
      "learning_rate": 1e-05,
      "loss": 0.6611,
      "step": 1874
    },
    {
      "epoch": 0.749531542785759,
      "grad_norm": 1.6988007768973648,
      "learning_rate": 1e-05,
      "loss": 0.6982,
      "step": 1875
    },
    {
      "epoch": 0.7499312929419113,
      "grad_norm": 1.5379620347235199,
      "learning_rate": 1e-05,
      "loss": 0.6072,
      "step": 1876
    },
    {
      "epoch": 0.7503310430980638,
      "grad_norm": 1.6537244926296413,
      "learning_rate": 1e-05,
      "loss": 0.6551,
      "step": 1877
    },
    {
      "epoch": 0.7507307932542161,
      "grad_norm": 1.5127913606637762,
      "learning_rate": 1e-05,
      "loss": 0.6432,
      "step": 1878
    },
    {
      "epoch": 0.7511305434103686,
      "grad_norm": 1.5592684331466933,
      "learning_rate": 1e-05,
      "loss": 0.6444,
      "step": 1879
    },
    {
      "epoch": 0.7515302935665209,
      "grad_norm": 1.7435227570404748,
      "learning_rate": 1e-05,
      "loss": 0.6797,
      "step": 1880
    },
    {
      "epoch": 0.7519300437226734,
      "grad_norm": 1.4712511611344172,
      "learning_rate": 1e-05,
      "loss": 0.673,
      "step": 1881
    },
    {
      "epoch": 0.7523297938788257,
      "grad_norm": 1.6019870089264723,
      "learning_rate": 1e-05,
      "loss": 0.6418,
      "step": 1882
    },
    {
      "epoch": 0.7527295440349782,
      "grad_norm": 1.435702018968765,
      "learning_rate": 1e-05,
      "loss": 0.6463,
      "step": 1883
    },
    {
      "epoch": 0.7531292941911305,
      "grad_norm": 1.4245726244677768,
      "learning_rate": 1e-05,
      "loss": 0.6596,
      "step": 1884
    },
    {
      "epoch": 0.753529044347283,
      "grad_norm": 1.4518580245517982,
      "learning_rate": 1e-05,
      "loss": 0.6811,
      "step": 1885
    },
    {
      "epoch": 0.7539287945034353,
      "grad_norm": 1.5048374579376858,
      "learning_rate": 1e-05,
      "loss": 0.6936,
      "step": 1886
    },
    {
      "epoch": 0.7543285446595878,
      "grad_norm": 1.5467346302974538,
      "learning_rate": 1e-05,
      "loss": 0.6635,
      "step": 1887
    },
    {
      "epoch": 0.7547282948157401,
      "grad_norm": 1.415478558045217,
      "learning_rate": 1e-05,
      "loss": 0.638,
      "step": 1888
    },
    {
      "epoch": 0.7551280449718926,
      "grad_norm": 1.5506976396048815,
      "learning_rate": 1e-05,
      "loss": 0.6838,
      "step": 1889
    },
    {
      "epoch": 0.755527795128045,
      "grad_norm": 1.5659080853716345,
      "learning_rate": 1e-05,
      "loss": 0.6445,
      "step": 1890
    },
    {
      "epoch": 0.7559275452841974,
      "grad_norm": 1.5505128029273811,
      "learning_rate": 1e-05,
      "loss": 0.679,
      "step": 1891
    },
    {
      "epoch": 0.7563272954403498,
      "grad_norm": 1.4914756474631954,
      "learning_rate": 1e-05,
      "loss": 0.6365,
      "step": 1892
    },
    {
      "epoch": 0.7567270455965022,
      "grad_norm": 1.4982201565874613,
      "learning_rate": 1e-05,
      "loss": 0.7029,
      "step": 1893
    },
    {
      "epoch": 0.7571267957526546,
      "grad_norm": 1.5154158743091894,
      "learning_rate": 1e-05,
      "loss": 0.6955,
      "step": 1894
    },
    {
      "epoch": 0.757526545908807,
      "grad_norm": 1.5964653989445685,
      "learning_rate": 1e-05,
      "loss": 0.6969,
      "step": 1895
    },
    {
      "epoch": 0.7579262960649594,
      "grad_norm": 1.5322428921291817,
      "learning_rate": 1e-05,
      "loss": 0.6508,
      "step": 1896
    },
    {
      "epoch": 0.7583260462211118,
      "grad_norm": 1.5900607034351881,
      "learning_rate": 1e-05,
      "loss": 0.6879,
      "step": 1897
    },
    {
      "epoch": 0.7587257963772642,
      "grad_norm": 1.669720479297027,
      "learning_rate": 1e-05,
      "loss": 0.6097,
      "step": 1898
    },
    {
      "epoch": 0.7591255465334166,
      "grad_norm": 1.5894541474967177,
      "learning_rate": 1e-05,
      "loss": 0.6449,
      "step": 1899
    },
    {
      "epoch": 0.759525296689569,
      "grad_norm": 1.567862626511531,
      "learning_rate": 1e-05,
      "loss": 0.6638,
      "step": 1900
    },
    {
      "epoch": 0.7599250468457214,
      "grad_norm": 1.531616046593727,
      "learning_rate": 1e-05,
      "loss": 0.6619,
      "step": 1901
    },
    {
      "epoch": 0.7603247970018738,
      "grad_norm": 1.4490878524162334,
      "learning_rate": 1e-05,
      "loss": 0.638,
      "step": 1902
    },
    {
      "epoch": 0.7607245471580263,
      "grad_norm": 1.4164787612453666,
      "learning_rate": 1e-05,
      "loss": 0.6779,
      "step": 1903
    },
    {
      "epoch": 0.7611242973141786,
      "grad_norm": 1.5578166761869692,
      "learning_rate": 1e-05,
      "loss": 0.6686,
      "step": 1904
    },
    {
      "epoch": 0.7615240474703311,
      "grad_norm": 1.5171358566203799,
      "learning_rate": 1e-05,
      "loss": 0.6945,
      "step": 1905
    },
    {
      "epoch": 0.7619237976264834,
      "grad_norm": 1.5837577260318578,
      "learning_rate": 1e-05,
      "loss": 0.6878,
      "step": 1906
    },
    {
      "epoch": 0.7623235477826359,
      "grad_norm": 1.565515942376044,
      "learning_rate": 1e-05,
      "loss": 0.6521,
      "step": 1907
    },
    {
      "epoch": 0.7627232979387882,
      "grad_norm": 1.4674645168738707,
      "learning_rate": 1e-05,
      "loss": 0.6232,
      "step": 1908
    },
    {
      "epoch": 0.7631230480949407,
      "grad_norm": 1.7208000965918397,
      "learning_rate": 1e-05,
      "loss": 0.7063,
      "step": 1909
    },
    {
      "epoch": 0.763522798251093,
      "grad_norm": 1.5111206938436468,
      "learning_rate": 1e-05,
      "loss": 0.6418,
      "step": 1910
    },
    {
      "epoch": 0.7639225484072455,
      "grad_norm": 1.583945509681503,
      "learning_rate": 1e-05,
      "loss": 0.6694,
      "step": 1911
    },
    {
      "epoch": 0.7643222985633978,
      "grad_norm": 1.5370558898124265,
      "learning_rate": 1e-05,
      "loss": 0.6825,
      "step": 1912
    },
    {
      "epoch": 0.7647220487195503,
      "grad_norm": 1.5665556812982198,
      "learning_rate": 1e-05,
      "loss": 0.6574,
      "step": 1913
    },
    {
      "epoch": 0.7651217988757026,
      "grad_norm": 1.5394534024822262,
      "learning_rate": 1e-05,
      "loss": 0.6498,
      "step": 1914
    },
    {
      "epoch": 0.7655215490318551,
      "grad_norm": 1.491377043347366,
      "learning_rate": 1e-05,
      "loss": 0.6091,
      "step": 1915
    },
    {
      "epoch": 0.7659212991880074,
      "grad_norm": 1.7151574726854315,
      "learning_rate": 1e-05,
      "loss": 0.6807,
      "step": 1916
    },
    {
      "epoch": 0.7663210493441599,
      "grad_norm": 1.5051746838467157,
      "learning_rate": 1e-05,
      "loss": 0.664,
      "step": 1917
    },
    {
      "epoch": 0.7667207995003124,
      "grad_norm": 1.5725880945321273,
      "learning_rate": 1e-05,
      "loss": 0.624,
      "step": 1918
    },
    {
      "epoch": 0.7671205496564647,
      "grad_norm": 1.4168915145134238,
      "learning_rate": 1e-05,
      "loss": 0.6731,
      "step": 1919
    },
    {
      "epoch": 0.7675202998126172,
      "grad_norm": 1.6486839288766149,
      "learning_rate": 1e-05,
      "loss": 0.6851,
      "step": 1920
    },
    {
      "epoch": 0.7679200499687695,
      "grad_norm": 1.6039320471638574,
      "learning_rate": 1e-05,
      "loss": 0.6408,
      "step": 1921
    },
    {
      "epoch": 0.768319800124922,
      "grad_norm": 1.6886811333780603,
      "learning_rate": 1e-05,
      "loss": 0.6776,
      "step": 1922
    },
    {
      "epoch": 0.7687195502810743,
      "grad_norm": 1.5291272055097485,
      "learning_rate": 1e-05,
      "loss": 0.6443,
      "step": 1923
    },
    {
      "epoch": 0.7691193004372268,
      "grad_norm": 1.3682998506199335,
      "learning_rate": 1e-05,
      "loss": 0.6484,
      "step": 1924
    },
    {
      "epoch": 0.7695190505933791,
      "grad_norm": 1.4704431376248361,
      "learning_rate": 1e-05,
      "loss": 0.6538,
      "step": 1925
    },
    {
      "epoch": 0.7699188007495316,
      "grad_norm": 1.468149201768319,
      "learning_rate": 1e-05,
      "loss": 0.6594,
      "step": 1926
    },
    {
      "epoch": 0.7703185509056839,
      "grad_norm": 1.5042479844634966,
      "learning_rate": 1e-05,
      "loss": 0.6461,
      "step": 1927
    },
    {
      "epoch": 0.7707183010618364,
      "grad_norm": 1.5926005233418536,
      "learning_rate": 1e-05,
      "loss": 0.6541,
      "step": 1928
    },
    {
      "epoch": 0.7711180512179887,
      "grad_norm": 1.6695129928305539,
      "learning_rate": 1e-05,
      "loss": 0.6484,
      "step": 1929
    },
    {
      "epoch": 0.7715178013741412,
      "grad_norm": 1.5172365939034116,
      "learning_rate": 1e-05,
      "loss": 0.6715,
      "step": 1930
    },
    {
      "epoch": 0.7719175515302936,
      "grad_norm": 1.6025182893102645,
      "learning_rate": 1e-05,
      "loss": 0.6791,
      "step": 1931
    },
    {
      "epoch": 0.772317301686446,
      "grad_norm": 1.532739080256497,
      "learning_rate": 1e-05,
      "loss": 0.6244,
      "step": 1932
    },
    {
      "epoch": 0.7727170518425984,
      "grad_norm": 1.5803758332826368,
      "learning_rate": 1e-05,
      "loss": 0.6389,
      "step": 1933
    },
    {
      "epoch": 0.7731168019987508,
      "grad_norm": 1.4943853967551564,
      "learning_rate": 1e-05,
      "loss": 0.6397,
      "step": 1934
    },
    {
      "epoch": 0.7735165521549032,
      "grad_norm": 1.5608783531079162,
      "learning_rate": 1e-05,
      "loss": 0.6236,
      "step": 1935
    },
    {
      "epoch": 0.7739163023110556,
      "grad_norm": 1.5105204873560005,
      "learning_rate": 1e-05,
      "loss": 0.6493,
      "step": 1936
    },
    {
      "epoch": 0.774316052467208,
      "grad_norm": 1.5823396708740567,
      "learning_rate": 1e-05,
      "loss": 0.6312,
      "step": 1937
    },
    {
      "epoch": 0.7747158026233604,
      "grad_norm": 1.6355926606172304,
      "learning_rate": 1e-05,
      "loss": 0.6788,
      "step": 1938
    },
    {
      "epoch": 0.7751155527795128,
      "grad_norm": 1.6599934553359779,
      "learning_rate": 1e-05,
      "loss": 0.6288,
      "step": 1939
    },
    {
      "epoch": 0.7755153029356652,
      "grad_norm": 1.7684705925198938,
      "learning_rate": 1e-05,
      "loss": 0.6605,
      "step": 1940
    },
    {
      "epoch": 0.7759150530918176,
      "grad_norm": 1.5626618266214662,
      "learning_rate": 1e-05,
      "loss": 0.6562,
      "step": 1941
    },
    {
      "epoch": 0.77631480324797,
      "grad_norm": 1.7747677337988945,
      "learning_rate": 1e-05,
      "loss": 0.6625,
      "step": 1942
    },
    {
      "epoch": 0.7767145534041224,
      "grad_norm": 1.7950912806124106,
      "learning_rate": 1e-05,
      "loss": 0.6625,
      "step": 1943
    },
    {
      "epoch": 0.7771143035602748,
      "grad_norm": 1.524706499585543,
      "learning_rate": 1e-05,
      "loss": 0.6212,
      "step": 1944
    },
    {
      "epoch": 0.7775140537164272,
      "grad_norm": 1.4920997695989422,
      "learning_rate": 1e-05,
      "loss": 0.6644,
      "step": 1945
    },
    {
      "epoch": 0.7779138038725797,
      "grad_norm": 1.707051314257506,
      "learning_rate": 1e-05,
      "loss": 0.6459,
      "step": 1946
    },
    {
      "epoch": 0.778313554028732,
      "grad_norm": 1.4611293095908782,
      "learning_rate": 1e-05,
      "loss": 0.6553,
      "step": 1947
    },
    {
      "epoch": 0.7787133041848845,
      "grad_norm": 1.5350256411799612,
      "learning_rate": 1e-05,
      "loss": 0.6737,
      "step": 1948
    },
    {
      "epoch": 0.7791130543410368,
      "grad_norm": 1.7098412597586659,
      "learning_rate": 1e-05,
      "loss": 0.6858,
      "step": 1949
    },
    {
      "epoch": 0.7795128044971893,
      "grad_norm": 1.6231306508526528,
      "learning_rate": 1e-05,
      "loss": 0.6422,
      "step": 1950
    },
    {
      "epoch": 0.7799125546533416,
      "grad_norm": 1.5194415461930095,
      "learning_rate": 1e-05,
      "loss": 0.6813,
      "step": 1951
    },
    {
      "epoch": 0.7803123048094941,
      "grad_norm": 1.682643984562719,
      "learning_rate": 1e-05,
      "loss": 0.6708,
      "step": 1952
    },
    {
      "epoch": 0.7807120549656464,
      "grad_norm": 1.54448162746436,
      "learning_rate": 1e-05,
      "loss": 0.6407,
      "step": 1953
    },
    {
      "epoch": 0.7811118051217989,
      "grad_norm": 1.6160464668599313,
      "learning_rate": 1e-05,
      "loss": 0.6491,
      "step": 1954
    },
    {
      "epoch": 0.7815115552779512,
      "grad_norm": 1.701140433621567,
      "learning_rate": 1e-05,
      "loss": 0.6344,
      "step": 1955
    },
    {
      "epoch": 0.7819113054341037,
      "grad_norm": 1.514218754329985,
      "learning_rate": 1e-05,
      "loss": 0.6233,
      "step": 1956
    },
    {
      "epoch": 0.782311055590256,
      "grad_norm": 1.6852875939893313,
      "learning_rate": 1e-05,
      "loss": 0.667,
      "step": 1957
    },
    {
      "epoch": 0.7827108057464085,
      "grad_norm": 1.4245421783098988,
      "learning_rate": 1e-05,
      "loss": 0.6753,
      "step": 1958
    },
    {
      "epoch": 0.7831105559025608,
      "grad_norm": 1.4828448737270132,
      "learning_rate": 1e-05,
      "loss": 0.6598,
      "step": 1959
    },
    {
      "epoch": 0.7835103060587133,
      "grad_norm": 1.6464399711640056,
      "learning_rate": 1e-05,
      "loss": 0.6623,
      "step": 1960
    },
    {
      "epoch": 0.7839100562148658,
      "grad_norm": 1.6972177851030172,
      "learning_rate": 1e-05,
      "loss": 0.6474,
      "step": 1961
    },
    {
      "epoch": 0.7843098063710181,
      "grad_norm": 1.5758111507244665,
      "learning_rate": 1e-05,
      "loss": 0.6451,
      "step": 1962
    },
    {
      "epoch": 0.7847095565271706,
      "grad_norm": 1.598229554032006,
      "learning_rate": 1e-05,
      "loss": 0.6833,
      "step": 1963
    },
    {
      "epoch": 0.7851093066833229,
      "grad_norm": 1.5588256094193618,
      "learning_rate": 1e-05,
      "loss": 0.6285,
      "step": 1964
    },
    {
      "epoch": 0.7855090568394754,
      "grad_norm": 1.8322504012430474,
      "learning_rate": 1e-05,
      "loss": 0.6888,
      "step": 1965
    },
    {
      "epoch": 0.7859088069956277,
      "grad_norm": 1.7751438806728033,
      "learning_rate": 1e-05,
      "loss": 0.666,
      "step": 1966
    },
    {
      "epoch": 0.7863085571517802,
      "grad_norm": 1.643568174297913,
      "learning_rate": 1e-05,
      "loss": 0.6811,
      "step": 1967
    },
    {
      "epoch": 0.7867083073079325,
      "grad_norm": 1.5012479385603996,
      "learning_rate": 1e-05,
      "loss": 0.6429,
      "step": 1968
    },
    {
      "epoch": 0.787108057464085,
      "grad_norm": 1.4428066100227575,
      "learning_rate": 1e-05,
      "loss": 0.6506,
      "step": 1969
    },
    {
      "epoch": 0.7875078076202373,
      "grad_norm": 1.6180911367027864,
      "learning_rate": 1e-05,
      "loss": 0.643,
      "step": 1970
    },
    {
      "epoch": 0.7879075577763898,
      "grad_norm": 1.7806530547283455,
      "learning_rate": 1e-05,
      "loss": 0.6956,
      "step": 1971
    },
    {
      "epoch": 0.7883073079325421,
      "grad_norm": 1.475361653712247,
      "learning_rate": 1e-05,
      "loss": 0.6787,
      "step": 1972
    },
    {
      "epoch": 0.7887070580886946,
      "grad_norm": 1.559548086902313,
      "learning_rate": 1e-05,
      "loss": 0.6676,
      "step": 1973
    },
    {
      "epoch": 0.789106808244847,
      "grad_norm": 1.7241991711071307,
      "learning_rate": 1e-05,
      "loss": 0.6307,
      "step": 1974
    },
    {
      "epoch": 0.7895065584009994,
      "grad_norm": 1.6092122586723796,
      "learning_rate": 1e-05,
      "loss": 0.6847,
      "step": 1975
    },
    {
      "epoch": 0.7899063085571518,
      "grad_norm": 1.6046725145616128,
      "learning_rate": 1e-05,
      "loss": 0.6326,
      "step": 1976
    },
    {
      "epoch": 0.7903060587133042,
      "grad_norm": 1.4249776477537195,
      "learning_rate": 1e-05,
      "loss": 0.6511,
      "step": 1977
    },
    {
      "epoch": 0.7907058088694566,
      "grad_norm": 1.6415519285249092,
      "learning_rate": 1e-05,
      "loss": 0.6881,
      "step": 1978
    },
    {
      "epoch": 0.791105559025609,
      "grad_norm": 1.423078233417695,
      "learning_rate": 1e-05,
      "loss": 0.6612,
      "step": 1979
    },
    {
      "epoch": 0.7915053091817614,
      "grad_norm": 1.5630406946918567,
      "learning_rate": 1e-05,
      "loss": 0.6994,
      "step": 1980
    },
    {
      "epoch": 0.7919050593379138,
      "grad_norm": 1.5927579183874285,
      "learning_rate": 1e-05,
      "loss": 0.6425,
      "step": 1981
    },
    {
      "epoch": 0.7923048094940662,
      "grad_norm": 1.765558559533905,
      "learning_rate": 1e-05,
      "loss": 0.6396,
      "step": 1982
    },
    {
      "epoch": 0.7927045596502186,
      "grad_norm": 1.7029188893908,
      "learning_rate": 1e-05,
      "loss": 0.6445,
      "step": 1983
    },
    {
      "epoch": 0.793104309806371,
      "grad_norm": 1.5323797730960935,
      "learning_rate": 1e-05,
      "loss": 0.6434,
      "step": 1984
    },
    {
      "epoch": 0.7935040599625234,
      "grad_norm": 1.4607840963875176,
      "learning_rate": 1e-05,
      "loss": 0.6263,
      "step": 1985
    },
    {
      "epoch": 0.7939038101186758,
      "grad_norm": 1.5223752400761479,
      "learning_rate": 1e-05,
      "loss": 0.6305,
      "step": 1986
    },
    {
      "epoch": 0.7943035602748282,
      "grad_norm": 1.6530822338263778,
      "learning_rate": 1e-05,
      "loss": 0.6715,
      "step": 1987
    },
    {
      "epoch": 0.7947033104309806,
      "grad_norm": 1.4841367065107705,
      "learning_rate": 1e-05,
      "loss": 0.64,
      "step": 1988
    },
    {
      "epoch": 0.7951030605871331,
      "grad_norm": 1.6578235666484233,
      "learning_rate": 1e-05,
      "loss": 0.6556,
      "step": 1989
    },
    {
      "epoch": 0.7955028107432854,
      "grad_norm": 1.546551859205817,
      "learning_rate": 1e-05,
      "loss": 0.6351,
      "step": 1990
    },
    {
      "epoch": 0.7959025608994379,
      "grad_norm": 1.4945606759570074,
      "learning_rate": 1e-05,
      "loss": 0.6672,
      "step": 1991
    },
    {
      "epoch": 0.7963023110555902,
      "grad_norm": 1.5801885380742666,
      "learning_rate": 1e-05,
      "loss": 0.6898,
      "step": 1992
    },
    {
      "epoch": 0.7967020612117427,
      "grad_norm": 1.4643671195167698,
      "learning_rate": 1e-05,
      "loss": 0.6563,
      "step": 1993
    },
    {
      "epoch": 0.797101811367895,
      "grad_norm": 1.4259611443786138,
      "learning_rate": 1e-05,
      "loss": 0.6344,
      "step": 1994
    },
    {
      "epoch": 0.7975015615240475,
      "grad_norm": 1.5120255244075713,
      "learning_rate": 1e-05,
      "loss": 0.6571,
      "step": 1995
    },
    {
      "epoch": 0.7979013116801998,
      "grad_norm": 1.3807768209702629,
      "learning_rate": 1e-05,
      "loss": 0.6723,
      "step": 1996
    },
    {
      "epoch": 0.7983010618363523,
      "grad_norm": 1.544170368313028,
      "learning_rate": 1e-05,
      "loss": 0.678,
      "step": 1997
    },
    {
      "epoch": 0.7987008119925046,
      "grad_norm": 1.4932943544892707,
      "learning_rate": 1e-05,
      "loss": 0.6609,
      "step": 1998
    },
    {
      "epoch": 0.7991005621486571,
      "grad_norm": 1.6855342382766425,
      "learning_rate": 1e-05,
      "loss": 0.6465,
      "step": 1999
    },
    {
      "epoch": 0.7995003123048094,
      "grad_norm": 1.4716334624494842,
      "learning_rate": 1e-05,
      "loss": 0.6676,
      "step": 2000
    },
    {
      "epoch": 0.7999000624609619,
      "grad_norm": 1.5100315353206284,
      "learning_rate": 1e-05,
      "loss": 0.6595,
      "step": 2001
    },
    {
      "epoch": 0.8002998126171144,
      "grad_norm": 1.5602495706161985,
      "learning_rate": 1e-05,
      "loss": 0.6916,
      "step": 2002
    },
    {
      "epoch": 0.8006995627732667,
      "grad_norm": 1.5094964743295807,
      "learning_rate": 1e-05,
      "loss": 0.6484,
      "step": 2003
    },
    {
      "epoch": 0.8010993129294192,
      "grad_norm": 1.6248027826084017,
      "learning_rate": 1e-05,
      "loss": 0.6412,
      "step": 2004
    },
    {
      "epoch": 0.8014990630855715,
      "grad_norm": 1.5802471486482688,
      "learning_rate": 1e-05,
      "loss": 0.6414,
      "step": 2005
    },
    {
      "epoch": 0.801898813241724,
      "grad_norm": 1.5874598469709515,
      "learning_rate": 1e-05,
      "loss": 0.6743,
      "step": 2006
    },
    {
      "epoch": 0.8022985633978763,
      "grad_norm": 1.709595991446517,
      "learning_rate": 1e-05,
      "loss": 0.6939,
      "step": 2007
    },
    {
      "epoch": 0.8026983135540288,
      "grad_norm": 1.444388264437686,
      "learning_rate": 1e-05,
      "loss": 0.6545,
      "step": 2008
    },
    {
      "epoch": 0.8030980637101811,
      "grad_norm": 1.576353082214275,
      "learning_rate": 1e-05,
      "loss": 0.6695,
      "step": 2009
    },
    {
      "epoch": 0.8034978138663336,
      "grad_norm": 1.6583360621386605,
      "learning_rate": 1e-05,
      "loss": 0.6804,
      "step": 2010
    },
    {
      "epoch": 0.8038975640224859,
      "grad_norm": 1.5705853428772545,
      "learning_rate": 1e-05,
      "loss": 0.6471,
      "step": 2011
    },
    {
      "epoch": 0.8042973141786384,
      "grad_norm": 1.7061347632932553,
      "learning_rate": 1e-05,
      "loss": 0.684,
      "step": 2012
    },
    {
      "epoch": 0.8046970643347907,
      "grad_norm": 1.5488725675678028,
      "learning_rate": 1e-05,
      "loss": 0.6611,
      "step": 2013
    },
    {
      "epoch": 0.8050968144909432,
      "grad_norm": 1.517897190928272,
      "learning_rate": 1e-05,
      "loss": 0.6457,
      "step": 2014
    },
    {
      "epoch": 0.8054965646470955,
      "grad_norm": 1.6396523697149012,
      "learning_rate": 1e-05,
      "loss": 0.6526,
      "step": 2015
    },
    {
      "epoch": 0.805896314803248,
      "grad_norm": 1.441901455406845,
      "learning_rate": 1e-05,
      "loss": 0.6316,
      "step": 2016
    },
    {
      "epoch": 0.8062960649594004,
      "grad_norm": 1.5078270445858672,
      "learning_rate": 1e-05,
      "loss": 0.6467,
      "step": 2017
    },
    {
      "epoch": 0.8066958151155528,
      "grad_norm": 1.519344108166383,
      "learning_rate": 1e-05,
      "loss": 0.6358,
      "step": 2018
    },
    {
      "epoch": 0.8070955652717052,
      "grad_norm": 1.4913082328692666,
      "learning_rate": 1e-05,
      "loss": 0.643,
      "step": 2019
    },
    {
      "epoch": 0.8074953154278576,
      "grad_norm": 1.6027135779154673,
      "learning_rate": 1e-05,
      "loss": 0.6592,
      "step": 2020
    },
    {
      "epoch": 0.80789506558401,
      "grad_norm": 1.6023864689257765,
      "learning_rate": 1e-05,
      "loss": 0.6674,
      "step": 2021
    },
    {
      "epoch": 0.8082948157401624,
      "grad_norm": 1.5433363453861124,
      "learning_rate": 1e-05,
      "loss": 0.6695,
      "step": 2022
    },
    {
      "epoch": 0.8086945658963148,
      "grad_norm": 1.569992213863403,
      "learning_rate": 1e-05,
      "loss": 0.6508,
      "step": 2023
    },
    {
      "epoch": 0.8090943160524672,
      "grad_norm": 1.8076559044608498,
      "learning_rate": 1e-05,
      "loss": 0.6236,
      "step": 2024
    },
    {
      "epoch": 0.8094940662086196,
      "grad_norm": 1.6637162555959852,
      "learning_rate": 1e-05,
      "loss": 0.6422,
      "step": 2025
    },
    {
      "epoch": 0.809893816364772,
      "grad_norm": 1.5880552803222605,
      "learning_rate": 1e-05,
      "loss": 0.6676,
      "step": 2026
    },
    {
      "epoch": 0.8102935665209244,
      "grad_norm": 1.5395835792359895,
      "learning_rate": 1e-05,
      "loss": 0.6438,
      "step": 2027
    },
    {
      "epoch": 0.8106933166770768,
      "grad_norm": 1.3831815987480425,
      "learning_rate": 1e-05,
      "loss": 0.6529,
      "step": 2028
    },
    {
      "epoch": 0.8110930668332292,
      "grad_norm": 1.6743264036335743,
      "learning_rate": 1e-05,
      "loss": 0.6472,
      "step": 2029
    },
    {
      "epoch": 0.8114928169893816,
      "grad_norm": 1.6951680245003231,
      "learning_rate": 1e-05,
      "loss": 0.6879,
      "step": 2030
    },
    {
      "epoch": 0.811892567145534,
      "grad_norm": 1.5236704644589878,
      "learning_rate": 1e-05,
      "loss": 0.6331,
      "step": 2031
    },
    {
      "epoch": 0.8122923173016865,
      "grad_norm": 1.5185475636221784,
      "learning_rate": 1e-05,
      "loss": 0.6509,
      "step": 2032
    },
    {
      "epoch": 0.8126920674578388,
      "grad_norm": 1.5714451324439458,
      "learning_rate": 1e-05,
      "loss": 0.6581,
      "step": 2033
    },
    {
      "epoch": 0.8130918176139913,
      "grad_norm": 1.5297319685452069,
      "learning_rate": 1e-05,
      "loss": 0.6656,
      "step": 2034
    },
    {
      "epoch": 0.8134915677701436,
      "grad_norm": 1.5460304379716514,
      "learning_rate": 1e-05,
      "loss": 0.6737,
      "step": 2035
    },
    {
      "epoch": 0.8138913179262961,
      "grad_norm": 1.5928917253188026,
      "learning_rate": 1e-05,
      "loss": 0.7106,
      "step": 2036
    },
    {
      "epoch": 0.8142910680824484,
      "grad_norm": 1.3568491314429962,
      "learning_rate": 1e-05,
      "loss": 0.6221,
      "step": 2037
    },
    {
      "epoch": 0.8146908182386009,
      "grad_norm": 1.4180732556390392,
      "learning_rate": 1e-05,
      "loss": 0.6315,
      "step": 2038
    },
    {
      "epoch": 0.8150905683947532,
      "grad_norm": 1.5486511095932058,
      "learning_rate": 1e-05,
      "loss": 0.6765,
      "step": 2039
    },
    {
      "epoch": 0.8154903185509057,
      "grad_norm": 1.4963524037891114,
      "learning_rate": 1e-05,
      "loss": 0.6545,
      "step": 2040
    },
    {
      "epoch": 0.815890068707058,
      "grad_norm": 1.5129814515118518,
      "learning_rate": 1e-05,
      "loss": 0.6518,
      "step": 2041
    },
    {
      "epoch": 0.8162898188632105,
      "grad_norm": 1.6869443339687282,
      "learning_rate": 1e-05,
      "loss": 0.6621,
      "step": 2042
    },
    {
      "epoch": 0.8166895690193628,
      "grad_norm": 1.619553305704049,
      "learning_rate": 1e-05,
      "loss": 0.6507,
      "step": 2043
    },
    {
      "epoch": 0.8170893191755153,
      "grad_norm": 1.4494144600142032,
      "learning_rate": 1e-05,
      "loss": 0.6219,
      "step": 2044
    },
    {
      "epoch": 0.8174890693316678,
      "grad_norm": 1.613527434014866,
      "learning_rate": 1e-05,
      "loss": 0.6666,
      "step": 2045
    },
    {
      "epoch": 0.8178888194878201,
      "grad_norm": 1.5421040991508816,
      "learning_rate": 1e-05,
      "loss": 0.7037,
      "step": 2046
    },
    {
      "epoch": 0.8182885696439726,
      "grad_norm": 1.6503568715298493,
      "learning_rate": 1e-05,
      "loss": 0.6869,
      "step": 2047
    },
    {
      "epoch": 0.8186883198001249,
      "grad_norm": 1.5642598416826072,
      "learning_rate": 1e-05,
      "loss": 0.6552,
      "step": 2048
    },
    {
      "epoch": 0.8190880699562774,
      "grad_norm": 1.6106125368542916,
      "learning_rate": 1e-05,
      "loss": 0.7014,
      "step": 2049
    },
    {
      "epoch": 0.8194878201124297,
      "grad_norm": 1.4806668619574819,
      "learning_rate": 1e-05,
      "loss": 0.6485,
      "step": 2050
    },
    {
      "epoch": 0.8198875702685822,
      "grad_norm": 1.398204814085031,
      "learning_rate": 1e-05,
      "loss": 0.6401,
      "step": 2051
    },
    {
      "epoch": 0.8202873204247345,
      "grad_norm": 1.4619530198900124,
      "learning_rate": 1e-05,
      "loss": 0.6665,
      "step": 2052
    },
    {
      "epoch": 0.820687070580887,
      "grad_norm": 1.6150595748624361,
      "learning_rate": 1e-05,
      "loss": 0.6563,
      "step": 2053
    },
    {
      "epoch": 0.8210868207370393,
      "grad_norm": 1.5165101959086507,
      "learning_rate": 1e-05,
      "loss": 0.6498,
      "step": 2054
    },
    {
      "epoch": 0.8214865708931918,
      "grad_norm": 1.5277899330039404,
      "learning_rate": 1e-05,
      "loss": 0.6614,
      "step": 2055
    },
    {
      "epoch": 0.8218863210493441,
      "grad_norm": 1.4438737324227957,
      "learning_rate": 1e-05,
      "loss": 0.654,
      "step": 2056
    },
    {
      "epoch": 0.8222860712054966,
      "grad_norm": 1.6573400506939366,
      "learning_rate": 1e-05,
      "loss": 0.6651,
      "step": 2057
    },
    {
      "epoch": 0.8226858213616489,
      "grad_norm": 1.5127231015548823,
      "learning_rate": 1e-05,
      "loss": 0.625,
      "step": 2058
    },
    {
      "epoch": 0.8230855715178014,
      "grad_norm": 1.4333754232233074,
      "learning_rate": 1e-05,
      "loss": 0.6436,
      "step": 2059
    },
    {
      "epoch": 0.8234853216739538,
      "grad_norm": 1.494078305103136,
      "learning_rate": 1e-05,
      "loss": 0.6443,
      "step": 2060
    },
    {
      "epoch": 0.8238850718301062,
      "grad_norm": 1.4224777264260235,
      "learning_rate": 1e-05,
      "loss": 0.6308,
      "step": 2061
    },
    {
      "epoch": 0.8242848219862586,
      "grad_norm": 1.5964565954630126,
      "learning_rate": 1e-05,
      "loss": 0.6742,
      "step": 2062
    },
    {
      "epoch": 0.824684572142411,
      "grad_norm": 1.427723374869249,
      "learning_rate": 1e-05,
      "loss": 0.6581,
      "step": 2063
    },
    {
      "epoch": 0.8250843222985634,
      "grad_norm": 1.7065261723504217,
      "learning_rate": 1e-05,
      "loss": 0.656,
      "step": 2064
    },
    {
      "epoch": 0.8254840724547158,
      "grad_norm": 1.6738931617137565,
      "learning_rate": 1e-05,
      "loss": 0.6654,
      "step": 2065
    },
    {
      "epoch": 0.8258838226108682,
      "grad_norm": 1.4484768826929213,
      "learning_rate": 1e-05,
      "loss": 0.6395,
      "step": 2066
    },
    {
      "epoch": 0.8262835727670206,
      "grad_norm": 1.5422582216191285,
      "learning_rate": 1e-05,
      "loss": 0.6676,
      "step": 2067
    },
    {
      "epoch": 0.826683322923173,
      "grad_norm": 1.4693569541906453,
      "learning_rate": 1e-05,
      "loss": 0.6636,
      "step": 2068
    },
    {
      "epoch": 0.8270830730793254,
      "grad_norm": 1.7425059504054392,
      "learning_rate": 1e-05,
      "loss": 0.636,
      "step": 2069
    },
    {
      "epoch": 0.8274828232354778,
      "grad_norm": 1.7075067057922322,
      "learning_rate": 1e-05,
      "loss": 0.6929,
      "step": 2070
    },
    {
      "epoch": 0.8278825733916302,
      "grad_norm": 1.4739423026675882,
      "learning_rate": 1e-05,
      "loss": 0.6305,
      "step": 2071
    },
    {
      "epoch": 0.8282823235477826,
      "grad_norm": 1.4591590217927204,
      "learning_rate": 1e-05,
      "loss": 0.6743,
      "step": 2072
    },
    {
      "epoch": 0.8286820737039351,
      "grad_norm": 1.4483069111290172,
      "learning_rate": 1e-05,
      "loss": 0.6775,
      "step": 2073
    },
    {
      "epoch": 0.8290818238600874,
      "grad_norm": 1.5474028256759536,
      "learning_rate": 1e-05,
      "loss": 0.6366,
      "step": 2074
    },
    {
      "epoch": 0.8294815740162399,
      "grad_norm": 1.615748191549788,
      "learning_rate": 1e-05,
      "loss": 0.6486,
      "step": 2075
    },
    {
      "epoch": 0.8298813241723922,
      "grad_norm": 1.7060356554634524,
      "learning_rate": 1e-05,
      "loss": 0.6681,
      "step": 2076
    },
    {
      "epoch": 0.8302810743285447,
      "grad_norm": 1.4040398844238675,
      "learning_rate": 1e-05,
      "loss": 0.6478,
      "step": 2077
    },
    {
      "epoch": 0.830680824484697,
      "grad_norm": 1.5027548683524452,
      "learning_rate": 1e-05,
      "loss": 0.6446,
      "step": 2078
    },
    {
      "epoch": 0.8310805746408495,
      "grad_norm": 1.4838523878079721,
      "learning_rate": 1e-05,
      "loss": 0.6327,
      "step": 2079
    },
    {
      "epoch": 0.8314803247970018,
      "grad_norm": 1.6459625628240846,
      "learning_rate": 1e-05,
      "loss": 0.7137,
      "step": 2080
    },
    {
      "epoch": 0.8318800749531543,
      "grad_norm": 1.6117135615067384,
      "learning_rate": 1e-05,
      "loss": 0.6725,
      "step": 2081
    },
    {
      "epoch": 0.8322798251093066,
      "grad_norm": 1.6568180226255023,
      "learning_rate": 1e-05,
      "loss": 0.6523,
      "step": 2082
    },
    {
      "epoch": 0.8326795752654591,
      "grad_norm": 1.420709697451394,
      "learning_rate": 1e-05,
      "loss": 0.6453,
      "step": 2083
    },
    {
      "epoch": 0.8330793254216114,
      "grad_norm": 1.6441204558554188,
      "learning_rate": 1e-05,
      "loss": 0.6464,
      "step": 2084
    },
    {
      "epoch": 0.8334790755777639,
      "grad_norm": 1.4528314074452409,
      "learning_rate": 1e-05,
      "loss": 0.6336,
      "step": 2085
    },
    {
      "epoch": 0.8338788257339163,
      "grad_norm": 1.6831638174589092,
      "learning_rate": 1e-05,
      "loss": 0.7106,
      "step": 2086
    },
    {
      "epoch": 0.8342785758900687,
      "grad_norm": 1.5241146313200584,
      "learning_rate": 1e-05,
      "loss": 0.6673,
      "step": 2087
    },
    {
      "epoch": 0.8346783260462212,
      "grad_norm": 1.549601775779522,
      "learning_rate": 1e-05,
      "loss": 0.6816,
      "step": 2088
    },
    {
      "epoch": 0.8350780762023735,
      "grad_norm": 1.4283571580724872,
      "learning_rate": 1e-05,
      "loss": 0.638,
      "step": 2089
    },
    {
      "epoch": 0.835477826358526,
      "grad_norm": 1.435408409699081,
      "learning_rate": 1e-05,
      "loss": 0.6403,
      "step": 2090
    },
    {
      "epoch": 0.8358775765146783,
      "grad_norm": 1.57978337553378,
      "learning_rate": 1e-05,
      "loss": 0.6485,
      "step": 2091
    },
    {
      "epoch": 0.8362773266708308,
      "grad_norm": 1.605335315825789,
      "learning_rate": 1e-05,
      "loss": 0.6574,
      "step": 2092
    },
    {
      "epoch": 0.8366770768269831,
      "grad_norm": 1.4028644202535494,
      "learning_rate": 1e-05,
      "loss": 0.655,
      "step": 2093
    },
    {
      "epoch": 0.8370768269831356,
      "grad_norm": 1.7295404346852628,
      "learning_rate": 1e-05,
      "loss": 0.7134,
      "step": 2094
    },
    {
      "epoch": 0.8374765771392879,
      "grad_norm": 1.6590286957775047,
      "learning_rate": 1e-05,
      "loss": 0.6742,
      "step": 2095
    },
    {
      "epoch": 0.8378763272954404,
      "grad_norm": 1.6412367929512373,
      "learning_rate": 1e-05,
      "loss": 0.659,
      "step": 2096
    },
    {
      "epoch": 0.8382760774515927,
      "grad_norm": 1.4706837981045435,
      "learning_rate": 1e-05,
      "loss": 0.6411,
      "step": 2097
    },
    {
      "epoch": 0.8386758276077452,
      "grad_norm": 1.4641919306556674,
      "learning_rate": 1e-05,
      "loss": 0.6463,
      "step": 2098
    },
    {
      "epoch": 0.8390755777638975,
      "grad_norm": 1.5237768933631661,
      "learning_rate": 1e-05,
      "loss": 0.6695,
      "step": 2099
    },
    {
      "epoch": 0.83947532792005,
      "grad_norm": 1.5472005502468742,
      "learning_rate": 1e-05,
      "loss": 0.6705,
      "step": 2100
    },
    {
      "epoch": 0.8398750780762023,
      "grad_norm": 1.6963771753671735,
      "learning_rate": 1e-05,
      "loss": 0.6834,
      "step": 2101
    },
    {
      "epoch": 0.8402748282323548,
      "grad_norm": 1.5349133093866911,
      "learning_rate": 1e-05,
      "loss": 0.6761,
      "step": 2102
    },
    {
      "epoch": 0.8406745783885072,
      "grad_norm": 1.5430103245726463,
      "learning_rate": 1e-05,
      "loss": 0.6463,
      "step": 2103
    },
    {
      "epoch": 0.8410743285446596,
      "grad_norm": 1.4357530831135379,
      "learning_rate": 1e-05,
      "loss": 0.6555,
      "step": 2104
    },
    {
      "epoch": 0.841474078700812,
      "grad_norm": 1.4985246205974938,
      "learning_rate": 1e-05,
      "loss": 0.646,
      "step": 2105
    },
    {
      "epoch": 0.8418738288569644,
      "grad_norm": 1.518119205597288,
      "learning_rate": 1e-05,
      "loss": 0.662,
      "step": 2106
    },
    {
      "epoch": 0.8422735790131168,
      "grad_norm": 1.7053703327493597,
      "learning_rate": 1e-05,
      "loss": 0.642,
      "step": 2107
    },
    {
      "epoch": 0.8426733291692692,
      "grad_norm": 1.969129916075856,
      "learning_rate": 1e-05,
      "loss": 0.6746,
      "step": 2108
    },
    {
      "epoch": 0.8430730793254216,
      "grad_norm": 1.556668098201087,
      "learning_rate": 1e-05,
      "loss": 0.6449,
      "step": 2109
    },
    {
      "epoch": 0.843472829481574,
      "grad_norm": 1.5896206141577987,
      "learning_rate": 1e-05,
      "loss": 0.658,
      "step": 2110
    },
    {
      "epoch": 0.8438725796377264,
      "grad_norm": 1.445171877482204,
      "learning_rate": 1e-05,
      "loss": 0.6392,
      "step": 2111
    },
    {
      "epoch": 0.8442723297938788,
      "grad_norm": 1.6376541032190908,
      "learning_rate": 1e-05,
      "loss": 0.6588,
      "step": 2112
    },
    {
      "epoch": 0.8446720799500312,
      "grad_norm": 1.6097987750297524,
      "learning_rate": 1e-05,
      "loss": 0.6721,
      "step": 2113
    },
    {
      "epoch": 0.8450718301061836,
      "grad_norm": 1.441130961030902,
      "learning_rate": 1e-05,
      "loss": 0.6441,
      "step": 2114
    },
    {
      "epoch": 0.845471580262336,
      "grad_norm": 1.6388701345150327,
      "learning_rate": 1e-05,
      "loss": 0.6662,
      "step": 2115
    },
    {
      "epoch": 0.8458713304184885,
      "grad_norm": 1.5431120409962138,
      "learning_rate": 1e-05,
      "loss": 0.6519,
      "step": 2116
    },
    {
      "epoch": 0.8462710805746408,
      "grad_norm": 1.376696737695756,
      "learning_rate": 1e-05,
      "loss": 0.6576,
      "step": 2117
    },
    {
      "epoch": 0.8466708307307933,
      "grad_norm": 1.7106764662111156,
      "learning_rate": 1e-05,
      "loss": 0.6368,
      "step": 2118
    },
    {
      "epoch": 0.8470705808869456,
      "grad_norm": 1.5781815920238058,
      "learning_rate": 1e-05,
      "loss": 0.6959,
      "step": 2119
    },
    {
      "epoch": 0.8474703310430981,
      "grad_norm": 1.553467773123895,
      "learning_rate": 1e-05,
      "loss": 0.643,
      "step": 2120
    },
    {
      "epoch": 0.8478700811992504,
      "grad_norm": 1.6282326172205335,
      "learning_rate": 1e-05,
      "loss": 0.6463,
      "step": 2121
    },
    {
      "epoch": 0.8482698313554029,
      "grad_norm": 1.479833229509485,
      "learning_rate": 1e-05,
      "loss": 0.6666,
      "step": 2122
    },
    {
      "epoch": 0.8486695815115552,
      "grad_norm": 1.5917456222089743,
      "learning_rate": 1e-05,
      "loss": 0.6333,
      "step": 2123
    },
    {
      "epoch": 0.8490693316677077,
      "grad_norm": 1.4686691344209726,
      "learning_rate": 1e-05,
      "loss": 0.6724,
      "step": 2124
    },
    {
      "epoch": 0.84946908182386,
      "grad_norm": 1.7077786048788592,
      "learning_rate": 1e-05,
      "loss": 0.6283,
      "step": 2125
    },
    {
      "epoch": 0.8498688319800125,
      "grad_norm": 1.6693198384328598,
      "learning_rate": 1e-05,
      "loss": 0.6326,
      "step": 2126
    },
    {
      "epoch": 0.8502685821361649,
      "grad_norm": 1.4513585612309658,
      "learning_rate": 1e-05,
      "loss": 0.6356,
      "step": 2127
    },
    {
      "epoch": 0.8506683322923173,
      "grad_norm": 1.6838845940867428,
      "learning_rate": 1e-05,
      "loss": 0.6843,
      "step": 2128
    },
    {
      "epoch": 0.8510680824484697,
      "grad_norm": 1.6103523821945043,
      "learning_rate": 1e-05,
      "loss": 0.6782,
      "step": 2129
    },
    {
      "epoch": 0.8514678326046221,
      "grad_norm": 1.529567234000672,
      "learning_rate": 1e-05,
      "loss": 0.6368,
      "step": 2130
    },
    {
      "epoch": 0.8518675827607746,
      "grad_norm": 1.502820595889922,
      "learning_rate": 1e-05,
      "loss": 0.6819,
      "step": 2131
    },
    {
      "epoch": 0.8522673329169269,
      "grad_norm": 1.6626213024415344,
      "learning_rate": 1e-05,
      "loss": 0.6614,
      "step": 2132
    },
    {
      "epoch": 0.8526670830730794,
      "grad_norm": 1.4253748596955116,
      "learning_rate": 1e-05,
      "loss": 0.6337,
      "step": 2133
    },
    {
      "epoch": 0.8530668332292317,
      "grad_norm": 1.3818820152720528,
      "learning_rate": 1e-05,
      "loss": 0.6461,
      "step": 2134
    },
    {
      "epoch": 0.8534665833853842,
      "grad_norm": 1.5963603921629015,
      "learning_rate": 1e-05,
      "loss": 0.6895,
      "step": 2135
    },
    {
      "epoch": 0.8538663335415365,
      "grad_norm": 1.4603061318693926,
      "learning_rate": 1e-05,
      "loss": 0.6771,
      "step": 2136
    },
    {
      "epoch": 0.854266083697689,
      "grad_norm": 1.4040902716293024,
      "learning_rate": 1e-05,
      "loss": 0.6519,
      "step": 2137
    },
    {
      "epoch": 0.8546658338538413,
      "grad_norm": 1.4872709446365655,
      "learning_rate": 1e-05,
      "loss": 0.6484,
      "step": 2138
    },
    {
      "epoch": 0.8550655840099938,
      "grad_norm": 1.6031483142318534,
      "learning_rate": 1e-05,
      "loss": 0.6489,
      "step": 2139
    },
    {
      "epoch": 0.8554653341661461,
      "grad_norm": 1.4754377961948928,
      "learning_rate": 1e-05,
      "loss": 0.6696,
      "step": 2140
    },
    {
      "epoch": 0.8558650843222986,
      "grad_norm": 1.4581330802358965,
      "learning_rate": 1e-05,
      "loss": 0.64,
      "step": 2141
    },
    {
      "epoch": 0.8562648344784509,
      "grad_norm": 1.5009464832390644,
      "learning_rate": 1e-05,
      "loss": 0.6619,
      "step": 2142
    },
    {
      "epoch": 0.8566645846346034,
      "grad_norm": 1.5339840056694174,
      "learning_rate": 1e-05,
      "loss": 0.6668,
      "step": 2143
    },
    {
      "epoch": 0.8570643347907558,
      "grad_norm": 1.4828437601033042,
      "learning_rate": 1e-05,
      "loss": 0.6223,
      "step": 2144
    },
    {
      "epoch": 0.8574640849469082,
      "grad_norm": 1.4546233766558594,
      "learning_rate": 1e-05,
      "loss": 0.629,
      "step": 2145
    },
    {
      "epoch": 0.8578638351030606,
      "grad_norm": 1.579341191583661,
      "learning_rate": 1e-05,
      "loss": 0.6628,
      "step": 2146
    },
    {
      "epoch": 0.858263585259213,
      "grad_norm": 1.4437575505185525,
      "learning_rate": 1e-05,
      "loss": 0.6646,
      "step": 2147
    },
    {
      "epoch": 0.8586633354153654,
      "grad_norm": 1.3151192149756197,
      "learning_rate": 1e-05,
      "loss": 0.664,
      "step": 2148
    },
    {
      "epoch": 0.8590630855715178,
      "grad_norm": 1.36636245526311,
      "learning_rate": 1e-05,
      "loss": 0.6765,
      "step": 2149
    },
    {
      "epoch": 0.8594628357276702,
      "grad_norm": 1.4407011764727398,
      "learning_rate": 1e-05,
      "loss": 0.6357,
      "step": 2150
    },
    {
      "epoch": 0.8598625858838226,
      "grad_norm": 1.5697815007321536,
      "learning_rate": 1e-05,
      "loss": 0.6578,
      "step": 2151
    },
    {
      "epoch": 0.860262336039975,
      "grad_norm": 1.789684083167277,
      "learning_rate": 1e-05,
      "loss": 0.6528,
      "step": 2152
    },
    {
      "epoch": 0.8606620861961274,
      "grad_norm": 1.5533060449755391,
      "learning_rate": 1e-05,
      "loss": 0.7254,
      "step": 2153
    },
    {
      "epoch": 0.8610618363522798,
      "grad_norm": 1.4401216371561412,
      "learning_rate": 1e-05,
      "loss": 0.6088,
      "step": 2154
    },
    {
      "epoch": 0.8614615865084322,
      "grad_norm": 1.3632991733501214,
      "learning_rate": 1e-05,
      "loss": 0.624,
      "step": 2155
    },
    {
      "epoch": 0.8618613366645846,
      "grad_norm": 1.48091839944049,
      "learning_rate": 1e-05,
      "loss": 0.6252,
      "step": 2156
    },
    {
      "epoch": 0.862261086820737,
      "grad_norm": 1.558706107017964,
      "learning_rate": 1e-05,
      "loss": 0.7074,
      "step": 2157
    },
    {
      "epoch": 0.8626608369768894,
      "grad_norm": 1.3944471655374817,
      "learning_rate": 1e-05,
      "loss": 0.6548,
      "step": 2158
    },
    {
      "epoch": 0.8630605871330419,
      "grad_norm": 1.505031502934591,
      "learning_rate": 1e-05,
      "loss": 0.6513,
      "step": 2159
    },
    {
      "epoch": 0.8634603372891942,
      "grad_norm": 1.4479911743691154,
      "learning_rate": 1e-05,
      "loss": 0.6392,
      "step": 2160
    },
    {
      "epoch": 0.8638600874453467,
      "grad_norm": 1.4153105210350971,
      "learning_rate": 1e-05,
      "loss": 0.6544,
      "step": 2161
    },
    {
      "epoch": 0.864259837601499,
      "grad_norm": 1.5083744785394446,
      "learning_rate": 1e-05,
      "loss": 0.6289,
      "step": 2162
    },
    {
      "epoch": 0.8646595877576515,
      "grad_norm": 1.4770672749815938,
      "learning_rate": 1e-05,
      "loss": 0.6399,
      "step": 2163
    },
    {
      "epoch": 0.8650593379138038,
      "grad_norm": 1.474277734568264,
      "learning_rate": 1e-05,
      "loss": 0.6464,
      "step": 2164
    },
    {
      "epoch": 0.8654590880699563,
      "grad_norm": 1.4199444495881857,
      "learning_rate": 1e-05,
      "loss": 0.66,
      "step": 2165
    },
    {
      "epoch": 0.8658588382261087,
      "grad_norm": 1.569283916430922,
      "learning_rate": 1e-05,
      "loss": 0.6729,
      "step": 2166
    },
    {
      "epoch": 0.8662585883822611,
      "grad_norm": 1.42151478978703,
      "learning_rate": 1e-05,
      "loss": 0.6149,
      "step": 2167
    },
    {
      "epoch": 0.8666583385384135,
      "grad_norm": 1.5973699610930134,
      "learning_rate": 1e-05,
      "loss": 0.6781,
      "step": 2168
    },
    {
      "epoch": 0.8670580886945659,
      "grad_norm": 1.5089884419820077,
      "learning_rate": 1e-05,
      "loss": 0.6544,
      "step": 2169
    },
    {
      "epoch": 0.8674578388507183,
      "grad_norm": 1.2804133010813563,
      "learning_rate": 1e-05,
      "loss": 0.6593,
      "step": 2170
    },
    {
      "epoch": 0.8678575890068707,
      "grad_norm": 1.4585100251424157,
      "learning_rate": 1e-05,
      "loss": 0.629,
      "step": 2171
    },
    {
      "epoch": 0.8682573391630231,
      "grad_norm": 1.581541932681264,
      "learning_rate": 1e-05,
      "loss": 0.6549,
      "step": 2172
    },
    {
      "epoch": 0.8686570893191755,
      "grad_norm": 1.5951000104088577,
      "learning_rate": 1e-05,
      "loss": 0.6868,
      "step": 2173
    },
    {
      "epoch": 0.869056839475328,
      "grad_norm": 1.5960340883558244,
      "learning_rate": 1e-05,
      "loss": 0.6651,
      "step": 2174
    },
    {
      "epoch": 0.8694565896314803,
      "grad_norm": 1.7294178732562544,
      "learning_rate": 1e-05,
      "loss": 0.6568,
      "step": 2175
    },
    {
      "epoch": 0.8698563397876328,
      "grad_norm": 1.4618963315031768,
      "learning_rate": 1e-05,
      "loss": 0.6491,
      "step": 2176
    },
    {
      "epoch": 0.8702560899437851,
      "grad_norm": 1.4035020772788285,
      "learning_rate": 1e-05,
      "loss": 0.6527,
      "step": 2177
    },
    {
      "epoch": 0.8706558400999376,
      "grad_norm": 1.6389448640774302,
      "learning_rate": 1e-05,
      "loss": 0.6542,
      "step": 2178
    },
    {
      "epoch": 0.8710555902560899,
      "grad_norm": 1.541993356528727,
      "learning_rate": 1e-05,
      "loss": 0.6269,
      "step": 2179
    },
    {
      "epoch": 0.8714553404122424,
      "grad_norm": 1.6864401857306877,
      "learning_rate": 1e-05,
      "loss": 0.6468,
      "step": 2180
    },
    {
      "epoch": 0.8718550905683947,
      "grad_norm": 1.561241064630049,
      "learning_rate": 1e-05,
      "loss": 0.6595,
      "step": 2181
    },
    {
      "epoch": 0.8722548407245472,
      "grad_norm": 1.435990654194472,
      "learning_rate": 1e-05,
      "loss": 0.658,
      "step": 2182
    },
    {
      "epoch": 0.8726545908806995,
      "grad_norm": 1.4847923293093825,
      "learning_rate": 1e-05,
      "loss": 0.6613,
      "step": 2183
    },
    {
      "epoch": 0.873054341036852,
      "grad_norm": 1.5276152118576543,
      "learning_rate": 1e-05,
      "loss": 0.6673,
      "step": 2184
    },
    {
      "epoch": 0.8734540911930043,
      "grad_norm": 1.5441919122323884,
      "learning_rate": 1e-05,
      "loss": 0.6417,
      "step": 2185
    },
    {
      "epoch": 0.8738538413491568,
      "grad_norm": 1.5539976621653748,
      "learning_rate": 1e-05,
      "loss": 0.6365,
      "step": 2186
    },
    {
      "epoch": 0.8742535915053092,
      "grad_norm": 1.6947010976223231,
      "learning_rate": 1e-05,
      "loss": 0.6517,
      "step": 2187
    },
    {
      "epoch": 0.8746533416614616,
      "grad_norm": 1.5319842172884168,
      "learning_rate": 1e-05,
      "loss": 0.6503,
      "step": 2188
    },
    {
      "epoch": 0.875053091817614,
      "grad_norm": 1.422352389974145,
      "learning_rate": 1e-05,
      "loss": 0.643,
      "step": 2189
    },
    {
      "epoch": 0.8754528419737664,
      "grad_norm": 1.3805338721565983,
      "learning_rate": 1e-05,
      "loss": 0.6485,
      "step": 2190
    },
    {
      "epoch": 0.8758525921299188,
      "grad_norm": 1.4752417929952109,
      "learning_rate": 1e-05,
      "loss": 0.645,
      "step": 2191
    },
    {
      "epoch": 0.8762523422860712,
      "grad_norm": 1.5419809242387985,
      "learning_rate": 1e-05,
      "loss": 0.6466,
      "step": 2192
    },
    {
      "epoch": 0.8766520924422236,
      "grad_norm": 1.5622507739807636,
      "learning_rate": 1e-05,
      "loss": 0.6496,
      "step": 2193
    },
    {
      "epoch": 0.877051842598376,
      "grad_norm": 1.5075935963841243,
      "learning_rate": 1e-05,
      "loss": 0.6539,
      "step": 2194
    },
    {
      "epoch": 0.8774515927545284,
      "grad_norm": 1.398138073064676,
      "learning_rate": 1e-05,
      "loss": 0.6223,
      "step": 2195
    },
    {
      "epoch": 0.8778513429106808,
      "grad_norm": 1.596070463757366,
      "learning_rate": 1e-05,
      "loss": 0.6548,
      "step": 2196
    },
    {
      "epoch": 0.8782510930668332,
      "grad_norm": 1.6455921038464876,
      "learning_rate": 1e-05,
      "loss": 0.6584,
      "step": 2197
    },
    {
      "epoch": 0.8786508432229856,
      "grad_norm": 1.5680310981672674,
      "learning_rate": 1e-05,
      "loss": 0.6686,
      "step": 2198
    },
    {
      "epoch": 0.879050593379138,
      "grad_norm": 1.7024844302911122,
      "learning_rate": 1e-05,
      "loss": 0.6695,
      "step": 2199
    },
    {
      "epoch": 0.8794503435352904,
      "grad_norm": 1.5180743090002649,
      "learning_rate": 1e-05,
      "loss": 0.6467,
      "step": 2200
    },
    {
      "epoch": 0.8798500936914428,
      "grad_norm": 1.5114756511313354,
      "learning_rate": 1e-05,
      "loss": 0.6481,
      "step": 2201
    },
    {
      "epoch": 0.8802498438475953,
      "grad_norm": 1.6148281949378664,
      "learning_rate": 1e-05,
      "loss": 0.6292,
      "step": 2202
    },
    {
      "epoch": 0.8806495940037476,
      "grad_norm": 1.3901752020070952,
      "learning_rate": 1e-05,
      "loss": 0.6362,
      "step": 2203
    },
    {
      "epoch": 0.8810493441599001,
      "grad_norm": 1.5804814947419286,
      "learning_rate": 1e-05,
      "loss": 0.6611,
      "step": 2204
    },
    {
      "epoch": 0.8814490943160525,
      "grad_norm": 1.679518079866341,
      "learning_rate": 1e-05,
      "loss": 0.6427,
      "step": 2205
    },
    {
      "epoch": 0.8818488444722049,
      "grad_norm": 1.4962276861140864,
      "learning_rate": 1e-05,
      "loss": 0.6433,
      "step": 2206
    },
    {
      "epoch": 0.8822485946283573,
      "grad_norm": 1.5986050991022445,
      "learning_rate": 1e-05,
      "loss": 0.6682,
      "step": 2207
    },
    {
      "epoch": 0.8826483447845097,
      "grad_norm": 1.4366910270810869,
      "learning_rate": 1e-05,
      "loss": 0.6412,
      "step": 2208
    },
    {
      "epoch": 0.883048094940662,
      "grad_norm": 1.5247759777219845,
      "learning_rate": 1e-05,
      "loss": 0.6524,
      "step": 2209
    },
    {
      "epoch": 0.8834478450968145,
      "grad_norm": 1.6990330858282567,
      "learning_rate": 1e-05,
      "loss": 0.6308,
      "step": 2210
    },
    {
      "epoch": 0.8838475952529669,
      "grad_norm": 1.6020398795294994,
      "learning_rate": 1e-05,
      "loss": 0.6512,
      "step": 2211
    },
    {
      "epoch": 0.8842473454091193,
      "grad_norm": 1.610458027831826,
      "learning_rate": 1e-05,
      "loss": 0.6136,
      "step": 2212
    },
    {
      "epoch": 0.8846470955652717,
      "grad_norm": 1.5116806311676056,
      "learning_rate": 1e-05,
      "loss": 0.6416,
      "step": 2213
    },
    {
      "epoch": 0.8850468457214241,
      "grad_norm": 1.5230538627805295,
      "learning_rate": 1e-05,
      "loss": 0.6296,
      "step": 2214
    },
    {
      "epoch": 0.8854465958775766,
      "grad_norm": 1.6060224219432078,
      "learning_rate": 1e-05,
      "loss": 0.6338,
      "step": 2215
    },
    {
      "epoch": 0.8858463460337289,
      "grad_norm": 1.4779442761588222,
      "learning_rate": 1e-05,
      "loss": 0.6183,
      "step": 2216
    },
    {
      "epoch": 0.8862460961898814,
      "grad_norm": 1.5638571732185722,
      "learning_rate": 1e-05,
      "loss": 0.6472,
      "step": 2217
    },
    {
      "epoch": 0.8866458463460337,
      "grad_norm": 1.5603127508189127,
      "learning_rate": 1e-05,
      "loss": 0.6308,
      "step": 2218
    },
    {
      "epoch": 0.8870455965021862,
      "grad_norm": 1.5660203298669406,
      "learning_rate": 1e-05,
      "loss": 0.6511,
      "step": 2219
    },
    {
      "epoch": 0.8874453466583385,
      "grad_norm": 1.6068064430687587,
      "learning_rate": 1e-05,
      "loss": 0.6927,
      "step": 2220
    },
    {
      "epoch": 0.887845096814491,
      "grad_norm": 1.477216162417331,
      "learning_rate": 1e-05,
      "loss": 0.6429,
      "step": 2221
    },
    {
      "epoch": 0.8882448469706433,
      "grad_norm": 1.5365619497014864,
      "learning_rate": 1e-05,
      "loss": 0.6527,
      "step": 2222
    },
    {
      "epoch": 0.8886445971267958,
      "grad_norm": 1.5364929617664969,
      "learning_rate": 1e-05,
      "loss": 0.6528,
      "step": 2223
    },
    {
      "epoch": 0.8890443472829481,
      "grad_norm": 1.5530217372206787,
      "learning_rate": 1e-05,
      "loss": 0.6233,
      "step": 2224
    },
    {
      "epoch": 0.8894440974391006,
      "grad_norm": 1.594178827155506,
      "learning_rate": 1e-05,
      "loss": 0.6581,
      "step": 2225
    },
    {
      "epoch": 0.8898438475952529,
      "grad_norm": 1.6827037295558696,
      "learning_rate": 1e-05,
      "loss": 0.6563,
      "step": 2226
    },
    {
      "epoch": 0.8902435977514054,
      "grad_norm": 1.5311895461580258,
      "learning_rate": 1e-05,
      "loss": 0.6763,
      "step": 2227
    },
    {
      "epoch": 0.8906433479075577,
      "grad_norm": 1.4260084147833467,
      "learning_rate": 1e-05,
      "loss": 0.6131,
      "step": 2228
    },
    {
      "epoch": 0.8910430980637102,
      "grad_norm": 1.5455590539250479,
      "learning_rate": 1e-05,
      "loss": 0.6553,
      "step": 2229
    },
    {
      "epoch": 0.8914428482198626,
      "grad_norm": 1.456916249002604,
      "learning_rate": 1e-05,
      "loss": 0.6559,
      "step": 2230
    },
    {
      "epoch": 0.891842598376015,
      "grad_norm": 1.3635388399602808,
      "learning_rate": 1e-05,
      "loss": 0.6706,
      "step": 2231
    },
    {
      "epoch": 0.8922423485321674,
      "grad_norm": 1.5807814269472324,
      "learning_rate": 1e-05,
      "loss": 0.661,
      "step": 2232
    },
    {
      "epoch": 0.8926420986883198,
      "grad_norm": 1.6212536940414495,
      "learning_rate": 1e-05,
      "loss": 0.6387,
      "step": 2233
    },
    {
      "epoch": 0.8930418488444722,
      "grad_norm": 1.6776246638729233,
      "learning_rate": 1e-05,
      "loss": 0.6857,
      "step": 2234
    },
    {
      "epoch": 0.8934415990006246,
      "grad_norm": 1.4149803963292713,
      "learning_rate": 1e-05,
      "loss": 0.6459,
      "step": 2235
    },
    {
      "epoch": 0.893841349156777,
      "grad_norm": 1.355379915378139,
      "learning_rate": 1e-05,
      "loss": 0.6642,
      "step": 2236
    },
    {
      "epoch": 0.8942410993129294,
      "grad_norm": 1.5422534077043317,
      "learning_rate": 1e-05,
      "loss": 0.602,
      "step": 2237
    },
    {
      "epoch": 0.8946408494690818,
      "grad_norm": 1.6146460038470623,
      "learning_rate": 1e-05,
      "loss": 0.6658,
      "step": 2238
    },
    {
      "epoch": 0.8950405996252342,
      "grad_norm": 1.480666725884837,
      "learning_rate": 1e-05,
      "loss": 0.6545,
      "step": 2239
    },
    {
      "epoch": 0.8954403497813866,
      "grad_norm": 1.3429756828563484,
      "learning_rate": 1e-05,
      "loss": 0.639,
      "step": 2240
    },
    {
      "epoch": 0.895840099937539,
      "grad_norm": 1.6259244926106824,
      "learning_rate": 1e-05,
      "loss": 0.6314,
      "step": 2241
    },
    {
      "epoch": 0.8962398500936914,
      "grad_norm": 1.5223679036321578,
      "learning_rate": 1e-05,
      "loss": 0.6602,
      "step": 2242
    },
    {
      "epoch": 0.8966396002498438,
      "grad_norm": 1.4728760451319887,
      "learning_rate": 1e-05,
      "loss": 0.643,
      "step": 2243
    },
    {
      "epoch": 0.8970393504059962,
      "grad_norm": 1.7760821874274832,
      "learning_rate": 1e-05,
      "loss": 0.6577,
      "step": 2244
    },
    {
      "epoch": 0.8974391005621487,
      "grad_norm": 1.644296848922539,
      "learning_rate": 1e-05,
      "loss": 0.6477,
      "step": 2245
    },
    {
      "epoch": 0.897838850718301,
      "grad_norm": 1.602372065301851,
      "learning_rate": 1e-05,
      "loss": 0.653,
      "step": 2246
    },
    {
      "epoch": 0.8982386008744535,
      "grad_norm": 1.5917221162547366,
      "learning_rate": 1e-05,
      "loss": 0.661,
      "step": 2247
    },
    {
      "epoch": 0.8986383510306059,
      "grad_norm": 1.6294173696105185,
      "learning_rate": 1e-05,
      "loss": 0.6374,
      "step": 2248
    },
    {
      "epoch": 0.8990381011867583,
      "grad_norm": 1.5990317282109499,
      "learning_rate": 1e-05,
      "loss": 0.6597,
      "step": 2249
    },
    {
      "epoch": 0.8994378513429107,
      "grad_norm": 1.464764038341931,
      "learning_rate": 1e-05,
      "loss": 0.6616,
      "step": 2250
    },
    {
      "epoch": 0.8998376014990631,
      "grad_norm": 1.4692322858809985,
      "learning_rate": 1e-05,
      "loss": 0.6668,
      "step": 2251
    },
    {
      "epoch": 0.9002373516552155,
      "grad_norm": 1.7433826946487974,
      "learning_rate": 1e-05,
      "loss": 0.6399,
      "step": 2252
    },
    {
      "epoch": 0.9006371018113679,
      "grad_norm": 1.5247728221244834,
      "learning_rate": 1e-05,
      "loss": 0.666,
      "step": 2253
    },
    {
      "epoch": 0.9010368519675203,
      "grad_norm": 1.6160521372427412,
      "learning_rate": 1e-05,
      "loss": 0.6357,
      "step": 2254
    },
    {
      "epoch": 0.9014366021236727,
      "grad_norm": 1.512863378842067,
      "learning_rate": 1e-05,
      "loss": 0.6727,
      "step": 2255
    },
    {
      "epoch": 0.9018363522798251,
      "grad_norm": 1.5595255376782655,
      "learning_rate": 1e-05,
      "loss": 0.6628,
      "step": 2256
    },
    {
      "epoch": 0.9022361024359775,
      "grad_norm": 1.750191035313787,
      "learning_rate": 1e-05,
      "loss": 0.6652,
      "step": 2257
    },
    {
      "epoch": 0.90263585259213,
      "grad_norm": 1.323781886404968,
      "learning_rate": 1e-05,
      "loss": 0.6495,
      "step": 2258
    },
    {
      "epoch": 0.9030356027482823,
      "grad_norm": 1.543648198196731,
      "learning_rate": 1e-05,
      "loss": 0.6419,
      "step": 2259
    },
    {
      "epoch": 0.9034353529044348,
      "grad_norm": 1.4545877550612374,
      "learning_rate": 1e-05,
      "loss": 0.6276,
      "step": 2260
    },
    {
      "epoch": 0.9038351030605871,
      "grad_norm": 1.5141646362027776,
      "learning_rate": 1e-05,
      "loss": 0.6584,
      "step": 2261
    },
    {
      "epoch": 0.9042348532167396,
      "grad_norm": 1.584755022940292,
      "learning_rate": 1e-05,
      "loss": 0.6241,
      "step": 2262
    },
    {
      "epoch": 0.9046346033728919,
      "grad_norm": 1.5432226481403715,
      "learning_rate": 1e-05,
      "loss": 0.6605,
      "step": 2263
    },
    {
      "epoch": 0.9050343535290444,
      "grad_norm": 1.454789138997146,
      "learning_rate": 1e-05,
      "loss": 0.6276,
      "step": 2264
    },
    {
      "epoch": 0.9054341036851967,
      "grad_norm": 1.523040437701922,
      "learning_rate": 1e-05,
      "loss": 0.6436,
      "step": 2265
    },
    {
      "epoch": 0.9058338538413492,
      "grad_norm": 1.4372087725431457,
      "learning_rate": 1e-05,
      "loss": 0.6402,
      "step": 2266
    },
    {
      "epoch": 0.9062336039975015,
      "grad_norm": 1.6824366433264282,
      "learning_rate": 1e-05,
      "loss": 0.6879,
      "step": 2267
    },
    {
      "epoch": 0.906633354153654,
      "grad_norm": 1.4346587437546676,
      "learning_rate": 1e-05,
      "loss": 0.6571,
      "step": 2268
    },
    {
      "epoch": 0.9070331043098063,
      "grad_norm": 1.574173167002277,
      "learning_rate": 1e-05,
      "loss": 0.6175,
      "step": 2269
    },
    {
      "epoch": 0.9074328544659588,
      "grad_norm": 1.3651538697584797,
      "learning_rate": 1e-05,
      "loss": 0.6483,
      "step": 2270
    },
    {
      "epoch": 0.9078326046221111,
      "grad_norm": 1.5973006582316185,
      "learning_rate": 1e-05,
      "loss": 0.6644,
      "step": 2271
    },
    {
      "epoch": 0.9082323547782636,
      "grad_norm": 1.5878202420656546,
      "learning_rate": 1e-05,
      "loss": 0.6582,
      "step": 2272
    },
    {
      "epoch": 0.908632104934416,
      "grad_norm": 1.503123782251019,
      "learning_rate": 1e-05,
      "loss": 0.6488,
      "step": 2273
    },
    {
      "epoch": 0.9090318550905684,
      "grad_norm": 1.5272442749201562,
      "learning_rate": 1e-05,
      "loss": 0.6377,
      "step": 2274
    },
    {
      "epoch": 0.9094316052467208,
      "grad_norm": 1.4315031325723604,
      "learning_rate": 1e-05,
      "loss": 0.6413,
      "step": 2275
    },
    {
      "epoch": 0.9098313554028732,
      "grad_norm": 1.7653329465476322,
      "learning_rate": 1e-05,
      "loss": 0.6574,
      "step": 2276
    },
    {
      "epoch": 0.9102311055590256,
      "grad_norm": 1.4142038329614903,
      "learning_rate": 1e-05,
      "loss": 0.6357,
      "step": 2277
    },
    {
      "epoch": 0.910630855715178,
      "grad_norm": 1.4261153197983985,
      "learning_rate": 1e-05,
      "loss": 0.6387,
      "step": 2278
    },
    {
      "epoch": 0.9110306058713304,
      "grad_norm": 1.593050869619435,
      "learning_rate": 1e-05,
      "loss": 0.6674,
      "step": 2279
    },
    {
      "epoch": 0.9114303560274828,
      "grad_norm": 1.521420102788654,
      "learning_rate": 1e-05,
      "loss": 0.6577,
      "step": 2280
    },
    {
      "epoch": 0.9118301061836352,
      "grad_norm": 1.526456432794872,
      "learning_rate": 1e-05,
      "loss": 0.6409,
      "step": 2281
    },
    {
      "epoch": 0.9122298563397876,
      "grad_norm": 1.4658696149082653,
      "learning_rate": 1e-05,
      "loss": 0.659,
      "step": 2282
    },
    {
      "epoch": 0.91262960649594,
      "grad_norm": 1.5201931263923076,
      "learning_rate": 1e-05,
      "loss": 0.6519,
      "step": 2283
    },
    {
      "epoch": 0.9130293566520924,
      "grad_norm": 1.494726309731471,
      "learning_rate": 1e-05,
      "loss": 0.6356,
      "step": 2284
    },
    {
      "epoch": 0.9134291068082449,
      "grad_norm": 1.3361999649242975,
      "learning_rate": 1e-05,
      "loss": 0.6243,
      "step": 2285
    },
    {
      "epoch": 0.9138288569643973,
      "grad_norm": 1.4999838535212071,
      "learning_rate": 1e-05,
      "loss": 0.6508,
      "step": 2286
    },
    {
      "epoch": 0.9142286071205497,
      "grad_norm": 1.4306989836988615,
      "learning_rate": 1e-05,
      "loss": 0.6324,
      "step": 2287
    },
    {
      "epoch": 0.9146283572767021,
      "grad_norm": 1.5738347922068388,
      "learning_rate": 1e-05,
      "loss": 0.6684,
      "step": 2288
    },
    {
      "epoch": 0.9150281074328545,
      "grad_norm": 1.6008170710665166,
      "learning_rate": 1e-05,
      "loss": 0.6472,
      "step": 2289
    },
    {
      "epoch": 0.9154278575890069,
      "grad_norm": 1.5883527182939745,
      "learning_rate": 1e-05,
      "loss": 0.6535,
      "step": 2290
    },
    {
      "epoch": 0.9158276077451593,
      "grad_norm": 1.537202743396059,
      "learning_rate": 1e-05,
      "loss": 0.668,
      "step": 2291
    },
    {
      "epoch": 0.9162273579013117,
      "grad_norm": 1.4782726570403861,
      "learning_rate": 1e-05,
      "loss": 0.6165,
      "step": 2292
    },
    {
      "epoch": 0.9166271080574641,
      "grad_norm": 1.5104515551597504,
      "learning_rate": 1e-05,
      "loss": 0.6098,
      "step": 2293
    },
    {
      "epoch": 0.9170268582136165,
      "grad_norm": 1.5948448443610101,
      "learning_rate": 1e-05,
      "loss": 0.638,
      "step": 2294
    },
    {
      "epoch": 0.9174266083697689,
      "grad_norm": 1.582694376488342,
      "learning_rate": 1e-05,
      "loss": 0.6317,
      "step": 2295
    },
    {
      "epoch": 0.9178263585259213,
      "grad_norm": 1.4747690325706582,
      "learning_rate": 1e-05,
      "loss": 0.6455,
      "step": 2296
    },
    {
      "epoch": 0.9182261086820737,
      "grad_norm": 1.544561779851727,
      "learning_rate": 1e-05,
      "loss": 0.7054,
      "step": 2297
    },
    {
      "epoch": 0.9186258588382261,
      "grad_norm": 1.532132572861691,
      "learning_rate": 1e-05,
      "loss": 0.6711,
      "step": 2298
    },
    {
      "epoch": 0.9190256089943785,
      "grad_norm": 1.4626198894598954,
      "learning_rate": 1e-05,
      "loss": 0.6468,
      "step": 2299
    },
    {
      "epoch": 0.9194253591505309,
      "grad_norm": 1.6107415372717584,
      "learning_rate": 1e-05,
      "loss": 0.6187,
      "step": 2300
    },
    {
      "epoch": 0.9198251093066834,
      "grad_norm": 1.5163613033967622,
      "learning_rate": 1e-05,
      "loss": 0.6758,
      "step": 2301
    },
    {
      "epoch": 0.9202248594628357,
      "grad_norm": 1.4787307140122297,
      "learning_rate": 1e-05,
      "loss": 0.6416,
      "step": 2302
    },
    {
      "epoch": 0.9206246096189882,
      "grad_norm": 1.5265931302474156,
      "learning_rate": 1e-05,
      "loss": 0.6965,
      "step": 2303
    },
    {
      "epoch": 0.9210243597751405,
      "grad_norm": 1.5902593313914766,
      "learning_rate": 1e-05,
      "loss": 0.6398,
      "step": 2304
    },
    {
      "epoch": 0.921424109931293,
      "grad_norm": 1.4545064572871742,
      "learning_rate": 1e-05,
      "loss": 0.6343,
      "step": 2305
    },
    {
      "epoch": 0.9218238600874453,
      "grad_norm": 1.6289311346936504,
      "learning_rate": 1e-05,
      "loss": 0.6409,
      "step": 2306
    },
    {
      "epoch": 0.9222236102435978,
      "grad_norm": 1.354790716929529,
      "learning_rate": 1e-05,
      "loss": 0.68,
      "step": 2307
    },
    {
      "epoch": 0.9226233603997501,
      "grad_norm": 1.5038154251370288,
      "learning_rate": 1e-05,
      "loss": 0.6308,
      "step": 2308
    },
    {
      "epoch": 0.9230231105559026,
      "grad_norm": 1.627726858598808,
      "learning_rate": 1e-05,
      "loss": 0.6531,
      "step": 2309
    },
    {
      "epoch": 0.9234228607120549,
      "grad_norm": 1.4275667372502598,
      "learning_rate": 1e-05,
      "loss": 0.6497,
      "step": 2310
    },
    {
      "epoch": 0.9238226108682074,
      "grad_norm": 1.3981469690888655,
      "learning_rate": 1e-05,
      "loss": 0.6233,
      "step": 2311
    },
    {
      "epoch": 0.9242223610243597,
      "grad_norm": 1.5546662142473437,
      "learning_rate": 1e-05,
      "loss": 0.683,
      "step": 2312
    },
    {
      "epoch": 0.9246221111805122,
      "grad_norm": 1.6053245190277032,
      "learning_rate": 1e-05,
      "loss": 0.6461,
      "step": 2313
    },
    {
      "epoch": 0.9250218613366645,
      "grad_norm": 1.58290441433915,
      "learning_rate": 1e-05,
      "loss": 0.657,
      "step": 2314
    },
    {
      "epoch": 0.925421611492817,
      "grad_norm": 1.569783209620685,
      "learning_rate": 1e-05,
      "loss": 0.6283,
      "step": 2315
    },
    {
      "epoch": 0.9258213616489694,
      "grad_norm": 1.5680118210539467,
      "learning_rate": 1e-05,
      "loss": 0.6698,
      "step": 2316
    },
    {
      "epoch": 0.9262211118051218,
      "grad_norm": 1.4377673503303945,
      "learning_rate": 1e-05,
      "loss": 0.5985,
      "step": 2317
    },
    {
      "epoch": 0.9266208619612742,
      "grad_norm": 1.4989821849076561,
      "learning_rate": 1e-05,
      "loss": 0.6646,
      "step": 2318
    },
    {
      "epoch": 0.9270206121174266,
      "grad_norm": 1.521890253585913,
      "learning_rate": 1e-05,
      "loss": 0.6242,
      "step": 2319
    },
    {
      "epoch": 0.927420362273579,
      "grad_norm": 1.4312973659969799,
      "learning_rate": 1e-05,
      "loss": 0.6222,
      "step": 2320
    },
    {
      "epoch": 0.9278201124297314,
      "grad_norm": 1.7652946121133393,
      "learning_rate": 1e-05,
      "loss": 0.6872,
      "step": 2321
    },
    {
      "epoch": 0.9282198625858838,
      "grad_norm": 1.4810049052884096,
      "learning_rate": 1e-05,
      "loss": 0.6265,
      "step": 2322
    },
    {
      "epoch": 0.9286196127420362,
      "grad_norm": 1.5069487700351034,
      "learning_rate": 1e-05,
      "loss": 0.6532,
      "step": 2323
    },
    {
      "epoch": 0.9290193628981886,
      "grad_norm": 1.3640451712105894,
      "learning_rate": 1e-05,
      "loss": 0.6442,
      "step": 2324
    },
    {
      "epoch": 0.929419113054341,
      "grad_norm": 1.4559207939942544,
      "learning_rate": 1e-05,
      "loss": 0.6405,
      "step": 2325
    },
    {
      "epoch": 0.9298188632104935,
      "grad_norm": 1.434983446980416,
      "learning_rate": 1e-05,
      "loss": 0.6395,
      "step": 2326
    },
    {
      "epoch": 0.9302186133666458,
      "grad_norm": 1.8139128609565587,
      "learning_rate": 1e-05,
      "loss": 0.6517,
      "step": 2327
    },
    {
      "epoch": 0.9306183635227983,
      "grad_norm": 1.333415414112993,
      "learning_rate": 1e-05,
      "loss": 0.6341,
      "step": 2328
    },
    {
      "epoch": 0.9310181136789507,
      "grad_norm": 1.5980529739329394,
      "learning_rate": 1e-05,
      "loss": 0.6468,
      "step": 2329
    },
    {
      "epoch": 0.931417863835103,
      "grad_norm": 1.461067195743689,
      "learning_rate": 1e-05,
      "loss": 0.6401,
      "step": 2330
    },
    {
      "epoch": 0.9318176139912555,
      "grad_norm": 1.5072654715901341,
      "learning_rate": 1e-05,
      "loss": 0.6674,
      "step": 2331
    },
    {
      "epoch": 0.9322173641474079,
      "grad_norm": 1.465971094240456,
      "learning_rate": 1e-05,
      "loss": 0.6358,
      "step": 2332
    },
    {
      "epoch": 0.9326171143035603,
      "grad_norm": 1.501115225028013,
      "learning_rate": 1e-05,
      "loss": 0.6275,
      "step": 2333
    },
    {
      "epoch": 0.9330168644597127,
      "grad_norm": 1.5366832689583791,
      "learning_rate": 1e-05,
      "loss": 0.6554,
      "step": 2334
    },
    {
      "epoch": 0.9334166146158651,
      "grad_norm": 1.5789624313015396,
      "learning_rate": 1e-05,
      "loss": 0.6578,
      "step": 2335
    },
    {
      "epoch": 0.9338163647720175,
      "grad_norm": 1.4628467922187995,
      "learning_rate": 1e-05,
      "loss": 0.6471,
      "step": 2336
    },
    {
      "epoch": 0.9342161149281699,
      "grad_norm": 1.6868242118569519,
      "learning_rate": 1e-05,
      "loss": 0.6678,
      "step": 2337
    },
    {
      "epoch": 0.9346158650843223,
      "grad_norm": 1.6382909882054142,
      "learning_rate": 1e-05,
      "loss": 0.6579,
      "step": 2338
    },
    {
      "epoch": 0.9350156152404747,
      "grad_norm": 1.5585628217840561,
      "learning_rate": 1e-05,
      "loss": 0.6608,
      "step": 2339
    },
    {
      "epoch": 0.9354153653966271,
      "grad_norm": 1.51206507666093,
      "learning_rate": 1e-05,
      "loss": 0.6671,
      "step": 2340
    },
    {
      "epoch": 0.9358151155527795,
      "grad_norm": 1.7645029322117125,
      "learning_rate": 1e-05,
      "loss": 0.6571,
      "step": 2341
    },
    {
      "epoch": 0.9362148657089319,
      "grad_norm": 1.4436479830880435,
      "learning_rate": 1e-05,
      "loss": 0.6527,
      "step": 2342
    },
    {
      "epoch": 0.9366146158650843,
      "grad_norm": 1.5872788945300214,
      "learning_rate": 1e-05,
      "loss": 0.6283,
      "step": 2343
    },
    {
      "epoch": 0.9370143660212368,
      "grad_norm": 1.411177978812603,
      "learning_rate": 1e-05,
      "loss": 0.6138,
      "step": 2344
    },
    {
      "epoch": 0.9374141161773891,
      "grad_norm": 1.6036533526696495,
      "learning_rate": 1e-05,
      "loss": 0.6578,
      "step": 2345
    },
    {
      "epoch": 0.9378138663335416,
      "grad_norm": 1.5376055917303448,
      "learning_rate": 1e-05,
      "loss": 0.6554,
      "step": 2346
    },
    {
      "epoch": 0.9382136164896939,
      "grad_norm": 1.4004090518788104,
      "learning_rate": 1e-05,
      "loss": 0.6448,
      "step": 2347
    },
    {
      "epoch": 0.9386133666458464,
      "grad_norm": 1.592502299570477,
      "learning_rate": 1e-05,
      "loss": 0.6498,
      "step": 2348
    },
    {
      "epoch": 0.9390131168019987,
      "grad_norm": 1.4254964798346281,
      "learning_rate": 1e-05,
      "loss": 0.6397,
      "step": 2349
    },
    {
      "epoch": 0.9394128669581512,
      "grad_norm": 1.4081182092383149,
      "learning_rate": 1e-05,
      "loss": 0.6578,
      "step": 2350
    },
    {
      "epoch": 0.9398126171143035,
      "grad_norm": 1.621281341760391,
      "learning_rate": 1e-05,
      "loss": 0.6751,
      "step": 2351
    },
    {
      "epoch": 0.940212367270456,
      "grad_norm": 1.6183620583478027,
      "learning_rate": 1e-05,
      "loss": 0.6381,
      "step": 2352
    },
    {
      "epoch": 0.9406121174266083,
      "grad_norm": 1.3914055958606013,
      "learning_rate": 1e-05,
      "loss": 0.6205,
      "step": 2353
    },
    {
      "epoch": 0.9410118675827608,
      "grad_norm": 1.7008234594874123,
      "learning_rate": 1e-05,
      "loss": 0.6431,
      "step": 2354
    },
    {
      "epoch": 0.9414116177389131,
      "grad_norm": 1.4193299171755425,
      "learning_rate": 1e-05,
      "loss": 0.6476,
      "step": 2355
    },
    {
      "epoch": 0.9418113678950656,
      "grad_norm": 1.4795309177375462,
      "learning_rate": 1e-05,
      "loss": 0.6185,
      "step": 2356
    },
    {
      "epoch": 0.942211118051218,
      "grad_norm": 1.5927821652110756,
      "learning_rate": 1e-05,
      "loss": 0.6624,
      "step": 2357
    },
    {
      "epoch": 0.9426108682073704,
      "grad_norm": 1.482134696511023,
      "learning_rate": 1e-05,
      "loss": 0.6646,
      "step": 2358
    },
    {
      "epoch": 0.9430106183635228,
      "grad_norm": 1.5205146957776075,
      "learning_rate": 1e-05,
      "loss": 0.6783,
      "step": 2359
    },
    {
      "epoch": 0.9434103685196752,
      "grad_norm": 1.4767361132628967,
      "learning_rate": 1e-05,
      "loss": 0.6649,
      "step": 2360
    },
    {
      "epoch": 0.9438101186758276,
      "grad_norm": 1.579035299238034,
      "learning_rate": 1e-05,
      "loss": 0.6258,
      "step": 2361
    },
    {
      "epoch": 0.94420986883198,
      "grad_norm": 1.5991068389779868,
      "learning_rate": 1e-05,
      "loss": 0.6447,
      "step": 2362
    },
    {
      "epoch": 0.9446096189881324,
      "grad_norm": 1.8156529877614969,
      "learning_rate": 1e-05,
      "loss": 0.6273,
      "step": 2363
    },
    {
      "epoch": 0.9450093691442848,
      "grad_norm": 1.55648724573739,
      "learning_rate": 1e-05,
      "loss": 0.6526,
      "step": 2364
    },
    {
      "epoch": 0.9454091193004373,
      "grad_norm": 1.5599946762961154,
      "learning_rate": 1e-05,
      "loss": 0.6394,
      "step": 2365
    },
    {
      "epoch": 0.9458088694565896,
      "grad_norm": 1.5087532852235455,
      "learning_rate": 1e-05,
      "loss": 0.6307,
      "step": 2366
    },
    {
      "epoch": 0.946208619612742,
      "grad_norm": 1.4476853165032058,
      "learning_rate": 1e-05,
      "loss": 0.6762,
      "step": 2367
    },
    {
      "epoch": 0.9466083697688944,
      "grad_norm": 1.5078792058636599,
      "learning_rate": 1e-05,
      "loss": 0.6659,
      "step": 2368
    },
    {
      "epoch": 0.9470081199250469,
      "grad_norm": 1.622205778180567,
      "learning_rate": 1e-05,
      "loss": 0.6348,
      "step": 2369
    },
    {
      "epoch": 0.9474078700811992,
      "grad_norm": 1.458710664663524,
      "learning_rate": 1e-05,
      "loss": 0.6375,
      "step": 2370
    },
    {
      "epoch": 0.9478076202373517,
      "grad_norm": 1.6020428639645525,
      "learning_rate": 1e-05,
      "loss": 0.7024,
      "step": 2371
    },
    {
      "epoch": 0.9482073703935041,
      "grad_norm": 1.5318551917498078,
      "learning_rate": 1e-05,
      "loss": 0.6262,
      "step": 2372
    },
    {
      "epoch": 0.9486071205496565,
      "grad_norm": 1.492310436059166,
      "learning_rate": 1e-05,
      "loss": 0.6292,
      "step": 2373
    },
    {
      "epoch": 0.9490068707058089,
      "grad_norm": 1.4646711910014671,
      "learning_rate": 1e-05,
      "loss": 0.6439,
      "step": 2374
    },
    {
      "epoch": 0.9494066208619613,
      "grad_norm": 1.6311242539878288,
      "learning_rate": 1e-05,
      "loss": 0.6693,
      "step": 2375
    },
    {
      "epoch": 0.9498063710181137,
      "grad_norm": 1.4719772569840874,
      "learning_rate": 1e-05,
      "loss": 0.6553,
      "step": 2376
    },
    {
      "epoch": 0.9502061211742661,
      "grad_norm": 1.7398753653879158,
      "learning_rate": 1e-05,
      "loss": 0.6642,
      "step": 2377
    },
    {
      "epoch": 0.9506058713304185,
      "grad_norm": 1.4032071502564682,
      "learning_rate": 1e-05,
      "loss": 0.6493,
      "step": 2378
    },
    {
      "epoch": 0.9510056214865709,
      "grad_norm": 1.615571512724299,
      "learning_rate": 1e-05,
      "loss": 0.6951,
      "step": 2379
    },
    {
      "epoch": 0.9514053716427233,
      "grad_norm": 1.5823420034373181,
      "learning_rate": 1e-05,
      "loss": 0.6176,
      "step": 2380
    },
    {
      "epoch": 0.9518051217988757,
      "grad_norm": 1.4729081555208352,
      "learning_rate": 1e-05,
      "loss": 0.6118,
      "step": 2381
    },
    {
      "epoch": 0.9522048719550281,
      "grad_norm": 1.4554719335411272,
      "learning_rate": 1e-05,
      "loss": 0.6546,
      "step": 2382
    },
    {
      "epoch": 0.9526046221111805,
      "grad_norm": 1.48564563188955,
      "learning_rate": 1e-05,
      "loss": 0.6678,
      "step": 2383
    },
    {
      "epoch": 0.9530043722673329,
      "grad_norm": 1.5106188538286276,
      "learning_rate": 1e-05,
      "loss": 0.6518,
      "step": 2384
    },
    {
      "epoch": 0.9534041224234853,
      "grad_norm": 1.6035256929222148,
      "learning_rate": 1e-05,
      "loss": 0.6431,
      "step": 2385
    },
    {
      "epoch": 0.9538038725796377,
      "grad_norm": 1.447864197192872,
      "learning_rate": 1e-05,
      "loss": 0.609,
      "step": 2386
    },
    {
      "epoch": 0.9542036227357902,
      "grad_norm": 1.282609380725385,
      "learning_rate": 1e-05,
      "loss": 0.6134,
      "step": 2387
    },
    {
      "epoch": 0.9546033728919425,
      "grad_norm": 1.686273666699171,
      "learning_rate": 1e-05,
      "loss": 0.6772,
      "step": 2388
    },
    {
      "epoch": 0.955003123048095,
      "grad_norm": 1.5088584595327577,
      "learning_rate": 1e-05,
      "loss": 0.657,
      "step": 2389
    },
    {
      "epoch": 0.9554028732042473,
      "grad_norm": 1.6100844387220994,
      "learning_rate": 1e-05,
      "loss": 0.6388,
      "step": 2390
    },
    {
      "epoch": 0.9558026233603998,
      "grad_norm": 1.8433270836431355,
      "learning_rate": 1e-05,
      "loss": 0.7105,
      "step": 2391
    },
    {
      "epoch": 0.9562023735165521,
      "grad_norm": 1.645895343334082,
      "learning_rate": 1e-05,
      "loss": 0.6593,
      "step": 2392
    },
    {
      "epoch": 0.9566021236727046,
      "grad_norm": 1.5331224082500359,
      "learning_rate": 1e-05,
      "loss": 0.5969,
      "step": 2393
    },
    {
      "epoch": 0.9570018738288569,
      "grad_norm": 1.5966814866513568,
      "learning_rate": 1e-05,
      "loss": 0.6547,
      "step": 2394
    },
    {
      "epoch": 0.9574016239850094,
      "grad_norm": 1.488802762872042,
      "learning_rate": 1e-05,
      "loss": 0.6089,
      "step": 2395
    },
    {
      "epoch": 0.9578013741411617,
      "grad_norm": 1.5974062594447984,
      "learning_rate": 1e-05,
      "loss": 0.6749,
      "step": 2396
    },
    {
      "epoch": 0.9582011242973142,
      "grad_norm": 1.5959611803544576,
      "learning_rate": 1e-05,
      "loss": 0.6394,
      "step": 2397
    },
    {
      "epoch": 0.9586008744534665,
      "grad_norm": 1.49759463167282,
      "learning_rate": 1e-05,
      "loss": 0.6651,
      "step": 2398
    },
    {
      "epoch": 0.959000624609619,
      "grad_norm": 1.545517528210825,
      "learning_rate": 1e-05,
      "loss": 0.6894,
      "step": 2399
    },
    {
      "epoch": 0.9594003747657714,
      "grad_norm": 1.8244388437103491,
      "learning_rate": 1e-05,
      "loss": 0.6659,
      "step": 2400
    },
    {
      "epoch": 0.9598001249219238,
      "grad_norm": 2.1401585108287193,
      "learning_rate": 1e-05,
      "loss": 0.6676,
      "step": 2401
    },
    {
      "epoch": 0.9601998750780762,
      "grad_norm": 1.378308741595526,
      "learning_rate": 1e-05,
      "loss": 0.6378,
      "step": 2402
    },
    {
      "epoch": 0.9605996252342286,
      "grad_norm": 1.460282392335168,
      "learning_rate": 1e-05,
      "loss": 0.6471,
      "step": 2403
    },
    {
      "epoch": 0.960999375390381,
      "grad_norm": 1.501749869429117,
      "learning_rate": 1e-05,
      "loss": 0.6315,
      "step": 2404
    },
    {
      "epoch": 0.9613991255465334,
      "grad_norm": 1.4802951985317807,
      "learning_rate": 1e-05,
      "loss": 0.6529,
      "step": 2405
    },
    {
      "epoch": 0.9617988757026859,
      "grad_norm": 1.751167168011552,
      "learning_rate": 1e-05,
      "loss": 0.6555,
      "step": 2406
    },
    {
      "epoch": 0.9621986258588382,
      "grad_norm": 1.7154654923601647,
      "learning_rate": 1e-05,
      "loss": 0.6841,
      "step": 2407
    },
    {
      "epoch": 0.9625983760149907,
      "grad_norm": 1.5661191110289197,
      "learning_rate": 1e-05,
      "loss": 0.6158,
      "step": 2408
    },
    {
      "epoch": 0.962998126171143,
      "grad_norm": 1.5946904084767464,
      "learning_rate": 1e-05,
      "loss": 0.6344,
      "step": 2409
    },
    {
      "epoch": 0.9633978763272955,
      "grad_norm": 1.5897813202958067,
      "learning_rate": 1e-05,
      "loss": 0.6587,
      "step": 2410
    },
    {
      "epoch": 0.9637976264834478,
      "grad_norm": 1.5301589726879956,
      "learning_rate": 1e-05,
      "loss": 0.6347,
      "step": 2411
    },
    {
      "epoch": 0.9641973766396003,
      "grad_norm": 1.5189471614061678,
      "learning_rate": 1e-05,
      "loss": 0.6522,
      "step": 2412
    },
    {
      "epoch": 0.9645971267957526,
      "grad_norm": 1.579444819186783,
      "learning_rate": 1e-05,
      "loss": 0.6481,
      "step": 2413
    },
    {
      "epoch": 0.9649968769519051,
      "grad_norm": 1.533336734914025,
      "learning_rate": 1e-05,
      "loss": 0.652,
      "step": 2414
    },
    {
      "epoch": 0.9653966271080575,
      "grad_norm": 1.5210048220573427,
      "learning_rate": 1e-05,
      "loss": 0.6519,
      "step": 2415
    },
    {
      "epoch": 0.9657963772642099,
      "grad_norm": 1.4069600456656854,
      "learning_rate": 1e-05,
      "loss": 0.6256,
      "step": 2416
    },
    {
      "epoch": 0.9661961274203623,
      "grad_norm": 1.515527158049459,
      "learning_rate": 1e-05,
      "loss": 0.6549,
      "step": 2417
    },
    {
      "epoch": 0.9665958775765147,
      "grad_norm": 1.7081052817501674,
      "learning_rate": 1e-05,
      "loss": 0.6347,
      "step": 2418
    },
    {
      "epoch": 0.9669956277326671,
      "grad_norm": 1.3058351934725232,
      "learning_rate": 1e-05,
      "loss": 0.6428,
      "step": 2419
    },
    {
      "epoch": 0.9673953778888195,
      "grad_norm": 1.4951191347705552,
      "learning_rate": 1e-05,
      "loss": 0.6479,
      "step": 2420
    },
    {
      "epoch": 0.9677951280449719,
      "grad_norm": 1.5981816608531119,
      "learning_rate": 1e-05,
      "loss": 0.6683,
      "step": 2421
    },
    {
      "epoch": 0.9681948782011243,
      "grad_norm": 1.5290499047955106,
      "learning_rate": 1e-05,
      "loss": 0.6836,
      "step": 2422
    },
    {
      "epoch": 0.9685946283572767,
      "grad_norm": 1.6508999155110713,
      "learning_rate": 1e-05,
      "loss": 0.6377,
      "step": 2423
    },
    {
      "epoch": 0.9689943785134291,
      "grad_norm": 1.5940881717627047,
      "learning_rate": 1e-05,
      "loss": 0.6458,
      "step": 2424
    },
    {
      "epoch": 0.9693941286695815,
      "grad_norm": 1.4557431089071153,
      "learning_rate": 1e-05,
      "loss": 0.639,
      "step": 2425
    },
    {
      "epoch": 0.9697938788257339,
      "grad_norm": 1.5971626786110003,
      "learning_rate": 1e-05,
      "loss": 0.6826,
      "step": 2426
    },
    {
      "epoch": 0.9701936289818863,
      "grad_norm": 1.7309999743042408,
      "learning_rate": 1e-05,
      "loss": 0.6313,
      "step": 2427
    },
    {
      "epoch": 0.9705933791380388,
      "grad_norm": 1.4295774973268887,
      "learning_rate": 1e-05,
      "loss": 0.6103,
      "step": 2428
    },
    {
      "epoch": 0.9709931292941911,
      "grad_norm": 1.6043014533707587,
      "learning_rate": 1e-05,
      "loss": 0.6374,
      "step": 2429
    },
    {
      "epoch": 0.9713928794503436,
      "grad_norm": 1.6051111063741281,
      "learning_rate": 1e-05,
      "loss": 0.6472,
      "step": 2430
    },
    {
      "epoch": 0.9717926296064959,
      "grad_norm": 1.4989159370664145,
      "learning_rate": 1e-05,
      "loss": 0.6734,
      "step": 2431
    },
    {
      "epoch": 0.9721923797626484,
      "grad_norm": 1.5264580855866667,
      "learning_rate": 1e-05,
      "loss": 0.6318,
      "step": 2432
    },
    {
      "epoch": 0.9725921299188007,
      "grad_norm": 1.4433431297274077,
      "learning_rate": 1e-05,
      "loss": 0.6578,
      "step": 2433
    },
    {
      "epoch": 0.9729918800749532,
      "grad_norm": 1.7210315404336027,
      "learning_rate": 1e-05,
      "loss": 0.6277,
      "step": 2434
    },
    {
      "epoch": 0.9733916302311055,
      "grad_norm": 1.644010046534809,
      "learning_rate": 1e-05,
      "loss": 0.6505,
      "step": 2435
    },
    {
      "epoch": 0.973791380387258,
      "grad_norm": 1.4027893363796273,
      "learning_rate": 1e-05,
      "loss": 0.6195,
      "step": 2436
    },
    {
      "epoch": 0.9741911305434103,
      "grad_norm": 1.6956928197904488,
      "learning_rate": 1e-05,
      "loss": 0.6452,
      "step": 2437
    },
    {
      "epoch": 0.9745908806995628,
      "grad_norm": 1.5246190922402887,
      "learning_rate": 1e-05,
      "loss": 0.6376,
      "step": 2438
    },
    {
      "epoch": 0.9749906308557151,
      "grad_norm": 1.6133416385073043,
      "learning_rate": 1e-05,
      "loss": 0.6504,
      "step": 2439
    },
    {
      "epoch": 0.9753903810118676,
      "grad_norm": 1.4218206231719488,
      "learning_rate": 1e-05,
      "loss": 0.6867,
      "step": 2440
    },
    {
      "epoch": 0.9757901311680199,
      "grad_norm": 1.5362063804903674,
      "learning_rate": 1e-05,
      "loss": 0.625,
      "step": 2441
    },
    {
      "epoch": 0.9761898813241724,
      "grad_norm": 1.4913114829173484,
      "learning_rate": 1e-05,
      "loss": 0.6779,
      "step": 2442
    },
    {
      "epoch": 0.9765896314803248,
      "grad_norm": 1.4895376292770157,
      "learning_rate": 1e-05,
      "loss": 0.6225,
      "step": 2443
    },
    {
      "epoch": 0.9769893816364772,
      "grad_norm": 1.4213717417554714,
      "learning_rate": 1e-05,
      "loss": 0.6624,
      "step": 2444
    },
    {
      "epoch": 0.9773891317926297,
      "grad_norm": 1.5930594271249394,
      "learning_rate": 1e-05,
      "loss": 0.6512,
      "step": 2445
    },
    {
      "epoch": 0.977788881948782,
      "grad_norm": 1.525644221642356,
      "learning_rate": 1e-05,
      "loss": 0.6286,
      "step": 2446
    },
    {
      "epoch": 0.9781886321049345,
      "grad_norm": 1.5200745209041546,
      "learning_rate": 1e-05,
      "loss": 0.658,
      "step": 2447
    },
    {
      "epoch": 0.9785883822610868,
      "grad_norm": 1.4856669870617687,
      "learning_rate": 1e-05,
      "loss": 0.6624,
      "step": 2448
    },
    {
      "epoch": 0.9789881324172393,
      "grad_norm": 1.446004542196208,
      "learning_rate": 1e-05,
      "loss": 0.6333,
      "step": 2449
    },
    {
      "epoch": 0.9793878825733916,
      "grad_norm": 1.580897145176756,
      "learning_rate": 1e-05,
      "loss": 0.6179,
      "step": 2450
    },
    {
      "epoch": 0.9797876327295441,
      "grad_norm": 1.6124540982959459,
      "learning_rate": 1e-05,
      "loss": 0.6607,
      "step": 2451
    },
    {
      "epoch": 0.9801873828856964,
      "grad_norm": 1.4867564082327327,
      "learning_rate": 1e-05,
      "loss": 0.639,
      "step": 2452
    },
    {
      "epoch": 0.9805871330418489,
      "grad_norm": 1.5063237170671397,
      "learning_rate": 1e-05,
      "loss": 0.6783,
      "step": 2453
    },
    {
      "epoch": 0.9809868831980012,
      "grad_norm": 1.4699619675866262,
      "learning_rate": 1e-05,
      "loss": 0.6527,
      "step": 2454
    },
    {
      "epoch": 0.9813866333541537,
      "grad_norm": 1.4793236244048513,
      "learning_rate": 1e-05,
      "loss": 0.6508,
      "step": 2455
    },
    {
      "epoch": 0.981786383510306,
      "grad_norm": 1.5513220491441788,
      "learning_rate": 1e-05,
      "loss": 0.647,
      "step": 2456
    },
    {
      "epoch": 0.9821861336664585,
      "grad_norm": 1.6436000893649512,
      "learning_rate": 1e-05,
      "loss": 0.6438,
      "step": 2457
    },
    {
      "epoch": 0.9825858838226109,
      "grad_norm": 1.4916590206661486,
      "learning_rate": 1e-05,
      "loss": 0.6423,
      "step": 2458
    },
    {
      "epoch": 0.9829856339787633,
      "grad_norm": 1.6531243957136077,
      "learning_rate": 1e-05,
      "loss": 0.6492,
      "step": 2459
    },
    {
      "epoch": 0.9833853841349157,
      "grad_norm": 1.5164967366452844,
      "learning_rate": 1e-05,
      "loss": 0.6047,
      "step": 2460
    },
    {
      "epoch": 0.9837851342910681,
      "grad_norm": 1.671270610201754,
      "learning_rate": 1e-05,
      "loss": 0.6619,
      "step": 2461
    },
    {
      "epoch": 0.9841848844472205,
      "grad_norm": 1.4780362991831664,
      "learning_rate": 1e-05,
      "loss": 0.6649,
      "step": 2462
    },
    {
      "epoch": 0.9845846346033729,
      "grad_norm": 1.4421208589190706,
      "learning_rate": 1e-05,
      "loss": 0.6863,
      "step": 2463
    },
    {
      "epoch": 0.9849843847595253,
      "grad_norm": 1.4417785009560715,
      "learning_rate": 1e-05,
      "loss": 0.6559,
      "step": 2464
    },
    {
      "epoch": 0.9853841349156777,
      "grad_norm": 1.4905343889023497,
      "learning_rate": 1e-05,
      "loss": 0.6633,
      "step": 2465
    },
    {
      "epoch": 0.9857838850718301,
      "grad_norm": 1.6352936291116986,
      "learning_rate": 1e-05,
      "loss": 0.6228,
      "step": 2466
    },
    {
      "epoch": 0.9861836352279825,
      "grad_norm": 1.527076670655747,
      "learning_rate": 1e-05,
      "loss": 0.624,
      "step": 2467
    },
    {
      "epoch": 0.9865833853841349,
      "grad_norm": 1.5527351054106282,
      "learning_rate": 1e-05,
      "loss": 0.6575,
      "step": 2468
    },
    {
      "epoch": 0.9869831355402873,
      "grad_norm": 1.5683451568847322,
      "learning_rate": 1e-05,
      "loss": 0.6679,
      "step": 2469
    },
    {
      "epoch": 0.9873828856964397,
      "grad_norm": 1.4427646634410214,
      "learning_rate": 1e-05,
      "loss": 0.6473,
      "step": 2470
    },
    {
      "epoch": 0.9877826358525922,
      "grad_norm": 1.5582910224195998,
      "learning_rate": 1e-05,
      "loss": 0.677,
      "step": 2471
    },
    {
      "epoch": 0.9881823860087445,
      "grad_norm": 1.3575404941910192,
      "learning_rate": 1e-05,
      "loss": 0.6113,
      "step": 2472
    },
    {
      "epoch": 0.988582136164897,
      "grad_norm": 1.4483166818636344,
      "learning_rate": 1e-05,
      "loss": 0.6543,
      "step": 2473
    },
    {
      "epoch": 0.9889818863210493,
      "grad_norm": 1.4585371132364795,
      "learning_rate": 1e-05,
      "loss": 0.6097,
      "step": 2474
    },
    {
      "epoch": 0.9893816364772018,
      "grad_norm": 1.5345640509122682,
      "learning_rate": 1e-05,
      "loss": 0.6719,
      "step": 2475
    },
    {
      "epoch": 0.9897813866333541,
      "grad_norm": 1.5078818927144193,
      "learning_rate": 1e-05,
      "loss": 0.6558,
      "step": 2476
    },
    {
      "epoch": 0.9901811367895066,
      "grad_norm": 1.4680971456611458,
      "learning_rate": 1e-05,
      "loss": 0.6722,
      "step": 2477
    },
    {
      "epoch": 0.9905808869456589,
      "grad_norm": 1.3960525389673877,
      "learning_rate": 1e-05,
      "loss": 0.6328,
      "step": 2478
    },
    {
      "epoch": 0.9909806371018114,
      "grad_norm": 1.3558185967525633,
      "learning_rate": 1e-05,
      "loss": 0.6242,
      "step": 2479
    },
    {
      "epoch": 0.9913803872579637,
      "grad_norm": 1.389604118941024,
      "learning_rate": 1e-05,
      "loss": 0.6557,
      "step": 2480
    },
    {
      "epoch": 0.9917801374141162,
      "grad_norm": 1.4475365462861782,
      "learning_rate": 1e-05,
      "loss": 0.6177,
      "step": 2481
    },
    {
      "epoch": 0.9921798875702685,
      "grad_norm": 1.6416979205651898,
      "learning_rate": 1e-05,
      "loss": 0.6644,
      "step": 2482
    },
    {
      "epoch": 0.992579637726421,
      "grad_norm": 1.514995602865847,
      "learning_rate": 1e-05,
      "loss": 0.6594,
      "step": 2483
    },
    {
      "epoch": 0.9929793878825733,
      "grad_norm": 1.5353177321155798,
      "learning_rate": 1e-05,
      "loss": 0.6309,
      "step": 2484
    },
    {
      "epoch": 0.9933791380387258,
      "grad_norm": 1.622876488417659,
      "learning_rate": 1e-05,
      "loss": 0.6161,
      "step": 2485
    },
    {
      "epoch": 0.9937788881948783,
      "grad_norm": 1.5510548641983535,
      "learning_rate": 1e-05,
      "loss": 0.6611,
      "step": 2486
    },
    {
      "epoch": 0.9941786383510306,
      "grad_norm": 1.4274705029332535,
      "learning_rate": 1e-05,
      "loss": 0.6502,
      "step": 2487
    },
    {
      "epoch": 0.994578388507183,
      "grad_norm": 1.5876388419524161,
      "learning_rate": 1e-05,
      "loss": 0.6446,
      "step": 2488
    },
    {
      "epoch": 0.9949781386633354,
      "grad_norm": 1.6844158896984622,
      "learning_rate": 1e-05,
      "loss": 0.6536,
      "step": 2489
    },
    {
      "epoch": 0.9953778888194879,
      "grad_norm": 1.682514481955972,
      "learning_rate": 1e-05,
      "loss": 0.6304,
      "step": 2490
    },
    {
      "epoch": 0.9957776389756402,
      "grad_norm": 1.4746138345045101,
      "learning_rate": 1e-05,
      "loss": 0.6311,
      "step": 2491
    },
    {
      "epoch": 0.9961773891317927,
      "grad_norm": 1.6071181260822809,
      "learning_rate": 1e-05,
      "loss": 0.6171,
      "step": 2492
    },
    {
      "epoch": 0.996577139287945,
      "grad_norm": 1.6007796508132124,
      "learning_rate": 1e-05,
      "loss": 0.6588,
      "step": 2493
    },
    {
      "epoch": 0.9969768894440975,
      "grad_norm": 1.500106948491392,
      "learning_rate": 1e-05,
      "loss": 0.6413,
      "step": 2494
    },
    {
      "epoch": 0.9973766396002498,
      "grad_norm": 1.8101002092220935,
      "learning_rate": 1e-05,
      "loss": 0.6914,
      "step": 2495
    },
    {
      "epoch": 0.9977763897564023,
      "grad_norm": 1.6850640835807165,
      "learning_rate": 1e-05,
      "loss": 0.6404,
      "step": 2496
    },
    {
      "epoch": 0.9981761399125546,
      "grad_norm": 1.5470185878174463,
      "learning_rate": 1e-05,
      "loss": 0.6287,
      "step": 2497
    },
    {
      "epoch": 0.9985758900687071,
      "grad_norm": 1.3832914116245183,
      "learning_rate": 1e-05,
      "loss": 0.6673,
      "step": 2498
    },
    {
      "epoch": 0.9989756402248595,
      "grad_norm": 1.4620702707522755,
      "learning_rate": 1e-05,
      "loss": 0.6327,
      "step": 2499
    },
    {
      "epoch": 0.9993753903810119,
      "grad_norm": 1.5258964400461474,
      "learning_rate": 1e-05,
      "loss": 0.6418,
      "step": 2500
    },
    {
      "epoch": 0.9997751405371643,
      "grad_norm": 1.9310203547022018,
      "learning_rate": 1e-05,
      "loss": 0.7011,
      "step": 2501
    },
    {
      "epoch": 0.9997751405371643,
      "step": 2501,
      "total_flos": 4048181998387200.0,
      "train_loss": 0.6930282827092856,
      "train_runtime": 354194.7754,
      "train_samples_per_second": 0.904,
      "train_steps_per_second": 0.007
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 2501,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 10,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 4048181998387200.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}